Текст
                    ARTHUR E. BRYSON, JR.
STANFORD
UNIVERSITY
YU-CHI HO
HARVARD
UNIVERSITY
APPLIED
OPTIMAL
CONTROL
OPTIMIZATION,
ESTIMATION
AND CONTROL
WALTHAM, MASSACHUSETTS
TORONTO, LONDON
1969
BLAISDELL PUBLISHING
COMPANY
A DIVISION OF GINN AND
COMPANY

А. БРАЙСОН, XO Ю-ШИ ПРИКЛАДНАЯ ТЕОРИЯ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ОПТИМИЗАЦИЯ, ОЦЕНКА И УПРАВЛЕНИЕ ПЕРЕВОД С АНГЛИЙСКОГО Э. М. МАКАШОВА, Ю. П. ПЛОТНИКОВА ПОД РЕДАКЦИЕЙ А. М. ЛЕТОВА ИЗДАТЕЛЬСТВО «МИР» МОСКВА 1972
УДК 62.505 В книге подробно и достаточно строго изложены совре- менные методы решения прикладных задач оптимального управ- ления. Авторам удалось охватить по существу все основные моде- ли задач оптимизации, включая детерминированные, игровые и стохастические. Приведено много новых результатов теории оптимального управления (необходимые условия оптимально- сти для некоторых классов вырожденных задач, оптимальная фильтрация в системах с коррелированными шумами и др.), которые ранее не освещались в монографиях. Значительное внимание уделено различным численным методам решения задач оптимального управления и вопросам реализации численных алгоритмов. Изложение теории сопровождается большим коли- чеством подробно разобранных примеров решения разнообраз- ных прикладных задач, в том числе задач оптимального управ- ления летательными аппаратами (в этом отношении книга является уникальной); кроме того, приведены задачи и упраж- нения для самостоятельной работы. Книга предназначена для инженеров и научных работни- ков, занимающихся прикладными задачами оптимального управ- ления, а также для преподавателей, аспирантов й студентов старших курсов соответствующих специальностей. Она может быть использована как справочное руководство по методам реше- ния задач оптимального управления. Редакция литературы по новой технике Инд. 3-3-4 131-72 БРАЙСОН, ХО Ю-ШИ Прикладная теория оптимального управления Редактор Л. П. Якименко Художественный редактор В. М. Варлашин Технический редактор Л. П. Бирюкова Корректор М. А. Смирнов Сдано в набор 24/1 19-71 г.(Подписано к печати 16/V 1972 г. Бумага .№ 2 60х901/1в= = 17 бум. л. 341усл. печ. л., Уч.-изд. л. 29,77. Изд. № 20/5611, Цена 2 р. 26 к. Зак. 0102 ИЗДАТЕЛЬСТВО «МИР» Москва, 1-й Рижский пер., 2 Ордена Трудового Красного Знамени Московская типография 7 «Искра революции» Главполиграфпрома Комитета по печати при Совете Министров СССР г. Москва, Трехпрудный пер., 9
ПРЕДИСЛОВИЕ РЕДАКТОРА РУССКОГО ИЗДАНИЯ Мысль о том, что расходование природных ресурсов, где бы оно не производилось, должно быть наиболее экономным, все более проникает в сознание людей. Этим объясняется возрастаю- щий интерес к проблемам оптимального управления и непрекра- щающийся поток книг, им посвященных. Данная монография принадлежит к числу лучших книг, посвя- щенных прикладным задачам теории оптимального управления. Авторы книги проф. Стэнфордского университета А. Брайсон и проф. Гарвардского университета Хо Ю-ши являются крупными специалистами в области теории управления и ее приложений. В нашей стране особенно известен проф. А. Брайсон. Ему при- надлежат многие публикации, посвященные как развитию общих методов решения задач управления, так и их приложению к управ- лению летательными аппаратами. Книга начинается с простейших задач — поиска экстремума функций конечного состояния, определенных как в открытом, так и в замкнутом фазовом пространстве, и заканчивается рассмот- рением современных проблем синтеза оптимальных автоматических устройств, придающих объектам управления требуемые свойства. Изложение сопровождается большим количеством примеров реше- ния частных задач, многие из которых имеют самостоятельный практический интерес. Это одна из наиболее ценных особенностей книги. Большая часть этих задач относится к технике управления летательными аппаратами. Тем не менее книга представит интерес для всех, кто занимается вопросами оптимизации управления в любой области, поскольку это одна из немногих доступных инже- неру монографий, где рассмотрены основные проблемы теории оптимизации как в детерминированном, так и стохастическом ва- риантах. Читатель, не интересующийся техникой управления летатель- ными аппаратами, может рассматривать примеры из этой области как чисто иллюстративные. Очень интересен пример с простой мо- делью распределения государственного бюджета на две статьи расхода — производство основного капитала и образование. Для любознательного и способного к творчеству читателя эта задача может, быть исходной в познании силы "законов управления, дей-
6 Предисловие редактора русского издания ствующих в области современной экономики, подчиненной прин- ципам обратной связи. Большой объем материала, освещаемого в книге, потребовал специальной формы его изложения, близкой к конспективной. Часто авторы ограничиваются лишь-математической формулиров- кой задач оптимизации и приведением окончательных формул или алгоритма их решения. Промежуточные пояснения в некоторых случаях отсутствуют. Поэтому требуется достаточная математиче- ская подготовка читателя в рамках современных вузовских про- грамм. Рекомендуя данную книгу как одну из первых, с которой можно начать изучение подходов к решению прикладных задач оптималь- ного управления, следует отметить, что книга не лишена недостат- ков. Авторы допускают неточность в историческом освещении предмета, в частности в отношении теоремы «принцип максимума». Досадное чувство вызывает также отсутствие четкого проведения в книге концепции Ляпунова возмущенного И невозмущенного движений. Этот факт следует расценивать как дефект методиче- ского изложения в целом очень полезной и интересной книги. А. Летов
ПРЕДИСЛОВИЕ АВТОРОВ К АМЕРИКАНСКОМУ ИЗДАНИЮ Данная книга предназначена для студентов старших курсов и аспирантов, изучающих университетские курсы анализа и про- ектирования динамических систем, а также для инженеров и мате- матиков, занимающихся прикладными вопросами. Предполага- ется, что читатель знаком с элементарными основами механики и теории обыкновенных дифференциальных уравнений. Жела- тельно также некоторое знакомство с матричной алгеброй и свой- ствами линейных систем; при отсутствии соответствующих знаний следует обратиться к двум приложениям, в которых приведены все необходимые по этим вопросам сведения. В основу книги положен курс лекций, подготовленный в соот- ветствии с программой летней школы Гарвардского университета по оптимизации динамических систем (1963). Этот материал был затем переработан и дополнен для аспирантского курса, читавше- гося в Гарвардском университете в 1963—1968 гг. и в Массачу- сетском технологическом институте в 1966 г. Книга посвящена вопросам анализа и проектирования слож- ных динамических систем. Основное внимание уделено методам получения наилучшего управления и (или) наведения для таких систем. За последние 25 лет накоплен большой объем знаний в области систем управления с обратной связью для линейных стационарных динамических систем. Эти знания играют важную роль в современной технике. Поэтому почти во всех технических учебных заведениях читаются соответствующие курсы. Однако многие динамические системы (например, воздушно-космические) являются нелинейными и (или) нестационарными. Методы анализа и проектирования линейных стационарных систем в общем случае неприменимы к этим значительно более сложным системам. Появившиеся в пятидесятых годах быстродействующие циф- ровые вычислительные машины скоро стали основным средством исследования нелинейных и нестационарных систем. Инженеры начали использовать преимущества этих замечательных вычисли- тельных устройств для проведения «на бумаге» поисковых проект- ных работ методом проб и ошибок вместо дорогостоящих иссле- дований в лаборатории. Во многих случаях, и особенно при проек- тировании систем управления и наведения, вместо метода проб и ошибок желателен более систематический подход. Поиски в этом направлении привели к возрождению интереса к старому предме- ту — классическому вариационному исчислению и к разработке
8 Предисловие авторов к американскому изданию одного из интересных его обобщений — динамического програм- мирования J). Применению этих методов к детермированным нели- нейным и нестационарным системам посвящена в основном первая часть книги (гл. 1—9). В первой части книги предполагается, что точно известны структура и параметры исследуемой динамической системы и точ- но производятся измерения текущих фазовых координат, необхо- димые для управления с обратной связью. Однако на практике точные измерения редко выполняются. Поэтому важно уметь предсказывать чувствительность управляемых систем к случай- ным флуктуациям в системе измерений, а также в окружающих условиях. Вторая часть книги (гл. 10—14) посвящена этим воп- росам. Сначала здесь дается обзор основ теории вероятностей и теории случайных процессов, а затем излагаются методы проек- тирования наилучших (в среднем) систем управления. Эти методы учитывают как наличие шумов в каналах измерений, так и слу- чайные возмущения системы под влиянием изменения окружаю- щих условий. Главная задача при написании книги заключалась в получе- нии результатов, которые можно было бы легко запрограммиро- вать для использования в вычислительных машинах. Несколько вариантов книги в форме лекционных записей было внимательно просмотрено нашими коллегами и студентами; поэтому можно надеяться, что большинство серьезных ошибок устранено. Однако авторы не снимают с себя ответственности за любые ошибки, которые могли еще остаться. Данная книга может быть (и в действительности была) исполь- зована в качестве односеместрового или двухсеместрового курса по современной теории управления. Материал книги можно изучать в любой из двух последовательностей, переходя либо от детерминированных задач к стохастическим, либо от простых задач (вводный курс) к задачам повышенной трудности (специаль- ный курс). Логическая взаимосвязь различных глав, разделение содержания книги по семестрам и последовательность изучения материала представлены на схеме и в таблице, помещенных на стр. 10. Отметим также, что приведенные в книге упражнения и приме- ры образуют единое целое с основным текстом. Они либо иллюст- рируют существо излагаемого материала, либо указывают на воз- можности его обобщения, а в некоторых случаях носят полуис- следовательский характер. Желающим серьезно изучить данный предмет рекомендуем тщательно их проработать. А. Брайсон Хо Ю-ши *) Другим обобщением классического вариационного исчисления являет- ся принцип максимума Л. С. Понтрягина.— Прим, перев.
ПРЕДИСЛОВИЕ АВТОРОВ К РУССКОМУ ИЗДАНИЮ Мы получили много писем от читателей книги, изданной на английском языке, и ряд рецензий уже появился в научно-тех- нических журналах. Нам очень понравилась рецензия проф. Я. 3. Цыпкина, которая была опубликована в журнале «Автома- тика» в 1970 г. Как мы и ожидали, многим читателям понравились примеры и задачи. Нам доставили большое удовольствие встречи и беседы с проф. А. М. Летовым, который был инициатором русского перевода, и Ю. П. Плотниковым, выполнившим часть перевода. Мы хотим поблагодарить их, а также Э. М. Макашова за этот труд. Надеемся, что издание нашей книги на русском языке послу- жит в какой-то степени дальнейшему укреплению дружбы и вза- имного уважения между нашими странами и что книга окажется интересной и полезной советским читателям. А. Брайсон „ 28 июля 1971 г. Хо Ю-ши
Схема логической взаимосвязи глав ВАРИАНТЫ РАСПРЕДЕЛЕНИЯ ЛЕКЦИОННОГО МАТЕРИАЛА ПО СЕМЕСТРАМ Семестр Курс Содержание I Детерминированные задачи опти- мального управления Главы 1—9 II Стохастические задачи оптимально- го управления Главы 10—14 I Вводный курс Глава 1, разделы 1.1—1.5 Глава 2, разделы 2.1—2.3 Главы 4,5 (без раздела 5.3) Глава 7, разделы 7.1 и 7.2 Главы 10—12 II Специальный курс (курс повышен- ной трудности) Остальная часть книги
Глава 1 Задачи минимизации функций конечного числа переменных 1.1. Задачи без дополнительных ограничений Простейший класс задач оптимизации связан с нахождением значений т координат вектора управления щ, . . ит, мини- мизирующих критерий качества L (и^, . . ит). Для удобства будем использовать более компактные векторные обозначения. Пусть г) — вектор управления. U-m Тогда критерий качества может быть записан в виде £ = £(«). (1.1.2) Если на возможные значения и не наложены какие-либо огра- ничения (связи) и если функция L (и) имеет первые и вторые част- ные производные для любого и, то необходимыми условиями мини- мума функции L по и будут ди (1.1.3) или в скалярной форме dL dui И г = 1, . . ., т, -^>0. ди2 (1.1.4) Последнее условие означает, что квадратная матрица1), состоя- щая из вторых производных IfiL d2L d2L duf dui du2 ''' dui dum &L d2L d2L _ dum дщ dum du2 du^ г PL L dut Ou.j 1. i = 1, 2, . .., m, / = 1,2, .. ., tn, ~ их * (1.1.1) См. приложение A.— Прим, nepee.
12 Глава 1 должна быть по крайней мере положительно полуопределенной J). Другими словами, собственные значения * 2) этой матрицы должны быть неотрицательными. Все значения и, удовлетворяющие усло- вию (1.1.3), называются стационарными точками функции L (и). Достаточные условия локального минимума включают условие (1.1.3) и усиленное условие (1.1.4), т. е. -Д->0. ' (1.1.5) ди2 ' Условие (1.1.5) означает, что матрица д2Ыди2 должна быть поло- жительно определенной или что ее собственные значения должны быть строго положительными. Если условие (1.1.3) выполняется в некоторой точке, но опре- делитель матрицы д2Ыди2 в зтой точке равен нулю (это означает, что одно или несколько из ее собственных значений равны нулю), то для того, чтобы установить, является ли данная точка точкой минимума, требуется дополнительная информация. Такие точки называются сингулярными (вырожденными). Отметим, что если L—линейная функция от и, то все компоненты матрицы д2Ыди2 равны нулю для любых значений и. В этом случае, вообще говоря, минимум не существует 3). Примеры. Типы стационарных точек функций двух переменных L = L (ulf и2). а) Точка минимума. Квадратичная форма А («1, «г) = 1^1, и2] 1 —11 Fui~ --1 LW2_ имеет стационарную точку и°2] = [0, 0]. Оба собственных значения матрицы d2LJdu2 положительны; стационарная точка является точкой минимума. Линии уровня Li (щ, u2) = const изображены на фиг. 1.1.1. б) Седловая точка. — 1 11 ГиГ в- 1 1 3 Квадратичная форма ^2 (Wl> Мг) = Щ.] имеет стационарную точку [uj, н“] = [0, 0]. Одно собственное значение матрицы d2L2ldu2 положительное, другое отрицательное. Необходимое условие (1.1.4) не выполнено. Стационарная точка 1) Матрица (fiL/du* вычисляется в точке и, удовлетворяющей усло- вию (1.1.3).— Прим, перее. 2) См. приложение А.— Прим, перее. 3) Минимум не существует также и в тех случаях, когда в стационарной точке матрица d2L/du2 не является положительно полуопределенной, т. е. нарушается необходимое условие (1.1.4) (см. Пример «б»).— Прим, перее.
Минимизация функций Фиг. 1.1.1. Линии уровня функции Фиг. 1.1.2. Линии уровня функции Zj (ui, и2) в окрестности точки ми- L2 («i, и2) в окрестности седловой нимума. точки. в этом случае называется седловой точкой. Линии уровня Lz (щ, иг) = const изображены на фиг. 1.1.2. в) Сингулярная точка. Нелинейная функция х) Дз (^i, ^z) ~ (^1 ' ^2) (^i-- имеет стационарную точку [uj, и2\ = [0, 0]. Одно собственное значение матрицы d2Lzldu\ вычисленной в стационарной точке, Фиг. 1.1.3. Линии уровня функ- ции L3 (и,, и2) в окрестности сингу- лярной ТОЧКИ. положительное, другое нулевое. Стационарная точка является сингулярной точкой. Линии уровня L3 (uj, u2) ~ const изобра- жены на фиг. 1.1.3. ) Пример принадлежит Пеано и интересен тем, что стационарная точка не является точкой минимума, хотя на каждой прямой, проходящей через нее, имеется локальный минимум в точке (0, 0) (см. книги: Э. Гурса, Курс математического анализа, т. 1, ч. 1, ГТТИ, 1933 и Н. Папское к, Theory of Maxima and Minima, Dover, N. Y., I960).— Прим, перее.
14 Глава 1 1.2. Задачи с ограничениями в виде равенств; необходимые условия существования стационарной точки Более общий класс задач оптимизации связан с определением т значений координат вектора управления щ, . . ит, минимизи- рующих скалярный критерий качества, который зависит от т + п переменных, Z/ (#(, . . . , Хп, Uj, . . ., причем п координат вектора состояния xlt . . ,, хп связаны с коор- динатами вектора управления с помощью соотношений /1 (^'1> • • •! *^717 ^1? • • •» ^7п) ~ ^7 /п (^*1? • • •> хп. ^17 • • •> ^m) 0. Введем опять более компактные векторные обозначения .""Пусть — вектор управления, — вектор состояния, — вектор ограничений. В этих обозначениях задача формулируется следующим образом. Найти вектор управления и, минимизирующий критерий качества L (х, и), (1.2.1) где вектор состояния х связан с вектором управления и с помощью соотношений / (х, и) = 0 (п уравнений). (1.2.2) Для каждой конкретной задачи оптимизации с ограничениями в виде равенств выбор среди переменных задачи переменных управ- ления не является единственным. Разделение на переменные управ- ления и переменные состояния проводится скорее для удобства. Однако это разделение должно быть таким, чтобы по значению и с помощью соотношений (1.2.2) можно было определить значение х. Если функции L и / линейны как по х, так и по и, то в общем случае минимума не существует. Чтобы и в этом случае задача отыскания минимума имела смысл, необходимо добавить ограни- чения в виде неравенств на значения х и (или) и. Задачи такого типа рассматриваются в разд. 1.7—1.Юл Если ограничения в виде неравенств и функция L линейны по х и по п, то такие задачи называются задачами линейного программирования. Они будут рассматриваться в разд. 1.8 этой главы.
Минимизация функций 15 В первой части этой главы будут рассмотрены задачи, в кото- рых выражения (1.2.1) и (1.2.2) содержат некоторые нелинейности. Наличие нелинейности само по себе, конечно, не обеспечивает существования минимума. Стационарной точкой в задаче оптимизации вектора управ- ления и с ограничениями в виде равенств называется такая точка, для которой dL = 0 при произвольном значении du, удовлетворя- ющем равенству df = 0 (при этом dx изменяется в зависимости от du так, чтобы не нарушалось условие df (х, и) =0). Дифференциалы функций Ли/ имеют вид dL — Lxdx 4- Ludu, (1.2.3) df = fxdx + fudu. (1.2.4) В стационарной точке должно выполняться равенство df = 0; следовательно, соотношение (1.2.4) можно разрешить относи- тельно dx, если матрица /х невырождена [а это условие должно выполняться, так как соотношение (1.2.2), по предположению, связывает х с и]. Таким образом, получаем dx = — f~^fudu. (1.2.5) Выражение (1.2.3) теперь можно представить с учетом (1.2.5) в виде dL = (Lu - Л^/J du. (1.2.6) Так как в стационарной точке dL должно быть равно нулю для любого значения, du, то необходимо, чтобы Lu — LJx^fu =0 (m уравнений). (1.2.7) Эти т уравнений вместе с п уравнениями (1.2.2) определяют т зна- чений и и п значений х в стационарной точке. Отметим, что выра- жение (1.2.7) представляет собой частную производную от L по и при постоянном значении f, тогда как Lu — частная произ- водная от L по и при постоянном значении х 1). х) Речь идет о частной производной Lx или Lu скалярной функции L (х, и) по векторному аргументу х или и, представляющей собой соответству- ющий вектор-градиент этой функции Lx = (дЫдх^ . . ., дЫдхп) или 'Щ..— (dL/dUi, . . ., dL/dUnd, или же о частной производной fx или fu вектор- ной функции f (х, и) по векторному аргументу х или и, представляющей собой матрицу ~ dfj ' dfj - ” дхп 9fi dfj ди^ дит или fu = 9fn 0fn -ди, ’ • ‘ dum _ dfn dfn L dxi 9xn vu,t „„m _j Но поводу векторно-матричных обозначений см. приложение А.— Прим. ред.
1 Глава 1 Условие (1.2.7) можно получить и другим (эквивалентным) способом. Заметим, что соотношения (1.2.3) и (1.2.4) при dL = О и dj = 0 должны образовывать в стационарной точке совмест- ную систему линейных алгебраических уравнений относительно векторов dx и du. Условие совместности этих уравнений означает, что можно определить такую систему п постоянных %i, %2, • • • . . ., *), что ^+3^ = °’ (1.2.8) г=1 где у = (жь . . ., жп, щ, . . ит)Т = (жг, ут). (1.2.9) Уравнение (1.2.8) показывает, что линейная комбинация строк матрицы fv = df/dy должна быть равна вектору Lv * 2). \ Для удобства введем векторные обозначения и V = [Хь . .., В этих обозначениях соотношение (1.2.8) [с учетом (1.2.9)] запи- сывается как LxJr'KTtx = G (п уравнений), (1.2.10) Lu + №fu = 0 (m уравнений). (1.2.11) Таким образом, линейная комбинация строк матрицы /х долж- на быть равна вектору Lx, а линейная комбинация строк матрицы fu — вектору Lu. При этом коэффициенты указанных комбинаций должны быть одинаковы. Уравнение (1.2.10) можно разрешить относительно вектора V (поскольку матрица /х должна быть невырожденной)3 (1.2.12) Если полученное выражение для V подставить в (1.2.11), то полу- чим необходимое условие (1.2.7). Постоянные Xlt Х2, • • -, Тп часто называются неопределенными мно- жителями Лагранжа. 2) Условие совместности требует, вообще говоря, чтобы ранг расширен- ной матрицы Г гх г11 I , имеющей размерность (п + 1) X (п + т), был мень- 1 Lx Lu J ше (п + 1).
Минимизация функций 17 Смысл вектора % можно выяснить из соотношений (1.2.3) и (1.2.4), если положить <7и = 0 и исключить dx-. -KT = Lx(fxr=(^-)u. (1.2.12') Таким образом, величины %г являются частными производными от от L по / при постоянном значении и и допустимом изменении х. В задачах оптимизации с нелинейными ограничениями в виде неравенств этот факт имеет важное значение (разд. 1.7). Еще один (и тоже эквивалентный) подход к рассматриваемой проблеме, неоднократно используемый на протяжении всей книги, состоит в следующем. Образуем вспомогательную функцию Н, «объединив» критерий качества L (х, и) с ограничениями (1.2.2), используя систему п «неопределенных множителей» . . ., %га: Н (х, и, %) = L (х, и) Ц- 3 (х> и) = L (х, и) -|- Хг/ (х, и). (1.2.13) г—1 Предположим, что некоторое номинальное значение и выбрано и соответствующее ему значение х определено из соотношения (1.2.2), так что Н = L. Приращение Н при изменении хай имеет вид dH = ^-dx + -^du. (1.2.14) Поскольку представляет интерес выяснить, как изменяется вели- чина Н (и, следовательно, L) при изменении вектора управления и, то удобно выбрать А, так, чтобы дН/дх = 0, т. е. дН _ dL । ут df л ~дГ—+ Х 1? = °’ откуда (-Й-Г • <Ь2Л5) что совпадает с выражением (1.2.12). Учитывая, что х определяется из соотношения / (х, и) = О, получаем dL^dH= ~du. (1.2.16) Таким образом, дН/ди есть градиент L по и при выполнении усло- вия / (х, и) = 0. В стационарной точке пространства и значение dL обращается в нуль при произвольном du; это может иметь место только в том случае, если 2—0102
18 Глава 1 Таким образом, необходимые условия стационарности функции L (х, и) могут быть представлены в виде / (х, и) — 0, (1.2.18) ^ = 0, (1.2.19) 4^=0, (1.2.20) ди где Н = L(x, и) + ‘kTf (х, и). Эти условия представляют собой систему (2п + т) уравнений с (2га + т) неизвестными величинами х, А, и и. Пример 1. Найти значение скалярной переменной и, при котором функция г / \ 1 / х2 I “2 \ L (х, и) — у ( + b2j принимает стационарное значение при наличии линейного- огра- ничения f (х, и) -- х + ти — с = 0. Здесь х — скалярный параметр, а я, Ь, т, с — постоянные вели- чины. Линиями уровня функции L являются эллипсы, причем L возрастает с увеличением размеров эллипса. Уравнение х + + ти — с = 0 задает определенную прямую линию (фиг. 1.2.1). Кривые L(x, и)- const и Фиг. 1.2.1. Пример минимизации функции при наличии • линейного ограничения в виде равенства. х+ти-с=0 (х* и') -точка минимума L(x,u) при f(x,uj‘O Направление возрастания L Очевидно, что минимальное значение L при удовлетворении ука- занного ограничения достигается на эллипсе, который касается указанной прямой линии. Получим теперь решение в аналитиче- ской форме. Функция Н имеет вид ^=1(^+-5-)+х(*+ти-с)-
Минимизация функций 19 Необходимые условия стационарности записываются в виде л ЭН х . « гч ЭН и , . р. х + ти-с = 0, — = -^ + % = 0, -^Г = -б2- + Хт = 0- Эти три уравнения с тремя неизвестными х, и, % имеют про- стое и единственное решение а2с &тс __ с Х = а2 m2fe2 > и ~ а2_(_т2Ь2 ’ Л — — а2_|_да2Ь2 ‘ Этому решению соответствует минимальное значение L: С2 J = Диин = 2(a2+m2Z>2) ’ Отметим, что здесь , dJ dJ Пример 2 J). Максимальная скорость набора высоты для само- лета в установившемся режиме полета. Равнодействующая всех сил, приложенных к самолету, который выдерживает установив- Ф и г. 1.2.2. Схема сил, действующих на самолет в установившемся режиме набора высоты. шуюся скорость набора высоты, должна равняться нулю. Если разложить действующие силы на компоненты, направленные параллельно и перпендикулярно траектории полета (фиг. 1.2.2), х) При переводе книги во всех примерах, относящихся к механике поле- та, обозначения и системы координат оригинала заменены на обозначения и системы координат, соответствующие общесоюзным стандартам (см., на- пример, книгу: С. А. Г о р б а т е н к о, Э. М. Макашов, Ю. Ф. По- лушкин, JI. В. Шефтель, Механика полета, изд-во «Машиностроение», 1969).— Прим, перее. 2*
20 Глава 1 то это условие заменяется двумя уравнениями: Л (7, 0, а) = Р cos (а + фР) — Q — mg sin 0 = 0, /2 (7, 0, а) = Р sin (а + фр) + Y — mg cos 0 = 0, где V — скорость полета, 0 — угол наклона траектории (угол между направлением вектора скорости и местным горизонтом), а — угол атаки, т — масса самолета, g — гравитационное уско- рение, фр — угол между направлением тяги и осью нулевой подъемной силы. При заданной высоте полета подъемная сила Y = Y (7, а), лобовое сопротивление Q — Q (7, а), сила тяги Р = Р (7). Ско- рость набора высоты определяется простым кинематическим соот- ношением где h — высота полета. Выберем в качестве координат вектора состояния величины 7 и 0, а в качестве функции управления величину а (поскольку, используя приведенные выше соотношения для равновесия сил, действующих на самолет, по известному значению а на заданной высоте h можно определить 7 и 0). В этом примере функция Н имеет вид Н = 7 sin 0 -|- %! [Р cos (а -|- фр) — Q — mg sin 0] + + %2 IP sin (а + фр) + 7 — mg cos 0]. Следовательно, необходимые условия, при которых установив- шаяся скорость набора высоты Vy принимает стационарное значе- ние, можно записать как fi = Р (7) cos (а + Фр) — <2 (7 а) — mg sin 0 = 0, /2 = Р (7) sin (а + фр) + Y (7, а) — mg cos 0 = 0, = sin 0 + [-^7- cos (а + фр) —|~-'J + +fw s*n (а+ч’р) + w]=0’ = 7 cos 0 — ^img cos 0 + sin 0 = 0, ^_ = %1[_р8т(а + фр)—^] + + %2 [P cos (а + фр) -p = 0.
Минимизация функций 21 Эти пять уравнений содержат пять неизвестных величин: V, 9, а, %!, %2; в общем случае для реальных зависимостей Р (V), Q (V, a), Y (V, а) эти уравнения следует решать каким-либо числен- ным методом (см. также задачу 7 из разд. 1.3). 1.3. Задачи с ограничениями в виде равенств; ' достаточные условия локального минимума Приращения функций L (х, и) и f (х, и) при малых отклоне- ниях от номинальной точки (х, и) с точностью до величин второго порядка малости имеют вид dL = (L„ L.) (*) d^ (££) (£) . (1.3.1) где Т д I dL \т т д I dL\T Ьхи~Ш ('аг) ’ Lxx~ дх ( дх ) и т’ д> Если умножить выражение (1.3.2) для df на V, определенное из соотношения (1.2.19), и результат сложить с (1.3.1), то получим “ = Я.) (£) + ^, du^ («-«») (£)-rtf, (1.3.3) поскольку при таком определении № величина Нх = 0. Здесь Н = L (х, и) + V/ (х, и). . (1.3.4) Предположим теперь, что рассматриваемая номинальная точ- ка (х, и) удовлетворяет ограничению / (х, и) = 0. Исследуем поведение функции L (х, и) с точностью до членов второго по- рядка в бесконечно малой окрестности этой точки при условии / (х, и) — 0. Из соотношения (1.3.2) при условии df = 0 получим dx——fx1fudu-]-O2(dx2, du2, dx3, du3, ...), (1.3.5) где O2 (dx2, du2, . . .) — слагаемые второго и более высоких по- рядков относительно dx, du. Если рассматриваемая номинальная точка (х, и) стационар- ная, то Ни = 0 и уравнение (1.3.3) с учетом равенства df = 0 принимает вид d£=4.d„n-/:(©-, (».з.в) где О3 — слагаемые третьего и более высоких порядков относи- тельно dx л du, а Е — единичная матрица. х) Это уравнение векторное; оно заменяет п уравнений для компонент вектора /.
22 Глава 1 Отсюда следует ( Ни?) f=o ~ ^ии Huxfxfu—iu^x) (1-3-7) Таким образом, достаточные условия локального минимума состо- ят из необходимых условий стационарности (1.2.18)—(1.2.20) и требования положительной определенности матрицы (1.3.7). Очевидно, необходимое условие локального минимума состоит в том, что матрица (1.3.7) должна быть положительно полу определенной. Заметим, что соотношение (1.3.6) может быть непосредственно получено из рассмотрения разложения вспомогательного (рас- ширенного) критерия качества Н с точностью до членов второго порядка при учете ограничения / (х, и) = 0 с точностью всего лишь до членов первого порядка. Отметим также, что условие поло- жительной полуопределенности матрицы Нии не является необ- ходимым для минимума в рассматриваемой задаче. Пример. Найти значение скалярной переменной и, минимизи- рующее функцию L (х, и) — 2 ( а2 + Ь2") при наличии квадратичного ограничения / (х, и) = с — хи = 0. Здесь х — скалярная переменная; а, Ъ, с — положительные по- стоянные величины. Линии уровня функции L (х, и) — эллипсы, причем увеличение значения L соответствует росту размеров эл- Ф и г. 1.3.1. Пример минимизации функции при наличии нелинейного ограничения в виде равенства. липса. Уравнение с — хи = 0 является уравнением гиперболы, состоящей из двух ветвей. Функция L достигает минимального
Минимиаация функций 23 значения при выполнении указанного ограничения в точках ка- сания эллипса и гиперболы (фиг. 1.3.1). Рептим задачу аналитически. Функция Н имеет вид Необходимые условия, при которых функция L принимает ста- ционарное значение при наличии ограничения / (ж, и) = 0, запи- сываются как дН х п дН и л с — XU=0, -Z—— —5 2м = 0, - — Лх = О. дх а? ои bi Решая эту систему, получаем -. / ас /~ Ъс « 1 т т с Х=±У и = ±У Для этой задачи достаточное условие (1.3.7) состоит в том, что величина должна быть строго положительной; это условие, очевидно, выпол- няется. Заметим, что здесь две точки минимума, причем значения функции L в этих точках одинаковы. Отметим далее, что множи- тель А удовлетворяет соотношению А = ^. дс Задача 1. Найти точку, ближайшую к началу координат и ле- жащую на прямой, определяемой пересечением плоскостей х + 2у + 3z — 10, х — у -|- 2z = 1, где х, у, z — прямоугольные координаты. Другими словами, необ- ходимо минимизировать функцию L = х2 у2 z2 при условии выполнения приведенных выше двух линейных огра- ничений. Задача 2. Найти прямоугольник с максимальным периметром, который может быть вписан в эллипс, т. е. максимизировать функ- цию Р = 4 (х 4- у) при ограничении
24 Глава 1 Задача 3. Найти прямоугольный параллелепипед максималь- ного объема, который можно поместить в данный эллипсоид, т. е. максимизировать функцию V = 8xyz при условии 7-2 ц2 £2 Т Ь2 “ с2 Л- Задача 4. Квадратичный критерий качества с линейными огра- ничениями. Показать, что вектор управления и, минимизирующий неотрицательную квадратичную форму L = xTQx 4- 4 uTRu при наличии линейных ограничений / (х, и) = х + Gu + с — О, определяется соотношением и = — {R + GTQG'r'GTQc. Показать также, что минимальное значение квадратичной формы L равно J = Дшн = 4 С? [Q- QG (R + GTQG)~1 GTQ] с и что % = [() - QG (R + GTQ] с =е= ((Г1 + GR~1GTT1 с, если Q"1 существует1); х = - [Е—G (R + GTQG)~1 GTQ] с. Заметим, что и в этом примере хг=-^- де Задача 5. Оптимизация углов установки паруса и курса для максимизации скорости плавания против ветра. Упрощенная модель сил, действующих на плывущую с постоянной скоростью парусную лодку, показана на фиг. 1.3.2. Скорость парусной лодки относительно воды равна V и составляет угол ф с направлением ветра. Скорость ветра относительно воды постоянна и равна W. Парус устанавливается под углом 0 к оси лодки, а создаваемая *) Соотношение [(? — QG (R + GT Qff)-lGT Q] = (Q-1 + известно как лемма об обращении матрицы (см. разд. 12.2, задача 2, где обсуждается смысл и важность этой леммы).
Минимизация функций 25 им аэродинамическая сила S предполагается направленной пер- пендикулярно плоскости паруса. Гидродинамические силы, дей- ствующие на корпус лодки, разлагаются на компоненты, направ- ленные перпендикулярно (килевая сила К) и параллельно (Сила сила паруса ь Фиг. 1.3.2. Схема равновесия сил, действующих на парусную лодку. сопротивления Q) оси лодки. Предполагается, что величина силы S пропорциональна произведению квадрата относительной скорости ветра VT на синус угла атаки паруса а: S — CiVr sin а, где Ci — постоянная величира, а величины Vr и а определены на фиг. 1.3.2. Сила лобового сопротивления Q пропорциональна квадрату скорости лодки относительно воды Q = С2У*, где С2 — коэффициент пропорциональности. Для равновесия сил, направленных параллельно оси лодки, должно выполняться ра- венство Q = S sin 0. Показать, что а) при заданном ф скорость V достигает максимума при а = 0; б) максимальное значение скорости при ф = 180° (плавание по ветру) составляет Wp/(1 + р,) и достигается при 0 = 90°, здесь р,2 = CilC2, в) максимальное значение скорости плавания против ветра (т. е. величины V cos ф) равно РКц/4 и достигается при такомвыборе углов установки паруса и курса, когда 0 »[(р + 2)2 + 4J-V2, ф « 45°. Для решения последнего вопроса следует считать, что углы а и О малы, так что sin а « a, sin 0 « 0, cos а « 1, cos 0 « 1. Задача 6.~ Оптимизация углов атаки и крена для получения максимальной боковой дальности планирования. В соответствии с теорией квазиустановивптегося приближения для планирую-
26 Глава 1 щего разворота нескоростного (дозвукового) планера, совершаю- щего полет при постоянных углах атаки и крена, боковую даль- Ф и г. 1.3.3. Траектория пространственного боко- вого разворота. ность планирования по спирали zft можно определить по формуле Zk = Г (1 — COS фй). Здесь (фиг. 1.3.3) I cos2 0 г = -=----радиус спирали; a sin у . h0 a sin v фй = —т—п—Ч;— угол курса в конечной т I sin 0 cos 0 J г точке планирования; 0 = arctg -Г f ez.i- 1 sec yl —угол планирования вдоль спи- 1 4а J J рали (угол подъема спирали), положительный наклон—вниз; а = ца; а — угол атаки 1 )—компоненты вектора управле- У - угол крена J ния; h0—высота начала планирования; , 2тх\ I —----—характеристическая длина t>SCv (для типичного планера I« _____ ж 3 ле); 1 i / С“ ^макс = -2~ у —максимальное аэродинамичес- жо кое качество (т. е. максималь- ное значение отношения подъ- емной силы к силе сопротив- ления). Для типичного планера ЛГмакс ~ 30, ц — коэффициент эффек- тивности поляры (0 < т] < 1). (Остальные обозначения приведены
Минимизация функций 27 в замечании 2.) Показать, что максимальное значение Zk при за- данном z/o = й0 достигается в том случае, когда s 2 ~ ’ Это соотношение можно рассматривать как трансцендентное урав- нение для определения 1]^ в функции от | = h0/l. Соответствующие значения а, у и 0 могут быть найдены из формул _ Д/^маке tg у == , 0 = 2а COS у. 2 Д/соз 2у г 5 ( Здесь предполагается, что величины а, 0, 1/^макс значительно меньше единицы. Замечание 1. В условиях указанного выше приближения максимальное значение продольной дальности при заданном й0 определяется соотношением %k — Йд^макс и достигается при следующих значениях компонент вектора управ- ления: а = 1/(2Кмакс), у = 0, откуда следует, что tg 0 = 1ЛКмакс- Замечание 2. Обозначения, не поясненные в тексте задачи, имеют следующий смысл: т — масса планера; V — скорость планирования; р — плотность атмосферы (в зтой задаче принимается величи- ной постоянной); С“ = dCv/da-, CXl. — коэффициент лобового сопротивления при нулевой подъем- ной силе; S — характерная площадь к которой отнесены аэродинамиче- ские коэффициенты; Y = СуО. (pV^/tyS — подъемная сила; Q = (Сх„ + S — лобовое сопротивление. Задача 7. Максимальная установившаяся скорость набора высоты, для самолета. Для задачи, сформулированной в примере 2 разд. 1.2, определить максимальную установившуюся скорость набора высоты на уровне моря, а также на высотах h = 3050, 6100, 9150 и 12 200 м для самолета весом mg = 15 000 кГ и пло- щадью крыла S = 50 №. Подъемная сила и лобовое сопротивле- ние самолета определяются соотношениями У = С“а(р^/2)5, С = (СЖо + цС“а2)(рУ2/2)5, где Су, СХо и т] являются функциями числа Маха М = Nla и за- даны графически (фиг. 1.3.4). Скорость звука а и плотность атмо- сферы р являются функциями высоты h (табл. 1.3.1). Тяга воз-
3,2 Число М Фиг. 1.3.4. Зависимость коэффициентов аэро- динамического сопротивления и подъемной силы от числа М. Фмиг. 1.3.5. Зависимость тяги Р двигателя от чи- ' ела М и высоты полета h (при полностью откры- том дросселе). Статическая тнга двигателя на уровне моря Рст 0=10 600 кГ. Удельный расход топлива ёт^1Р= =0,29-10-3 (кГ топл/сек)/кГ тяги.
Минимизация функций 29 Таблица 1.3.1 Изменение плотности воздуха и скорости звука в зависимости от высоты х) Высота Л, м Скорость звука а, м/сек Плотность воздуха р, кг-сек^/м^ 0 340,2 0,1249 1524 334,4 0,1076 3 048 328,3 0,09223 4 572 322,2 0,07862 6 096 316,1 0,06654 7 620 309,7 0,05597 9144 303,2 0,04674 11000 295,1 0,03711 12192 295,1 0,03075 13 716 295,1 0,02418 15 240 295,1 0,01901 - 16 764 295,1 0,01495 18 288 295,1 0,01176 21 336 295,1 0,007274 24384 295,1 . 0,004497 25 000 295,1 0,004080 27 432 300,0 0,002707 30 480 306,0' 0,001649 i) Здесь приведены (с четырьмя значащими цифрами) значения из таблиц Международной стандартной атмосфе- ры,—Ярил». иерее. душно-реактивного двигателя при полностью открытом дросселе является функцией числа М и высоты полета (фиг. 1.3.5). При- мите фР =3°. Кроме того, требуется определить высоту полета, на которой максимальная скорость набора высоты равна нулю. Эта высота называется «статическим потолком» самолета. Задача 8. Минимальный расход топлива для разворота само- лета на постоянной высоте. Установившийся разворот (F = О, г =0) на постоянной высоте описывается уравнениями (Cxo + ^y®2) (рУ2/2)5 = Р (сила тяги равна силе лобового сопротивле- ния), mg — Cytx (pV2/2) S cos у (вес самолета равен вертикальной ком- ' попейте подъемной силы),
30 Глава 1 »гУф = СуО. (pF2/2) S sin у (скорость разворота про- порциональна горизон- тальной компоненте подъемной силы, делен- ной на mV). Здесь ' а — угол атаки"! у — угол крена? компоненты вектора управления; значения остальных величин определены в задаче 6. Требуется найти такие значения углов а = ца и у, при которых на разворот от ф = ф0 до ф = фл расходуется минимальное коли- чество топлива пгт. Расход топлива пропорционален величине tk to 1V0 Ф * * Таким образом, требуется минимизировать величину Р (СЖо+цС“д2)таГ ф i С“а sin у ч г) Эти тождества нуждаются в некоторых пояснениях. Авторы, видимо, исходят из следующих предположений: 1. Рассматривается двигатель с постоянным удельным расходом топлива Се =. gmT/P = const > 0 (такой, например, двигатель рассматривался в задаче 7, его характеристики приве- дены на фиг. 1.3.5). В этом случае (поскольку по определению mT = CeP/g) . Г СеР dt , Се тт («/) = "»т («о) + 1 —г_="1т0+_г/ V б и о *0 и справедливо тождество Г Р <7ф i '1: Pdt = 2. Изменением массы т самолета в процессе разворота можно пренебречь (несмотря на расход топлива), т. е. т = const. Так как из условий установив- шегося разворота (г — const, V = const, h = const) и кинематического урав- нения ф = V/r следует, что ф = const, а из второго и третьего уравнений задачи легко вывести соотношение if>=g/Ftgy, то у = const. Теперь из условий т = const, у — const и второго уравнения задачи можно заклю- чить, что а = const, а из первого уравнения — что Р = const. Только при ’•’fe Г Рйф Р указанных предположениях справедливо тождество \ —- =--------------(фй — i i ” — фо).— Прим, перее.
Минимизация функций 31 при условии mg — Cfja (рИ2/2) 5 cos у. Ответ. а = -3^1 1/^макс, y = arccos (1/]/3) ==54,7°, где к _ 1 Амане- 2 V «Л ' * Л0 Заметим, что отсюда следуют соотношения V = V2glKm -^ = -^^„акс, Р = V * Лмакс где I __ 2/пт] ~~v' 1.4. Соседние оптимальные решения и интерпретация множителей Лагранжа Иногда необходимо определить, как изменяется оптимальное решение, если изменить на небольшую величину некоторые из кон- стант, входящих в уравнения ограничений. Предположим, что ограничения (1.2.2) увеличены на некото- рые достаточно малые величины, т. е. пусть вместо / (х, и) = О имеем f (х, и) = df, где df — бесконечно малый постоянный вектор. При этом можно предполагать, что значения х* и и* опти- мального решения исходной задачи с / (х, и) — 0 тоже изменились на бесконечно малые величины dx и du. Исходя из уравнений (1.2.18)—(1.2.20), получим dH^. = Hxxdx^rHxudu-^-f^d^ = 0, (1.4.1) dH? = Huxdx + Huudu + fTd'k = O, (1.4.2) df = fxdx + fudu, (1.4.3) .. где частные производные вычислены в точке (х*, и*), соответ- ствующей исходному оптимальному решению. Система 2п + т уравнений (1.4.1)—(1.4.3) определяет 2п + т переменных dx, du и dX, относящихся к соседним оптимальным ре- шениям х* + dx, и* + du, X* + d), задачи с измененными урав- нениями ограничений / (х, и) = df. Так как матрица fx должна быть невырожденной для того, чтобы по заданному du можно было определить dx, то из формул (1.4.3) и (1.4.1) имеем dx = fx1df — f^fudu, (1.4.4) dK — — (fx)1 (Нхх dx-]-Hxudu). (1.4.5)
32 Глава 1 Подставив эти значения в уравнение (1.4.2) и решая его относи- тельно du, получим du = - Cdf, (1.4.6) где ----- = ( ди2 ) /=0 №их fu(fx) Hxx]fx, (1.4.7) а величина (d2L/du2)f=0 определяется соотношением (1.3.7). Таким образом, существование соседних оптимальных решений гаран- тируется, если стационарная точка исходной задачи с / = О явля- ется точкой локального минимума, т. е. если (d2L/du2)f=0 >0. Далее, подставляя выражение для dx из (1.4.4) в (1.3.3) и считая Ни — 0, получаем выражение для dL, верное с точностью до величин второго порядка малости. Если, наконец, выражение (1.4.6) для du подставить в (1.3.3), то после некоторых упрощений получим dL = - V df + 4 dfT [(£)т Нхх£ - CTLUUC] df+..., (1.4.8) где т — ( \ \ ди2 //=0 и вычисляется по (1.3.7). Таким образом, имеем -^»=-Хг, (1.4.9) 1) = (/;У Hxxfx - CTLUUC. (1.4.10) 1.5. Численное решение задач оптимизации с ограничениями в виде равенств с помощью градиентного метода первого порядка2) Если выражения для L (х, и) и / (х, и) из разд. 1.2 не явля- ются достаточно простыми, то для определения значения и, мини- мизирующего Н 3), следует использовать численные методы. Од- г) Соотношение (1.4.9) можно рассматривать как одну из интерпретаций множителей Лагранжа, согласно которой значение множителя Хг определяет- ся частной производной от минимальной величины критерия качества £мин по величине характеризующей изменение левой части i-го уравнения ограничения (1.4.3), т. е. Xj = — — Прим, перев. 2) Авторы выражают признательность В. Денхэму за помощь при напи- сании этого раздела. 3) При условии, что х определяется из соотношения (1.2.2).— Прим, перев. ;
Минимизация функций 33 ним из прямых численных методов является широко распростра- - ненный метод наискорейшего спуска для отыскания минимума (или наискорейшего подъема в случае отыскания максимума). S Методы наискорейшего спуска или градиентные методы харак- * теризуются итерационным алгоритмом, улучшающим на каждой ' итерации оценку вектора управления и так, чтобы как можно лучше удовлетворялось условие стационарности дШди = 0. Алгоритм градиентного метода удобно представить в виде следующей последовательности шагов: 1. Задается начальное значение вектора и. 2. Из соотношения / (х, и) = 0 определяют х. 3. Из соотношения = — (дЫдх) (dfldx)~l определяют X. - 4. Определяют значение дН/ди = (дЫди) + (df/du), кото- рое, вообще говоря, не будет равно нулю. 5. Считая (дН!ди) вектором-градиентом функции Н по и, изменяют значение и, давая ему некоторое приращение в соответ- ствии с формулой Aw = — К (дН/ди)т; здесь К — положительное число-(скаляр). При этом критерий качества L должен измениться на величину AL = — К (дШди) (дН1ди)т. (Если отыскивается точка максимума, то знак «—» следует заменить на знак «+».) 6. Для каждого нового значения вектора управления и пов- торяют шаги 1—6 до тех пор, пока величина (дШди) (дН/ди)т не станет достаточно малой. Существует много вариантов градиентного метода; один из них будет рассмотрен в следующем разделе. Графически градиентный метод можно представить (в случае отыскания точки максимума) как метод восхождения на вершину холма в пространстве и. Если и — двумерный вектор, то в плоскости (ult u2) можно построить линии уровня критерия качества L (щ, и2) (фиг. 1.5.1). Исходя из начального значения вектора управления и (начального при- ближения), величине и даются последовательные приращепия Au. На каждом шаге Au направлено вдоль градиента дШди, величина которого характеризует наиболее крутой наклон в данной точке холма. Выбор числа К, определяющего величину Au, основывается на оценке степени нелинейности и должен приводить к тому, чтобы линеаризованные предсказания были достаточно точными. С дру- гой стороны, выбор величины К должен предотвращать чрезмер- ный рост числа итераций. Как правило, К должно меняться от ите- рации к итерации. Обычно это делается для того, чтобы уменьшить величину Au при приближении к минимуму (или максимуму). Как видно из фиг. 1.5.1, при движении с большим Au легко «про- скочить» точку экстремума. В задачах с большим числом перемен- ных такие геометрические представления, как гиперповерхности постоянных значений критерия качества L (и) (гиперповерхности уровня) в гиперпространстве и, оказываются весьма ценными, так как облегчают понимание. 3-0102
л. лиьа i Обычно градиентные методы первого порядка приводят к зна- чительному улучшению критерия качества на нескольких первых итерациях, но обладают плохими характеристиками сходимости при приближении к оптимальному решению. Градиентные методы Фиг. 1.5.1. Траектория по- следовательных приближений в численной процедуре мак- симизации функции с помо- щью градиентного метода первого порядка. второго порядка, учитывающие не только «наклон», но и «кри- визну» поверхности в номинальной точке, рассматриваются в сле- дующем разделе. Эти методы обладают отличными характеристи- ками сходимости в окрестности оптимального решения, однако при их применении могут возникать затруднения на начальном участке поиска, связанные с выбором «выпуклого» * 2) начального приближения. 1.6. Численное решение задач оптимизации с ограничениями в виде равенств с помощью градиентного метода второго порядка Градиентные методы второго порядка 2) используют информа- цию как о кривизне, так и о наклоне поверхности в рассматривае- мой точке пространства и. Если и — скаляр, то наглядное пред- ставление о градиентном методе второго порядка можно полу- чить из фиг. 1.6.1. В этом случае можно было бы непосредственно вычислить значения критерия качества в зависимости от вектора управления и и найти точку максимума, однако такой путь реше- ния потребует большого количества вычислений. Для применения градиентного метода второго порядка следует задать некоторое начальное приближение вектора управления и = и<°>. Из условия / (.r(u), = Or найдем соответствующее значение х(0) и вычис- лим L и^). Затем, используя формулы (1.2.6) и (1.3.7), определим первую и вторую производные L по и [при условии О Под этим подразумевается, что аппроксимирующая заданную функ- цию квадратичная поверхность, построенная в окрестности начального при- ближения, должна иметь минимум (т. е. должна быть выпуклой книзу). 2) Эти методы часто называют методами Ньютона — Рафсона.
Минимизация функций 35 у и) = 0]. Аппроксимируем теперь зависимость L (и) квад- ратичной параболой L « L (Л »<») + + 4 (1.6.1) и найдем точку максимума на этой параболе; обозначим соответ- ствующий этому максимуму вектор управления через н(1>. Возь- мем это значение w<1> за новое приближение и повторим весь опи- санный процесс. Из фиг. 1.6.1 видно, что уже две итерации дают достаточно хорошее приближение к точке максимума исходной Фиг. 1.6.1. Схема численного решения задачи максимизации функции с помощью градиентного метода второго порядка. А — действительная кривая L (и) (в процессе решения неиз- вестна); Б — аппроксимирующая парабола, проходящая че- рез точку и(1>; В — аппроксимирующая парабола, проходя- щая через точку и(0>. функции L (и). В более сложных задачах может потребоваться значительно большее количество итераций. Кроме того, если начальное приближение выбрано слишком далеко от точки максимума, то может оказаться, что (д2Ыди2У}=0 >0, т. е. кри- визна кривой имеет неправильный знак ]). В этом случае метод второго порядка не приведет к решению. Заметим, однако, что в этой ситуации метод первого порядка мог бы все же сходиться. - На фиг. 1.6.2 показано решение двумерной задачи" максимиза- ции. Нанесены линии уровня критерия качества L при условии / (.г, и) = 0 (эти лиции обычно не известны оптимизирующему). В качестве начального приближения принимается точка 0. После вычисления первых и вторых производных от L [формулы (1.2.6) и (1.3.7)] при условии / (х, и) = 0 строится (локально) поверх- ность второго порядка, соприкасающаяся с поверхностью L !) В том смысле, что в этом случае аппроксимирующая парабола не имеет Максимума.— Прим, перед. 3*
36 Глава 1 в окрестности точки 0. Если эта квадратичная поверхность ока- жется эллиптическим параболоидом с точкой максимума (для этого матрица вторых производных функции L должна быть отри- цательно определенной), то точка максимума принимается за сле- дующее приближение (точка 7) ]). Процедура поиска продол- жается до тех пор, пока не будет выполнено условие (dL!du)f=z0 = 0, Фиг. 1.6.2. Траектория последовательных приб- лижений при максимизации функции с помощью градиентного метода второго порядка (двумерная задача). А — начальное приближение; Б — линии уровня сопри- касающейся квадратичной ^поверхности; В —линии уровня функции L (иь и2) (в процессе решения неизвестны). при этом матрица (31 2L/3k2)/=0 должна быть все время отрицатель- ной.. На фиг. 1.6.2 точка максимума была достигнута после шести итераций. Во многих задачах ограничения / (х, и) = 0 часто оказыва- ются настолько сложными, что для определения значения х по за- данному и необходимо использовать численные методы. В этом случае можно применять несколько более общую схему градиент- ного метода второго порядка. Напомним, что необходимые усло- вия, при которых функция L (х, и) принимает стационарное зна- чение, имеют вид Нх = 0„ (1.6.2) Ни - 0, (1.6.3) / = о, (1.6.4) где Н (х, и, X) = L (х, w)]+ V/ (х, и). 1) Если матрица вторых производных окажется положительно опреде- ленной или неопределенной, то изложенная процедура не работает.
Минимизация функций 37 Общую схему одной итерации обобщенного градиентного метода второго порядка удобно представить следующим образом: 1. Задают начальные значения х°, и0, Х° переменных х, и, X. 2. Определяют соответствующие им значения Нх (х°, и0, Г) = Н°х, (1-6.5) Ни (х°, и0, Х°) = Н°и, (1-6.6) / (х°, и0) = /°. (1.6.7) 3. Линеаризуют соотношения (1.6.2)—(1.6.4) в окрестности точки (х°, и0, Х°): Я» + Н°хх dx + Н°хи du + (/£)о dh = 0, (1.6.8) Н°и LH°uxdx + H°uudu+(fTrdk = O, (1.6.9) f> + f°xdx + fudU = 0. (1.6.10) 4. Решают систему линейных уравнений (1.6.8)—(1.6.10) отно- сительно dx, du ъ dh я находят их выражения через Н°х, Н°и и /° ]). 5. Шаги 1—4 повторяют с улучшенными значениями х1 = хи + dx, и1 = и0 + du, h1 = Х° + dh. Эту процедуру следует повторять до тех пор, пока необходимые условия оптимальности (1.6.2)—(1.6.4) не будут удовлетворены с требуемой степенью точности. Если этот метод вообще сходится, то в итоге он может сойтись либо к точке минимума, либо к точке максимума, либо к седловой точке. Чтобы определить, какой из этих случаев имеет место, нужно дополнительно исследовать матрицу вторых производных критерия качества L, определяемую уравнением (1.3.7). Если эта матрица положительно определенная, то полученная точка — минимум, если матрица отрицательно определенная, то полученная точка — максимум, если матрица незнакоопределенная и невы- рожденная, то полученное решение — седловая точка. Если же матрица вырождена, то тип этой точки можно установить только с помощью анализа производных более высокого порядка. Задача. Разработать вычислительную схему такого варианта градиентного метода второго порядка, в котором задаются началь- ные значения только х и и, a h определяются из условия Нх = 0. 1.7. Задачи с ограничениями в виде неравенств Задачи оптимизации при наличии ограничений в виде пера-, вепств требуют обобщения методов, рассмотренных в предыдущих разделах. Один из важных классов задач такого типа состоит в ми- х) Если значения Н°х, Ни, f° оказываются такими, что полученные решения dx, du, dh слишком велики, то вместо Нх, Ни, /° следует использовать ъНх , ъНи, ef°, где 0 < е < 1.
38 Глава 1 нимизации функции Ну) (1.7.1) при условии /(у)^0, (1.7.2) где векторы / и у в общем случае имеют различную размерность 2). Рассмотрим сначала простой случай, когда f и у — скалярные величины. Если у° — оптимальное значение величины у, то это значение может приводить к одному из двух результатов: либо / (У0) < либо / (у0) = 0. В первом случае ограничение оказы- вается неэффективным (недействующим), и его можно не учитывать. Таким образом, ситуация в этом случае оказывается такой же, как и при отсутствий ограничений (разд. 1.1). Для рассмотрения второго случая допустим, что значению у° дано некоторое малое приращение dy. Если у0 — точка минимума функции L {у), то соот- ношение (Г’-З) справедливо для всех допустимых dy, которые должны удовлет- ворять условию df = ^dy^O. (1.7.4) Чтобы уравнения (1.7.3) и (1.7.4^ были совместны, очевидно, необходимо, чтобы либо dL df sgn —— = — sgn , ду йу либо dL/ду = 0 (в последнем случае безразлично, какой знак и величину имеет dfldy). Эти случаи геометрически иллюстриру- ются на фиг. 1.7.1, а и б. Оба условия могут быть выражены соот- ношением 4^- + %-^ = 0, (1.7.5) ' ду 1 ду v > где X > 0. Аналитически можно получить эти условия следующим обра- зом. Присоединим ограничение / (у) 0 с множителем % к мини- мизируемой функции L (у). В результате получим Я (у, Л) = L (у) + Л/(у). (1.7.6) *) Такие задачи, относящиеся к общим задачам нелинейного программи- рования, широко обсуждаются в технической литературе. В данном разделе дается только их краткое изложение. Здесь не будем различать переменные состояния и переменные управления, как это было сделано в разд. 1.2. Это объясняется тем, что во многих задачах нелинейного программирования раз- мерность вектора / больше размерности вектора у, так что невозможно раз- делить компоненты вектора у на переменные состояния и переменные управ- ления.
Минимизация функций 39 Необходимые условия оптимальности в этом случае имеют вид J^ = 0 (1-7.7) ду V И /(г/)^0; (1.7.8) здесь Я J>0, если/(у) =0, . „ Л I = 0, если / (у) < 0. Когда у — вектор, а / — скаляр, уравнения (1.7.3)—(1.7.5) остаются справедливыми, если понимать их как запись в вектор- Ф и г. 1.7.1. Два возможных типа расположения точек минимума функции одной переменной при наличии ограничений в виде неравенств. л — ограничение f (у) 0 неэффективно, минимум L (у) в точке dL/ду — 0; б — ограни- чение /.(у) 0 эффективно, минимум L(y) в точке /(у) = 0. ных обозначениях. Соотношение (1.7.5) означает в этом случае следующее: п dL df Векторы и направлены параллельно друг другу, но в противоположные стороны. (1.7.10) Необходимость этого условия легко доказывается от про- тивного. В самом деле, пусть условие (1.7.10) не выполняется Фиг. 1.7.2. Геометрическая иллюстрация необходимости условия (1.7.10) в двумер- ном случае. в точке (г/“, г^), как это показано для двумерного случая на фиг. 1.7.2. Тогда заштрихованная часть фиг. 1.7.2 представляла бы
40 Глава 1 сооой область допустимых значений вектора у, которым соответ- ствуют значения L, меньшие чем Л (у?, у’). Как эта, так и другая ситуации (а именно когда / (у0) <; 0) могут быть объединены об- щими необходимыми условиями (1.7.7)—(1.7.9). В более общем случае, когда / — вектор, можно использовать условия (1.7.4) и (1.7.5), заметив лишь, что на этот раз dfldy — матрица. Если эффективной (т. е. обращающейся в равенство) ока- жется только одна компонента вектора /, то получится задача, Ф и г. 1.7.3. Минимизация при на- личии двух ограничений в виде неравенств (двумерный случай). которая только что была рассмотрена. Если же эффективны две компоненты вектора f, то возникает ситуация, показанная на фиг. 1.7.3. Легко видеть, что если у0 — экстремальная точка, лежащая на линиях ~ 0 и /, - 0, то вектор dL/ду должен находиться между отрицательным направлением градиента и отрицательным направлением градиента /2 *)• Аналитически это означает, что вектор dLldy может быть представлен в виде отрицательной линейной комбинации векторов dfjdy и dfjdy. В общем случае, когда эффективны q компонент, для граничной оптимальной точки вектор dLldy удовлетворяет соотношению “+>.,№-+... + ^ = 0, (1.7.11) или где р.7'# -О, ' ду dL ду (1.7.12) (1.7.13)* 2) Таким образом, как и в разд. 1.2, можно образовать функцию Н = L + Ат/ и выразить условие (1.7.12) в виде dH/dy = 0. \) Вектор dLldy можно получить сложением отрицательных градиентов (—dfildy) и (—df^dy) по правилу параллелограмма для сложения двух век- торов. 2) Соотношения (1.7.13), разумеется, понимаются справедливыми поком- понентно.
Минимизация функций 41 Соотношения (1.7.12) и (1.7.13) являются необходимыми условия- ми минимума. Для получения необходимых условий максимума в условии (1.7.13) следует изменить знак X иа обратный. Другими словами, градиент функции L по у в точке минимума должен быть направлен таким образом, чтобы уменьшение критерия качества L могло быть достигнуто только за счет нарушения ограничений. Допустим теперь, что вектор у имеет размерность р и что среди ограничений в виде неравенств п компонент эффективны, т. е. что Л (у) =0, i = 1, 2, . . ., п. (1.7.14) «Неэффективные» ограничения (у) < 0, i = п -р 1, . . ., можно не принимать во внимание. Очевидно, что р п. Далее, п ком- понент вектора у обозначим через х, а оставшиеся р — п ком- понент — через и, т. е. yT = (xt, . . ., хп; щ, . . ., ир_п) = (хТ, ит). Это разделение компонент должно быть таким, чтобы уравнения fi (х, и) — 0, i = 1, . . ., п, (1.7.15) определяли х по заданному и х). Тогда достаточные условия локаль- ного минимума функции L (у/ при условии / (у) 0 будут состоять из условий, полученных в разд. 1.3, к которым следует добавить требование положительности всех значений . . ., Хп 1 2). Послед- нее условие легко получить из соотношений (1.4.8), (1.4.9), по- скольку —= (dLldft)u, а величина (dLldfi)u должна быть отри- цательной (т. е. dL >0 для df, < 0). Пример. Рассмотрим задачу минимизации критерия качества L (yi, у2) при условии fi (yt, у2) 0, i = 1, 2. Пусть линии уровня критерия L ведут себя так, как показано на фиг. 1.7.4, откуда видно, что условие /2 < 0 «неэффективно» и решение лежит на кривой Д = 0. В точке минимума должно выполняться условие ^£ + ^^-=0, ^>о, ду 1 ду т. е. градиент L параллелен градиенту h и направлен в противо- положную сторону. Кроме того, «кривизна» L вдоль /1=0 такова, что при удалении от точки минимума значение L на кривой /1=0 1) Более точные утверждения даны в работе: G. McCormick, Second Order Sufficient Conditions for Constrained Minimum, SIAM Journal onAppl. Math., 15, № 3 (1967). 2) Для разрешимости уравнений (1.7.15) по х необходимо и достаточно, чтобы существовала невырожденная матрица J > вычисленная в неко- торой точке (х°, и°).— Прим. ред. 1
42 Глава 1 возрастает. Получим этот разультат аналитически. Положим у^ = = х и у2 = и. Теперь по заданному и из условия /i (х, н) = О можно определить х, а из соотношения (1.3.7) можно вычислить Ф иг. 1.7.4. Пример миними- зации при наличии ограниче- ний в виде неравенств. (32£/5н2)/1=0; эта величина, как можно видеть из фиг. 1.7.4, по- ложительна. Формулы (1.7.12) и (1.7.13) выражают основное содержание известной теоремы Куна — Танкера для задач нелинейного про- граммирования *). Точная формулировка теоремы требует пред- положения о так называемой регулярности ограничений для Фиг. 1.7.5. Пример условий Куна — Таккера регулярности ограничений. системы /(у)^О(см. [1.1], стр. 483). Условие регулярности ограничений вводится для того, чтобы исключить геометри- ческие ситуации, подобные изображенной на фиг. 1.7.5. В этом примере минимум L находится в точке (у15 у2) = (1, 0), поэтому вектор дЫду не может быть представлен какой-либо конечной линейной комбинацией векторов dfjdy и df2ldy. !) См., например, книгу Дж. Хедли «Нелинейное и динамическое про- граммирование» (гл. 6), изд-во «Мир», 1967.— Прим, перев.
Минимизация функций 43 Другой подход к выводу достаточных условий в задачах не- линейного программирования дается теоремой о седловой точке. Эта теорема более изящна (хотя результаты ее применить обычно труднее), чем рассмотренные выше достаточные условия, тан как она не требует производить произвольное разбиение вектора у на вектор состояния х и вектор управления и. Теорема о седловой точке состоит в следующем. Рассмотрим функцию Н (у, X) = = L + Хт/. Предположим, что можно найти такие у° и Х°, которые образуют.седловую точку для функции Н (у, Л), т. е. точку, кото- рая удовлетворяет условиям Н (у°, X) Н (у°, Х«)< Н (у, Х°) (1.7.16) для всех X 0 и / (у) <1 0. В этом случае можно показать, что точка у0 является точкой минимума функции L (у) при наличии ограничения / (у) 0 независимо от свойств функций Ли/. Задача 1. Доказать теорему о седловой точке. Указание. Из левого неравенства (1.7.16) следует, что Х“/г (у0) = 0 для всех I. Задача 2. Крейсерский режим полета самолета с минимальным расходом топлива. Для самолета, описанного в примере 2 разд. 1.2 и задаче 7 разд. 1.3, определить условия установившегося гори- зонтального полета (0=0) с минимальным расходом топлива на единицу дальности 1). Пусть коэффициент удельного расхода топлива Се = 0,29-10-3 (кГ топл1сек)1кГ тяги, так что расход топлива на единицу дальности дается формулой г СеР V ’ где Р Рмакс (F, h), а Рмакс (У, ^) задано графически на фиг. 1.3.5 (см. задачу 7 разд. 1.3). Уравнениями ограничений в этой задаче являются условия равновесия сил, действующих на самолет в установившемся гори- зонтальном полете: Y — mg + Р sin (а + <рР) = 0, Q — Р cos (а -f- <рр) = 0, где величины Y = Y (У, h, а) и Q = Q (У, h, а) следует взять из задачи 7 разд. 1.3. Задача 3. Разработать математическое доказательство геомет- рических соображений, соответствующих фиг. 1.7.2. В частности, доказать, что % 0. х) В динамике полета такой режим называется режимом минимального километрового расхода топлива.— Прим, перев.
44 Глава 1 1.8. Задачи линейного программирования Если критерий качества и ограничения в виде неравенств линейны относительно у, то задача носит название задачи линейного программирования. Очевидно, в этом случае точка минимума, если она существует, должна находиться на границе допустимой области, поскольку кривизна L всюду равна нулю. Задача линей- ного программирования ставится следующим образом. Найти у, минимизирующий L = Ъту, (1.8.1) при условии Лгг/ + с^О. (1.8.2) Здесь у — и-мерный вектор, с — тп-мерный вектор, т > п. Если матрица А имеет ранг п, а вектор ЬТ неколлинеарен какой-либо из строк матрицы Ат или некоторой произвольнойютрицательной линейной комбинации (п + 1) строк матрицы АТ, то минимум, если он существует, находится в точке, определяемой одновре- менным выполнением п ограничений вида Ату с = 0. При на- личии некоторой геометрической интуиции этот результат не по- кажется неожиданным; более того, он составляет содержание фун- даментальной теоремы линейного программирования. Пример 1. Минимизировать функцию L = —5z/j — у2 с учетом ограничений /1 = — У1 0, /2 = — у2 0, /3 = Z/J + z/2 — 6 С 0, А = Зг/, + у2 - 12 0, /5 = У1 - 2у2 - 2 0. На фиг. 1.8.1 изображена допустимая область и нанесены линии уровня критерия качества L. Из рисунка видно, что минимум достигается в точке А, где /4 = Зу( + у2 — 12 = 0 и /5 = = У1 — 2у2—2 = 0. Эта точка имеет координаты z/i = 35/7, z/2=6/7, а критерий качества принимает в этой точке значение £мин = = —193/7. Градиент L в точке А может быть представлен отрица- тельной линейной комбинацией п [но не (и — 1)] строк матрицы Ат (а именно комбинацией векторов grad /4 и grad /5), как следует из фиг. 1.8.1. Применимость фундаментальной теоремы линейного программи- рования при численном решении задач линейного программирова- ния в принципе очевидна. Рассмотрим п ограничений, считая их равенствами. Решение этой системы равенств (если оно является допустимым) дает решение, которое может быть либо оптимальным, либо неоптимальным. В последнем случае следует заменить одно из ограничений другим и повторить процесс решения, требуя, чтобы новое решение принадлежало допустимой области и улучша-
Минимизация функций 45 ло критерий качества. Так как задано конечное число ограниче- ний, то этот процесс в конце концов приведет к оптимальной ком- бинации ограничений (если она существует). Метод, который Фиг. 1.8.1. Решение задачи линейного программирования примера 1. использует изложенную процедуру, известен под названием сим- плекс-метода . Он будет разобран более подробно в следующем разделе. Задача. Показать, что необходимое условие максимума функции L = стХ при ограничениях А'К + Ъ = О, X > О, сводится просто к соотношению (1.8.2) для основной задачи ми- нимизации, обсуждаемой в данном разделе. Эти две задачи назы- ваются двойственными по отношению друг к другу1). Пример 2. Задача на составление оптимальной смеси. (Задача о смешивании.) Существует много так называемых задач о смеши- вании, которые состоят в нахождении самой дешевой смеси не- скольких материалов, содержащей по меньшей мере определенную часть каждой из заданных компонент. Типичной задачей такого типа является определение наиболее дешевой смеси нескольких различных продуктов питания, которая содержит не менее задап- х) Отметим, что поскольку число т ограничений в задаче (1.8.1), (1.8.2) равно числу переменных ?., в двойственной ей задаче, то при решении задач линейного программирования с большим числом ограничений и малым числом переменных часто удобно перейти к решению двойственной задачи.— Прим, перев.
46 Глава 1 ного количества основных питательных веществ (белков, жиров, витаминов и т. д.) х). Предположим, что рассматривается смесь трех различных продуктов питания и имеется три неравенства, определяющие содержание питательных веществ в смеси. В табл. 1.8.1 указано содержание каждого из трех питательных Таблица 1.8.1 Характеристика продуктов питания Вид продукта питания 3 Доля питательных веществ в каждом 7-м продукте питания Стоимость 7-го продукта питания ЛГ1 TV2 Л'з 1 0,06 0,02 0,09 15 2 0,03 0,04 0,05 12 3 0,04 0,01 0,03 8 веществ в каждом из трех продуктов и указана стоимость единицы количества каждого продукта питания. Задача состоит в том, чтобы найти самую дешевую смесь этих трех продуктов, такую, чтобы доля каждой из питательных ком- понент в ней была не меньше чем 0,04; 0,02 и 0,07 (для первой, второй, третьей питательных компонент соответственно). Пусть Fj — доля у-го продукта в смеси, у = 1, 2, 3; F} явля- ются величинами, которые надлежит определить (это проектные параметры). Обозначим через Nt долю г-го питательного вещества в смеси, t = 1, 2, 3. Величины Nt и Fj связаны соотношением N t = nuFf + пцР2 + ni3F3, где пц — содержание i-ro питательного вещества в у-м продукте (пц заданы в табл. 1.8.1). По условию смесь должна быть такой, чтобы удовлетворялись условия: ^>0,04, N2 0,02, N3 0,07. Пусть С — стоимость единицы количества смеси и cj — соответ- ственно стоимость единицы количества у-го продукта. (Эта стои- мость также задана в табл. 1.8.1.) Тогда справедливо соотношение С = cj<\ + c2F2 + c3F3. Очевидно, сумма долей каждого из продуктов в смеси должна равняться единице, т. е. Fi +F2 + F3 = 1. х) Аналогичные задачи возникают, например, при составлении смесей жидких топлив или удобрений.
Минимизация функций 47 Таким образом, требуется найти две неизвестные величины Ft и F2 (третью величину можно найти из условия F:t = 1 — — — F2), минимизирующие С и удовлетворяющие неравенствам1) Nt>Ni, i = 1, 2, 3, 7 = 1, 2,3, где Ni — заданная минимальная доля г-го питательного вещества в смеси. Решим задачу графически. Пусть Ft и F2 — оси1'координат (фиг. 1.8.2). Все неравенства изображаются прямыми линиями, Фиг. 1.8.2. Решение задачи линейного программирования примера 2. перпендикуляр к каждой из которых указывает направление в сто- рону допустимой области. В данной задаче имеются следующие неравенства: a) Ni = 0,06/\ + 0,03F2 + 0,04 (1 - Ft - F2) > 0,04, или 2Fi — F2> 0; 6) N2 = 0,02Л + 0,04F2 + 0,01 (1 - Fj - F2) 0,02, или Ft -J- 3F2 1; в) N3 = 0,0924 + 0,05/4 + 0,03 (1 - FY - F2) 0,07, или 374 + F2 2; r) F3 = 1 — Ft — F2^ 0, или Ft + F2 1; д) 0 C Ft C 1; e) 0 C F2 < 1. Заметим, что неравенства F3 = 1 — Ft — F2 1, или Ft F2~^ 0, оказываются избыточными, поскольку они автоматически 4 Некоторые из этих неравенств в свою очередь могут быть избыточны- ми, т. е. их выполнение следует автоматически из выполнения других нера- венств.
48 Глава 1 следуют из неравенств Fi 0 и F2 0. Какие еще из неравенств «а»—«е» являются избыточными (т. е. являются следствием дру- гих)? Ответ на этот вопрос можно найти с помощью графика, на- фиг. 1.8.2. Та область, в которой удовлетворяются все неравенства, называется допустимой областью (она ограничена, на^фиг, 1.8.2 жирными линиями и заштрихована). Нанесем на^-фиг. 1.8.2 также линии постоянной стоимости, т. е. линии уровня функции С = 15Л + 12Л + 8 (1 — Л - F2\, или с=8 + IFi + 4О2. Из фиг. 1.8.2 видно, что минимальное по стоимости допустимое решение соответствует точке пересечения прямых N2 = +2 и N 3 = = N3. Это означает (см. неравенства «б» и «в»), что должны одно- временно выполняться условия Л + 3F2 = 1, ЗЛ + F2 = 2. Рассматривая их как систему линейных уравнений с двумя неиз- вестными, находим решение Из соотношения F3 = 1—Ft — F2 получаем Соответствующее минимальное значение стоимости единицы коли- чества смеси равно с=‘54+124+84”)2т- В данном случае количество первого питательного вещества в смеси превосходит требуемое минимальное значение Л4 = 0,06 4 + 0,03-1 + 0,04 4 = 0-05125 > 0,04. 1’884 Заметим, что для получения допустимого решения самой высокой стоимости в смеси следует использовать только первый продукт (т. е. Fi = 1). Пример 3. Задача планирования перевозок. Торговец зерном владеет 50 000 бушелей4 пшеницы в Гранд-Форкс (шт. Север- ная Дакота) и 40 000 бушелей в Чикаго. Он должен продать 20 000 бушелей в Денвере, 36 000 бушелей в Майами и остав- шиеся 34 000 бушелей в Нью-Йорке. Требуется определить 0 Бушель — англо-американская мера емкости сыпучих тел, 1 бушель в США равен 35,24 литра,— Прим, перев.
Минимизация функций 4 минимальную по стоимости схему перевозок при следующих ценах (в центах) перевозки одного бушеля зерна (табл. 1.8.2). Из этой Таблица 1.8.2 Стоимость перевозки одного бушеля зерна Пункт доставки Пункт отправления Денвер Майами Нью-Йорк Гранд-Форкс 42 55 60 Чикаго 36 47 51 таблицы видно, что различные варианты приводят к затратам, кото- рые не пропорциональны расстоянию между городами. Для удоб- ства расчетов все данные сведены в табл. 1.8.3, в которой оставлено место для результатов решения задачи. В правом верхнем углу каждого из квадратов табл. 1.8.3 помещена стоимость перевозки Таблица 1.8.3 Сводка исходных данных для задачи планирования перевозок Пункт доставки Пункт отправления Денвер Майами Нью-Йорк Наличие зер- на в пункте отправления (бушели) Гранд-Форкс 42 55 60 50 000 Чикаго 36 47 51 40 000 Количество зерна, под- лежащего доставке (бушели) 20 000 36 000 34 000 одного бушеля зерна между соответствующими двумя городами. Задача состоит в том, чтобы определить для каждого из шести квадратов табл. 1.8.3 такие неотрицательные величины, которые удовлетворяют следующим требованиям: а. Сумма величин, стоящих в первой строке таблицы, должна быть равна 50 000; сумма величин во второй строке должна быть равна 40 000. 4—0102
50 Глава 1 б. Суммы величин в первом, втором и третьем столбцах должны быть равны 20 000, 36 000 и 34 000 соответственно. в. Общая стоимость перевозок должна быть минимальной. Эта общая стоимость равна сумме попарных произведений искомых для каждого квадрата величин на соответствующую единичную стоимость перевозки (последняя записана в правом верхнем углу каждого квадрата). Задача эта несколько похожа на разгадывание кроссворда, однако она труднее, так как здесь недостаточно добиться пра- вильных сумм в строках и столбцах (т. е. найти допустимое реше- ние), а нужно, кроме того, минимизировать общую стоимость. Возможно, что методом проб и ошибок можно было бы подобрать нужное решение в данной задаче. Однако для сокращения времени решения желателен систематический метод. Для решения задач с большим количеством пунктов отправления и доставки наличие такого систематического метода (алгоритма) и вычислительной машины является весьма существенным. Обозначим через х количество зерна, перевозимое из Гранд- Форкса в Денвер (в тыс. бушелей). Тогда очевидно, что из Чикаго в Денвер следует перевезти (20 — х) тыс. бушелей (табл. 1.8.4). Таблица 1.8.4 Промежуточный этап решения задачи планирования перевозок X 42 У 55 50—а: 60 — У 50 20- 36 X 36- 47 У 51 -16 40 20' 36 34 Аналогично если у — количество зерна, перевозимого из Гранд- Форкса в Майами, то (36 — у) — количество зерна, перевозимого из Чикаго в Майами. Следовательно, из Гранд-Форкса в Нью-Йорк нужно перевезти (50 — х — у) тыс. бушелей и аналогично из Чикаго в Нью-Йорк надо перевезти 40 — (20 — х) — (36 — у) = = х 4- у — 16 тыс. бушелей. (Заметим, что требование доставки в Нью-Йорк 34 000 бушелей зерна удовлетворяется автоматиче- ски, поскольку использовано условие равенства проданного коли- чества зерна всему имевшемуся в наличии.)
Минимизация функций 51 Итак, количество неизвестных сокращено до двух (ж и у), которые должны удовлетворять шести неравенствам: ж О, у 0, 50 — х — у 0, 20 — х 0, 36 — у 0, х + у — 16 > 0. Удобно представить все эти неравенства графически в системе координат (ж, у), как показано на фиг. 1.8.3. Так же как и в пре- Фиг. 1.8.3. Решение задачи о минимальной стоимости перево- зок. У- дыдущем примере 2, здесь имеется допустимая область, в которой удовлетворяются все неравенства. Вычислим теперь общую стоимость перевозок как функцию х и у С = 1000/100 [42ж + 55у + 60 (50 - ж — у) + + 36 (20 - ж) + 47 (36 - у) + 51 (ж + у - 16)] = = 45 960 — ЗОж — Юг/ (в долларах). Линии постоянной стоимости нанесены на фиг. 1.8.3 пунктиром. Ясно, что допустимое решение, дающее минимальную стоимость, соответствует точке ж = 20, у = 30. Результаты решения задачи минимизации стоимости приведены в табл. 1.8.5. Таблица 1.8.5 Оптимальное решение задачи планировании перевозок 42 55 60 50 20 30 0 36 47 51 40 0 6 34 20 36 34 4*
52 Глава 1 Заметим, что, согласно данным этой таблицы, не следует пере- возить зерно из Чикаго в Денвер даже несмотря на то, что стои- мость доставки одного бушеля между этими городами самая низкая. Интересно отметить, что разность между наилучшим (в смысле общей стоимости) и наихудшим решениями составляет всего 740 долл, при минимальной стоимости 45 060 долл. Тем не менее эти 1,6% разницы могут быть значительной частью прибыли, полученной от продажи. 1.9. Численное решение задач оптимизации с ограничениями в виде неравенств Численные методы решения задач оптимизации при наличии ограничений в виде неравенств являются одной из главных тем специальной дисциплины — математического программирования. Им посвящено большое число работ (см., например, [1.2], [1.4]); здесь мы ограничимся только изложением наиболее важных осо- бенностей метода допустимых направлений, или метода проекции градиента. Алгоритм этого метода включает два отдельных, но тесно связанных между собой этапа. Этап 1. Поиск допустимого решения. Как указывалось в разд. 1.7, нахождение значения у, удовлетворяющего системе нелинейных неравенств / (у) 0, часто оказывается затруднитель- ным. В задачах с ограничениями в виде равенств, подобных рас- смотренным в разд. 1.5 и 1.6, допустимое решение найти в прин- ципе довольно просто, поскольку переменных (х и и) больше, чем заданных ограничений [/ (х, и) = 0]. В задачах с ограничениями в виде системы неравенств число ограничений (компонент векто- ра /) часто бывает больше, чем количество переменных (компонент вектора у). Допустимое решение в этом случае можно найти сле- дующим способом. Зададим некоторое начальное значение у и рас- смотрим достаточно малое возмущение dy, которому соответствует приращение df вида df = ^dy. (1.9.1) Если некоторые компоненты вектора / (у) в точке у являются поло- жительными, т. е. недопустимыми (так как нарушается условие / (у) 0), то выберем dy так, чтобы соответствующие компоненты df были отрицательными. Другими словами, вектор / (у + dy) должен быть «ближе» к допустимому решению, т. е. F dy 5^0, (1.9.2) где F содержит только те строки матрицы dfldy, которые соответ- ствуют недопустимым компонентам вектора ограничений /. Таким
Минимизация функций 53 образом, задача поиска допустимого решения для системы нелиней- ных неравенств сводится к последовательности задач поиска допу- стимого решения для системы линейных неравенств. Этап 2. Поиск допустимого улучшения. Если удалось найти допустимое значение у, то следующий шаг состоит в том, чтобы определить такое приращение dy, для которого решение остается Фиг. 1.9.1. Решение за- дачи квадратичного про- граммирования (к примеру из разд. 1.9). допустимым и при этом еще улучшается значение критерия каче- ства. Другими словами, для такого dy должны выполняться условия f (у + dy) < 0 и L (у + dy) < L (у). Таким образом, приращение dy должно удовлетворять системе линейных неравенств, подобных (1.9.2): - 0L- ду df _ ду dy = H dy <;0. (1.9.3) Пример. Квадратичный критерий качества с линейными огра- ничениями в виде неравенств. Пусть требуется минимизировать функцию г _ (У1 —2)2 4 Hz/2-i)2 при наличии ограничений 3z/i + 2у2 — 6^0, У1 >0, У2 >0. На фиг. 1.9.1 показана допустимая область и нанесены линии постоянных значений критерия качества L. Возьмем начальную
54 Глава 1 точку с координатами yt = уг = 1/2. В этой точке 9L _ _ 3 дЬ _ . dyt 4 ’ ду2 — Поскольку требуется минимизировать критерий качества, то наи- лучшим направлением движения из этой точки- будет направление вдоль отрицательного градиента, как показано на графике в точ- z ке А (V2, 1/2). Будем двигаться в этом направлении до тех пор, пока значение критерия качества будет уменьшаться (точка минимума может оказаться и на границе). В данном примере точ- кой минимума (по направлению отрицательного градиента из точ- ки А) является точка В, лежащая внутри допустимой области. Двигаясь далее из точки В по направлению отрицательного гра- диента из этой точки, достигнем точки С, лежащей на линии 3z/t + + 2уг — 6 = 0. В этой точке отрицательный градиент направ- лен за пределы допустимой области, поэтому будем двигаться по направлению компоненты отрицательного градиента, направ- ленной вдоль границы (в данном примере — вверх}. Двигаясь в этом направлении, достигнем точки минимума D, в которой отри- цательный градиент направлен за пределы допустимой области и перпендикулярен к границе. Как было отмечено, в разд. 1.8, в последние годы приобрели большое значение задачи линейного программирования. Поэтому имеет смысл кратко обсудить специальные процедуры, используе- мые при решении этих задач. Рассмотрим снова задачу минимиза- ции критерия качества L вида L = ЪТ у (1.9.4) при условии У + с <С 0; (1.9.5) здесь у — н-мерный вектор, АТ— матрица размерности т X п, т z>n. Как известно (разд. 1.8), минимум L должен достигаться в точке пересечения п гиперплоскостейнормали к которым имеют направления, определяемые элементами строк матрицы АТ. Исходя из этого, проведем решение по следующей схеме. Из систе- мы (1.9.5) выберем произвольно п условий, приравняем их нулю и решим как систему линейных уравнений. Если полученное реше- ние является допустимым, то исследуем п «ребер», выходящих из этой точки (каждое из ребер образовано пересечением п выбранных (п — 1)-мерных гиперплоскостей). Обозначим через ег (i = = 1,2, . . ., п) единичный и-мерный вектор, направленный от полу- ченной точки вдоль i-го ребра (в сторону допустимой области). Градиентом функции L является вектор Ьт, поэтому рассмотрим г) Встречаются аномальные задачи, в которых минимум достигается не в «точке», а на «ребре» (симплекса); см. условия, определенные в разд. 1.8, для всуществования «точечного» решения.
Минимизация функций 55 проекции ребер (т. е. ег) на вектор Ът , т. е. скалярные произведе- ния Ъг el, t = 1, 2, . . ., п. Если все скалярные произведения положительны, то движением вдоль ребер нельзя добиться улуч- шения (т. е. уменьшения значения L). В таком случае оптимальное решение уже получено. Если же некоторые из скалярных произ- ведений отрицательны, то следует выбрать из них наибольшее по абсолютной величине и далее двигаться вдоль соответствующего этому произведению ребра до тех пор, пока не встретится какое- либо другое ограничение. Пересечение этого нового ограничения и (и — 1) старых ограничений, которые образовали ребро, опре- деляет новую точку, в которой значение L непременно должно быть меньше (чем в предыдущей точке), так как движение происходило вдоль той проекции градиента, для которой Ът ег < 0. Описанный процесс следует повторять до тех пор, пока будет получена точка, для которой все Ът ег >0, т. е. когда дальнейшее улучшение L будет невозможно. Изложенная процедура лежит в основе сим- плекс-алгоритма, предложенного Данцигом [1.3], который исполь- зует в сущности метод допустимых направлений. 1.10. Метод штрафных функций Для решения задач оптимизации с ограничениями как в виде равенств, так и в виде неравенств применяется еще так называе- мый метод штрафных функций. Идея этого метода весьма проста. Пусть необходимо минимизировать функцию L (у) при условии /(г/) = о. (i.io.i) Вместо того чтобы непосредственно решать поставленную задачу, рассмотрим задачу минимизации вспомогательной функции L = L (у) + К || f (у) |р, (1.10.2) в которой на у не накладывается каких-либо ограничений. Здесь К — достаточно большое число 2). Если функция L достигает минимума в точке у*, то естественно ожидать, что ___________ f (у*) ~0 (1.10.3) 1) Добавление слагаемого К || / (у) ||2 к функции L (у) можно рассматри- вать как введение в задачу на безусловный экстремум L (у) специального «штрафа» за неточное выполнение условия / (у) = 0. Поэтому слагаемое К \\ f (у) ||2 часто называется «штрафной функцией»; отсюда и происходит название рассматриваемого метода. Метод штрафных функций, таким обра- зом, позволяет сводить задачи на условный экстремум к задачам на безуслов- ный экстремум. По-видимому, очевидно, что при конечных значениях К такое сведение будет лишь приближенным. — Прим, перее. 2) Можно, конечно, использовать вместо К || / (у) ||2 и другие функции от / (J/)- Основное требование к штрафным функциям сводится к тому, что они должны быть равны нулю при / (у) = 0 и должны быть положительными (в задачах минимизации) при / (у) ф 0.
56 Глава 1 L (у*) » L (у0), (1.10.4) где у0 — значение у, минимизирующее L при условии / (у) = .0. И действительно, в некоторых случаях оказалось возможным показать, что limy* = y°, lim L (у*) = L (у0). К->ЭО К-~+<х> (1.10.5) В вычислительной практике к методу штрафных'функций обра- щаются как в случае оптимизации параметров, так и в случае оптимизации управляющих функций (гл. 2—4). Тем не ме- нее важно отметить, что на практике метод штрафных функций не позволяет иногда подойти достаточно близко к истинному решению [т. е. к пределу, указанному в (1.10.5)]. Одна из причин этого состоит в следующем. Расширенный критерий качества с дополни- тельным слагаемым (штрафной функцией) при больших значе- ниях К имеет длинный узкий «овраг», а точка минимума у* на- ходится на его дне (фиг. 1.10.1). Фиг. 1.10.1. Линии уровня, соз- даваемые штрафной функцией, в при- мере разд. 1.10. При применении градиентного метода для поиска точки у* после- довательные приближения с одной стороны оврага «перескаки- вают» на другую (т. е. вдоль «ширины» оврага) вместо того, чтобы опускаться вниз вдоль «длины» оврага. Более того, если К очень велико, «ширина» оврага становится соизмеримой с точно- стью вычислений и метод градиента совершенно перестает рабо- тать. Другим возможным источником затруднений является появле- ние искусственных точек минимума, котбрые отсутствуют в исход- ной задаче.
Минимизация функций 57 Пример. Найти z/j и у2, минимизирующие функцию L = (yi- 2)2 + yl при условии У1 = 0. Это очень простая задача, которая имеет очевидное решение z/i = у2 = 0. Будем, однако, решать ее с по- мощью метода штрафных функций. Для этого минимизируем рас- ширенную функцию L со штрафным слагаемым Е-(9,-2)> + й + вд_й + [(!,1-т-^)7т-1т]+^. При фиксированном К линиями уровня функции L являются эллипсы с общим центром в точке z/i =2/(1 + К), у2 = 0 и отно- шением полуосей 1 : 1/|/~1 К. На фиг. 1.10.1 показаны линии уровня функции L при К = 35. Отметим появление длинного узкого «оврага», вызванного штрафной функцией. При решении задач оптимизации с ограничениями в виде нера- венств тоже может быть использован метод штрафных функций. Пусть вместо равенства (1.10.1) в задаче минимизации должно быть удовлетворено неравенство Ш^о. (1.Ю.6) В этом случае можно минимизировать расширенную функцию L вида L = L (у) + К If (у)]* 1 [f (у)], (1.10.7)- где 1 (/) — единичная ступенчатая функция, определенная сле- дующим образом: , ( 1, если />0, Ч/ = ’ ' (1-10.8) I 0, если /< 0. Использование штрафных функций оказывается часто весьма полезным на начальной стадии численного решения задач со сложными ограничениями.
Глава 2 Задачи оптимизации динамических систем 2.1. Дискретные одношаговые системы Начнем изучение дискретных многошаговых систем с рассмо- трения простейшей нетривиальной многошаговой системы — одно- шаговой системы. Начальное состояние системы описывается известным л-мерпым вектором х (0) — вектором состояния. Выбор некоторого т-мер- ного вектора управления и (0) определяет переход системы х(0)1 и (0) Фиг. 2.1.1. Блок-схема дискретной одно- шаговой системы. в состояние х (1); этот переход описывается соотношением (фиг. 2.1.1) х (1) = /° [х (0), и (0)]. (2.1.1) Пусть требуется выбрать управление J) и (0) так, чтобы миними- зировать критерий качества, заданный в виде / = ф к (1)1 + L° k(0), u (0)]. (2.1.2) Сформулированная задача является задачей минимизации функ- ции с ограничениями в виде равенств; она вполне аналогична задачам, рассмотренным в разд. 1.2. Для получения необходимых условий оптимальности и в данной задаче будем следовать идеям разд. 1.2, слегка изменив лишь способ формирования функции Н. Образуем расширенный критерий качества J, прибавив к выраже- нию (2.1.2) ограничение (2.1.1) с некоторым неопределенным множителем X (1): J = ф к (1)1 + £° к (0), и(0)] + /5 (1) {/« к (0), и (0)] - х (1)}. (2.1.3) Пусть Я0 = Л° [х (0), и (0)] + Хт (1) /° [х (0), и (0)], (2.1.4) х) Под управлением здесь понимается постоянный вектор и (0).— Прим, ред.
Задачи оптимизации динамических систем 59 тогда ./=<£ [х (1)] + Н0 [х (0), и(0), %(1)] — АЛ (1) ж (1). (2.1.5) Рассмотрим бесконечно малое изменение критерия качества J, соответствующее бесконечно малым изменениям величин и (0), х (1), х (0): 77= Г-7Г7Г7 - (1)1 dx № + ~^du (°) dx (0). (2.1.6) L dx (1) 4 7J 4 7 1 du (0) 4 7 1 dx (0) 4 7 4 7 Общий вид выражения для dj подсказывает целесообразный выбор величины X (1); чтобы избежать определения dx (1) через du (0) с помощью дифференцирования соотношения (2.1.1), выберем Хг(1)==^-. (2.1.7) 4 7 dx (1) 4 7 В результате получим ^=#7^dM(0)-|-#£-^(0). (2.1.8) du(0) 4 7 1 dx (0) 47 4 7 Таким образом, дН^ди (0) — градиент критерия качества J *) по и (0) при постоянном значении х (0), удовлетворяющем уравне- нию (2.1.1), а дН°1дх (0) — градиент J по х (0) при постоянном значении и (0), удовлетворяющем тому же уравнению. Если х (0) задано, то dx (0) = 0. Очевидно, для получения стационарного значения J и, следо- вательно, J при заданном х (0) должно выполняться условие Заметим, что уравнения (2.1.1), (2.1.7) и (2.1.9) составляют систе- му п + п + т уравнений с п + п -ф- т неизвестными величи- нами х (1), X (1), и (0). 2.2. Дискретные многошаговые системы; оптимизация при фиксированном числе шагов и отсутствии краевых условий на правом конце Задачи оптимального программирования для дискретных много- шаговых систем тоже относятся к задачам минимизации функции. Рассмотрим многошаговую систему, описываемую нелинейными разностными уравнениями х (г + 1) = /г[х (г), и (г)1, х (0) задано, i = 0, . . ., N — 1. _________ (2-2.1) !) Поскольку J = J на-решениях системы (2.1.1).— Прим, перее.
60 Глава 2 Эти уравнения представляют собой последовательность условий в виде равенств, где х (I) — последовательность значений п-мер- ного вектора состояния, определяемая в свою очередь выбором Фиг. 2.2.1. Блок-схема дискретной многошаговой системы. последовательности значений m-мерного вектора управления и (г). Схема дискретной многошаговой системы показана на фиг. 2.2.1. Пусть критерий качества задан в виде N-1 J = ф [ж (7V)] + 2 [х (0, U (0J. (2.2.2) i=0 Задача состоит в том^ чтобы найти последовательность и (I),. которая минимизирует (или максимизирует) J. Образуем расши- ренный критерий качества J, -прибавив к величине J систему урав- нений (2.2.1) с множителем X (г) 7= ф [х (TV)] + 2 (^k(0, «(0J + г=0 + %T(i + 1) {/* [х (i), U(i)]-x(i + l))). (2.2.3) Для удобства введем скалярную последовательность функций Нг Н1 = Ь*[х(1), и(0] + ХГ(г + 1)Гк(1), i = 0, ..., N— 1. (2.2.4) При этом выражение для J после изменения пределов суммиро- вания в последнем члене (2.2.3) примет вид _ N-1 J = & [х(^]-Хт (N)x(N)+ 2 [Н1-Кт (i)x(i)] + Н°. (2.2.5) Рассмотрим теперь дифференциал J, соответствующий прира- щению и (г): ДМ«пхг-хГ<Л'>]‘й:<Л')+ + S {hSr-'-’w]**+ <2-2-6>
Задачи оптимизации динамических систем 61 Чтобы избежать громоздкого определения приращений dx (i) по заданным приращениям du (г), выберем последовательность зна- чений множителя X (г) следующим образом: Хт (г)—— О, т. е. положим kT (j) = ' ' дх (г) ' ’ = + + * = 0, •••> (2.2.7) дх (i) 1 ' 1 1 дх (i) ’ ’ ’ ’ 4 * * 7 с граничным*условием <2 *-2-8’ При таком выборе Х(г) уравнение (2,2.6) примет вид N-1 i dT- 3 ^dU{t) + ^(Q)dx($). (2.2.9) i=0 Таким образом, дНЧди (i) является градиентом критерия каче- ства J 1) по и (i) при фиксированном (неварьируемом) значении х (0) и при условии удовлетворения уравнения (2.2.1), а V (0) = = дНЧдх (0) является градиентом J по х (0) при фиксированном (нёварьируемом) управлении и (г) и при условии удовлетворения того же уравнения. Если х (0) задано, то dx (0) = 0. Если J достигает экстремума, то для произвольного du (7) приращение dJ должно равняться нулю 2). Последнее будет иметь место лишь при условии -^- = 0, i = 0, ...,7V —1. (2.2.10) ди (i) ’ ’ ’ v ' Итак, для того чтобы определить последовательность значений вектора управления и (Z), которая соответствует стационарному значению критерия качества 1, необходимо решить следующую систему разностных уравнений: х (г +1) = /г [х (г), u(i)], (2.2.11) мН4)Г^+1)+[7Й)Г. <2-2-<2> !) См. примечание на стр. 59.— Прим, перее. 2) Здесь авторы неявно предполагают, что, поскольку на значения и (г) не наложены ограничения, экстремум достигается в стационарной точке кри- терия J, т. е. предполагается непрерывная дифференцируемость функций ф, Li по всем своим аргументам. Следует заметить, что условия дифференцируемости не оговариваются авторами на протяжении почти всей книги (за исключением нескольких разделов). Поэтому не все из приводимых результатов могут считаться дока- занными для самых общих случаев.— Прим, перее.
62 Глава 2 где вектор и (i) определяется путем нахождения стационарной точки функции Нг -^? = ^- + Xr(i + l)^- = 0, i = 0, ..., N-i. (2.2.13) ди (г) ди (г) 1 ' 1 ' ди (г) ’ ’ ’ ' ’ Граничные условия для уравнений (2.2.11) и (2.2.12) разделены, т. е. одни из них заданы в начальной точке (при i = 0), другие — в конечной точке (при i = N): ' х (0) задано, (2.2.14) х<Л,>=Ыж]''- <2-2Л5> Полученная задача называется двухточечной граничной задачей; решить ее иногда бывает весьма сложно даже при использовании быстродействующей вычислительной машины. Заметим, что раз- ностные уравнения (2.2.11) и (2.2.12) взаимосвязаны, так как и (i) связаны с Z (i) соотношением (2.2.13), а коэффициенты в (2.2.12) зависят, вообще говоря, от х (i) и и (i). Чтобы критерий качества J достигал локального минимума на некоторой последовательности и (i), должно не только выпол- няться условие дНг!ди (i) = 0, но дополнительно необходимо, чтобы выражение дифференциала второго порядка от J было неотрицательным при всех бесконечно малых значениях du (i) и при удовлетворении равенства (2.2.1). Таким образом, должно быть d~.I 0. Из соотношения (2.2.3) получаем N-1 d*J ± dxT (N) дх dx (7V) + 4- 2 [d^(i), dur(01X i=0 д*н1________________________д*Н1 дх (i) дх (i) дх (i) ди (i) Х д2Н1___________д*Н1 ди (i) дх (i) ди (i) ди (i) dx (i)l du (i) J (2.2.16) Значения величин dx (i) определяются через du (i) при дифферен- цировании уравнения (2.2.1): dx(i + i) = ~^^dx(i) + -^^du(i), dx(0) = 0. (2.2.17) Методы проверки выполнения этого критерия изложены в гл.6 (разд. 6.11). Пример. Линейная система уравнений с квадратичным крите- рием качества. Требуется найти последовательность значений вектора управления и (г), г — 0, . . ., N — 1, минимизирующую
Задачи оптимизации динамических систем 63 квадратичную форму J = (ту) A(N)x(N) + N-l + 2 [4 *T (О А ® х (0 + 4 (О В (0 U (i)] , (2.2.18) i=0 где A (i) и В (0 — заданные положительно определенные матрицы, при условии удовлетворения следующей системы линейных урав- нений.: х (г + 1) = Ф (0 х (i) + Г (0 и (0, х (0) задано. (2.2.19) Решение. Для этой задачи последовательность вспомогатель- ных функций Нг имеет вид Я* = 4 (0 А (0 (г) + 4 ит (0 В (0 и (0 + + Хт (i +1) [Ф (0 X (0 + Г (0 и (0], (2.2.20) где Хт (0 = (i +1) Ф (0 + хт (I) А (0, Кт (Я) = хт (Я) A (N). (2.2.21) Для стационарного значения Нг как функции и (0 должно выпол- няться условие (0 В (i) + Хг (i +1) Г (0 = 0, (2.2.22) откуда и (0 = - [В (0]Ч Гт (0 X (i +1). (2.2.23) Итак, получаем х (i +1) = Ф (0 ж(0 - Г (0 [В (0J-1 Гт (0 X (i +1), (2.2.24) Х(0 = Фг(0Х(1 + 1) + Л(0ж(0, i = 0, ..., Я-1, (2.2.25) со следующими граничными условиями: X (Я) = А (Я) х (Я), х (0) задано. Это взаимосвязанная система линейных разностных урав- нений с двухточечными краевыми условиями. Решая эту двух- точечную краевую задачу, получаем из (2.2.23) последователь- ность и (0, минимизирующую критерий качества. Задача 1. Показать, что полученная в предыдущем примере линейная двухточечная краевая задача может быть решена, если положить X (0 = S (i) х (0
64 Глава 2 и определить матрицу S (г) с помощью обратных рекуррентных соотношений S (j) = Фт (j) М (г +1) Ф (i) + A (г), М (г + 1) = [£-* (i + 1) + Г (г) ^(i) Гт(г)]-1, i = • ••, О, или M(i + i)^S(i + i)-S(i + i)r(i) [В(г) + гт(05(г + 1)Г(0Г гг(0 ^+1), где условие на правом конце для матрицы S (г) имеет вид S(N) = A(N). Определив из приведенных соотношений матрицу S (I), ,i — N — — 1, О, получим х (г + 1) = [Е — Г (j) В-1 (г) Гт (г) S (i + I)]-1 Ф(г) х (i), х(0) задано. Изложенный способ называется методом прогонки для решения линейной двухточечной краевой задачи. (Более подробно этот метод рассмотрен в разд. 6.10 и 6.11.) Задача 2. Поставленную в этом разделе задачу можно рассма- тривать как задачу оптимизации разд. 1.2, где х — вектор с ком- понентами х (1), . . ., х (ТУ), и — вектор с компонентами и (0), . . . . . ., и (N — 1), a f — вектор с компонентами х (1) — /°, х (2) — — Д . . ., х (N) — fN-1. Показать, что в этом случае общие необ- ходимые условия, полученные в разд. 1.2, сводятся к уравне- ниям (2.2.11) — (2.2.15). 2.3, Непрерывные системы; оптимизация на фиксированном интервале времени при отсутствии краевых условий на правом конце Задачи оптимального программирования управления и (£) для непрерывных систем относятся к задачам вариационного исчисле- ния. Их можно рассматривать как предельный случай задач оптимального программирования для дискретных многошаговых систем, когда интервал времени между шагами становится малым по сравнению с общим временем движения. В действительности, однако, в настоящее время чаще используется обратная процедура, когда для решения задач на ЭЦВМ непрерывные системы аппро- ксимируются дискретными многошаговыми системами. Рассмотрим систему, описываемую нелинейным векторным диф- ференциальным уравнением х = / [х (t), и (Z), Z], х (t0) задано, t0 < t Д tf. (2.3.1)
Задачи оптимизации динамических систем 65 Здесь х (t) — ге-мерпый вектор состояния, который определяется выбором zn-мерного вектора управления и (t). Введем скалярный критерий качества У = ф[ж(^), tf] + j L [х (t), u(t),t]dt. (2.3.2) «о Задача состоит в том, чтобы найти вектор-функцию и (t), миними- зирующую (или максимизирующую) J. Прибавим к выражению для J систему дифференциальных уравнений (2.3.1) с некоторым множителем X (£). В результате получим вспомогательный кри- терий качества 7= ф [*(*/), М+j[b[^(O, »(*), i]-+ to + ‘kT (t){f[x(t), u(t), t\ — x}^dt. (2.3.3) Для удобства введем вспомогательную скалярную функцию Н (гамильтониан) Н [х (t), и (t), X (0, d =L (x (t), и (t), 0 -j- № (t) f [x (t), и (t), <]. (2.3.4) Интегрируя по частям последнее слагаемое в правой части соот- ношения (2.3.3), получим J = ф [z (tf), /у] — (tf) х (tf) -I- (tQ) х (tQ) + + [ {ff[x(t), и (t), И + V(t)x(t)}dt. (2.3.5) to Рассмотрим теперь вариацию критерия качества J, соответствую- щую вариациям вектора управления и (t) (при фиксированных значениях t0 и tf): +)[(^-+Н6а;+4?-8и]Л- ' <2-3-е> io Чтобы не определять непосредственно вариации 8х (t), вызван- ные заданными вариациями 8и (t) (что было бы довольно громозд- ко), выберем множитель % (t) таким образом, чтобы коэффициенты 5—0102
66 Глава 2 при 8х (i), 8х (tf) в (2.3.6) обратились в нуль. Тогда с граничным условием <2-3-8> При таком выборе множителя Л(^) уравнение (2.3.6) примет вид Ч 8J = V (t0) 8х (t0) + j ^-8иdt. (2.3.9) Это выражение для 8J называется первой вариацией критерия качества J. Итак, V (t0) — это градиент критерия качества J г) по х (t0) при условии, что функция и (t) фиксирована [не варьи- руется, т. е. 8и (t) = 0] и удовлетворяет уравнению (2.3.1). Функция X (t) носит также название функции влия- ния на критерий J вариаций х (t) (или функции чувст- вительности критерия J к вариациям x(t)), поскольку она ука- зывает на изменение критерия при изменениях (вариациях) х (t) в произвольный момент t = t0- Компоненты вектор-функции дН/ди называются импульсными переходными (или весовыми) функциями, поскольку каждая компонента дШди} представляет собой изменение критерия J при вариации 8и} (t), равной единич- ной импульсной функции [функции Дирака 6 (т — Z)], приложен- ной в момент t. При этом величина х (t0) считается фиксированной и удовлетворяющей уравнению (2.3.1). Если J достигает экстремума, то 8J должно быть нулем для произвольных вариаций 8и (t); для этого необходимо, чтобы ^ = 0, (2.3.10) Уравнения (2.3.7), (2.3.8) и (2.3.10) известны в вариационном исчислении как уравнения Эйлера — Лагранжа. Итак, для того чтобы найти вектор управления и (t), при кото- ром критерий качества J достигает стационарного значения, нуж- но решить систему дифференциальных уравнений x = f(x, и, t), (2.3.11) где u(t) определяется из условия дН г, / \ Т л j / dL \ Т _ —— = 0, или -т— A-j-l-x—I =0. (2.3.13) ди \ ди J 1 \ ди ) ' 7 1) Поскольку J = У на решениях системы (2.3.1).— Прим, перее.
Задачи оптимизации динамических систем 67 Граничные условия для уравнений (2.3.11) и (2.3.12) разделены: одни из них заданы при t = tQ, другие — при t = tp. х (t0) задано, (2.3.14) ад=(т&Г- (2-315> Таким образом, здесь так же, как и при решении задач оптималь- ного программирования для дискретных многошаговых систем, мы сталкиваемся с двухточечной краевой задачей. Если функции L и / явно не зависят от времени t, то задача имеет первый интеграл. Действительно, H = Ht +Нх‘х + Ний+ kTf = = Hf HuuJr (Нх 4- X ) / = Нии. Если L и / (а следовательно, и Н) не являются явными функциями от t, a u(t}— оптимальное управление (т. е. условие дН/ди = 0 выполнено), то Я = 0 или Н = const (2.3.16) вдоль оптимальной траектории. Для того чтобы критерий качества J достигал локального минимума, недостаточно выполнения условия дН/ди = 0; необ- ходимо еще, чтобы слагаемое второго порядка 6V (вторая вариа- ция J) в выражении для dJ (при выполнении условия x—f (х, и, Z)== = 0) было неотрицательным для всех (бесконечно малых)1 значений 6н, т. е. бх" х7, dt>0 (2.3.17) Ч + -|- j [бхТ, бнг] дх2 дх ди д2Н д2Н при условии 8(х — /) = 0 или 4(&) = 46a:^SSw’ М«о) = О. (2.3.18) Уравнение (2.3.18) определяет 8х через 8и довольно сложным образом. Более подробно вторая вариация 82J рассмотрена в гл. 6. 5*
68 Глава 2 Пример 1 1). Принцип Гамильтона в аналитической механике. Согласно принципу Гамильтона, истинное (реально осуществляю- щееся) движение консервативной механической системы, перево- дящее ее из фиксированной в момент времени Zo точки q0 в другую заданную точку qj в течение заданного промежутка времени tf—tg, отличается от всех возможных (дозволяемых наложенными связя- ми) достаточно близких движений между указанными точками на том же интервале tf — t0 тем, что интеграл /== jZ/(w, д) dt (2.3 19) io ч имеет стационарное значение, т. е. 6 I =б}L(u, q) dt—Q. to Здесь L — T (и, q) — V (q) — лагранжиан системы, Т (и, q) — кинетическая энергия системы, V (q) — потенциальная энергия системы, (2.3.20) q — вектор обобщенных координат (вектор состояния системы), и = q — вектор обобщенной скорости. ' Выведем из принципа Гамильтона уравнения Лагранжа в об- общенных координатах. В принятых обозначениях гамильтониан задачи имеет вид H=L(u, q) +ХГи2). (2.3.21) Уравнения Эйлера — Лагранжа в этом случае таковы: Хт=~^-=---------(2.3.22) dq dq ' ' 4^- = -^ + XT = 0. (2.3.23) ди ди ' ' Отсюда (учитывая, что u=q, a Xr=—dL/ди——dL/dq) _£-4^- = 0. (2.3.24) dt dq I dq Это векторное уравнение Лагранжа, описывающее движение консервативной системы. Если L не зависит явно от времени, то система имеет первый интеграл Н — const, т. е. H — L — ^-u — T — V—w — const. (2.3.25) ди ди ' ' !) Формулировка примера 1 несколько уточнена.— Прим, перев. 2) В механике принято называть гамильтонианом выражение — L + + У.ти, а вектор 1 обычно обозначается через р, где р — вектор обобщенного импульса.
Задачи оптимизации динамических систем 69 Так как Т (и, q)— однородная квадратичная форма от и, то (по теореме Эйлера для однородных функций) справедливо соот- ношение ^и = 2Т. (2.3.26) Следовательно, —Н = Т + V = const. (2.3.27) Таким образом, сумма кинетической и потенциальной энергий в процессе движения системы остается постоянной. Пример 2. «Вариационный принцип» для неконсервативных механических системх). Действительное движение неконсерва- тивной механической системы между фиксированными состояния- ми q (t0) = q0, q (tf) = qf на фиксированном интервале времени [i0, tf] таково, что для него выполняется (при сравнении со всеми достаточно близкими возможными движениями между указанными точками) соотношение ч ч 6 j Т (и, q)dt Д- j QT (q) 8q dt = 0. (2.3.28) t) to Здесь q = u, 8q = 8u, Q (q)— вектор обобщенных сил. (2.3.29) Вектор Q (?) находится из условия, что работа, производимая этими обобщенными силами, определяется криволинейным инте- гралом (зависящим от траектории движения, вдоль которой про- изводится интегрирование) W= j QT(q)dq. (2.3.30) ?0 Второе слагаемое в выражении (2.3.28) является интегралом по времени от обобщенных сил Q на возможных перемещениях 8q (возможной работой). Заметим, что этот интеграл не равен Ч' § J Wdt2), что делает невозможным построение гамильтониана to *) См. К. Л а н ц о ш,Вариационные принципы механики, «Мир», 1966, гл. 5. (Приведенная ниже формулировка в виде условия (2.3.28) часто назы- вается принципом Гамильтона — Остроградского для неконсервативных систем. Строго говоря, эта формулировка не является вариационным прин- ципом. Однако в литературе по механике такое название встречается доволь- но часто.— Перев.) ~ 2) Для неконсервативных систем (в отличие от консервативных) указан- ный интеграл не может быть выражен через вариацию интеграла от какой- либо скалярной функции. Поэтому исходная формулировка [условие (2.3.28)]
70 Глава 2 Н для неконсервативных систем. Для вывода уравнений Лагранжа в этом случае можно, однако, поступить следующим образом. Добавим к уравнению (2.3.28) ограничение (2.3.29) с векторным множителем Лагранжа: Ч J + + Л + = (2.3.31) io Интегрируя это выражение по частям и учитывая, что 6g (t0) — = Sg (tf) = 0, получим J [(Sr + XT) ^+(^ + QT+hT)8q]dt = 0. (2.3.32) io Выберем, как обычно, вектор к (t) так, чтобы коэффициент при 6g обратился в нуль: ЬТ = (2-3.33) Поскольку вектор и произволен, то интеграл (2.3.32) может быть равен нулю только при условии Хг= (2.3.34) Исключая X из выражений (2.3.33) и (2.3.34) и учитывая соот- ношение g = и, получим векторное уравнение Лагранжа, описы- вающее движение неконсервативной механической системы: = • (2-3<35) oq 1 Пример 3. Форма носовой части сплошного тела вращения (без протока), обладающего минимальным сопротивлением в гипер- звуковом потоке * * * * * х). Сила Qp сопротивления давления, действую- щая на тело вращения в гиперзвуковом потоке при нулевом угле атаки, с достаточной точностью определяется выражением i Qp——2rtg j Cp(Q)rdr, ' (2.3.36) к=0 не сводится к обращению в нуль вариации какого-нибудь функционала и не является вариационной. В этом ее принципиальное отличие от форму- лировки принципа Гамильтона для консервативных систем (см. А. И. Лу- рье, Аналитическая механика, Физматгиз, 1961, разд. 12.2).— Прим, перев. х) Этот пример является первой решенной задачей вариационного исчис- ления; она была поставлена и решена Ньютоном в 1686 г.
Задачи оптимизации динамических систем 71 где q — рУ2/2—динамическое давление, х — расстояние от точки максимального радиуса тела вращения (от миделевого сечения), г — г(х)— радиус тела (ордината точки на верхней ветви профиля тела), =—tg0 (фиг. 2.3.1), (2.3.37) 9 — наклон образующей или местный угол атаки, J2sin29, 9>0 1 I 0, 9<0 J — местный коэффициент (2.3.38) сопротивления давле- ния (закон сопротив- ления Ньютона1), I — длина тела, г (0) = а — максимальный радиус тела. Фиг. 2.3.1. Схема и обозначения к за- даче о теле вращения с минимальным сопротивлением. Задача состоит в том, чтобы найти г (ж) (профиль тела вращения), минимизирующий Qp при заданных значениях q, I и а. Введем управляющую переменную и следующим образом: -u=-tg9 = -J (2.3.39) Чтобы учесть возможность наличия плоского затупления в но- совой части тела, перепишем выражение для Qp в виде (с уче- том (2.3.39)) j (2.3.40) о Гамильтониан системы Г*7/3 # = Т+^ + М~“)- (2-3.41) Г) Закон сопротивления (2.3.38), предложенный Ньютоном, оказался хорошим приближением для гиперзвуковых скоростей. В случае дозвуковых скоростей этот закон является слишком грубым.
72 Глава 2 и3 1--и2 ’ х=о. (2.3.42) (2.3.43) Уравнения Эйлера — Лагранжа имеют вид dX дН dx dr ОН__г и2 (3 -|- И2) ~дй ~ (1 + И2)2 В выражении (2.3.40) первое слагаемое правой части — функ- ция от г (Z). Согласно (2.3.8), оптимальное значение г (Z) должно быть таким, чтобы X (Z) = г (Z). (2.3.44) Так как значение г (0) = а задано, то X (0) не определено. Таким образом, система двух дифференциальных уравнений перво- го порядка (2.3.39) и (2.3.42) имеет два граничных условия: (2.3.44) и г (0) = а. Вместо того чтобы решать уравнение (2.3.43) для определе- ния и как функции от X, подставляя и (X) в (2.3.39) и (2.3.42) и интегрируя, можно использовать тот факт, что гамильтониан (2.3.41) не зависит явно от х, так что система имеет первый интеграл Н = const. Исключая X в выражениях (2.3.41) и (2.3.43), получим ff=-(TpS)2 = const- (2.3.45) Далее исключение X(Z) из формул (2.3.43) и (2.3.44) дает <2-3'46> Это соотношение удовлетворяется, если г (Z) = 0 или если и (Z) = +1 х). (2.3.47) Используя (2.3.47) и (2.3.45), получаем, что при х = I = (2.3.48) Теперь с помощью соотношений (2.3.45)’и^(2.3.48) можно опре- делить радиус тела как функцию коэффициента наклона и: . г . = (1 + ц2)а /О О 491 г (Z) 4иЗ • (2.3.4У) Далее из формул (2.3.37) и (2.3.39) следует, что dx 1 dr и х) Значение и (I) = —1 также удовлетворяет (2.3.46). Оно дает решение для симметричной относительно оси х нижней ветви профиля тела.— Прим, перев.
Задачи оптимизации динамических систем 7а ИЛИ 1 — х _ f 1 _d_ (1 + »а)а J r(Z) J и du 4иЗ 1 Это уравнение может быть проинтегрировано в функциях 1—х 1 / 3 . 1____7 I 1 \ г (?) 4 \4и4 'и2 4 а и ) ' (2.3.50) элементарных (2.3.51) Таким образом, уравнения (2.3.49) и (2.3.51) являются пара- метрическими уравнениями, определяющими оптимальный контур Фиг. 2.3.2. Контуры тел вращения с минимальным сопротивлением в сверх- звуковом потоке (для различных значений относительной толщины all). тела вращения. Радиус затупления г (Z) и коэффициент наклона н0 в точке х = 0 можно получить, решая трансцендентные уравнения а (1-М)2 г (?) 4и$ ’ Z 1 (JL_l J_____1—1 J_\ г (I) 4 \ 4wJ '"и2 4 П и0 ) ' (2.3.52) (2.3.53} На фиг. 2.3.2 показано несколько контуров оптимальных тел при заданном значении а и различных значениях I. Минимальное значение коэффициента сопротивления опреде- ляется выражением «о Схр - ~ (1 + Ь|)2 ( 3 + 10W0 + 17“0 + 2М0 + 4мо Ы ^) • Легко показать, что при a/Z->0 г 1'1— а:\3/4 С _____а > о (2.3.54) (2.3.55) (2.3.56)
74 Глава 2 2.4. Непрерывные системы; оптимизация при фиксированных значениях некоторых переменных состояния в заданный конечный момент времени Предположим, что в задаче оптимизации, рассмотренной в разд. 2.3, некоторые компоненты вектора состояния х (i) должны принимать заранее заданные значения при t = tf (такие краевые условия называются иногда терминальными). Тогда выводы разд. 2.3 остаются справедливыми вплоть до уравнения (2.3.7) включительно. Дальше ход рассуждений иной. Так, если xt (i-я компонента вектора х) задана при t = tf, то значение допусти- мой вариации 8xt (tf) в выражении (2.3.6) равно нулю, 8xt (tf) = 0. Таким образом, в этом случае условие [(дф/дх^ — №] t=t = 0 уже не является необходимым. По существу это краевое условие заменяется теперь другим: xt (tf) задано; следовательно, и в этом случае имеется 2п’ граничных условий для задачи (2.3.11) — (2.3.15). Аналогично если величина xh не задана в начальный момент времени t = t0, то отсюда уже не следует равенство 8xh (ta) = 0. В этом случае для xh (<0) существует оптимальное значение х* (ta), такое, что 8J = 0 для произвольных малых вариаций 8xh (ta) от значения xh (t0). Чтобы условие 8J = 0 выполнялось, выберем К («о) = 0. (2.4.1) Такой выбор Хь (t0) означает, что влияние малых изменений вели- чины xk (ta) на значение J равно нулю. И в этом случае одно гра- ничное условие — xk (ta) задано — заменяется другим, а именно условием (2.4.1). Условия типа (2.4.1) называются иногда «есте- ственными граничными условиями». Указанными различиями в формировании граничных условий и отличаются задачи разд. 2.3 от задач данного раздела. Однако для задач оптимизации с фиксированными значениями фазовых координат в конечный момент времени tf необходимость условия (2.3.13), дН/ди = 0, требует дополнительного подтверж- дения. При выводе этого условия в разд. 2.3 предполагалось, что вариации 8и (t), t0 t tf, являются произвольными. В рассма- триваемой задаче величины би(£) уже не являются полностью произвольными; допустимые значения 8и (t) подчинены ограни- чениям 8х{ (tf) = 0, i = 1, . . ., q (2.4.2) (q — число фазовых координат, заданных при t = tf). Таким образом, по определению допустимые вариации 8и (t) в общем
Задачи оптимизации динамических систем 75 случае должны удовлетворять всем условиям задачи, в том числе и ограничениям (2.4.2). В данном случае тем не менее возможно определить функции влияния для критерия качества J точно так же, как это было сде- лано в разд. 2.3; будем отмечать их в данном разделе верхним ин- дексом J. Однако поскольку xt (tf) заданы для i = 1, . . ., q, то справедливо считать член ф, не стоящий под знаком ин- теграла критерия качества, функцией лишь остальных (tf), i = q 4- 1, . . ., n, т. e. ф = ф [Xq+f, . . ., (2.4.3) Тогда с помощью формул (2.3.7) и (2.3.9) получаем [для 8х (t0) = = 0] 67 = J [ё+О6u(f) dt' (2А4) to где <2.4.5) г 0, 7 = 1, .. ., q, ы = IШ , /=’+*.............» <2-4-6) Предположим, что вместо J — ф [х (7))] + L (х, и, t) dt кри- to терий качества задан в виде J = xt (tf) , т. е. равен i-й компоненте вектора состояния в конечный момент времени tf. Функции влия- ния для xt (tf) можно определить с помощью приведенных выше соотношений, если положить ф = xt (tf) и L (х, и, t) — 0. Будем отмечать такие функции влияния верхним индексом i. Аналогич- но уравнениям (2.4.4), (2.4.5) и (2.4.6) получим tf 8x{(tf)=^ (kw)T^L8u(t)dt, (2.4.7) to где k(i) = -(-g-)7^), (2.4.8) ГО, г #= j, M (M= 4 , (2.4.9) ‘ (1, г — J, / = 1, ..., п. v ’ Разумеется, в действительности следует определить q различных систем таких функций влияния для всех i — 1, . . ., q (см. при- ложение АЗ).
76 Глава 2 Предположим теперь, что вектор управления и (t), при котором система удовлетворяет заданным граничным условиям, каким-либо образом определен. Тогда можно построить такие функции вре- мени 8и (t), которые уменьшают J (т. е. соответствующие им зна- чения 8J < 0) и удовлетворяют q ограничениям (2.4.2), заданным в конечный момент времени tf. Для этого умножим каждое из q уравнений (2.4.7) на некоторую константу Vj и прибавим полу- ченные соотношения к выражению для 8J; в результате получим ч *f ? 6J+2 + (2.4.10) i=l to i=l Выберем теперь '’-И+О1'}- <2ЛЛ1> i=l где к — положительная скалярная величина. Подставим это вы- ражение в (2.4.10), тогда ч 8J + 2 = г=1 =-4 in (^)г (awi+з+от *< °- <2лл2> to ;=1 Это выражение строго отрицательно, если подынтегральное выра-' жение не обращается тождественно в нуль на всем интервале интегрирования. Определим теперь значения так, чтобы удовлетворялись краевые условия (2.4.2) при t = tf. Подставляя (2.4.11) в соот- ношения (2.4.7) для каждого г, г = 1, 2, . . ., q, получим 9 q (У - - Ч (I) V" + 3 ’А'») + (» ей = 0, *о J=1 ИЛИ
Задачи оптимизации динамических систем 77 •Полученные соотношения являются системой линейных алгебраи- ческих уравнений относительно V; 2 Qnvi + Si = Or j=i или в векторной форме Qv + g = 0. Целесообразно теперь выбрать vj следующим образом: v ~ —Q~xg- (2.4.13) Здесь Q — квадратная матрица размерности (q X q)', g — ^-мерный вектор. Их элементы определяются соотношениями Ч Qti=^(^)TfufTu^dt, i, j—1,.... q, (2.4.14) to /-1, (2.4.15) to Существование обратной матрицы Q~z является условием управляе- мости системы (см. приложения Б1, Б2 и разд. 5.3). Если Q~l не существует, то невозможно найти вариацию би (Z), с помощью которой можно было бы перевести систему в состояние, удовлетво- ряющее всем q заданным краевым условиям при t = tf одновре- менно (т. е. найдется по крайней мере одно, а может быть, и нес- колько из q краевых условий, которые удовлетворить в данной задаче невозможно). Итак, построена функция времени 6u (Z), уменьшающая зна- чение критерия качества и удовлетворяющая терминальным огра- ничениям (2.4.2); другими словами, вариация би (t) является допу- стимой и улучшающей (в смысле изменения критерия качества). Из соотношения (2.4.12) вытекает, что единственное условие, при удовлетворении которого дальнейшее уменьшение критерия каче- ства уже невозможно, состоит в следующем: ч + g. = 0, (2.4.16) J=1 Если это условие выполняется, то полученное решение стацио- нарное и удовлетворяет заданным ограничениям в конечный момент временй tf. Так как уравнения для функций влияния (2.4.5), (2.4.6), (2.4.8) и (2.4.9) линейны, то необходимое условие (2.4.16)
78 Глава 2 может быть записано в виде ^ = 0, (2.4.17) ди ’ ' ' где H — L(x, и, t) + (Z) f (х, и, t) (2.4.18) и fVy, у = V = -Hx = < дФ\ . ,, (2.4.19), / = « + !. •.» Метод получения необходимых условий оптимальности, изложен- ный в данном разделе, составляет основу современного подхода к вариационным задачам. В зтом подходе можно указать два клю- чевых момента. Сначала находится выражение для вариации кри- терия качества 8J = J Ни (t) 8и (t) dt, где Ни = (2.4.20) to а гамильтониан Н определяется с помощью функций Л (t) и мно- жителей Vj. Затем доказывается, что если Ни (t) не равно тож- дественно нулю, то всегда можно (в предположении выполнимости условий управляемости, т. е. существования (У1) выбрать такие значения Vj, при которых вариация управления 8и (Z), определен- ная формулой (2.4.11), оказывается допустимой и улучшающей критерий качества J х). Вектор-функцию Ни можно интерпретировать как градиент (в функциональном пространстве) критерия качества J по отно- шению к переменной управления и (t) при условии, что конечные значения величин х,, i = 1, . . ., q, остаются фиксированными и удовлетворяется система дифференциальных уравнений. Пример. Максимизация скорости в конце участка выведения на прямолинейную траекторию. Рассмотрим материальную точку с массой т, находящуюся под действием силы тяги Р = та. Будем считать движение плоским, введем инерциальную систему координат Оху, компоненты скорости материальной точки обо- значим через и, V. Угол направления тяги'б’(г) (фиг. 2.4.1) с осью х для данной системы является управляющей функцией. Движение х) Это доказательство необходимости условия (2.4.17), основанное на рас- смотрении лишь членов первого порядка (первой вариации J), соответствует целям данного раздела. Более строгое доказательство, рассматривающее члены второго порядка (вторую вариацию), дано в разд. 6.3, где показано, что в действительности необходимо удовлетворение требованию «нормально- сти», а не «управляемости».
Задачи оптимизации динамических систем 79 точки описывается следующими уравнениями: и — a cos О, v = a sin О, х = и У = v. Здесь реактивное ускорение а по предположению является извест- ной функцией времени. Уравнения для функций влияния Л в этом Фиг. 2.4.1. Схема плоского движения под действием реактивного ускорения а. примере особенно просты: х„ = —хж, х„ =» —ху, хж = о, Ху = о. Эти уравнения легко интегрируются: Хц c^t + Cg, Ху c2t —|- с4, Хж с4, Ху с21 здесь с4, с2, с3, с4 — постоянные величины. Если нужно оптими- зировать функцию, зависящую только от конечных условий, то- L = 0 и гамильтониан Н системы имеет вид Н = Хца cos О + Х„а sin О + Хжн + ХуР. Гамильтониан оказывается постоянной величиной на оптималь- ной траектории, если а постоянно. Условие оптимальности в этом примере имеет вид = — Хц sin О’ + Хо cos 0 = 0. Таким образом, оптимальное управление направлением силы тяги^определяется соотношением tgO = b- = —-2;фС1, которое часто называется законом дробнолинейного тангенса. Пусть за заданное время Т необходимо переместить точку на траекторию, параллельную оси х и отстоящую от нее на рас- стояние h, так, чтобы достигалось максимальное значение и (Т). При этом предполагается, что конечное значение координаты аг не представляет интереса (т. е. х (Т) свободно и, следовательног
80 Глава 2 8х (Г) =Р 0) (фиг. 2.4.2). Таким образом, граничные условия для этой задачи имеют вид и (0) = 0, k(D = i, г>(0) = 0, v (Г) = 0, К (Г) = Vv, * (0) = 0,. (Л = о, у(0) = 0, У (Л = h, (Л = vy Здесь vD и vy — постоянные величины, определяемые из условий v (Т) = 0, у (Т) = h. Так как = 0, то = 1 вдоль всей траектории, и поэтому оптимальная программа управления становится законом линей- ного тангенса tg О’ = tg О-о — ct, где tg О0 = v„ + vvT, с = vv. В случае постоянного реактивного ускорения {а = const) диффе- ренциальные уравнения движения можно легко проинтегрировать Ф п г. 2.4.2. Схема перелета на заданную прямолинейную траекторию. при управлении по закону линейного тангенса, если вместо неза- висимой переменной t использовать угол О’. Тогда получим _ а_ , tg fro 4-sec fr0 u c tg fr -j- sec fr ’ v = -2- (sec O'o — sec O’), a I n n . n, tgfro4-sec fr0\ = 7Г (sec a0-sec a-tg a In , у ~ [ (tg O’o — tg O') sec O0 — (sec O0 — sec O’) tg O’ — i tgfro-|~secfro~i tg fr + sec fr J * Величины O0 и 'С (и, следовательно, vy и vB) определяются из двух граничных условий v (Т) = 0, у (Г) — h Эти неявные
Задачи оптимизации динамических систем 81 соотношения можно представить в виде 1 ln sec »o + tg^o/9^2 д аТ2 sin ©о sec ©о — tg «•<,/ g °’ 2 tg f)'o . a, . л / Л 2t \ с = —откуда tgO=-tgOo^l-------------—j. Очевидно, безразмерная величина hlaT2 определяет Фр, по которой можно затем определить с. Максимальная величина скорости Фиг. 2.4.3. Программы управ- ления углом тяги ft (t/T) для перелета на прямолинейную траекторию с максимальным значением горизонтальной ско- рости и (Г) в конце полета. и (^)макс __%xt __ j аТ ~~ аТ2 Фиг. 2.4.4. Зависимость максималь- ной конечной скорости wMaKC от на- чального угла тяги f>o и зависи- мость от безразмерной высоты выведения ihJaT2. х(Т) находятся из уравнения secflp-1-tg ftp, sec ftp —tg Фр/ * Эти соотношения графически представлены на фиг. 2.4.3 и 2.4.4. Отметим Ьще, что 2t « v0=— tg^0, = 6-0102
82 Глава 2 Задача 1. Рассмотрим следующую аппроксимацию программы оптимального управления направлением тяги (для предыдущего примера): -On т 0<z<4-, — <Zt<T 2 ’ здесь ft! = const. Заметим, что такая программа дает v (Т) — 0. Требуется найти такое чтобы у (Т) — h, и определить u (Г) и х (Т). Сравните полученное значение и (Т) с нмакс в предыдущем примере для заданного hlaT2. Ответ. sinfl1 = ^, и (Г) = аТ cos^On х (Т) = 1 аТ* cos Задача 2. Определение траектории полета самолета, ограни- чивающей максимальную площадь, при наличии ветра1). Самолет имеет постоянную скорость V относительно воздуха, скорость У Фиг. 2.4.5. Траектория полета само- лета, охватывающая за заданное время максимальную площадь при наличии ветра. ветра и тоже постоянна. Найти замкнутую кривую — проекцию траектории полета на земную поверхность, чтобы заключенная внутри кривой площадь была максимальной. Время полета Т задано. Движение самолета в горизонтальной плоскости Оху описы- вается уравнениями х = V cos ф 4- и, у = V sin ф, если ось х выбирается так, чтобы ее направление совпадало с на- правлением скорости ветра и (фиг. 2.4.5). Здесь ф — угол курса 1) Задача С. А. Чаплыгина. —Прим, перев.
Задачи оптимизации динамических систем 83 (управляющая переменная). При полете самолета по замкнутой кривой площадь, ограниченная этой кривой, определяется соот- ношением ух dt. Ответ. Искомая замкнутая кривая является эллипсом с экс- центриситетом e = u/V, малая ось эллипса параллельна скорости ветра и, величина максимальной площади при этом А 72^2 / „2 ч 3/2 4л (1 “ 72 / Задача 3. Определение минимальной поверхности вращения, связывающей два соосных круговых контура. Даны два соосных кру- говых контура одинакового радиуса а на расстоянии 21 друг от дру- га. Найти поверхность вращения, связывающую эти два контура Фиг. 2.4.6. Поверхность вращения минималь- ной площади, связывающая два соосных круго- вых контура. и имеющую минимальную площадь (эту форму примет поверх- ность мыльной пленки, натянутой между двумя кольцами). Указание. Следует рассмотреть цилиндрические координаты г, х, как показано на фиг. 2.4.6. Площадь элемента кольцевой по- верхности равна dA = 2лг У (dr)2 (dx)2. Таким образом, задача состоит в определении функции и(х), минимизирующей интеграл i А=2п § rj/l-j-iz2 dx-, -i здесь dr ~^ = и, краевые условия r(l) = a, r( — l) — a. 6*
Глава 2 Ответ. Для 0 <Z/a< 0,528 минимизирующая кривая задается уравнением r = #ch-^-, fi где величина НИ определяется из решения трансцендентного урав- нения (a/Z) (Z/Я) = ch НН (фиг. 2.4.7). Это уравнение имеет два решения при 0 < Па < 0,663 и пе имеет решений при На > 0,663. Для На >0,528 минимизирующая кривая описывается урав- нением г = 0, т. е. поверхность распадается на два диска, каждый Фиг. 2.4.7. Решение задачи о поверхности вращения минимальной площади. из которых имеет площадь ла2. Минимальная площадь в зависи- мости от величины На определяется следующим соотношением: Г 2ла2 -|--Х- sh2 , р < 1/а <. 0,528, д \ н н и / ЛМИН — } I 2ла2, На >0,528. Задача 4. Найти минимальную поверхность вращения, свя- зывающую два соосных круговых контура, находящихся на рас- стоянии I друг от друга, радиус одного из них равен а, а другого Ь < а. Показать, что для каждой заданной величины отношения bla существует предельное значение (Z/a)MHH> такое, что при На > >(Z/a)MIIH минимальная поверхность описывается уравнением г — 0, т. е. решением являются два плоских диска, ограниченных круго- выми контурами. 2.5. Непрерывные системы; оптимизация при заданных в фиксированный конечный момент времени значениях функций от фазовых координат В некоторых задачах представляет интерес сохранение заданных значений некоторых функций от конечного (терминального) со- стояния системы в заданный конечный момент времени, т. е. долж-
Задачи оптимизации динамических"'систем ' .85 но быть ф 1ж (0, ^t=ty = Ф I# (tf), tf] = 0 (q уравнений). (2.5.1) Здесь ф — (/-мерный вектор, причем q п — 1, если L = О, и q п, если Z =/= 0. Как и в предыдущих разделах, присоединим систему (2.5.1) к критерию качества, предварительно умножив ее на (/-мерный вектор v; кроме того, с помощью приема, описанного в разд. 2.3, присоединим к критерию и систему уравнений х = / (х, и, t). В результате получим J = 4>(x(tf), tf] + vT^[x{tf), J {L.[x(t), u(t), t] + Kr (j — x)}dt. to (2.5.2) Если определить функцию Ф как Ф = ф -j-угф, (2.5.3) то дальнейшие рассуждения и выкладки разд. 2.3 применимы без изменений и в данном случае. Однако окончательные выражения для необходимых условий стационарности функционала J при удовлетворении (2.5.1) должны быть истолкованы подобно тому, как это сделано в разд. 2.4; т. е. в данном случае имеется набор параметров vf, i = 1, . . ., q, которые следует выбрать так, чтобы удовлетворялись q уравнений (2.5.1)1). Необходимые условия стационарности J имеют вид x = f(x, и, t) (п дифференциальных уравнений), (2.5.4) Л =— \~d-z:/ Л—\"7Г/ (и Дифференциальных уравнении), (2.5.5) I дН \ т / df \ т < dL к т / = 1-^-1 (т алгеораических уравнении), (2.5.6) (tn) задано или Xfe(£o) = O, k = l, . .., п (п начальных условий), - (2.5.7) (-|7 + ,'’Г4г)<=( (« граничных условий), (2.5.8) ф [х (tf), tf] = 0 (q дополнительных условий). (2.5.9) Условия стационарности (2.5.6) определяют m-мерный вектор и (t). Система 2п дифференциальных уравнений (2.5.4) и (2.5.5) с 2п граничными условиями (2.5.7) и (2.5.8) описывает двухто- г) Аналогично тому, как это сделано в разд. 2.4, относительно вариаций ои (4) должны быть рассмотрены условия управляемости, необходимые для Удовлетворения (2.5.6). [См. текст после формулы (2.4.15).— Перев.]
86 Глава 2 чечную краевую задачу с q параметрами v, которые должны быть найдены из (2.5.8) так, чтобы были удовлетворены q дополнитель- ных условий (2.5.9). Пример. Оптимальная траектория перелета на круговую орбиту максимального радиуса за заданное время. Найти программу управ- ления направлением •О' (£) вектора тяги ракеты для перелета Фиг. 2.5.1. Перелет на орбиту максимального радиуса за заданное время (или перелет на орбиту заданного, радиуса за минимальное время). с заданной начальной круговой орбиты на круговую орбиту макси- мально возможного радиуса. Ракетный двигатель развивает по- стоянную тягу Р, величина которой известна; время работы дви- гателя tf задано. Схема перелета показана на фиг. 2.5.1, где вве дены следующие обозначения: г — радиальное расстояние космического корабля от центра притяжения, и — радиальная компонента скорости, v — тангенциальная компонента скорости, т — масса космического корабля, т = const — массовый расход топлива (величина постоянная), •О' — угол направления тяги, п — гравитационная постоянная притягивающего центра. Используя приведенные обозначения, можно сформулировать задачу следующим образом: найти функцию О (t). максимизирую- щую г (tf) при удовлетворении связей г— и, • ц2 и, р sin & и—г----------------г- 7П0—| т | t • uv , Р cos & р=--------------— , niQ — | m[t (2,5.10) (2.5.11) (2.5.12)
Задачи оптимизации динамических систем 87 и граничных условиях г(О) = го, (2.5.13) и(0) = 0, (2.5.14) ”(°) = /^. (2.5.15) ip1 = u(Z/) = O, (2.5.16) ^ = 1,^) —= (2.5.17) Запишем выражения для гамильтониана Н ТТ л , « / г2 р . Р sin О' \ . « I UV . Р cos О \ я=м+^и —--------------=—+Н —г~1--------~ \ т0—I т 11/ к то — | т | t! и функции Ф O = r(^) + V!U (^)+v2[v (tf)-)/ Общие необходимые условия (2.5.5), (2.5.6) и (2.5.9) для этого примера имеют следующий вид: кг=-Ц—' (2.5.18) Xu=-Xr + XDy, (2.5.19) kD=(2.5.20) то — I т | t ° Xr(Zy) = lH---V2 ...., (2.5.22) Xu(Z/) = v1, (2.5.23) ^o(M=v2' (2.5.24) Шесть дифференциальных уравнений (2.5.10), (2.5.11), (2.5.12), (2.5.18), (2.5.19) и (2.5.20) должны решаться с учетом шести крае- вых условий (2.5.13), (2.5.14), (2.5.15), (2.5.22), (2.5.23) и (2.5.24); при этом Vt и v2 выбираются так, чтобы удовлетворялись два до- полнительных граничных условия (2.5.16) и (2.5.17). Управляю- щая функция О (t) определяется через Ки и из выражения (2.5.21). Численное решение этой задачи для Р/тр рМ 0,1405, 1^1 о 5зз _ tf— = з 32 р - Угзщ
88 Глава 2 получено Коппом и Макгиллом (см. [6.8]). Если вес космического корабля, покидающего земную орбиту, составляет 4,5 т, то тяга должна быть ~0,4 кГ, расход топлива ~5,85 кПсутки, время Фиг. 2.5.2. Одна из минимальных по времени траекторий межорбитального перелета космического корабля с двигателем малой тяги. Постоянная тяга Р = 0,385 кГ = const, начальный вес космического корабля 4,5 т, расход топлива] 5,85 кГ/сутки,^ время перелета 1у = 193 суток, направление тяги показано через каждые 19,3 суток. перелета -—-'193 суток. Оптимальное направление тяги и результи- рующая траектория показаны на фиг. 2.5.2. Интересно заметить, что приблизительно первую половину пути тяга направлена от • Солнца, а вторую половину пути — к Солнцу. 2.6» Дискретные многошаговые системы; оптимизация при заданных значениях функции от фазовых координат на терминальном шаге Дискретные многошаговые системы, помимо их самостоятель- ного значения, особенно важны вследствие использования цифро- вых вычислительных машин для решения непрерывных задач. Для численного решения на цифровой вычислительной машине задач непрерывной оптимизации, сформулированных в разд. 2.3— 2.5, необходимо их свести к задачам многошаговой оптимизации. Правильная постановка таких задач оказывает существенное влияние на скорость сходимости итерационных процедур числен- ного решения. Сформулируем теперь рассмотренную в разд. 2.5 задачу как многошаговую. Она отличается от задачи разд. 2.2 только добав- лением ограничений на фазовые координаты в конечный момент времени. Требуется найти последовательность и (0), . . ., и (N — — 1), минимизирующую критерий качества N-1 J = $[Z(1V)]+ % u(i)] (2.6.1) i=0
Задачи оптимизации динамических систем 89 при наличии ограничений х (г + 1) = /* [х (ъ)Ги (t)I, (2.6.2) ф [ж(ЛГ)1 = 0;' (2.6.3) здесь а: — и-мерный вектор, и — m-мерный вектор, ф — вектор- функция размерности q, q п. Так же как и в разд. 2.2, прибавим к выражению для J урав- нения (2.6.2) с множителем X (i) и дополнительно уравнения (2.6.3) с множителями (vj, . . ., vg) Avr: J — ф [x (N)] [x (TV)] + S {£*[*(0. “(01 + ^TG + 1)[f k(0, “(01 -*(* + !)]}• (2.6.4) i=0 Для удобства введем скалярную последовательность Нг и ска- лярную функцию Ф Н1 = L1 [х (j), и (i)l + V (i + 1) /г [х (i), и (i)l (i = 0, 1, . . ., N - 1), (2.6.5) Ф = ф [х (N)] + угф [х (N)]. (2.6.6) Изменив теперь индексы суммирования в последнем слагаемом выражения (2.6.4), получим _ N-1 / = Фк(ЛГ)]-Хт(Л0ж(ЛГ)4- 3 (i)x(i)]+H°. (2.6.7) i=l Рассмотрим дифференциальное приращение величины J, соот- ветствующее дифференциальным приращениям последовательности значений координат вектора управления и (i) + 3 {[^j-и}+ i=l <2-68) Коэффициенты при dx(i) (i = 0, .. ., n) обратятся в нуль, если выбрать векторную последовательность множителей X (i) из условий ^)-£дГ0’ (2-6-9) или lT<i> = EV) + V'<i + 1)sV). i~°......«-Г <2-S.9a)
90 Глава 2 при граничных условиях = (2-6Л°) или VGV) = ——Uvr-..-^ . (2.6.10а) V ' дх(Щ' dx(N) ' 7 При таком выборе множителя X(Z) уравнение (2.6.8) примет вид 7V-1 dJ=%T (0)^(0)+ 2 Sdw(0- (2.6.И) i=0 Таким образом, дН1!ди (i) — градиент критерия качества J по и (г) при условии х (0) = const и выполнении ограничений (2.6.2), а (0) — градиент J по х (0) при условии и (i) = const (не варьируется) и выполнении тех же ограничений. Если х (0) зада- но, то dx (0) = 0. Чтобы значение J было стационарным, необходимо, чтобы для всех допустимых du (i) соответствующее приращение dJ равня; лось нулю. Пусть управление и (i) неограничено, функция Н1 дифференцируема по и (г) и задача «нормальна»1). В этом случае для того, чтобы величина J принимала стационарное значение, необходимо выполнение условия = 0 (2.6.12) ди (г) ' ' ИЛИ (i +1)Дг = 0, i = 0, ..., АГ-1. (2.6.12а) ди (г) 1 ' 1 ' ди (г) ’ ’ ’ х ' Итак, для того чтобы определить последовательность векто- ров управления и (i), которая приводит к стационарному значе- нию критерия качества J, нужно решить двухточечную краевую задачу, описываемую уравнениями (2.6.2), (2.6.3), (2.6.9), (2.6.10), (2.6.12). Эта система содержит (2га -}- m) N + га + q уравнений с (2га + 4- m) N + га -}- q неизвестными: х (0), . . ., х (N) (где х — га- мерный вектор); и (0), . . ., и (N — 1) (где га — raz-мерный вектор); X (0), . . ., A, (N) (где X — га-мерный вектор) и v (где v — (/-мер- ный вектор). Чтобы решить уравнения (2.6.2) и (2.6.9а) последовательно слева направо, используя (2.6.12а) для определения и (i), необ- ходимо выразить К (i + 1) из (2.6.9а) через К (i) и х (j): + (2.8.13) х) Условие «нормальности» связано с существованием соседних оптималь- ных траекторий; см. по этому поводу разд. 5.3 и 6.3.
Задачи оптимизации динамических систем 91 Обратная матрица для др'дх (i) существует, поскольку она по су- ществу является линеаризованной переходной матрицей 1); однако вычисление такой обратной матрицы занимает значительное вре- мя 2). С другой стороны, последовательное решение задачи справа налево не окажется более простым, так как уравнения (2.6.2), (2.6.9а) и (2.6.12а) следовало бы в этом случае рассматривать как систему неявных уравнений для определения х (i), А (0 и и (i) по известным значениям х (I + 1), А (I -}- 1), и (i + !)• 2.7 Непрерывные системы; оптимизация при заданных значениях некоторых фазовых координат в неопределенный момент окончания процесса. Задачи оптимального быстродействия Задачи, рассматриваемые в этом разделе, почти совпадают с за- дачами разд. 2.4; однако важное их отличие состоит в том, что время tf окончания процесса движения не задано. Целесообразно считать в этом случае tf некоторым параметром, который должен быть выбран в дополнение к управляющей функции и (Z) таким образом, чтобы минимизировать критерий качества и удовлетво- рить ограничениям. Покажем, что здесь имеют место те же необ- ходимые условия, что и в разд. 2.4; но, кроме этого, путем опти- мального выбора tf должно быть удовлетворено дополнительное условие (^.+ Лт/+М =0 \ dt 1 1 1 )t=tf Так же как в разд. 2.3, прибавим к исходному критерию качества систему дифференциальных уравнений (2.3.1), умноженную на вектор A (t): tf J = </> [х (tf), ZJ-}- J [L(x, u, t)-\-KT (t) f (x, u, t)-kTx] dt. (2.7.1) to Приращение J, возникающее при вариации управления и (t) и при- ращении значения конечного времени tf, имеет вид dd~ (~^~dtt + -^rdx)t=l/+(L)t=ttdti + + [ (-Й- + Л. (2.7.2) to *) См. приложение A3. 2) Имеются алгоритмы численного решения рассматриваемой задачи, не связанные с вычислением указанной обратной матрицы. Один из таких алгоритмов изложен в разд. 7.7.
92 Глава 2 Интегрируя это выражение по частям и группируя нужные члены, получаем +L) dtf+dx]t=tf - + +У с (^+1Г<+н&+(^+«) s“]<2-7:з> <0 Здесь величина 6ж — вариация вектора х при фиксированном Фиг. 2.7.1. Соотношение между dx (tf), &х (tf) и dtf. значении времени t. Тогда полное приращение вектора х в конеч- ный момент времени tf имеет вид (фиг. 2.7.1) * *) dx (tf) = 6ж (tf) + х (tf) dtf. (2.7A) *) Строго говоря, для вывода соотношения (2.7.4) одной только ссылки на фиг. 2.7.1 недостаточно. Если обозначить через х (t) номинальную, а через хс (t) соседнюю траектории, то из рисунка лишь следует, что dx (tf) = хс (tf + dtf) — х (tf) = бх (tf) + xc (tf) dtf + 0 (dtj), где по определению бх (tf) = xc (tf) — x (tf), aO (dtj) — члены порядка выше • • • первого. Поскольку бх (t) = хс (t) — х (t), то dx (tf) = Ъх (tf) + х (tf) dtf + бх (tf) dtf -j- 0 (dtj). В данном разделе авторы рассматривают (нигде, впрочем, не оговаривая) лишь слабые вариации (разд. 6.9) бх (t). Поэтому величина бх (tf) является малой и произведением бх dtf можно пренебречь как величиной второго порядка малости. Таким образом, получаем в итоге соотношение (2.7.4) dx (tf) = бх (tf) -|- х (tf) dtf, где x (tf) вычисляется на номинальной траектории [что и необходимо для использования (2.7.4) в выражении (2.7.3)].— Прим, перев.
Задачи оптимизации динамических систем 93 Отсюда’бж (tf) — dx (tf) — х (tf) dtf, подставив это выражение для бх (tf) в (2.7.3), получим <U=[(-^- + L + Xri) <U,+ (^— V) +? [(т+^+П to+O+iT^)«“] Л- <2-7-5) *0 Так же как в разд. 2.4, будем считать, что Xf (tf) заданы (i = 1, . . ., q). (2.7.6) Тогда функцию ф можно считать зависящей только от незаданных фазовых координат, т. е. ф = ф [xf (tf), tf], j = q + 1, . . ., n. (2.7.7) Выберем теперь функции X (t) ss X<J>(£) так, чтобы коэффициенты при бх (t) и при dx (tf) в (2.7.5) обратились в нуль; (2.7.8) ( 0, 7 = 4....S, Выражение (2.7.5) для dJ (и, следовательно, для dJ1)) при таком выборе X(t) упрощается: 7/ <^5 J 3J = и = ( «2 + L + )1=</й, + J { > + (l< V £} Su it, (2.7.10) где величина бх (t0) считается равной нулю, так как х (t0) задано. Теперь, как и в разд. 2.4, рассмотрим приращение координаты х, (tf), i = 1, . . ., q, соответствующее произвольной вариации би (t). Используя метод функций влияния (функций чувствитель- ности, сопряженных функций) (см. приложение АЗ), получим tf dxi (tf) = [/г](=(/ dtf + j [X<{> (t)f-^ Su dt, (2.7.11) to J) Если x удовлетворяет системе (2.3.1).— Прим, перев.
94 Глава 2 где Х<‘> = — \ дх ) ’ ^(^{о, ijj. (2.7.12) (2.7.13) Заметим, что уравнение (2.7.11) можно считать частным случаем уравнения (2.7.10), если положить ф д Tt (tf) и L== 0. Построим теперь функцию времени 8и (t) и выберем значении dtf так, чтобы приращение dJ было отрицательным и удовлетворя- лись условия dxt (tf) =0, t = 1, . . ., q. Умножим каждое из q уравнений (2.7.11) на неопределенный постоянный множитель Vj и прибавим полученные выражения к (2.7.10); тогда dJ+ 2vi^(^)={^- + L + (X(V/+Svi/<}(=( dtf + i=l i=l f 4 9 +1 [>+ K’ + 2 ’A“’)T (2-7-14> to i=l Величины dtf и 8u выберем следующим образом: dtf^-k^+L^^f , (2.7.15) i=l f q а»"-Ч(#)г+ШГГ’+2^')]; (2.7.Ю здесь kt и k2— положительные числа. Подставляя теперь эти величины в (2.7.14), получим dJ + 2 dxt (tf) = - kf || + L + (k{J})T f + 2 vtfi ||2 - i=l i=l -fe J ||^+ (1<л + 2 T|)2 Л<°- <2-7Л7> to i==1 Это выражение отрицательно, если квадратичные формы не равны тождественно нулю. Выберем теперь так, чтобы терминальные условия (2.7.11) удовлетворялись при dxt (tf) =0, i = 1, . . ., q. Для этого под-
Задачи оптимизации динамических систем 95 ставим (2.7.15) и (2.7.16) в (2.7.11). Тогда получим <? 3=1 7 fW-g-f (»r+«)r(XW’+ 2’ЛД>)]Л = О, (2.7.18) io j=l ИЛИ io <1 Ч -3 + 4aJ(W<-(^)Tl','*}vi = 0. 3=1 to Отсюда ясно, что значение вектора v следует выбирать из условия ’--|е+£5]“и+-&г)- <2'7Л9> где i, <?«= J (».л)’'< (<)г ^’dt, s,,=(ШЫ/. to to Из (2.7.17) видно, что критерий качества не может быть уменьшен лишь в единственном случае, а именно когда выпол- няются условия H+L+^(J))T/+ <2-7-20* 4=1 <2 >+(«.W,+ 3vA<‘>)r^. = 0, <„<<<(,. (2.7.21) i=1 Если эти два условия выполняются, то получено стационарное решение, удовлетворяющее терминальным условиям (2.7.6).
96 Глава 2 Из уравнений (2.7.20) и (2.7.18) следует, что для стационарного решения величины не зависят от kjk2 и определяются соотно- шением v = -Q^g. (2.7.22) Здесь, так же как в случае задач с фиксированным конечным вре- менем, требуется существование обратной матрицы Q-1 {условие управляемости). Так как уравнения для функций чувствитель- ности линейны, то необходимые условия (2.7.20), (2.7.21) могут быть представлены в виде (^+я),.,,“0' (2.7.23) 4^-0, «»<<<<,; (2.7.24) здесь Я = Л + Г7, (2.7.25) V = = (2.7.26) дх дхдх ' 7 f Уд 7 = 1, ..., q, = | PM 7 = 7+1, ..., n. (2-7-27) V \ dxj I t=tf J Величины vi можно считать параметрами, которые должны выбираться так, чтобы в конечный момент времени tf фазовые координаты Xi, 1 = 1, . . ., q, имели на допустимой траектории заданные значения. Аналогично tf тоже параметр, который обес- печивает равенство нулю выражения {дф/dt) + Н для стационар- ного решения. Согласно другой точке зрения, задача с неопределенным вре- менем окончания процесса может быть заменена последователь- ностью задач с фиксированным конечным временем. Другими сло- вами, можно рассматривать конечное время tf как дополнительный параметр и решать серию одинаковых задач оптимизации из разд. 2.4 для различных значений tf. То значение tf из этой серии, при котором критерий качества достигает минимума, и будет реше- нием задачи с незаданным конечным временем. При этом следует, очевидно, ожидать, что все необходимые условия, полученные в разд. 2.4, будут выполнены. Но, кроме них, должно быть еще одно дополнительное условие для определения оптимального зна- чения tf, этим условием и является (2.7.23). Задача 1. Задан критерий качества _ Ч J = ф [% {tf), tf\ + j L {x, и, t) dt, to
Задачи оптимизации динамических систем 97 где tf — некоторый параметр. Требуется определить, какая вариация J соответствует вариации tf, если удовлетворяются все условия оптимальности, полученные в разд. 2.4. Из полученного соотношения нужно вывести также условие [Указание. дф dtf -H(tf). dJ = -J®(^L\ dtf + ^-dtf + Ldtf.] dx (tf) \ dt / tf T dtf 1 1 7 J Задачи оптимального быстродействия. Во многих задачах кри- терием качества является время, за которое система переходит из начального состояния в заданное конечное состояние. В этом случае можно считать ф = О, L = 1, (2.7.28) т. е. J = tf — t0. (2.7.29) Для того чтобы определить программу управления, миними- зирующую время перехода, нужно решить следующую двухточеч- ную краевую задачу: х = / (х, и, t), х (t0) задано (п начальных условий) Д, (2.7.30) Ж/(М задано, / = 1, ..., q 1 (п условий %д^) = о, 7 = 74-1, . .., П J на правом конце), (^-) ^ = 0 (т условий оптимальности), (2.7.32) Я(^) = (Хг/)<=</=-1. (2.7.33) Заметим, что для определения 2п граничных условий имеется 2п дифференциальных уравнений (2.7.30) и (2.7.31), для опреде- ления т управляющих переменных и имеется т условий опти- мальности (2.7.32). Условие трансверсальности (2.7.33) служит для определения конечного значения времени tf. Неизвестные значения Л; (tf), 7 = 1, . . ., q, которые ранее были обозначены через Vj, также определяются в процессе решения. ; Заметим еще, что по крайней мере одна из фазовых координат должна быть задана при t = t0 и при t = tf, в противном случае задача минимизации времени не имеет смысла. Пример 1. Траектории минимального времени прохождения, области, в которой вектор скорости зависит от фазовых коор- 4 * 4 Если Xj (t0) не задано, то 7;- (i0) = 0. 7—0102
98 Глава 2 динат (задача Цермело) г). Корабль должен пройти через область сильных течений. Величина и направление скорости течения задаются как функции фазовых переменных и = и (х, у), v = v (х, у); здесь (х, у) — прямоугольные координаты, а и, v — компоненты вектора скорости течения в направлении осей хну соответст- венно. Величина скорости корабля относительно воды постоянна и равна V. Задача состоит в отыскании такого управления, при котором корабль за минимальное время пройдет путь от точки А до точки В. Уравнения движения корабля имеют вид х =-V cos ф + и (х, у), (2.7.34) у = V sin ф + v (х, у); (2.7.35) здесь ф — угол курса, т. е. угол между осью корабля и фикси- рованной координатной осью (в данном случае осью х), х, у — координаты корабля. Для этой системы гамильтониан Н = (У cos ф -|- и) -|- (У sin ф + р) +1- (2.7.36) Уравнения Эйлера — Лагранжа имеют вид « дП я ди - ди rj оп\ Лх- — — Кх дх Ку—, (2.7.37) Ку= -Кх^—Ку^-, (2.7.38) у ду ду у ду х ' -|^ = 0 = У(--Хж8тф4-Хг/со8ф), откуда 1§ф = -^-. (2.7.39) i/ (О Так как гамильтониан Н не зависит явно от времени, то Н = = const — Ci — первый интеграл системы. Поскольку миними- зируется время, постоянная (Д должна быть нулем * 2). Уравнения (2.7.36) и (2.7.39) могут быть разрешены относительно Кх и Ку Кх = к, , (2- 7.40) 7+ и cos ф + р sin ф ' ' 1 —эшф (2 7 41) Теперь, подставив эти выражения в (2.7.37) или в (2.7.38) (или, что то же самое, потребовав непротиворечивости условий Нф = 0, = 0), получим Ф = 81П2ф^-4-8тфс°8ф — cos2ф^-. (2.7.42) 4 Несколько иной" способ получения оптимального решения (использую- щий классические векторные обозначения) приведен в примере разд. 3.2, где рассмотрена задача оптимизации пространственного движения самолета при полете через область сильных ветров. 2) Ибо tf не фиксировано.— Прим. ред.
Задачи оптимизации динамических систем 99 (2.7.43) (2.7.44) Решение этого уравнения совместно с уравнениями (2.7.34) и (2.7.35) дает требуемую траекторию минимального времени перехода. Чтобы достигнуть заданной точки В, двигаясь из на- чальной точки А, нужно задать точное значение угла курса фА в точке А. Заметим, что в случае, когда и и v — постоянные величины, из уравнения (2.7.42) следует условие ф = const, т. е. траекторией движения с минимальным временем является просто прямая линия. Аналог закона Снеллиуса. Если и = и (у), v = v (у), то урав- нение (2.7.37) принимает вид = 0, т. е. Хх = const. Теперь из уравнения (2.7.40) следует COS lb . ---7“\--гх—7~~- 7 — C on S t. V-j-U (у) COS1P4-P (у) sin ф Полученное соотношение является аналогом закона Снеллиуса в оптике, так как оно дает в неявном виде зависимость угла курса ф от компонент вектора локальной скорости течения и (г/), v(y). Частный случай: линейное изменение скорости течения. Пусть и = —V (y/h), v = 0 и нужно найти траекторию минимального времени перехода из заданной точки (х0, у0) в начало координат (0, 0). Можно использовать уравнение (2.7.44) для того, чтобы выразить оптимальный угол направления движения (курса) ф как функцию конечного значения ф/ и текущей координаты у COS ф COS 1Ь/ „ . 17-17/ /Л---7 =* - 17 - = const, V—V (y/h) cos i|> V t COS lb f cos ib = njJ——. Y 1 + (y/h) cos ф/ Удобно использовать в качестве независимой переменной вместо t величину ф. Из предыдущего соотношения получаем -|- = 8есф —sec ф/. Теперь уравнение (2.7.42) преобразуется следующим di h —о , _ _ _ V (tf — t) — h — = tg ф — tg фу, (2.7.45) (2.7.46) образомз (2.7.47) из задан- ___ 8есгф, откуда здесь tf — t — время, оставшееся до завершения перехода ной точки в начало координат. Наконец, подставив (2.7.46) и (2.7.47) в (2.7.34), получим лГ =------Ч^)соз8ф------- = - /г (sec ф 4- sec ф/ sec2 ф - sec3 ф). (2.7.48) 7*
WO Глава 2 Это уравнение можно проинтегрировать: Т = Т [sec Ф/—tg Ф) - tg ф (sec ф,—sec ф) ф- In • (2.7.49) Пусть мы хотим найти траекторию минимального времени пере- хода из точки x0/h — 3,66, y0!h = —1,86 в начало координат. Фиг. 2.7.2. Траектория минимального времени передвижения через область с линейно изменяющейся скоростью течения. Уравнения (2.7.46), (2.7.49) — неявные уравнения относительно фо и Ф/ (фо — начальное значение угла ф): —1,86 = sec фо — sec фу, (2.7.50) 3,66 = у [sec фу (tg фу — tg фо) — tg фо (sec фу — sec ф0) ф- 4- Arsh (tg фу) — Arsh (tgфо)]. (2.7.51) Решая эти уравнения, получим фо = 105°, фу = 240°. Из уравнения (2.7.47) можно определить время перехода из на- чальной точки в начало координат F(f/~f°) = 5,46. h ’ На фиг. 2.7.2 изображена оптимальная траектория, на которой стрелками указаны направления оси корабля, т. е. угол курса ф, который является в данной задаче управляющей функцией. Задача 2. Траектории минимального времени прохождения области, в которой величина скорости зависит от фазовых коор- динат. Материальная точка должна пересечь область, в которой ее мгновенная скорость V задана как функция фазовых координат
Задачи оптимизации динамических систем 101 у _ у (я, у), х, у — прямоугольные координаты. Требуется опре- делить минимальный по времени путь из некоторой точки в пло- скости (ж, у) в начало координат. Уравнения движения здесь имеют вид х = V (ж, у) cos -ф, у = V (х, у) sin ф, где ф — угол между осью ж и направлением движения (угол кур- са); ф является управляющей переменной. Показать, что вдоль оптимальной по времени траектории угол ф (£) должен удовлетворять дифференциальному уравнению ‘ dV . , dV lb = ~ Sin ф-z— cos ф. r дх т ду г Заметим, что ф (0) и конечное значение времени tf определяются условием ж (tf) = у (tf) = 0. Если V = const, то траекториями, минимальными по времени движения, оказываются прямые линии ф — 0. Задача 3. Принцип Ферма в оптике состоит в том, что дейст- вительные траектории лучей света являются экстремальными по времени траекториями. Это обычно траектории минимального времени движения, но иногда они соответствуют локальному ми- нимуму (а в некоторых случаях даже просто стационарному зна- чению) длительности перехода. Показатель преломления п в оптике определяется как отноше- ние скорости света с в вакууме к локальной скорости света V (ж, у): с Jb - Т7 / \ * Е (х, у) Считая независимой переменной вместо времени t длину дуги траектории s(ds = Vdt), показать, что d I dx \ дп d / dy \ дп -з—га-^—=-г—, -з— га-г- l=-z—• ds \ ds J дх ds \ ds } ду Эти соотношения эквивалентны системе уравнений задачи 2. Задача 4. Рассмотрим частный случай задачи 2, в котором скорость является функцией только одной координаты, т. е. F = V (у). Показать, что в этом случае на оптимальной траекто- рии существует первый интеграл cos ф . Т7УГ- = COnSt. V GO Это соотношение — известный в оптике закон Снеллиуса. Задача 5. Рассмотрим частный случай задачи 4, в котором V—линейная функция от у: V = Vf (1 , V/, h — константы.
102 Глава 2 Показать, что траекториями минимального времени движения, направленными в начало координат, являются дуги окружностей, центры которых лежат на прямой у = —h. Задача 6. Классическая задача о брахистохронех). Бусинка скользит без трения по проволочке между точками А и В в по- стоянном гравитационном поле (фиг. 2.7.3). Начальная скорость Ф и г. 2.7.3. Задача о брахистохроне. бусинки в точке А равна Vo- Какую форму должна иметь прово- лочка, чтобы бусинка проходила путь между этими двумя точ- ками за минимальное время? Две заданные точки и вектор гравитационного ускорения опре- деляют вертикальную плоскость. Пусть ось у направлена вниз, а начало координат совпадает с точкой Л, как показано на фиг. 2.7.3. Так как сила реакции проволоки на бусинку направлена строго под прямым углом к ее скорости, то.система консервативна, т. е. полная энергия системы постоянна -у- — gy = ^~, или V=(V* 20 + 2gy)1/2 = V(y). Компоненты скорости удовлетворяют следующим уравнениям; х = V (у) cos 0, у = V (у) sin 0. Задача состоит в том, чтобы найти 0 (i), при котором время пере- хода из точки А в точку В минимально. Заметим, что задача о бра- хистохроне является частным случаем задачи 2 (или задачи 4), т. е. проблемы Ферма о траектории минимального времени прохож- дения через область, в которой скорость зависит от фазовых координат. Показать, что решением этой задачи являются циклоиды, т. е. траектории, образованные точкой на окружности колеса, катящегося без проскальзывания по горизонтальной плоскости, и что 0 — const. Задача 72). Определить минимальную по времени траекторию, связывающую две точки на поверхности Земли через туннель х) Брахистохрона — кривая наибыстрейшего спуска. Название и саму задачу предложил Иоганн Бернулли в 1696 г. 2) Задача предложена Т. Эдельбаумом.
Задачи оптимизации динамических систем 103 в Земле. Предполагается, что воздуха в туннеле нет, материальная точка движется под действием гравитационной силы, а силой тре- ния можно пренебречь. Заметим, что гравитационное ускорение внутри Земли направлено по радиусу к центру Земли, а его ве- личина прямо пропорциональна расстоянию от материальной точки до центра Земли. Ответ. Оптимальные траектории — гипоциклоиды, т. е. кри- вые, образованные точкой, находящейся на небольшом круге, который катится без проскальзывания по внутренней стороне поверхности Земли. Задача 8. Оптимальное программирование направления век- тора тяги при пренебрежимо малых внешних силах. Рассматривае- мая задача является одной из простейших задач ойтимального программирования, имеющих некоторый практический интерес. Поэтому она полезна для закрепления идей вариационных мето- дов х). Пусть частица массы т находится под воздействием силы тяги Р = та. Будем рассматривать плоское движение в инер- циальной сис 'еме координат (х, у)', компоненты скорости частицы обозначим через и, v. Угол направления тягий (/) считается управ- ляющей переменной (фиг. 2.4.1). Уравнения движения имеют вид и = асоцй, y = asin#, х = и, y = v. Реактивное ускорение а по предположению является известной функцией времени. Показать, что для оптимизации функции, зави- сящей только от конечных условий, или для минимизации вре- мени оптимальный закон изменения угла О должен быть таким: tgft = -~C2*+C4, где с4, с2, с3, с4 — постоянные величины. Этот закон часто назы- вается законом дробнолинейного тангенса. Задача 9. Выведение на орбиту за минимальное время (g — 0). Пусть выполнены условия, сформулированные в задаче 8. Требует- ся перевести частицу на прямолинейную траекторию, параллель- ную оси х и находящуюся от нее на расстоянии h. Время перехода должно быть минимальным, скорость частицы в конце выведения должна равняться заданной величине U и быть параллельной оси х. Значение дальности х в конце выведения интереса не представ- ляет- (фиг. 2.4.2). Запишем краевые условия и (0) = 0, и (Т) = U, v (0) =0, v (Т) = 0, х (0) = 0, 2) См. пример разд. 2.4.
134 Глава 2 К (Г) = 0, у (0) = 0, у (Т) = h, Скиа cos О + kva sin tyt^T — —1- Поскольку х (Т) не задано, то = с4 = 0 и оптимальным законом управления становится закон линейного тангенса Фиг. 2.7.4. Зависимости начального угла установки тяги (О0) и минималь- ного времени (Гмин) от безразмерной высоты 4аЛ/£72 для задачи минимизации времени перелета на прямолинейную траекторию. Для случая, когда ускорение силы тяги а постоянно, требуется доказать справедливость следующих соотношений (используя вместо t в качестве независимой переменной угол й): -V^^o-зесй), х = ± ( sec й0 - sec й - tg й In , # = ^2 [ (tg t)’o — tg й) sec й0 — (sec й0 — sec й) tg й — In J , z созйо z хя = о, а а \ 11 . 2 sin й0 аТ ’ Постоянные величины й0, с и конечное (минимальное) время Т определяются тремя граничными условиями на правом конце:
Задачи оптимизации динамических систем 105 р(Т) = 0, u(T) — U, y(T) = h. Показать, что эти соотношения могут быть представлены в виде 4afe _ tg Op secO0—In tg [(л/4)+1/20q] [72 {lntg[(n/4) + i/2O0]}2 aT________tg Op____ . U ~ IntgKn^ + ^Op] ’ (2t \ 1 — -у-) tg'fl’p. Очевидно, что одна безразмерная величина ^ahlU2 определяет й0 и, следовательно, аТ/U. Эта зависимость показана на фиг. 2.7.4. Программы изменения направления тяги б1 (tlТ) для различных значений й0 представлены на фиг. 2.4.3. Задача 10. Минимальное время перехвата неманеврирующей цели (g = 0). Рассматривая те же уравнения движения, что и в за- даче 8, определите, какой должна быть программа изменения направления тяги О (Z), чтобы, двигаясь из начальной точки х0, у0 с начальной скоростью и0, v0, достигнуть начала координат за ми- нимальное время. Предполагается, что реактивное ускорение а — постоянная величина. Заметим, что величина конечной ско- рости не задана, так что поставленные краевые условия соответ- ствуют задаче перехвата цели. Задача 11. Минимальное время встречи с неманеврирующей целью (g = 0). Эта задача подобна предыдущей; отличие состоит в том, что конечная скорость должна равняться нулю, т. е. uf = = Vf = 0. Эти краевые условия соответствуют задаче о встрече с неманеврирующей целью. Заметим, что закон дробнолинейного тангенса может быть представлен в форме закона линейного тан- генса : tg (0 — а) = tg (0у — а) + с (Т — [), где 0/, а, с — некоторые параметры. Задача 12. Программирование направления тяги в постоянном гравитационном поле. Если принять, что ось у направлена проти- воположно силе притяжения, то эта задача отличается от задачи 8 (в которой g = 0) лишь уравнением для вертикальной составляю- щей ускорения v — a sin & — g, где g — гравитационное ускорение. Показать, что в этом случае уравнения для функций влияния (функций чувствительности) не изменяются, так что закон дробнолинейного тангенса остается оптимальным. Задача 13. Выведение на орбиту за минимальное время (g = = const). Показать, что единственное отличие от задачи 9, в кото-
106 Глава 2 рой предполагалось g = 0, состоит в добавлении слагаемого —gt к вертикальной скорости v и слагаемого —х/2^2 к вертикаль- ной координате (высоте) у. В случае если ускорение силы тяги а постоянно, требуется определить три величины: начальный угол направления тяги б0, конечный угол направления тяги мини- мальное время Т. Показать, что для определения этих величин могут быть получены следующие три уравнения: Vf = 0 = (sec б0 — sec бу) — gT, sec бу) tg бу — . Vf = [ (tg б° — tg бу) sec б0 — (sec б0 - _ j tg60+ sec ф0-1 _ J_ tg6y-|-sec фу J 2 ® ’ ny=t/^±lnt*g4°.tSeC^% J c tg 'O’y-psec где c = 1аФ0—tg Фу, tg 6 = tg 60 — ct. Исключая из этих уравнений с и Т, получим два уравнения „ с двумя неизвестными б0 и бу: а _ tgflp —tgfly g sec Фо— sec фу ’ -^=(tg6osec6y-tg6ysec6o-lnjj^±|^) X Л tg Фр-l-sec Фо\-2 \ tg фуsec фу) ’ при этом аГ а _ to- АД / In ^^o + sec Фр С7 tg фу + sec фу’ Очевидно, величины ah!Ui и a/g определяют б0, бу, aTlU, сТ. Численный пример. На фиг. 2.7.5 показаны два примера траек- торий взлета с Луны в предположении a/g^ = const = 3, g„ = = const. Гравитационное ускорение на поверхности Луны gn ъ х 1,615 м!сек\ радиус Луны 7?д « 1737 км. Оптимальные по времени траектории соответствуют выведению на высоты = = 185 км и h2 = 15,25 км; скорость в конце выведения равна круговой скорости спутника Луны в первом случае и несколько превышает эту скорость во втором случае. Необходимая харак- теристическая скорость ДУС для а = const равна аТ. Для срав- нения заметим, что импульсное выведение на круговую орбиту высотой 7гк.о. =185 км (двухимпульсный хомановский переход)
Задачи оптимизации динамических систем 107 требует суммарной характеристической скорости AVCs = AVC1 + + AVC = 1767 м!сек (AVC = 1725 м!сек на поверхности Луны и AVC =42 м!сек в аполунии). Скорость в конце выведения на высоту h w 15 км такова, что летательный аппарат будет про- Ф и г. 2.7.5. Минимальные по времени траектории взлета с Луны (или по садки на нее) при постоянном реактивном ускорении а = 4,85 м/сек2 (направ- ление тяги показано через каждые 0,1 Г, где Т — полное время полета) должать свободный полет и достигнет высоты 185 км над противо- положной стороной Луны; в этой точке достаточно импульса ~142 м/сек для выведения на круговую орбиту высотой 185 км\ таким образом, суммарная характеристическая скорость состав- ляет AVCs = 2008 м/сек. Заметим, что поверхность Луны была аппроксимирована параболой, что значительно расширяет область применимости предположения о постоянстве гравитационного ускорения. Очевидно, что минимальная по времени траектория мягкой посадки с круговой орбиты при а = const (если продольная даль- ность до точки посадки не задана) та же, что и минимальная по вре- мени траектория выведения на орбиту, однако проходится она в обратном направлении. Задача 14. а) На плоскости (х, t) найти экстремальную кривую стацио- нарной длины, которая соединяет окружность х2 + t2 — 1 = 0 и прямую t = Т = 2.
108 Глава 2 б) Решить ту же задачу при условии, что искомая кривая имеет конечную точку на прямой —х + t = 2 ]Л2. Замечание. Сформулированные задачи не должны решаться методом проверки. 2.8. Непрерывные системы; оптимизация при заданных значениях функции от фазовых координат в неопределенный момент окончания процесса. Задачи оптимального быстродействия Рассмотрим опять критерий качества вида Ч J= ф [х (tf), tf} J L [x (t), u(t),t]dt. (2.8.1) to Прибавим к этому выражению ограничения на терминальное состояние х (tf) ф [х (tf), £/] =0 (ф — (/-мерная вектор-функция) (2.8.2) и систему дифференциальных уравнений х = / [х (t), и (t), 2], t0 задано, (2.8.3) с множителями Лагранжа v и A (t) соответственно. Тогда получим вспомогательный (расширенный) критерий качества _ tf /=[ф ф тгф]/=г/4- j {L (х, и, t) + hT [f(x, и, t) — z]} dt. (2.8.4) to Гамильтониан H для этой задачи записывается в виде Н = L (х, и, f) + Ат (t) / (х, и, t). (2.8.5) Приращение критерия качества J, возникающее при вариации би (t) и приращении конечного времени dtf, имеет вид dJ — [ dt4-^-dx\ + f 8x 4--^-6u — I \ dt 1 / 1 dx J(=i. 1 J \ dx 'du f t0 -V6i) dt-L\l==todto, (2.8.6) где Ф = ф + угф. (2.8.7)
Задачи оптимизации динамических систем 109 Интегрируя по частям и принимая во внимание равенство 8х (tf) = = dx (tf) — х (tf) dtf [см. (2.7.4) и фиг. 2.7.1], получим Ч.<;+ tf + (^x)t=to^L^todta+ j [(^ + XT) 8x+-^8u]dt. (2.8.8) <0 Выберем теперь функции X (t) так, чтобы коэффициенты при 8x(t), dx(tf) и dtf обратились в нуль (если tf не задано), т. е. положим (2.8.9) дх дхдх ' =(^ + v^y , (2.8.10) ' \ дх / t=if \ дх дх / t=tf х ' (^4-£ + Хтй =(^.+ М- =0, (2.8.11) \ dt 1 1 / t=tf \ dt ‘ ) t=tf ' ' где 1Ф_оФ . аФ • dt dt дх X' В результате такого выбора X (t) выражение (2.8.8) упрощается: - ап dJ = \ 8и dt 4-V (t0) dx (t0)—H(t0)dt0. (2.8.12) to Очевидно, как и в предыдущих задачах, Хг (t0) — вектор функций влияния на критерий J изменений начальных условий 8х (t0), тогда как дШди — совокупность импульсных переходных функций, указывающая, как будет изменяться J в результате воздействия единичных импульсных функций (6-функций Дирака), возникающих в вариации управления в некоторый произвольный момент времени t на интервале t0 t tf. Чтобы величина J принимала стационарное значение, очевидно, должны выполняться соотношения х) ^ = Хт^- + -^- = 0, (2.8.13) ди ди 1 ди ’ 1 ' ' Если xh (t0) не задано, то Xft (t0) = 0. х) Отметим, что возможность фактического удовлетворения усло- вия (2.8.13) зависит от существования допустимого управления, т. е. управ- ления, переводящего систему в заданные граничные условия. В локальном смысле понимаемая таким образом допустимость управления связана с нали- чием у системы свойства полной управляемости. Обоснование полной управ- ляемости проводится с помощью рассуждений, аналогичных приведенным в разд. 2.7 [см. условие (2.7.18) и далее].— Прим, перев.
110 Глава 2 В случае когда минимизируется время tf — t0, можно считать, что ф [ж (tf), tf) = 0 и L = 1. Таким образом, условие (2.8.11) принимает вид (2.8.14) ^-4-1) =0. \ dt ) t—tf Так же как в разд. 2.6, q постоянных величин Vi, . . ., vq должны быть определены так, чтобы удовлетворялись ограничения (2.8.2) на терминальное состояние объекта управления. Соотношение (2.8.14) — дополнительное условие, необходимое для определе- ния времени tf окончания процесса. В итоге, для того чтобы критерий качества J принимал стацио- нарное значение, должна выполняться следующая система необ- ходимых условий: х—j (х, и, t) (п дифференциальных уравнений), (2.8.15) (га дифференциальных уравнений), (2.8.16) /дН_хт_ _j_ / 3L n \ ди ) \ ди ) 1 \ ди ) (гаг алгебраических уравнений), (2^8.17) xh(t0) задано или Xft(Zo)=O (и граничных условий), (2.8.18) М«/) = + граничных условий), (2.8.19) Q=r^ + vr-^+(4*+vT44/ + L] =0 L dt 1 dt 1 \ дх ' дх/ At=if (одно граничное условие), (2.8.20) ф[я:(^), £/] = 0 (д' граничных условий). (2.8.21) Условие оптимальности (2.8.17) определяет гаг-мерный вектор управления и (t). Далее, 2га + 1 + q граничных условий (2.8.18) — (2.8.21) определяют решение 2га дифференциальных уравнений (2.8.15) и (2.8.16) и q + 1 параметров (vj, . . ., v?) и tf. Нужно заметить, что такую краевую задачу решить обычно не очень просто. Отметим еще, что если бы были заданы величины v вместо ф и tf вместо О, то условия (2.8.18) и (2.8.19) представляли бы собой 2га граничных условий для двухточечной краевой задачи порядка 2га с фиксированным конечным временем. Подбором значений v и tf можно было бы обратить в нуль функции ф и й в момент t = tf (гл. 7, разд. 3).
Глава 3 Задачи оптимизации динамических систем при наличии ограничений на траекторию Введение В гл. 2 рассмотрены задачи оптимизации нелинейных динами- ческих систем при наличии ограничений в конечной точке траек- тории. В этих задачах в конечный момент времени задавались значения функций от фазовых координат, а в начальный момент — значения всех фазовых координат. В данной главе будут рассмот- рены задачи с ограничениями на траекторию; в таких задачах ограничения накладываются на всю траекторию в целом, т. е. при tQ t tf, а не только в конечной точке t = tf. Сначала будут рассмотрены задачи с ограничениями в виде равенств, а затем — в виде неравенств. 3.1. Интегральные ограничения1) Вернемся к задачам оптимального программирования, рас- смотренным в разд. 2.5 и 2.8; добавим к ним еще одно ограничение: потребуем, чтобы некоторый интеграл вдоль оптимальной траек- тории принимал заранее заданное значение. Таким образом, пусть xa+i (if) — N (х, м, t) dt,] (3.1.1) где N — заданная скалярная функция, хп+1 (tf) — заданное число. Естественный подход к решению такой задачи состоит в при- соединении к исходной системе уравнений уравнения состояния хп+1 = N (х, и, t) (3.1.2) с граничными условиями Xn+1 (to) =0 и xn+l (tf) задано. (3.1.3) Пусть ц — функция влияния (множитель Лагранжа, функ- ция чувствительности), соответствующая координате хп+1. Гамильтониан расширенной системы имеет вид H^L + Wf + pN. (3.1.4) Такие ограничения в вариационном исчислении называются «изопе- риметрическими». Смысл этого названия становится ясным из примера 1, в котором рассматривается одна из первых решенных задач такого типа,
112 Глава 3 Уравнения Эйлера — Лагранжа таковы: _ _дН___ dL.г df dN_ дх дх дх дх ’ дН dL . т df . dN р ди ди ‘ ди ' ди ' дН п U, откуда ц = const. LT (3.1.5) (3.1.6) d^nei р, — коэффициент чувствительности (3.1.7) Таким образом, качества J к изменению zn+1, т- е- dJ ц = критерия dxn+i* ц = Уравнения (3.1.6) и (3.1.1) можно рассматривать как систему (тп + + 1) уравнений для определения т компонент вектора управле- ния u(Z) и постоянной величины ц. Таким образом, в задачах с огра- ничениями типа (3.1.1) величина У (х, и, I) присоединяется к га- мильтониану исходной системы с постоянным множителем Лагран- жа ц. Пример 1. Плоская фигура максимальной площади при задан- ном периметре. Пусть трос длиной Р привязан к концам прямо- Определить форму троса, линейного стержня длиной 2а < Р. Фиг. 3.1.1. Максимальная площадь плоской фигуры при заданном периметре. при которой площадь, заключенная между стержнем и тросом, максимальна. В системе координат, показанной на фиг. 3.1.1, задача состоит в определении такой зависимости 0 (х), при которой интеграл (3.1.8) достигает максимума, а периметр Р кривой у (х) (длина троса) остается постоянным1): а Р= J secBdx; (3.1.9) — О Плоские фигуры с одинаковым периметром называются, как известно, изопериметрическими.— Прим, перев.
Задачи оптимизации при наличии ограничений на траекторию 113 здесь -2- = tg9i). (3.1.10) Гамильтониан системы Н = у + A tg 0 + р sec 0. (3.1.11) Уравнения Эйлера — Лагранжа имеют вид — ~~= — 1, откуда А =—z + c, с = const, (3.1.12) = р tg0 sec 0 Д-A sec2 0 = 0, откуда sin 0 =—(3.1.13) Исключая К из уравнений (3.1.12) и (3.1.13), получаем х = р sin 0 + с- (3.1.14) Так как Н не зависит от х явным образом, то на оптимальном реше- нии Н = const — первый интеграл. Исключение А из уравнений (3.1.11) и (3.1.13) дает у = —р cos 0 + Н, Н = const. (3.1.15) Периметр Р кривой у (х) определяется путем подстановки выра- жения (3.1.14) в (3.4.9) в в Р= § sec0-^|-d0 = p j d0 = p(0B — 0Л). (3.1.16) А А Для вычисления пяти неизвестных величин с, Н, р, 0А и 0В используем условие (3.1.16) и четыре граничных условия: х (0а) = —х (вв) = а, у (0Л) =0, у (0В) = 0. (3.1.17) Получим следующее решение: с = 0, р=-^, 0д-а, 9в=-а, (3.1.18) где а определяется из трансцендентного уравнения s-4 = 4- (3.1.19) Таким образом, имеем Р Р х =—x-^sinO, у = —~ (cos0 — cosa), 2а ’ у 2а ' х) Такая формулировка предполагает, что —л/2 < О < л/2; это условие справедливо лишь при Р < ла. 8—0102
114 Глава 3 откуда х2+ (у РcosaX 2__ Р2 2а ) 4а2 (3.1.20) Оптимальным решением является дуга окружности радиуса Р/2а с центром в точке х = 0, у = —Р cos а/2а. Пример 2. Форма капли жидкости, лежащей на горизонталь- ной плоскости. Капля жидкости на горизонтальной плоскости принимает по предположению осесимметричную форму (относи- тельно оси z; фиг. 3.1.2); при этом ее действительная форма z (г) Фиг. 3.1.2. Форма капли жидкости, лежащей на гори- зонтальной поверхности. отличается от всех возможных форм тем, что она минимизирует сумму потенциальной энергии жидкости в гравитационном поле Земли и энергии поверхностного натяжения 0 а Е = j ynr2z^dr + j <y2nr~dr. (3.1.21) T—a r=0 Здесь — сила притяжения на единицу объема, z = z (г) — уравнение поверхности (фиг. 3.1.2), о — поверхностная энергия на единицу площа- ди (поверхностное натяженце), ds = ]/(c/z)2 (df)2 — дифференциальный элемент длины дуги. Заданы: 1) Объем капли жидкости о 7= J nr2^df. (3.1.22) т—а 2) Угол а в точке соприкосновения (фиг. 3.1.2) /dz\ (-=-) = — tga. \dr)z=0 & (3.1.23) Найти форму капли z (г).
Задачи оптимизации при наличии ограничений на траекторию 115 Гамильтониан для этой задачи Н = 2лиг]/г 1 4-и2 — л yr2zu Ц- Xu 4- p,nr2u, (3.1.24) где u = g. (3.1.25) Уравнения Эйлера — Лагранжа имеют вид %=-™=nV*u> (3.1.26) — 2лог —— nyr2z Ц- X + цлг2 = 0. (3.1.27) OU 1 и2 Исключая X из этих двух уравнений и используя (3.1.25), получим дифференциальное уравнение 2-го порядка для определения фор- мы капли которое должно решаться совместно с граничными условиями z' (0) = 0, z' (а) = —tg a, z (а) = 0. (3.1.29) Множитель р, определяется так, чтобы объем капли был равен заданному значению. Заметим, что условия (3.1.29) использу- ются для определения неизвестного радиуса а. Если а < 1, то уравнение (3.1.28) может быть линеаризовано z"+|z'-|z—у- (3.1.30) В таком виде оно имеет решение z = i + ^0(/jr)+^0(/Ir). (3.1.31) Здесь 10 и К о — функции Бесселя нулевого порядка с мнимым аргументом, а ц, А, В — постоянные величины, которые должны 8*
116 Глава 3 быть выбраны так, чтобы удовлетворялись условия (3.1.29) и огра- ничение на объем (3.1.22). Задача 1. Максимальный объем при заданной площади поверх- ности. Дан кусок холста площадью А для постройки тента над круглой площадкой радиусом а (ла2 < А); нужно определить форму тента, при которой объем под тентом имеет максимальное значе- ние. Предполагается, что форма тента осесимметрична (фиг. 3.1.3). Ответ. Оптимальной формой тента является сферический сег- мент. 3.2. Ограничения в виде равенств на управляющие переменные Рассмотрим снова общую задачу оптимального программиро- вания (разд. 2.5 и 2.8), но с дополнительным ограничением на управляющие переменные в виде равенства С (и, t) = 0, (3.2.1) где и (t) — m-мерный управляющий вектор, m 2, а С (и, t) — скалярная функция. Условие m 2, очевидно, необходимо для того, чтобы задача оптимизации представляла интерес [при m = 1 ограничение (3.2.1) полностью определяет функцию и (t) и ника- кой проблемы оптимизации не возникает]. В тех случаях, когда m ^>2, влияние ограничения (3.2.1) сводится к уменьшению сво- боды выбора управляющих переменных и. Один из возможных подходов к решению этой задачи состоит в исключении с помощью (3.2.1) одной из управляющих переменных и последующем решении задачи минимизации по отношению к оставшимся управляющим переменным, которые уже не связаны никакими ограничениями. При таком подходе необходимые условия минимизации, выве- денные для задач без ограничений, остаются справедливыми и в этом случае. Другой способ состоит в том, что выражение (3.2.1) с множителем Лагранжа ц(£) прибавляется к гамильтониану вариа- ционной задачи без связи. При этом получается расширенный гамильтониан Н = L + + (3.2.2) Такая форма гамильтониана вносит изменение только в условие оптимальности l^ = lL + XT-^ + g-^ = O. (3.2.3) ди ди ди * ди ' ' Это условие вместе с (3.2.1) определяет m компонент вектора управления и (Z) и скалярную функцию р, (t).
Задачи оптимизации при наличии ограничений на траекторию 117 Пример. Траектории минимального времени, проходящие через область трехмерного пространства, в которой вектор скорости зависит от фазовых координат *). Самолет должен пересечь область сильных ветров. Величина и направление скорости ветра — известные функции координат, w = w (г), а величина скорости самолета относительно воздуха постоянна и равна V. Задача Фиг. 3.2.1. Векторное сложение скорости самолета относительно воздуха (воздушной скорости) и скорости ветра. состоит в таком программировании направления полета самолета, при котором время перелета из точки А в точку В минимально. Скорость самолета относительно Земли удовлетворяет уравне- нию (фиг. 3.2.1) r = Fu + w(r)* 2). (3.2.4) Здесь г — радиус-вектор точки, w (г) — вектор скорости ветра, и — единичный вектор направления оси самолета (вектор управ- ления): и-и = 1. (3.2.5) Гамильтониан этой системы Н = X-(Fu-|-w) [Л (1 — и-и) -j-1, (3.2.6) 1 — вектор влияния (сопряженный вектор) вектора положения г. Уравнения Эйлера — Лагранжа имеют вид ~V(X-w), (3.2.7) -^5- = VX —2цн = 0. (3.2.8) ди х) Подобная задача для случая плоского движения рассмотрена в при- мере 1 разд. 2.7 (задача Цермело, или задача о выборе маршрута корабля). 2) В этом примере и нижеследующих задачах использованы обозначения классического векторного исчисления: точка означает скалярное произве- дение векторов, V — оператор Гамильтона (в декартовых координатах V = Sr ' 5z/c) ’ |х |-модуль вектора x, X — знак векторного произведения, V X w = rot w — ротор вектора w — Прим, перее.
118 Глава 3 Для удовлетворения условия (3.2.5) множитель р, (t) следует вы- брать так, чтобы 2ц = + Р|Х[, откуда u=±-j-^-r. (3.2.9) I л I Для данной задачи на минимум времени должно удовлетворять- ся условие Н(tf) = 0 (разд. 2.7); подставляя (3.2.9) в (3.2.6), полу- чим, что справедливым в выражении (3.2.9) оказывается знак минус, отсюда х) й=-Х, % = -7^1- (3.2.10) I I Другими словами, при оптимальном управлении вектор скорости (Vu) должен быть направлен противоположно вектору влияния X.- Если подставить (3.2.10) в (3.2.4), то получим следующие диф- ференциальные уравнения для определения искомой траектории минимального времени перелета: г = W - EX, (3.2.11) X = — V (X-w) = — (X-V) W — X X (v X w). (3.2.12) Направление вектора X в точке А должно быть выбрано так, чтобы траектория проходила через точку В. Модуль вектора X должен быть таким, чтобы гамильтониан Н обращался в нуль. Тогда X будет вектором влияния на конечный момент времени tf, как указано в (3.2.10). Так как гамильтониан явно не зависит от t, то он сохраняет постоянное значение Н = 0 вдоль оптималь- ной траектории, поэтому из (3.2.6) и (3.2.10) получаем |Х|=------. (3.2.13) 1 7-X-w Это соотношение может служить для проверки решения, полу- ченного из (3.2.11) и (3.2.12). Если поле скоростей ветра безвихревое, т. е. если rot w — = V X w = 0, то, как известно из векторного анализа, суще- ствует такая функция ф (г, t) (потенциал поля скоростей ветра),’ что w = V^- В этом случае уравнения возмущенного движе- ния для г совпадают, за исключением знака минус, с уравне- ниями для сопряженного вектора X. Уравнения возмущенного движения такого типа называются самосопряженными* 2); они !) Согласно принципу минимума (см. разд. 4.2, 3.8), оптимальное по вре- мени управление и должно минимизировать Н (и). В данном случае минимум Н достигается при знаке минус в (3.2.9).— Прим, перев. 2) Отметим, что определение самосопряженной системы для систем диф- ференциальных уравнений вида х = Fx, х = (xt, . . ., zrt)T, не эквивалент- но определению самосопряженного уравнения для одного дифференциаль- ного уравнения n-го порядка ж<п> + alxtn~1i + . . . -|- an_tx + апх — 0, хотя понятия сопряженной системы и сопряженного уравнения эквивалентны.
Задачи оптимизации при наличии ограничений на траекторию 119 имеют вид (6г) = (6г.V) \7ф (Г, t), (3.2.14) ^-(Х)=-(X-V)V^(r, i). (3-2.15) Задача 1. Траектории минимального времени прохождения трехмерной области, в которой модуль вектора скорости зависит от фазовых координат х). Материальная точка пересекает область, в которой величина мгновенной скорости V движения является заданной функцией положения; т. е. V = V (г), где г — радиус* вектор точки. Требуется определить траекторию минимального времени движения от точки А до точки В в трехмерном простран- стве. Траектория материальной точки описывается уравнением г = V (г) и, где и — единичный вектор, и-и-—Л. Показать, что для траекто- рии минимального времени справедливы соотношения и=—Ар, IX (S)| = y4p X = |X|VV (r(4), г(В) заданы), из которых следует £(J_ = _ dt \ 72 dt ) 7 'J Задача 2. Траектории минимального времени прохождения трехмерной области, в которой действующие силы зависят от фа- зовых координат* 2). Рассмотрим пространственное движение материальной точки под действием сил, зависящих от вектора положения г и не зависящих от скорости v. Уравнения движения точки имеют вид v = a (t) и + F (г, t), Г = V, где и — единичный вектор управления, и-и = 1; a (t) — реак- тивное ускорение (предполагается заданным); F (г, t) — ускоре- ние, возникающее под действием внешних сил, зависящих от по- ложения тела (функция F может явно зависеть от времени t из-за перемещения притягивающихся тел). *) Соответствующая задача для плоского случая рассмотрена в разд. 2.7 (задача 2). 2) Этот пример является частным случаем задачи, рассмотренной Фрай- дом и Бертоном в книге «Космическая техника» под общей редакцией Г. Сей- ферта, перев. с англ., изд-во «Наука», 1964 (гл. 4).
120 Глава 3 Показать, что где X = —(P-V) F — р X (V X F), Р = —Ъ, (—а | р | + p F + X-v + l)t={/ = 0. Таким образом, в этих соотношениях X — вектор влияния (сопря- женный вектор) положения точки г, а р — вектор влияния (со- пряженный вектор) скорости точки v. Заметим, что в консервативном поле сил у? X Е = 0, откуда следует существование функции ф (г, t), такой, что F = V<p, где <р = <р (г, £) — потенциал поля сил. Б этом случае уравнения возмущенного движения для 6v и бг совпадают с уравнениями для X и р с точностью до знака в правой части: ^(6v) = (6r.V)V<^>, ^(X)=-(p-V)V<f>, ^(6r) = 6v, ^(р)=-Х. Уравнения возмущенного движения такого типа называются само- сопряженными. Интересно отметить, что уравнения второго порядка относительно бг и р, полученные исключением 6v и X, оказываются совершенно одинаковыми: (бг) = (бг-V) Аф, ^(р) = (р-У)Уф- Отсюда следует, что если найдена переходная матрица для бг и 6v, то тем самым найдена и переходная матрица для р и X. Это обстоятельство полезно при расчете пассивных участков траек- торий космических аппаратов. Задача 3. Рассмотрим самосопряженную линейную динамиче- скую систему1) x~Fx-\-u, F = —FT. Требуется определить такое управление и (t), удовлетворяющее ограничению || u||2— 1, которое переводит произвольное начальное состояние х0 = х (£0) в начало координат х (Т) = 0 за минималь- ное время. Найти решение с обратной связью, т. е. выразить управ- ление и в виде явной функции от текущих значений х и t. Указание. См. книгу М. А т а н с, П. Ф а л б, Оптимальное управление, изд-во «Машиностроение», 1968, гл. 10. 0 В задаче рассматривается частный случай так называемой системы с инвариантной нормой [2.6].— Прим. ред.
Задачи оптимизации при наличии ограничений на траекторию 121' 3.3. Ограничения в виде равенств на функции управления и фазовых координат Рассмотрим опять общую задачу оптимизации,' сформулиро- ванную в разд. 2.5 и 2.7, но пусть теперь оптимальное реше- ние х (t), и (t) должно удовлетворять ограничению С (х, и, t) = 0, (3.3.1) причем дС/ди = Си^= О для любого и. Следуя методам разд. 3.2, добавим к гамильтониану вариационной задачи без связи (3.3.1) это ограничение с множителем р (Z). В результате получим рас- ширенный гамильтониан Н = № / + L + рС. (3.3.2) Условие оптимальности в этом случае совпадает с приведенным в разд. 3.2 ^ = V/u + Lu + pCu = 0, (3.3.3). а уравнения Эйлера — Лагранжа (в векторной форме) должны быть модифицированы Хг= — Нх = — KTfx — Lx — l^Cx. (3.3.4) Все остальные уравнения необходимых условий разд. 2.5, 2.7 оста- ются без изменений. Необходимое условие (3.3.3) и ограничение (3.3.1) составляют систему m + 1 уравнений с m + 1 неизвест- ными величинами р и и. Характерным отличием этой задачи от пре- дыдущих является появление в уравнении (3.3.4) слагаемого- р(бС/Зх). Если С (х, и, t) = 0 является вектор-функцией, число ком- понент которой меньше числа компонент вектора управления и, то уравнения (3.3.2) — (3.3.4) остаются справедливыми, если заме- нить в них рС,- рСц, рСж соответственно на ртС, ртСц, р,тСх. Здесь р — вектор множителей Лагранжа, размерность которого- совпадает с размерностью вектора С(х, и, 2). 3.4. Ограничения в виде равенств на функции фазовых координат Если функция, задающая ограничение, явно не зависит от управляющих переменных, то в этом случае при решении задачи возникают дополнительные осложнения. Пусть задано ограниче- ние в виде следующего равенства: S (х, t) = 0. (3.4.1).
-122 Глава 3 Если оно справедливо для любого значения t, t0 t tf, то про- изводная по времени от функции S вдоль оптимальной траектории должна обращаться в нуль: dS dS dS “ dS dS , . a П /о z лГ = -я7- + -л-ж = -нг4--т-/(ж, u, Z) = 0. (3.4.2) dt dt 1 dx dt 1 dx 1 ' ’ ' Выражение (3.4.2) может в свою очередь оказаться либо явно зави- сящим от и, либо снова не зависящим от и. Если это выражение зависит от и явно, то оно играет роль совместного ограничения на управляющие и фазовые переменные, аналогичного равенству (3.3.1). Однако в отличие от задач разд. 3.3 следует либо исклю- чить.одпу из компонент вектора х, выразив ее с помощью (3.4.1) через остальные (п — 1) компонент, либо присоединить (3.4.1) в качестве граничного условия в точках t = t0 или t = tf1). Если же выражение (3.4.2) не содержит явно и, то его можно еще раз продифференцировать и подставить х = f (х, и, £);. эта процедура может быть, очевидно, повторена до тех пор, пока полу- ченное выражение не будет явно зависеть от и. Если явная зави- симость от и получится после (/-кратного дифференцирования S по t, то соотношение (3.4.1) будем называть ограничением q-го по- рядка типа равенства, наложенным на фазовые переменные. В этом случае q-я полная производная по времени от S играет роль огра- ничения на управляющие и фазовые переменные, аналогичного условию вида (3.3.1): S(9> (х, и, t) = 0, где £(г)А . (3.4.3) Кроме того, в этой задаче необходимо либо исключить q компо- нент вектора х, выразив их через остальные (п — q) компонент -этого вектора с помощью системы q уравнений S (х, t) Sw> (х, t) S(q~l)'(x, t) (3.4.4) либо рассматривать систему (3.4.4) как дополнительные гранич- ные условия в точке t = t0 (или t = tf). При численном решении задачи можно использовать и иной - подход, основанный на применении интегральной функции штрафа для приближенного удовлетворения ограничению (3.4.1) (разд. 1.9). *) Ограничение (3.4.1) можно было бы непосредственно прибавить к га- мильтониану системы; полученные при этом необходимые условия окажутся «отличными от выведенных ниже, но эквивалентными им (см. [3.11, 4.3]).
Задачи оптимизации при наличии ограничений на траекторию 123 В этом случае следует ввести расширенный критерий качества _ tf J = J + К J [б1 (х, /)]2 dt, о где К — достаточно большое число. Эта процедура, однако, может приводить к затруднениям вычислительного характера, на что указывалось в разд. 1.9. Напомним также, что для точного удов- летворения (3.4.1) требуется, чтобы К-+со. 3.5. Ограничения, заданные во внутренних точках траектории Рассмотрим снова общую задачу оптимального программирова- ния (разд. 2.8) и предположим, что в нее введено дополнительное требование в виде граничного условия во внутренних точках N [х (tx), Zj = 0, (3.5.1) где tx — некоторый промежуточный момент времени, t0 <Z tx <Z tf, N — вектор-функция размерности q. Таким образом, вместо двух- точечной граничной задачи разд. 2.7 в данном случае имеем дело с трехточечной граничной задачей. Соотношение (3.5.1) представляет собой граничное условие для части траектории от t = t0 до t = tt. Если t~x — момент времени непосредственно перед (слева от /4), a tx — момент времени сразу же после tx (справа от tx), то функцию влияния А. и гамильтониан Н в точке t = t\ можно интерпретировать следующим образом: ^) = —<3-5-2) Я(ф=-^. (3.5.3) Из соотношений (2.8.10), (2.8.11) и уравнений (3.5.2), (3.5.3) следует, что = + (3.5.4) Я(^) = Я(^)-«Г4^; (3.5.5) здесь л — ^-мерный вектор постоянных множителей Лагранжа, определенный так, чтобы удовлетворялись q условий (3.5.1). Уравнение (3.5.5) определяет момент времени tx- Заметим, что из соотношений (3.5.4) и (3.5.5) вытекает разрывность функций влияния X и гамильтониана Я в точке t = tx- При этом переменные состояния остаются непрерывными в этой точке, т. е. х (tf) = х (tf).
124 Глава 3 Все сказанное непосредственно переносится на более общий случай, когда заданы условия в нескольких внутренних точках; однако решить такую многоточечную краевую задачу, вообще говоря, весьма сложно. Для численного решения такой задачи можно использовать метод скорейшего спуска. Другой довольно поучительный подход к решению подобных задач предложен В. Денхэмом [3.7] *). Ограничения (3,5.1), задан- ные во внутренних точках, с множителями Лагранжа зт при- бавляются к критерию качества подобно тому, как это делалось Фиг. 3.5.1. Соотношение между dx и дх и dt. для терминальных ограничений ф [х (fy), tf\ (с множителями v) в разд. 2.5. Первая вариация расширенного критерия качества в таком случае имеет вид 8J = 6 (Ф лгЯ) + 6 j (Я— гтх) dt. to (3.5.6) Заменим интеграл в этом выражении суммой двух интегралов j + j и проинтегрируем (Я— Wx) по частям, принимая во to tf внимание возможную разрывность X в точке t = иЦ+"г <<'> - v 1) См. также работы В. А. Троицкого, опубликованные в журнале ПММ, 26, вып. 3, 6 (1962).— Прим. ред.
Задачи оптимизации при наличии ограничений на траекторию 125 — V&r ti <о dti — (II — /Л) t=z? dtt + t=t± (‘гу дН \ дН -I + J [ + dx ) du $u] dt. to Теперь можно использовать соотношения f Sx^ + x^dtt, dx (Zf) = ( I 8x (Ц) -J- x (tf) dt^ (3.5.7) (3.5.8) геометрический смысл которых (для скалярного х} пояснен на фиг. 3.5.1 *). Исключим с помощью (3.5.8) 8х и 8х (if) из (3.5.7); после группировки членов получим "=«- И61Ц+1хг v «)+"r ттгу] (')+ + г Н (ti)-H(tt) + ^-f-1 dti + V 8х I + . L ас1 J |i=to + ?Г(;г+^-)&+^-6“]Л- <3-5-9> to Выберем теперь значения л(^) и л (Т) так, чтобы коэффициенты при dx (ti) и dti обратились в нуль; это приводит к соотношениям (3.5.4) и (3.5.5). Множитель л выбирается так, чтобы удовлетво- рялось условие (3.5.1). Здесь, так же как в разд. 2.7, при рассмотрении допустимых вариаций следует сделать оговорку относительно предполагаемой управляемости системы. Этим будет оправдана возможность пола- гать коэффициент при 8и (t) в (3.5.9) равным нулю, поскольку вариация 8и (7) в данном случае не произвольна, а должна при- водить к вариациям dx (Zt) и dti, совместимым с вариацией урав- нения связей во внутренних точках dN = ^-dti+ dx(ti) = O. (3.5.10) dti 1 1 dx \ti) ' v x f Задача 1. Квадратичные функции штрафа, зависящие от зна- чений фазовых координат во внутренних точках. В задачах управ- ления при наличии шумов точное удовлетворение ограничениям, заданном как во внутренних точках, так и при t = tf, обычно не- возможно. В этом случае полезно использовать (в качестве альтер- 1) В этом случае справедливы замечания, аналогичные тем, которые сделаны по поводу соотношения (2.7.4) (см. примечание на стр. 92).— Прим, перев.
126 Глава 3 нативы) другой подход, основанный на наложений квадратичного штрафа на отклонения от заданных ограничений во внутренних точках J = ф [x(tf), tf] + v (JV’Vfl + (Я -№х) dt; to здесь Si — положительно определенная матрица размерности q X q, выбираемая проектировщиком с учетом специфики задачи. Показать, что при таком методе решения величины X и Н должны иметь следующие скачки в точке t = ip. (^) = (if) + , Н (;Г) = Н (ф - NTSi , Задача 2. Перехват двух целей одним перехватчиком с мини- мальными усилиями -1). Определить ускорение а = a (t), минимизирующее критерий качества вида t, J = a2 dt о с учетом связей х = и, v =--а и условий х (0) = 0, v (0) = 0, a:(i1) = ^1, ж(^) = 0. Здесь ti и tf заданы, 0 < < tf. Задача 3. Минимальное время перехвата при условии прохож- дения через фиксированную промежуточную точку. Определить программу направления тяги ft (i), которая минимизирует время перехода из точки х = 0, у = 0 в точку х = xf, у = (Гпри нали- чии ограничений (уравнений движения) w=acos'&, х=и, K=asini9’, y = v и граничных условий z(0) = 0, у (0) = 0, и (0) — 0, v (0) = 0, х (t^ = Xi, У (ti) = У1, х (tf) = xf, у (tf) = 0. Величины а, х± и xf заданы, 0 < ti <Z tf. х) Интеграл от квадрата ускорения, сообщаемого управлением, часто называется обобщенным усилием (обобщенной нагрузкой) управления.— Прим, перев.
Задачи оптимизации при наличии ограничений на траекторию 127 3.6.. Системы уравнений движения с разрывными правыми частями во внутренних точках траектории Пусть движение системы описывается векторным уравнением! х = /<п (#> t) (3.6.1)' при t < где определяется условием ф(1> [х /J = 0, (3.6.2)? и векторным уравнением #== /(2> (х, и, t) (3.6.3)> при t >> ti х). Уравнение (3.6.2) представляет собой, как и в разд. 3.5, гра- ничное условие во внутренних точках. Необходимые условия Фиг. 3.6.1. Оптимизация траек- тории корабля при разрывном профиле течения. (3.5.4), (3.5.5) остаются справедливыми с некоторым очевидным' обобщением Жх)(ф = Я<2) (3.6.4). где #(i) = Z4-Vy(i). Я<2> = £, + ЛЛ/<2>. Если /<и=/(2’ и ф(1> —скалярная функция, то единственным решением является v(X> = 0 и, таким образом, точка t = ti является обычной точкой непрерывности. Пример. Выбор оптимального маршрута корабля при плавании в разрывном течении. Рассмотрим пример 1 разд. 2.7 при допол- Х) Примером может служить движение самолета до и после взлета или go и после посадки.
128 Глава 3 нительном предположении, что v=0 и {eF, y>h, О, у <h, где V — скорость корабля относительно воды. Требуется найти минимальную по времени траекторию плавания *от точки х--0, у = 0 до точки х = ah, у = (1 + Ъ) h (фиг. 3.6.1). В данном случае Хх и Ху постоянны в каждой из областей у <Zh и !/>/», но в точке у — А = ф(1’ = 0 они разрывны. Из соотношения (3.5.4) следует (tX) = Ъх (tX) + о, хи (tx = Ху (tX) + v(1>. Принимая во внимание (3.6.4), получаем 1 + Хх (ti) V cos ф (tX) + Ху (tX) V sin ф (tX) = = 1 + Хж (4) [V cos ф (4) + еИ] 4- Ху (Ф V sin ф (tX) = 0. Из условия оптимальности определяем Ху (if) Ху (it) tgW)=xhfr = » Так как путь корабля непрерывен, то х (£,) = х (tX) = xY'&.y (tX = = г/(ф=й. Следовательно, путь состоит из двух прямолиней- ных отрезков; отсюда х , h sin ф. Ыг . , 1ТГ tg ф_ = —,------— = —--------A tg тп, ® r .z'l созф+-(-е ah — .zj — ® u где ф(ф = ф+, ф(^) = ф_1). Эти уравнения с 8 неизвестными легко решаются. Исключая четыре значения Хх, Ху, v(1> и х^ получаем два уравнения с двумя неизвестными ф_ и ф+: sec ф+ = sec ф_ + е, ctg ф_ = а — Ъ (ctg ф+ + е cosec ф+). 3.7. Задачи с фазовыми координатами, разрывными во внутренних точках В некоторых задачах наряду с нарушением непрерывности правых частей системы уравнений возможна разрывность значе- ний фазовых координат во внутренних точках траектории. Кроме того, критерий качества и ограничения могут быть функциями состояния и (или) времени не в одной, а в нескольких точках. 4 В данном примере ф — угол курса (управляющая переменная), а '1ГП — угол пути.
Задачи оптимизации при наличии ограничений на траекторию 129 Общая задача такого типа заключается в выборе управления и (f), которое минимизирует критерий качества j= ф [X О . ., х(Ъ), xffi); to, . . ., ДД + n (Г + 2 j LM[x(t), u(t), t] dt (3.7.1) i=i <1- . 1г—1 при наличии ограничений в виде уравнений движения х — /(1) (х, и, t), tt~i <Z t <Z tt, i = 1, . . N, (3.7.2) и многоточечных краевых условий ф<’> k(£“), x(tf), • • .,x(ty), x(tti); t0, ...,tN] = 0, / = 0, ...,2V. (3.7.3) Здесь x (tt) — значение вектора состояния перед t = tt (слева от tt), а х (tt) — значение вектора состояния сразу же после t = tt (справа от tj). Для получения необходимых условий минимума критерия J сформируем расширенный критерий качества J. Для этого при- бавим выражения (3.7.2) и (3.7.3) к (3.7.1) соответственно с вектор- функциями множителей Лагранжа X (i) и постоянными множите- лями v(5> Д’ N Ч + 2 [v0)]r^> + 2 J [£<*> +Vy(i)_XTz] dt. (3.7.4) з=о - i=i <г+_1 Как и в предыдущих разделах, для удобства введем функции Ф И ЖО; Ф-=ф + 2 (3.7.5) з=о Я(О = ZW + хт/(9, i = l,..., У. (3.7.6) Первая вариация выражения (3.7.4) имеет вид (после обыч- ного интегрирования по частям) dJ=3 [“йг dti + “мдГ dx + дх (Д)dx + г~0 N + 2 [(Н^ - Wx)^t-dti - (НМ - ^^dti-d + 9—0102
130 Глава 3 +3{(-v»<,+ j i=1 H , 4 — 1 (3.7.7) Используя соотношение dx (if) = Sx (tf) 4-x (if) dtt, (3.7.8) исключим 8x (tf) из выражения (3.7.7). После перегруппировки членов получим = 2 [4^-+Я0) (^)-Я(Н1) (it) ] dti + i—О 1 + S h^i- 1Гй)Н+2[4*г+ i=i 1=1 i=1 4-i (3.7.9) Здесь следует заметить, что 77(0) = Выберем теперь X (i) так, чтобы удовлетворялись следующие уравнения: iL1<i<it, i = l,...,W, (3.7.10) i = (3.7.11) V(<t)=—5^-. i = 0, ...,W-1; (3.7.12) tf определим из условия 2® +Я(0(^)_ЯО+1)(^) = о, i = 0, (3.7.13) ОТ j Заметим снова, что Я(0) = #(N+1)a.O. Если ti задано, то соответ- ствующее условие (3.7.13) не является необходимым, поскольку в этом случае dt-, = 0 в (3.7.9). Точно так же, если х (if) задано, то dx (if) — 0 в (3.7.9) и уравнение (3.7.12) при i = 0 не является необходимым. Неопределенные пока множители v(1> выбираются таким обра- зом, чтобы удовлетворить ограничениям tJj'3’ = 0.
Задачи оптимизации при наличии ограничений на траекторию 131 Опять следует сделать оговорку об управляемости системы, чтобы оправдать условие в (3.7.9), так как вариация бп (t) не является произвольной, а должна приводить к вариациям dx (ti), dx (tt), dtt, совмести- мым с =2 [Г «> ] “ °- j-О, (3.7.15) Уравнения (3.7.10) — (3.7.12) и (3.7.14) представляют собой необходимые условия Эйлера — Лагранжа, а (3.7.13) — необ- ходимые условия трансверсальности т). 3.8. Ограничения в виде неравенств на управляющие переменные Пусть вместо ограничения типа (3.2.1) в виде равенства задано подобное ограничение в виде неравенства С (и, jf)<0. (3.8.1) Если определить Н* = 7„rf + L, то, согласно уравнению (2.3.9), получим У А У 8J = j H*8udt = j 8Н*(х, X, и, t) dt, (3.8.2) to to где № = - Lx - 7.Tfx, № (tf) = фх (3.8.3) предполагается, что конечное время tf фиксировано, а терминаль- ные ограничения отсутствуют. Если управление и (t) минимизи- рует критерий качества, то для всех допустимых значений 8и (t) должно быть 6J 0. Отсюда следует, что 8Н* 0 для всех t и всех допустимых 8и (t). Таким образом, в каждой точке, удовле- творяющей условию С (и, t)-^0, оптимальное управление и обла- дает следующими свойствами: 6Я* = Н*8и > 0, 6С = Си8и < 0. (3.8.4) Другими словами, это означает, что величина 6Я* не должна улучшаться при любой допустимой вариации 8и. В действитель- •1) Равенства (3.7.11) —(3.7.13) вытекают из условия трансверсаль- ности.— Прим. ред. 9*
132 Глава 3 ности справедливо более сильное утверждение, что функция Н* должна быть минимизирована на множестве всех возможных значений м; эта компактная формулировка связана с именами Е. Макшайна1) (1939) и Л. С. Понтрягина (1962) и известна как '«принцип минимума»2). Строгое доказательство справедливости приведенного утверждения для задач с сильными вариациями и наличием терминальных ограничений дано Л. С. Понтрягиным (1962). В этом разделе обсуждается лишь частный случай задачи, когда отсутствуют терминальные ограничения и вариации являются слабыми. Условия (3.8.4) уже были получены в разд. 1.7, но другим спо- собом. Если определить гамильтониан системы следующим образом: Н = Хг/ + L + (3.8.5) то необходимое условие экстремума Н будет иметь вид Ни = Lu + Jir/„ + у?Си = 0. (3.8.6) х) Принцип максимума, о котором идет речь, открыт Л. С. Понтрягиным в 1956 г. В работе, опубликованной в журнале ДАН СССР [110, № 1, стр. 7—10 (1956)1, впервые задача оптимального управления была сформули- рована как неклассическая задача вариационного исчисления. Формулировка этой задачи, а также доказательство основной теоремы (принцип максимума) оказали огромное стимулирующее влияние на ученых и инженеров, занимающихся теорией управления и ее приложением к прак- тическим задачам. После этой публикации, а также выступления Л. С. Пон- трягина с докладом на сессии АН СССР по проблемам автоматизации произ- водства 15—20 октября 1956 г. теория оптимального управления получила быстрое развитие. (Основные проблемы автоматического регулирования и управления, Изд-во АН СССР, М, 1957). Упоминая о Макшайне, Брайсон и Хо, вероятно, имеют в виду его рабо- ту: McShane Е., On Multipliers for Lagrange Problem, American Journal of Mathematics, 61, pp. 809—819 (1939), в которой доказана справедливость правила множителей Лагранжа для задачи Лагранжа. Эта работа приведена в списке литературы в книге Л. С. Понтрягина, В. Г. Болтянского, Р. В. Гам- крелидзе и Е. Ф. Мищенко «Математическая теория оптимальных процес- сов», Физматгиз, 1961. Правило множителей, если его формулировать в терминах современной теории управления, сводится к утверждению, что для разрешения вариа- ционной задачи Лагранжа необходимо выполнение условия дН {и)/ди = 0. При этом предполагается, что область изменения переменной и есть открытое множество. Принцип максимума утверждает другое: функция Н (u'j должна достигать максимума по и на оптимальной траектории. При этом область изменения и произвольна и, в частности, может быть замкнутой. Последнее различие существенно, ибо в случае замкнутой области правило множителей может пе выполняться, тогда как принцип максимума справедлив всегда.— Прим. ред. 2) В русской литературе принято приписывать гамильтониану Н* про- тивоположный знак, поэтому соответствующее условие носит название «прин- цип максимума».
Задачи оптимизации при наличии ограничений на траекторию 133 Последнее уравнение совпадает с уравнением (3.2.3), причем в данном случае дополнительно требуется, чтобы Положительный знак множителя р, при С = 0 может быть интер- претирован как требование, чтобы градиент Н* = Хг/И 4* Lu был таким, при котором улучшения Н* можно достигнуть только за счет нарушения ограничений. При решении рассматриваемого класса Задач можно исполь- зовать как гамильтониан Н*, так и гамильтониан Н. Переход от одной функции к другой не вызывает затруднений. Если оптимальная траектория состоит из участков, одни из которых лежат на границе допустимой области (С = 0), а дру- гие — внутри допустимой области (С < 0), то эти участки должны быть состыкованы так, чтобы были удовлетворены все необходи- мые условия. В точках стыковки управление и может быть как непрерывным, так и разрывным. Если управление разрывно, то точка стыковки называется угловой. (Такое название возникло из-за разрывности производных по времени нескольких или всех фазовых координат.) Угловой точкой может оказаться любая точка, но более вероятно, что это будет точка соединения участков траектории, а не промежуточная точка, лежащая внутри допусти- мой области (разд. 3.12). Вообще говоря, не существует метода, с помощью которого можно было бы априори установить существо- вание угловых точек. Если управление и (t) непрерывно в точке соединения участков траектории, то из непрерывности %, дШди и Н следует, что множитель ц (f) также непрерывен в этой точке. Пример. Минимизация терминальной нормы (нормы конеч- ного состояния) при наличии мягкого и жесткого ограничений х). Пусть нужно минимизировать критерий качества г J=4l^(Z)||2 + 4 (3.8.8) о при условиях х — S (t) и [здесь g (t) — заданная функция времени], (3.8.9) I “ (0 1^1 (т. е. —1 и (t) 1, или —1 — и 0, и — 1^0). (3.8.10) х) D. W. Tufts, D. A. Schnidman, Optimum Waveform Subject to both Energy and Scalar Value Constraints, Proc. IEEE, 52 (Sept. 1964). Юграничение | и (t) | 1 иногда называют «жестким» в отличие от «мягкого» ограничения вида J || и dt < С.-~ Прим, перев.]
134 Глава 3 Гамильтонианы системы имеют вид Я = 4М|2 + ^gu + p^u — 1) + р2( — и — 1), (3.8.11) + gu- необходимые условия: ЛТ = -Нх =0, K(t) =К (Г) = а2х (7); (3.8.12) Н* = и + a2g (t) х (Г). (3.8.13) Обращаясь к условию (3.8.4), видим, что если Я£>0, то необ- ходимо выбрать нопт =—1 [для того чтобы было HZ8u^0 для Фиг. 3.8.1. Типичная программа оптимального управления при наличии ограничения типа насыщения и ограничения на расход энергии. всех допустимых 8и, удовлетворяющих (3.8.10)]; если Ни = 0, то —1<иОпт<1; если HZ<zO, то иопт = +1. Так как Я* = = u-h a?gx (Т), то из приведенных условий вытекает, что (" —1 при —1 + a2gx (Г) > 0 (т. е. при a2gx (Т) > 1), Копт = { +1 при 1 + a2gx (Г) < 0 (т. е. при a2gx (Т) < — 1), — a2gx(T) при Я£ = 0 и — 1 < a2gx (Г) ^1. Фиг. 3.8.2. Типичное изменение множителя it (t) для задачи с ограниче- нием типа насыщения и ограничением на расход энергии. Эта интерпретация Н* дает следующее окончательное выражение для оптимального управления: нопт = -Sat [a2g (0 х (T)J, (3.8.14) где {а, . sign а | а | < 1,
Задачи оптимизации при наличии ограничений на траекторию 135 а х (Г) вычисляется из неявного уравнения х(Т) — х0 — g (t) Sat [a2g (t) x (T)] dt. (3.8.15) (0 Если решение этого уравнения приводит к н011т вида, показан- ного на фиг. 3.8.1, то получим ( -ll + a2g(t)x(T)], П1 (t) = < л [ 0 для остальных моментов времени, ( [ — l-\-a2g(t)x (Т)], М-2 (О = S [О для остальных моментов времени и 1 4- a2g (t) х(Т) = 0 при t = ii, и t = i2, —1 + d2g (<) x (T) = 0 при t = t3 и t = (фиг. 3.8.2). 3.9. Линейные задачи оптимизации; релейное управление Одной из интересных частных задач оптимального управления является задача, в которой критерий качества, уравнения движения и ограничения являются линейными функциями от фазовых коор- динат и управляющих переменных. В общем случае минимума для подобных задач не существует, если не заданы ограничения типа неравенств на фазовые переменные и/или управляющие переменные. Когда ограничения типа неравенств наложены толь- ко на управляющие переменные и эти ограничения линейны, есте- ственно ожидать, что минимизирующее решение, если оно суще- ствует, соответствует такому управлению, которое находится в той или иной точке границы области допустимых управлений (см. для сравнения разд. 1.8 о линейном программировании в зада- чах минимизации функций нескольких переменных). В общем случае на оптимальной траектории происходит одно или несколь- ко переключений управления. Такое управление- называется релейным, поскольку оно мгновенно «перескакивает» из одной точки границы области допустимых управлений в другую точку этой же границы. В этом разделе будет рассматриваться только задача миними- зации времени 1) в самом простом варианте, когда вектор управ- ления имеет только одну компоненту, т. е. и — скаляр. х) Задача па минимум времени перехода из х (t0) в х (tf) часто называется задачей оптимального быстродействия.— Прим, перев.
136 Глава 3 Пусть система описывается уравнениями х = F (t) х + g (t) и, (3.9.1) х (0) = х0, х — n-мерный вектор, где величина (скалярного) управления ограничена: -1 < и (0 < 1. (3.9.2) Необходимо найти управление и (£), которое переводит систему в состояние х (tf) = 0 (3.9.3) за минимальное время. Таким образом, в данной задаче миними- зируется величина tf. Поскольку задача линейна, то усло- вие (3.9.3) не представляет собой какого-либо специального слу- чая. Задача перехода системы из произвольного начального состояния в произвольное конечное состояние х (tf) = xf 0 может быть представлена в рассматриваемой форме, если начало координат перенести в желаемую конечную точку xf г). Используем введенную в разд. 3.8 функцию Я*; для рассма- триваемой задачи она имеет вид И* = 7Т (Fx + gu) + 1. (3.9.4) Для минимизации Н* по и при условии (3.9.2) необходимо, чтобы ( 1 при kTg <0, „ „ _ “W= г (3-9.5) ( —1 при XTg>0. Величина 7.Tg называется (по очевидным причинам) функцией переключения. Условие трансверсальности упрощается: (Fx + gu) + = 0. (3.9.6) Векторное уравнение для функций чувствительности имеет вид Хт==— 7.TF. (3.9.7) Для получения решения следует интегрировать совместно урав- нения (3.9.1) и (3.9.7), при этом и (t) определяется соотноше- нием (3.9.5); граничные условия: х (0) = х0, х (tf) = 0. Значе- ние tf определяется из условия трансверсальности (3.9.6). Пример. Простейшая система второго порядка (двойной инте- гратор). Рассмотрим систему, для которой Xi = x2, х2 — и, —l^u(t)^l. 2) Если же конечное состояние системы принадлежит некоторой поверх- ности, а не точке, то для решения задачи применимы методы разд. 3.8, дополненные методами разд. 2.8.
Задачи оптимизации при наличии ограничений на траекторию 137 Ввиду простоты этой системы уравнения для функций чувстви- тельности легко решаются: Х4 = 0, Х4 = const, ^2= — Х2 = Xj + Xt (tf — t), Xj = const. Определим функцию переключения X g = X2 (t) = Xj + Xj (tf — t), следовательно, j 4-1» x2<0, u=\ -1, X2>0. Из условия трансверсальности (3.9.6) с учетом равенства xt (tf) = = х2 (tf) = 0 следует Х2 (tf) и (tf) = 1. Это соотношение при релейном законе управления и дает Х2 (tf) — 1» и (tf) = —1, или Х2 (tf) = —1> и (tf) ~ 4*1. Так как функция переключения линейна относительно времени (tf — t), то она может изменить знак не более одного раза. Двигаясь Фиг. 3.9.1. Фазовые траектории и кривые переключения для оптимальной релейной системы второго порядка (типа двойного интегратора). от tf при и = 4-1 или и = —1, можно получить кривую переклю- чения в пространстве фазовых переменных. Кривая переключения состоит из двух парабол в пространстве (xlt х2) (фиг. 3.9.1):
138 Глава 3 и = Ц- 1 х2 (О’ удовлетворяющее условию М4)=° х1(0’ удовлетворяющее условию xi (t/) = 0 Фазовая траектория, проходящая через начало координат (линия переключения) X2 = tf—t Xi=-(tf-t^l2 xi = ~хЦ2 X2=t—tf x{ = xl/2 Если случайно окажется, что начальная точка лежит на кри- вой переключения, то и = ± 1, причем знаку «+» соответствует Xi >0, знаку «—» соответствует xt < 0. Однако в большинстве случаев начальное состояние системы не находится на кривой переключения. В таких случаях значение и = ± 1 нужно выбрать так, чтобы движение системы происходило по направлению к этой кривой. Проверка показывает, что выше кривой переключения и = —1, а ниже этой кривой и = +1; типичные траектории (тоже параболы) изображены на фиг. 3.9.1. Закон управления может быть записан в следующем виде: {4-1. если sgn х2 < — 2xi или ^2Sgna;2 =—2жь ^>0, - — 1, если xlsgnx2> — 2а?! или ^sgn^2 =—2жь ^<0. Кривые постоянных значений tf (изохроны) описываются урав- нениями (х2 — tf)2 = 4 [xi 4- (lf/2)J, если Xf + 1l2x2 | x2 |< 0, (ж2 + t^]2 = 4 [—Xf 4- (tf/2)], если Xf -J- | x2 | > 0. Одна из таких кривых также приведена па фиг. 3.9.1. Отметим, что наклон этой кривой имеет разрыв в точке пересечения с кри- вой переключения управления. Так как 1 _ 1 _ dtf 1 dXi ’ 2 дх.2 ’ то вектор K = (%i, Л2)т направлен по нормали к линии = const всюду, кроме точки пересечения с кривой переключения, где направление нормали является неопределенным. Рассмотрим теперь общий случай задачи оптимального быстро- действия. Пусть X (*о) = тогда Л (I) = Фт (t0, t) t], (3.9.8)
Задачи оптимизации при наличии ограничений, на траекторию 139 где Ф (t, т) — фундаментальная матрица решений системы (3.9.1)- Подставив это выражение для А (/0) в (3.9.5) и (3.9.1), получим 'г X (tf) = 0 = Ф (tf, t0) Хо — j Ф (tf, т) g (г) sgn [дт (т) ФГ (t0, т) Ц] dx to или tf %о = j ф (t0, т) g (т) sgn [дт (г) Фт (t0, т) т|] dr. (3.9.9) to Двухточечная краевая задача по существу состоит в определе- нии ц, удовлетворяющего уравнению (3.9.9) для заданного Яо- Если значение tf фиксировано, а ц изменяется, то интеграл (3.9.9) дает такие значения х0, двигаясь из которых можно достичь нача- ла координат за время tf — t0 с помощью управления, удовлетво- ряющего всем необходимым условиям оптимальности. Таким образом можно получить кривые постоянных значений tf — t0 в пространстве х (изохроны), аналогичные показанным на фиг. 3.9.1 Численное решение уравнения (3.9.9) проводится следующим образом: а) Задается некоторое значение ц и вычисляется т)гю А X V X j Ф(^о, т) g sgn (t0, т) Tjl dx, при этом интегрирование про- to водится до такого значения tf, при котором интеграл дости- гает величины г]т2:0. Это значение tf, вообще говоря, должно быть меньше, чем оптимальное значение в противном случае оказа- лось бы, что существуют такие и0 (t), t°f и ц°, что для t° < tf t<3f Л3" j Ф (*о, т) g (х) sgn (т) ф' (t0, х) т]°] dx = to * if = t]T ^(to,x)g(x)sgn[gT(x)4>T(t0,x)i]]dx, (3.9.10) to но это равенство не может быть справедливым, поскольку выраже- ние в правой части возрастает с максимальной скоростью. б) Значение т] изменяется так, чтобы ы приблизилось к х0; напри- мер, можно взять бг] == Е (х0 — ft)), Е >0. в) Интегрирование повторяется, как описано в п. «а», до тех пар, пока tf, увеличиваясь, не достигнет ty.
140 Глава 3 В изложенной схеме реализуется метод последовательных при- ближений по т], разработанный Нейштадтом [2.8]. Успех при реше- нии зависит от непрерывности р по х0. Таким образом, следует - ожидать трудностей вычислительного характера, если х0 находит- ся на кривой переключения или вблизи этой кривой (фиг. 3.9.1). Если система (3.9.1) неустойчива при и = 0, то, очевидно, существует область начальных значений х (0), для которой огра- ниченное управляющее усилие §(<)«, —1 ^н^1, недостаточно ве- лико, чтобы превзойти член F(f)x. Это означает, что система не мо- жет быть переведена в точку х = 0 из указанной области началь- ных значений. Аналогично, если система п. «а» не является полностью управляе- мой, то в общем случае невозможно перевести эту систему в точку х = 0. Задача 1. Сформулировать дискретный вариант линейной зада- чи на быстродействие (считая для простоты управляющую переменную скаляром) и показать, что предположения об устой- чивости и управляемости системы непосредственно связаны с раз- решимостью линейного уравнения Аи = Ъ для некоторых задан- ных А и Ъ [см. формулу (3.9.9)]. Задача 2. Для дискретной системы #1(^ + 1) ^2 (^ +1) 0 + = .... V 1J L^2 v? J L 1 определить на плоскости (х^, х2) области начальных состояний (xt (0), х2 (0)1, которые могут быть переведены в начало коорди- нат соответственно за один, два, три и четыре шага (см. задачу 3), Задача 3. Для непрерывной системы Х1 -Ж2- '0 Г о о а?2 год и, |н(<)|^1, <о = О, определить при tf = 1, 2, 3, 4 области в пространстве начальных состояний х0, из которых возможен переход в начало координат. Полученный результат сравнить с решением задачи 2. Задача 4. Пусть требуется минимизировать критерий качества / = I!2 для системы, описываемой уравнением х = Fx 4- Gu, х (0) = х0, tf задано, с учетом ограничения и (t) | С 1.
Задачи оптимизации при наличии ограничений на траекторию 141 Показать, что критерий качества достигает минимального значе- ния /Мин >0 при релейном управлении. Изобразить решение графически [аналогично фиг. (3.9.1)]. Задача 5. Недемпфированный осциллятор с ограниченным управлением [2.9]. Система описывается уравнениями Xi = х2, х2 — —Xi 4- и, —1 и (t) 1. Уравнения для функций чувствительности в этом случае легко решаются: = %2, ^-2 — —М» отсюда А,! = cos (Т — t) + bi sin (Т — t), А2 = ai sin (T — t) — bi cos (T — t). Функция переключения определяется соотношением XTg- = А2 (<)• Условие трансверсальности (3.9.6) в этой задаче имеет вид Кг(Т)и(Т) + 1 = 0. Поскольку на управление и (t) наложено ограничение, то А2 (П = + 1, откуда следует = ± 1. Построить в пространстве фазовых переменных (яц, х2) кривые переключения управления и кривые постоянных значений (tf—t0). Задача 6. Система второго порядка описывается уравнениями х = v, v = и, где х, v — скалярные фазовые переменные, и — скалярная огра- ниченная управляющая переменная: -1 С и С 1. Заданы величины х (0) = х0, и (0) = v0 и tf, найти управле- ние и (<), минимизирующее критерий качества Ч J = f | и (t) | dt о при заданных терминальных ограничениях х (tf) = 0, и (tf) = 0. Рассмотрите лишь случай, когда v0 0, х0 —V2P®, пред- полагая, что >(</)МИн, где (</)Мип — минимальное время, за которое система может перейти из состояния (х0, v0) в состоя- ние (о, о) при —1 и 1.
142 Глава 3 Покажите, что в этом случае управление должно быть релей- ным с зоной нечувствительности, т. е. С — 1, 0<4<^ и — [ 0, t < t2, I +1, где моменты переключения и t2 определяются соотношением ) = у I*/ + vo + V(ff — ро)а — (4х0 + 2^)] ^2 J И tf > VO + / 4ж0 + 2v2 = (^)мин. 3.10. Ограничения в виде неравенств на функции управления и фазовых координат Пусть вместо ограничения типа равенства (3.3.1) задано соот- ветствующее ограничение в виде неравенства С (х, и, t) 0. (3.10.1) Эта задача решается таким же способом, как задача в разд. 3.8. Определим гамильтониан системы где Н — L 7. f рС, >0, с=о, = 0, С<0. Уравнения Эйлера — Лагранжа имеют вид ( -Lx-~KTfx-y£x, (7 = 0, t -Lx-KTfx, (7<0. (3.10.2) (3.10.3) (3.10.4) Заметим, что здесь появился член рС^, которого не было в задаче, рассмотренной в разд. 3.8. Управление и (t) опреде- ляется из необходимого условия экстремума , Ни = Lu 4- V/u + рС„ = 0. (3.10.5) Если С < 0, то р = 0 и условие (3.10.5) определяет и (/). Если же С = 0, то уравнения (3.10.1) и (3.10.5) решаются совместно для получения и (/) и р (#); р (Z) содержится в выражении (3.10.4).
Задачи оптимизации при наличии ограничений на траекторию 143 При решении конкретной задачи оптимальная траектория может состоять из участков, одни из которых лежат на границе допустимой области, а другие — внутри допустимой области. Эти участки долж- ны быть состыкованы так, чтобы были удовлетворены все необхо- димые условия оптимальности. Как и в разд. 3.8, точки соедине- ния участков траектории могут оказаться угловыми, т. е. в этих точках может нарушаться непрерывность вектора управления. 3.11. Ограничения в виде неравенств на функции фазовых координат Пусть вместо ограничения типа равенства (3.4.1) задано соот- ветствующее ограничение типа неравенства S (х, (3.11.1) Будем считать для простоты, что 5 и и — скалярные величины. Так же как в разд. 3.4, возьмем полную производную по вре- мени от выражения (3.11.1) и подставим / (х, и, t) вместо х. Если полученное выражение для S не содержит явно управления и (t), то будем повторять дифференцирование до тех пор, пока получим q-ю производную от S (х, t), которая будет зависеть от и явным образом. В этом случае выражение (3.11.1) называется ограниче- нием q-го порядка типа неравенства на переменные состояния. Функция S^} (х, и, t) — q-я производная от S — играет здесь ту же роль, что и функция С (х, и, t) в разд. 3.10. Гамильтониан системы Н = L + kTf + р5<«>, (3.11.2) где 5<?> = о на границе допустимой области, т. е. при 5 = 0, (3.11.3) р = 0 внутри допустимой области, т. е. при S < 0. (3.11.4) Уравнения Эйлера — Лагранжа для этой задачи легко получить из уравнений (3.10.4), (3.10.5) заменой С на 5<<г>. Необходимое условие для функции чувствительности р (/), как и в разд. 3.10, определяется неравенством р {£) 0 на 5 = 0 в случае минимизации J. (3.11.5) Поскольку воздействие на функцию 5 (х, t) может быть полу- чено лишь за счет изменения ее ry-й производной по времени, то не существует конечного управления, которое могло бы удержать систему на границе допустимой области, если траектория при
144 Глава 3 входе на эту границу не удовлетворяет следующей системе тан- генциальных (касательных) ограничений: S^'fx. t) Очевидно, эти тангенциальные ограничения должны удовлетво- ряться и при сходе с границы допустимой области. Уравнения (3.11.6) образуют систему граничных условий во внутренних точках; подобные условия уже рассматривались в разд. 3.5. Следовательно, функции чувствительности % (t) в общем случае разрывны в точках соединения участков траектории, одни из которых лежат на границе допустимой области, а другие — внутри этой области. Из соображений удобства в качестве точки, удовлетворяющей внутренним граничным условиям, можно выбирать точку входа на границу допустимой области1). Таким образом, множители X (/) и Н разрывны в точке входа на границу допустимой области (при t = и непрерывны в точке схода с границы. Если q величин в (3.11.6) назвать вектором N (х, t), то «условия скачка» в точке входа определяются непосредственно из (3.5.4) и (3.5.5). Как и в разд. 3.8, точки входа на границу допустимой области и схода с нее могут оказаться угловыми, т. е. точками, в которых вектор управления терпит разрыв. Отметим, что ограничение типа неравенства на управляющие переменные можно рассматривать как частный случай ограни- чения типа неравенства на фазовые переменные, если q = 0. Поскольку при этом вектора N не существует, то множители X (£), а также гамильтониан Н в точке t = непрерывны. Другие способы решения поставленной в данном разделе зада- чи состоят в том, что: а) число параметров состояния сокращается до п — q на участках оптимальной траектории, лежащих на гра- нице допустимой области, или б) само ограничение S (х, I), а не (х, и, t) прибавляется к гамильтониану 2). Пример 1. Задача о брахистохроне с ограничением первого по- рядка типа неравенства на фазовые координаты. Пусть система описывается уравнениями x = (2gy)1/2cos0, у = (2gy)1/2 sinQ, х (0) = у (0) = 0, х) Неединственность выбора % (t) на границе допустимой области 5=0 рассматривалась Брайсоном, Денхэмом и Дрейфусом [2.10]. 2) См. Дж. С и е й е р, А. Б р i й с о н, Задачи оптимального програм- мирования в случае ограниченного фазового пространства, Ракетная техника и космонавтика, т. 6, № 8, стр. 59—64 (1968).
Задачи оптимизации при наличии ограничений на траекторию 145 где х — горизонтальная дальность, у — высота (положительное направление—вниз), g — гравитационное ускорение, 0 — угол наклона траектории к горизонту (фиг. 3.11.1). Фиг. 3.11.1. Задача о брахистохроне при нали- чии ограничения в виде неравенства на фазовые ко- ординаты. Нужно определить 0 (t), при котором прямая х = I до- стигается за минимальное время, с учетом ограничения tg0 + 7г, 0 и 7г — постоянные величины. Это ограничение является ограничением первого порядка типа неравенства, так как выражение S = у — a; tg 0 — h О не содержит управляющей переменной 0 (/), a S = (2gy)1^ х X sec 0sin(0 — 0) уже содержит управляющую переменную. Ясно, что на прямой S = 0 выполняется равенство 0 = 0 (это следует из условия 5 = 0). Решение, не содержащее граничных участков (оно имеет мес- то, если h/l > 2/л [1 — (л/2— 0)tg0]), имеет вид п я . / Л g \ 1/2 0(7) =-2—“7, где ; х 2 1. sin 2coi \ у 2 . , , -Г = — И7-----=— ) , 4- = — sm2 ей; I л \ 2 / I -я ’ (л Z \ ^/2 — 1 —минимальное значение конечного времени; Xx=-—(D/g, Л„= — у ctgco/, где dtf = %Ж6Ж + Xv6y; Н = Кхх + Куу 4-1 = 0. Решение, содержащее. граничный участок (т. е. при hjl <2/лх X [1 — (л/2 —0)tg0]) имеет следующий вид: 0 (7) = Ля 0, < и2(^ —/), hi 10—0102
146 Глава 3 с ограничениями в виде неравенств 1/2 и различных значениях h/l. Фиг. 3.11.2. Брахистохроны в задаче на фазовые координаты при tg 0 = где zg 9—л/2+ctge \1/2 0)1 = —---------7----- \2 h ctg 0 ) л/2— 0 ----------. (01 Zg 9 +ctg 9 \1/2 (j) — --------— \ 2 14- h ctg 9 J t -/ / 2 C02 ’ Z/ = [| (Z + Л ctg 9) (9 + ctg9)]V2 - ctg 9 (9- n/2 + ctg 9)]1/2 - минимальное значение конечного времени; (Zj) -- Хж (Z*) = — fx0 tg 9, %й (Z— %й (Z?) = fx0, где fx0 = (ctg 9/g) (и2 — coi). Заметим, что u0 0 и -> t2, если h/l —> 2/л [1 — (n/2 — 9) tg 9]. В этом случае H = ЪхХ + hvy + 1=0 на 0 + t + tf. На фиг. 3.11.2 представлены решения при tg 9=1/2 для несколь- ких значений h/l. Пример 2. Минимизация энергии при наличии ограничения второго порядка типа неравенства на фазовые координатых). Пусть система описывается уравнениями v = а, х - v, !) Этот пример предложен Дж. В. Бреквэллом.
Задачи оптимизации при наличии ограничений на траекторию 147 V (0) = — V (1) = 1, х (0) = х (1) = 0. Требуется определить управление а (Z), минимизирующее крите- рий качества 1 (• J = у J a2 dt, с учетом ограничения х (t) I. Поскольку S = х — I и S = v не содержат явно а (Z), a S = a (t) — явная функция управляю- щей переменной, то заданное ограничение х (t) I является ограничением второго порядка типа неравенства на фазовые коор- динаты. Решим сначала задачу при отсутствии граничного участка, т. е. при I 1/4. Введем Е = 1/2а2, Е (0) = 0 и будем миними- зировать Е (1). Уравнения Эйлера — Лагранжа имеют вид = —%ж, %ж = 0, = 0, = — kxt + const, %ж = const, = const = 1, а = — Далее задача решается просто: а = —2, v = 1 — 2t, х = t (1 — t), откуда а:макс = 1/4, = —я — 2, %ж = 0, J = 2, Н = -р Kvv -р t\,EE ——2. При значениях параметра I, лежащих в диапазоне —1/6 </Z ^1/4, решение касается границы х = I и имеет следующий вид х): | — 8 (1 — 3Z) 4-24 (1 —4Z) Z, | -8(1-3Z)-р 24 (1 —4Z)(1 — t), I 1 — 8 (1 — 3Z) Z~P 12 (1 — 4Z) Z2, i — 1 -p 8 (1 — 3Z) (1 — Z) — 12 (1 — 4Z) (1 — Z)2, ( Z-4(l—3Z)Z2 + 4(1 —4Z)Z3, 0<Z<i/2, 1/2<Z<1; 0<Z<1/2, 72<z<1; o<z<i/2, I 1 —Z —4 (1 — 3Z) (1 —Z)2-p4 (1 —4Z) (1 — Z)3, 1/2<Z< 1; К = —а, откуда (V2 — 0) — (V2 + 0) = 0 (s здесь не используется); 24(1 —4Z), OCZC1^, — 24(1—4Z), 1/2<Z<1. !) В силу симметрии данную задачу с ограничением можно рассматри- вать как две одинаковые задачи без ограничений, но с заданными терминаль- ными условиями. 10*
148 Глава 3 Отметим еще, что Ах С/2 - 0) - %я (V2 + 0) = 48 (1 - 4Z), J = 2 + 6 (1 - 4Z)2, Н = -8 (1 - 6Z)2. При значениях Z в диапазоне 0 < Z <; 1/6 решение имеет вид 0<£<3Z, 3Z<Z<1 —3Z, 1 - 3Z<Z <1; 0<Z<3Z, 3Z<7<1—3Z, 1 —3Z<Z<1; 0</<3Z, 3Z<Z<1-3Z, 1—3Z<Z<1; 0<7<3Z, Заметим, что Z„(3Z — 0) — (3Z0) = (4/3Z2) (Ve — Z), ( 2/9l2, 0<^<3Z, I -2/9Z2, 3Z<£<1. Заметим еще, что (3Z — 0) — (3Z -J- 0) = 4/9Z2, J = 4/9Z, H = 0. На фиг. 3.11.3 представлены решения для различных значений Z. Наиболее интересной особенностью этих решений является то, что оптимальная траектория касается границы допустимой области только в одной точке для целого диапазона значений параметра Z (1/6 Z 1/4) и что только одна из функ- ций чувствительности, а именно %х, претерпевает при этом разрыв. При 0 < Z < 1/6 траектория находится на границе допустимой области некоторое конечное время, и уже оба множителя %х и в этом случае разрывны. Такая картина типична для задач
Задачи оптимизации при наличии ограничений на траекторию 149 с ограничениями второго порядка типа неравенств на фазовые координаты. Фиг. 3.11.3. Оптимальные траектории в задаче о минимуме энергии при наличии ограничений в виде неравенств на фазовые координаты (при раз- личных значениях I). А — параболы, не выходящие на границу допустимой области (I 1/4); Б — кубические параболы, касающиеся границы допустимой области лишь в одной точке (1/6 I 1/4); В — части кубических парабол, разделенных отрезком прямой х= I — const в точках бифуркации t — 3Z и t = 1 — 31 (0 I 1/6). Задача *). Пусть система описывается уравнениями х^ = х2, ^i(0)>0] а:1(//)=0, \ заданы, х2 — и; х2 (0) J х2 (tf) = 0, | и (t) |^1, —^2 «С V >0. Определить управление и (t), минимизирующее tf, ъ пред- положении, что для заданных начальных условий решение задачи существует. !) Предложена В. Денхэмом.
150 Глава 3 3.12. Раздельное определение участков траектории в задачах с ограничениями в виде неравенств на фазовые координаты Пусть в задаче оптимизации заданы ограничения типа нера- венств на фазовые координаты, и пусть оптимальная траектория содержит в средней части только один участок, лежащий на гра- нице допустимой области. Если «вклад» этого участка в критерий качества зависит только от значений одной из переменных в точ- ках входа и выхода на границу допустимой области (это может быть либо время /, либо одна из фазовых координат Xj), то оказы- вается возможным раздельное (независимое) вычисление участков траектории, не лежащих на границе допустимой области. По опре- делению «вклад» в критерий качества участка траектории, лежа- щего на границе допустимой области, определяется выражением *2 Д/ (tt, t2)= § L (х, и, t) dt. (3.12.1) fi Если этот интеграл можно представить в виде функции, завися- щей только от его конечных точек, т. е. в виде х) Д/ (ti, t2) = g [х (/г)! — g [х (^)1 (3.12.2) или Д/ (ti,t2) = g(t2) - g(ti), (3.12.3) то два остальных участка траектории, не лежащих на границе допустимой области и соответствующих интервалам времени to :С t :С ti и t2 sC t gC tf, могут быть определены независимо друг от друга. В самом деле, представим критерий качества J в виде к J= ф [£(//), tf] + f L(x, и, t) dt = Л + /2, (3.12.4) to где ti Л= j L(x, u, t) dt — g[x(ti)], (3.12.5) to ‘f J2^[x(t}), //]+ j L(x, u, t) dt + g [X (i2)]. (3.12.6) ti Или в несколько более общем виде: Л./ = g2 [t2, х (г2)] — gi , х (tj)] [сепарабельная (разделимая) функция концов интегрирования].— Прим, перев.
Задачи оптимизации при наличии ограничений на траекторию 151 Критерии качества J J2 и ограничения во внутренних точках типа (3.11.6) в моменты времени tt и t2 не зависят друг от друга, поэтому соответствующие участки траектории, не лежащие на границе допустимой области, могут определяться раздельно. Пример 1. Задача о брахистохроне при наличии ограничений на фазовые координаты (см. пример 1, разд. 3.11). В рассматривае- мой выше задаче о брахистохроне требовалось минимизировать tt. Эту величину можно представить в виде I ' x(ti) i,= Um+ О х к(/1) х На участке траектории, лежащем на границе допустимой области, выполняются равенства 9 = 0 и у = a; tg 0 + 7г; следовательно, я((2) Я((2) Г dx Г _________dx_________ e°s 0 cos eKsgCrtgO + A) = у — cosec 0 fj/"x (Z2) tg0 + 7г — x(ti) tg- 0 — Ta] n Ji = ti — Vе2y (tt)/g cosec 0, Jz = tf — tz + V2y (tz)/g cosec 0. Полученное решение, конечно, следует проверить, чтобы убедить- ся, что у (tz) < у (tt). Пример 2. Минимизация энергии (см. пример 2, разд. 3.11). В этом примере возможность раздельного вычисления участков траектории совершенно очевидна, поскольку а — 0 на границе допустимой области. Таким образом, ti Ч Jt = ~ f a2dt, J2 = ~ ( a2 dt. ^2 “J о <2 Полученное решение следует проверить, чтобы убедиться в спра- ведливости неравенства tz- Более глубокое рассмотрение поставленных в данном разделе вопросов и соответствующий численный пример можно найти в работе [2.21*]. 3.13. Условия в угловых точках * В задачах оптимального управления, особенно в тех, в которых заданы ограничения типа неравенств на управляющие переменные и/или фазовые координаты, управление и (t) может претерпевать
152 Глава 3 разрывы. Другими словами, угол наклона фазовых траекторий может изменяться скачком. По этой причине точки разрыва управления и (t) называются угловыми точками. В данном разделе будут сформулированы условия, которые должны выполняться в угловых точках для различных типов задач оптимального управления. Будем обозначать через t~ момент времени слева от угловой точки, а через С — момент времени справа от угловой точки. Справедливы следующие соотношения: 1. Для задач без ограничений на фазовые координаты и для задач с ограничениями типа неравенств на управляющие пере- менные k(t~) = X(t+), (3.13.1) H(t~) = H(t+), (3.13.2) Ни (Г) = Ни (^). (3.13.3) 2. Для задач с ограничениями типа неравенств на фазовые координаты: । а) в точке входа на границу допустимой области V (Г) = V (/+) + aTNx, (3.13.4) Н (Г) = Н (/+) — nTNt, (3.13.5) Ни (Г) = Ни (/+), (3.13.6) где условие N (х, t) = 0 заменяет q ограничений S (х, t) = О, S (х, t) = = 0. . . ., (х, t) = 0; б) в точке выхода с границы допустимой области должны выполняться условия (3.13.1) — (3.13.3). Пример. Рассмотрим пример задачи без ограничений типа неравенств, точки. Пусть оптимальное решение которой содержит угловые lf J = \ { — [и(1) — а (£)]2 и4 (/)} dt, t» (3.13.7) X = и, X (to) = хо, X (tf) = Xf, (3.13.8) здесь a (t) — известная функция времени. Для этой системы % = 0, откуда % = const, (3.13.9) Н (и, к, t) — Ги — [и — a (/)]а + и4, (3.13.10) Ни = 0 = 4и3 — 2и + [А, + 2а (<)]. (3.13.11)
Задачи оптимизации при наличии ограничений на траекторию 153 Последнее уравнение имеет в общем случае три решения для и. Всегда возможно выбрать функцию a (t) так, чтобы зависимость Н от и перед некоторым фиксированным моментом точно в этот Фиг. 3.13.1. Возможные виды зависимости Н от угловой точкой, в угловой точке и после и непосредственно перед угловой точки. момент и сразу же после момента была такой, как показано на фиг. 3.13.1. В этом случае в момент значение управляющей переменной и изменяется скачком с ut на и2 х). Таким образом, ti — угловая точка. Задача 1. Показать, что для задачи минимизации критерия качества вида т J — f F (х, х, t) dt о (т. е. для простейшего функционала вариационного исчисления) условия в угловых точках (3.13.1) — (3.13.3) сводятся к условиям Вейерштрасса — Эрдмана для угловых точек в классических вариационных задачах ^•Гг = ^-1г+, (3.13.12) (F-xF^^^F-xF.J^. (3.13.13) Задача 2. Описать ситуацию, когда оптимальная траектория покидает границу допустимой области при непрерывном управ- лении и (t). !) Это заключение непосредственно следует из принципа минимума (разд. 3.8), в соответствии с которым из трех возможных решений уравне- ния (3.13.11) должно выбираться то, при котором функция Н (и) имеет абсо- лютный минимум. Поскольку Нии = 12и2 — 2, то Нии < 0 при — 1/ф/б'< <и<;1/"|/б и Нии > 0 при 1/“|/§<и<—1/"|/б. Таким образом, И (и) может иметь локальные минимумы на полуинтервалах 1/“|/б и < с» и — оо < и .< —1/~|/б, разделенных отрезком — 1/"|/б и .< 1/“|/б. Если функция a (t) выбрана так, что в момент t = — 0 = «у абсолютный минимум Н (и) достигается в точке щ £ [1/“|/б, <») (фиг. 3.13.1,a),jB момент t = Ц — в двух точках щ £ [1/“|/б, оо) и и2 € (— <», —1/“|/б] (фиг. 3.13.1,6), а в момент t = Ц -|- 0 = if — в точке и2 £ [— оо, —1/1/6) (фиг. 3.13.!,<?),. то в момент происходит переключение с щ на и2.— Прим, перее.
Глава 4 Оптимальное управление с обратной связью Ч 4.1. Понятие о поле экстремалей В предыдущих разделах исследовались задачи программиро- вания оптимальных траекторий, которые в соответствии с терми- нологией теории автоматического регулирования следует отнести к задачам оптимального управления по разомкнутому контуру * 2). В этих задачах требовалось отыскать оптимальную управляющую функцию 3) и (t), которая переводит систему из заданного в момент tQ начального состояния х (i0) на некоторую заданную терминаль- ную гиперповерхность (гиперповерхность конечных состояний), •определяемую общими краевыми условиями (терминальными огра- ничениями) вида ф [ж (tf), i/] = 0. Обратим теперь внимание на то, что любая точка, лежащая непосредственно на оптимальной траектории между исходной начальной точкой [ж (i0), i0] и заданной терминальной гиперпо- верхностью, является возможной начальной точкой для одинако- вых оптимальных управляющих функций4); таким образом, каждой точке [ж (t), t\, расположенной на этой оптимальной х) Задачу отыскания оптимального управления с обратной связью в оте- чественной литературе называют задачей синтеза или же задачей аналити- ческого конструирования оптимальных регуляторов.— Прим, перев. 2) Такое название по существу оправдывается тем, что при управлении по заданной программе и (t) сигналы о фактическом, реальном движении не используются, и эти сигналы никак не влияют на формирование управляю- щего воздействия.— Прим, перев. 3) С целью уточнения следует заметить, что ранее были рассмотрены лишь некоторые из необходимых условий первого порядка, с помощью которых можно определить оптимальное и (t); в гл. 6 будут рассматриваться достаточные условия оптимальности и (t). 4) Авторы, видимо, имеют в виду следующее. Пусть и (i), tQ t tf,— оптимальное управление, соответствующее траектории, начинающейся в точ- ке х (t0) = х0 и заканчивающейся в момент tf на заданной гиперповерхности конечных состояний. Выделим на этой оптимальной траектории некоторую промежуточную точку х (t') = х', соответствующую моменту времени t', <о -С -С tf- Тогда оптимальным управлением и' (t) для траектории, начи- нающейся в точке (х', t') и заканчивающейся на той же самой гиперповерх- ности, будет та часть оптимальной управляющей функции и (t), которая соот- ветствует отрезку времени t' t tf. Другими словами, функций и (t) и и' (£) совпадают па отрезке i' i if- Справедливость этого утверждения легко доказывается от противного; оно является одним из фундаментальных свойств оптимальных управлений.— Прим. ред.
Оптимальное управление с обратной связью 155 траектории, соответствует значение оптимального управляющего вектора и (i) в этой точке. Если, однако, необходимо найти опти- мальную управляющую функцию, которая переводит систему на заданную терминальную гиперповерхность, но уже из точки, не лежащей непосредственно на оптимальной траектории из точки [ж (i0), U, то следует решить другую задачу оптимального про- граммирования, в которой в качестве начальной выбрана эта новая точка. В задачах автоматического управления часто возни- кает необходимость определения оптимальных управляющих функ- ций и (/), которые переводят большое количество различных начальных точек на заданную терминальную гиперповерхность, поскольку начальные состояния системы или моменты начала движения могут быть заранее неизвестными. Чтобы охватить эту ситуацию, приходится вычислять семейство оптимальных траекторий так, чтобы любая из возможных начальных точек либо находилась на одной из вычисленных оптимальных траек- торий, либо лежала в непосредственной близости от нее. В вариа- ционном исчислении такое семейство называется полем экстре- малей *). Вообще говоря, через каждую фиксированную точку [ж (/), i] проходит только одна оптимальная траектория, ведущая на заданную терминальную гиперповерхность, и каждой точке в этом смысле соответствует единственное оптимальное управление и0 (Z)2) Следовательно, можно записать и0 = и° (х, t). (4.1.1) Это закон оптимального управления с обратной связью, так как вектор управления теперь задается как функция текущего состоя- ния х (/) и текущего момента времени t 3) 4). На фиг. 4.1.1 для г) В рамках данной вариационной задачи поле экстремалей представ- ляет собой некоторое семейство программ, характеризуемое заданными гра- ничными условиями.— Прим. ред. 2) В гл. 6 будет показано, что происходит в тех необычных ситуациях, когда через заданную точку проходит более одной экстремали (см. разд. 6.3, примеры 1-=-3 и задачи 1, 2). 3) Такая схема управления с обратной связью часто называется явной схемой управления (наведения). 4) Это определение не является общепринятым в классической теории регулирования. Закон управления с обратной связью, рассматриваемый в этой теории, относится к методам управления по замкнутому контуру и существенно опирается на информацию как о реальном (х, t), так и о запро- граммированном движении жпр (t), unp (t). Поэтому форма оптимального зако- на управления с обратной связью, общепринятая в классической теории регулирования, будет такова: “° = “пр (О + “1 (У> О = “° (У< (*) где у = х — жпр (t). Эта разница существенна, ибо задача определения зако- на (*) требует первоначально применения к исходной вариационной задаче программирования концепции Ляпунова возмущенного-невозмущенного дви-
156 Глава 4 системы с одной фазовой координатой х изображены оптимальные траектории и несколько линий уровня и0 = const. Заметим, что Фиг. 4.1.1. Семейство оптимальных траекторий и линии уровня и0 = const. А — терминальное ограничение г|> (х, t) — 0; Б — оптимальные траектории; В — линии уровня и°= const. в этом случае терминальная гиперповерхность ф (х, t) — 0 пред- ставляет собой просто кривую в плоскости (х, t). Фиг. 4.1.2. Семейство оптимальных траекторий и линии уровня оптималь- ного значения критерия качества J0. А — терминальное ограничение г|> (х, () = 0; Б — оптимальные траектории; В — линии уровня J°=const. жения и составления дифференциального уравнения возмущенного движения относительно переменной у. Это существенно не только математически, но и физически, поскольку информация о реальном движении х, и, t должна доставляться измерительными приборами, в которых шкала отсчета имеет нулевое деление, отвечающее запрограммированному движению жпр, ипр. Закон обратной связи (*) определенно совпадает с (4.1.1) лишь тогда, когда жпр = ипр = 0, и правая часть уравнений движения обращается тож- дейстенно в нуль при жпр = ипр = 0.— Прим. ред.
Оптимальное управление с обратной связью 157 Если фиксирована некоторая начальная точка (х, t) и опреде- лена оптимальная траектория, ведущая из этой точки на терми- нальную гиперповерхность, то имеется единственное значение критерия качества J°, соответствующее этой траектории. Таким образом, можно рассматривать оптимальное значение J° критерия качества J как функцию одной только начальной точки (я, t), т. е. J° = J0 (х, t). (4.1.2) Функция J° (х, t) называется иногда функцией оптимального качества. В одномерном случае кривые постоянных значений J0 могут быть нанесены на плоскости (х, t), как показано на фиг. 4.1.2. Такие кривые постоянных значений J0 подобны «вол- новым фронтам», а оптимальные траектории —«лучам». Однако в общем случае эти лучи не ортогональны волновым фронтам; в этом состоит, в частности, отличие от задач оптики, где лучи ортогональны волновым фронтам, поскольку вектор г пропор- ционален вектору X (см. задачу 2 разд. 2.7 и задачу 1 разд. 3.2). Один из аспектов классической теории Гамильтона — Якоби связан с нахождением дифференциального уравнения в частных производных, которому удовлетворяет функция оптимального качества J°. Имеется также (векторное) дифференциальное урав- нение в частных производных, которому удовлетворяет закон опти- мального управления и0 (х, t). Веллман обобщил теорию Гамиль- тона — Якоби на дискретные многошаговые системы и-комбина- торные задачи и назвал эту обобщенную теорию динамическим программированием. Подход к решению поставленной задачи с позиций этой теории будет обсуждаться в следующем разделе данной главы. Стационарные системы. Если уравнения, описывающие движе- ние системы, а также ограничения и критерий качества не являют- ся явными функциями времени и если конечное значение време- ни tf не задано, то закон оптимального управления, оптимальное значение критерия качества и время перехода не зависят в свою очередь явно от времени, т. е. и0 = и0 (х), (4.1.3) J° = J0 (х), (4.1.4) Т° = Т° (ж). (4.1.5) Такие системы будем называть стационарными системами 1). Пример. В примере 1 разд. 2.7 рассматривалась простая ста- ционарная система и была найдена траектория минимального *) В задачах оптимального быстродействия, в которых минимизируется время перехода, функция оптимального качества совпадает со временем перехода, т. е. J° (х) == Т° (х).
Фиг. 4.1.3. Оптимальные по быстродействию траектории корабля, плывущего через область с линей- но изменяющейся скоростью течения, и линии постоянных значений угла курса хр. Фиг. 4.1.4. Оптимальные по быстродействию траектории корабля, плывущего через область с линейно изменяющейся скоростью течения, и линии постоянных значений времени, оставшегося до прибытия (изо- хроны).
160 Глава 4 времени перехода материальной точки из заданной начальной точки в начало координат в области с линейным изменением ско- рости течения. Для этой задачи можно довольно просто построить поле экстремалей, используя полученные выше параметрические уравнения ^- = sec гр — sec гр/, (4.1.6) Д = Д [sec гр/ (tg гр/ — tg гр) — tg гр (sec гр/ — sec гр) Ц- + 1п.МЛ±зесгр/-] 1 tg гр sec гр J v ' —(4.1.8) Строя графики зависимости у (х), полученной на основе уравне- ний (4.1.6) и (4.1.7) (в которых х и у рассматриваются как функ- ции гр), при различных значениях гр/ получают оптимальные траектории. После этого кривые постоянных значений критерия качества V (tf — t)/h и кривые постоянных значений управляю- щего угла гр могут быть легко получены, если на оптимальные траектории нанести точки одинаковых значений V (tf — t)/h и гр и затем соединить их кривыми (фиг. 4.1.4 и 4.1.3 соответственно). Задача. Построить графики, подобные приведенным на фиг. 4.1.3 и 4.1.4, для задачи 5 из разд. 2.7 на оптимальное быстро- действие. 4.2. Динамическое программирование; дифференциальное уравнение в частных производных для оптимального значения критерия качества Рассмотрим общую задачу оптимального управления разд. 2.7 для произвольной начальной точки (х, t). Критерий качества имеет вид J = ф [х (tf), tf] + j L [x (т), u (t), t] dx, (4.2.1) t движение системы описывается векторным дифференциальным уравнением х = f (х, и, t) (4.2.2) с терминальным граничным условием гр [х (tf), //] = 0. (4.2.3)
Оптимальное управление с обратной связью 101 Оптимальное значение критерия качества, определенное соот- ношением (4.1.2), для данной задачи имеет вид / * J°(x, t) = min | ф [x (tf), tfj + C L (x, и, -r) dt 1 , (4-2.4) u(t) I J J причем на гиперповерхности ty(x, t) = 0 должно выполняться граничное условие (®> 0 |ф(эс, ()=о= ф (•£, t). (4.2.5) Предположим, что функция J° (х, t) существует, непрерывна и имеет непрерывные частные производные первого и второго порядка во всех представляющих интерес точках пространства (a;, t). Пусть система движется из точки (х, t) в течение короткого отрезка времени AZ и при этом управление и (t) не является опти- мальным. Тогда, согласно уравнению (4.2.2), система достигнет новой точки [х + / (х, и, t) \t, t + AZ]. (4.2.6) Предположим, что при дальнейшем движении из этой точки используется оптимальное управление; тогда функция оптималь- ного качества с точностью до членов первого порядка может быть представлена в форме J° (х + / (х, и, t) &t, t + AZ) 4- L (x, u, t) \t = J1 (x, t). (4.2.7) Поскольку в интервале от t до t + использовалось неоптималь- ное управление, то имеет место неравенство J° (x,t) ^J1 (х, t). (4.2.8) Знак равенства в (4.2.8) будет справедлив только в том случае, если в интервале от t до t + AZ управление и (Z) выбирается так, что оно минимизирует правую часть соотношения (4.2.8) J0 (х, Z) = min {J° [х + / (х, и, Z) AZ, Z + AZ] -J- L (x, и, Z) AZ). u (4.2.9) Так как по предположению функция J° (х, Z) непрерывна и диф- ференцируема, то можно' разложить правую часть последнего равенства в ряд Тэйлора *) по х и Z 'J° (х, Z) = min { J° (х, Z) + / (х, и, Z) AZ + AZ + L (х, и, Z) AzJ-. (4.2.10) i) Для получения функционального уравнения метода динамического программирования достаточно, чтобы функция J° была дифференцируема по х, t.— Прим. ред. 11—0102
Поскольку J° и, следовательно, dJ°ldt не зависят явным образом от и, то, переходя к пределу при 0 в выражении (4.2.10), получим '-) — -^- = пнп[Л(;г, и, и, /)]. (4.2.11) В разд. 2.3 было показано, что множители Лагранжа A, (Z) являются функциями чувствительности, т. е. бесконечно малые изменения начальных условий dx и бесконечно малое изменение начального момента времени dt вызывают малые изменения кри- терия качества dJ° в соответствии с равенством dJ° = V (£) dx — Н (t) dt, (4.2.12) где Н (х, А,, и, f) = L (х, и, Z) + A,1f (х, и, t). (4.2.13) Из равенства (4.2.12) следует, что на оптимальной траектории %г__^ Я = (4.2.14) дх dt \ г Учитывая соотношение (4.2.13), уравнение (4.2.11) можно пере- писать в виде (4.2.15) где Я0 (х, t'j = штЯ (х, и, t^ . (4.2.16) Уравнение (4.2.15) [или (4.2.11)] называется уравнением Гамиль- тона — Якоби — Веллмана. Это нелинейное дифференциальное уравнение в частных производных первого порядка, которое сле- дует решать с граничным условием (4.2.5) 2). Уравнение (4.2.16) показывает, что и° является таким значе- нием управления и, которое доставляет глобальный минимум гамильтониану Н (х, dJ°/dx, и, t) при постоянных значениях х, х) По поводу возможности перестановки порядка операций минимиза- ции и взятия предела см. работу [4.2]. 2) Уравнение (4.2.11) является основным функциональным уравнением метода динамического программирования. Оно превращается в уравнение в частных производных типа Гамильтона — Якоби лишь после проведения операции минимизации по переменной и в его правой части и замены и выра- жением / 9J° \ ио^ио (х, t, —), доставляющим этот минимум.— Прим. ред.
Оптимальное управление с обратной связью dJ°ldx и V, это другая формулировка принципа минимума 4). Если на х и и не наложено никаких ограничений, то, как следует из принятых выше предположений о дифференцируемости и урав- нения (4.2.16), управление и должно удовлетворять соотношениям = + = (4.2.17) ди ди 1 дх ди ~>0 (4-2.18) ди2 для всех t <1 tf, другими словами, каждая компонента вектора дН1ди должна обращаться в нуль, а матрица д2Н1ди2 должна быть положительно полуопределенной. Уравнение (4.2.18) яв- ляется известным в вариационном исчислении условием Лежанд- ра — Клебша 2). Одним из самых эффективных способов решения нелинейных дифференциальных уравнений в частных производных типа (4.2.15) считается «метод характеристик» 3), который эквивалентен нахож- дению «поля экстремалей» с помощью вариационного исчисления. Существенным недостатком динамического программирования являются трудности вычислительного характера, которые Велл- ман назвал «проклятием размерности». Запись решения даже умеренно сложной задачи требует очень большого объема памяти. Если нужно определить только одну оптимальную траекторию, начинающуюся из известной начальной точки, то бессмысленно да и утомительно искать все поле экстремалей 4); если же необ- 4) В СССР и в большей части классических работ гамильтониан Н опре- деляется выражением с противоположным знаком, так что для минимизации. J необходимо максимизировать Н (принцип максимума Понтрягина). [Эта характеристика принципа максимума довольно поверхностна. Относительно- различия между принципом максимума Л. С. Понтрягина и методом динами- ческого программирования см. [2.16, 4.6].— Ред.} В качестве уточнения сле- дует указать, что выведенное выше условие минимума является частью доста- точного условия [т. е. если удается решить (4.2.15) и (4.2.16), то управление и, определенное из (4.2.16), будет оптимальным], тогда как принцип максимума непосредственно получается как необходимое условие с помощью рассужде- ний, аналогичных приведенным в гл. 2 и 3. Более подробные сведения о свя- зи динамического программирования и вариационного исчисления можно найти в разд. 6.3 и в книге Дрейфуса [4.3]. 2) Заметим, что соотношения (4.2.17), (4.2.18) являются локальным вариантом глобального в пространстве управлений условия (4.2.16) (см. в разд. 6.9 другой подход к получению условия (4.2.16) через необходимое условие Вейерштрасса). 3) См. Р. Курант, Д. Гильберт, Методы математической физики, ГТТИ, т. 2, гл. 2, 1951 (или Р. Курант, Дифференциальные уравнения в частных производных, изд-во «Мир», 1968).— Прим, перев. *) Как было показано в замечании относительно формулы (4.1.1), синтез оптимальных законов обратной связи вида и° = и° (у, t), у = х — хпр (1) не требует определения всего поля экстремалей в вариационной задаче про- граммирования. Поэтому содержащаяся здесь критика метода Веллмана не относится к случаю решения задачи синтеза законов обратной связи, типич- ных для классической теории регулирования.— Прим. ред. 11*
164 Глава 4 ходим закон оптимального управления с обратной связью, то можно использовать схемы управления с обратной связью для возмущенного движения, которые оказываются часто удовлетво- рительными х) (гл. 6). Вывод уравнений Эйлера — Лагранжа с помощью уравнения, Гамильтона — Якоби. Рассмотрим некоторую оптимальную траекторию и соответствующую ей оптимальную управляющую функцию. Справедливо соотношение [см. (4.2.14)] dt d dt djo \ _ d»JQ • d* 2 *J° dx ) dx2 X ' dx dt (4.2.19) Дифференцирование уравнения (4.2.15) по x при u° = u°(x, t) дает d2J° . dL dL du° dx dt ' dx ' du dx d2/° . dj° dx2 ' dx df du° du dx — I &L I jt i dJ0 df i ( dL dJ° \ ди° _ o /Z 9 9f)\ dx dt ' dx ' ‘ dx2 ‘ dx dx ^~ \ du dx du / dx ' f Согласно (4.2.17), коэффициент при ди°!дх в полученном выраже- нии на оптимальной траектории обращается в нуль 2). Исполь- зуя (4.2.20), преобразуем (4.2.19) к виду = (4.2.21) Это векторное уравнение совместно с (4.2.17) образует систему уравнений Эйлера — Лагранжа. Кроме того, из условия, что J0 равно ф на гиперповерхности ф = 0, следует существование вектора v, удовлетворяющего соотношению Т-И “ (-57 +’Т5)<4 *'2'22> Таким образом, изменение критерия качества, соответствую- щее допустимому изменению фазовых координат (<7ф = 0), опре- деляется линейной комбинацией градиента ф по фазовым коорди- натам и градиентов ф (ограничений) по фазовым координатам (разд. 1.2). г) Крупный вклад в разработку проблем оптимального управления воз- мущенным движением (связанных особенно с задачей аналитического кон- струирования оптимальных регуляторов, впервые сформулированной в [5.6]) внесли советские ученые. Обзор их работ содержится в докладе А. М. Летова на II конгрессе ИФАК (см. [4.8], а также [4.7 и 5.7]).— Прим, перее. 2) Если на управляющие переменные наложены ограничения типа нера- венств, то можно показать (например, путем введения модифицированного гамильтониана, как в гл. 3, см. также [4.3 и 4.4]), что выражение (Lu + + Jxfu>ux и в этом случае обращается в нуль.
Оптимальное управление с обратной связью 165 Комбинаторные задачи. Методы динамического программиро- вания особенно полезны при решении дискретных многошаговых задач оптимизации, в которых на каждом шаге имеется лишь Фиг. 4.2.1. Комбинаторная задача на минимум времени перехода (числами указано время движения вдоль отрез- ков сети). Фиг. 4.2.2. Решение задачи на минимум времени перехо- да (фиг. 4.2.1) методом дина- мического программирования. ограниченный выбор управлений и отсутствует информация о про- изводных. Рассмотрим самый простой пример, когда на каждом шаге возможен выбор только среди двух управлений. Пусть тре- буется определить траекторию из точки А в точку В (фиг. 4.2.1) так, чтобы сумма чисел, соответствующих отрезкам этой траекто- рии, была минимальной (при этом разрешается двигаться только Фиг. 4.2.3. Первый шаг решения задачи на минимум перехода (фиг. 4.2.1) методом динамического програм- мирования. направо из каждого узла, т. е. или направо вниз или направо вверх). Если считать, что каждое из этих чисел представляет собой время движения вдоль соответствующего отрезка, то задача состоит в поиске пути, минимального по времени. Существует 20 различных путей из точки А в точку В, если Двигаться только направо. Исследовать все возможные пути довольно утомительно. Вместо того чтобы выходить из точки А и сравнивать различные пути, ведущие в точку В, будем отправ- ляться из точки В и определим для каждого из 15 узлов сетки минимальный по времени путь до точки В (фиг. 4.2.2).
166 Глава 4 Первый шаг назад в точку В может быть сделан либо сверху, либо снизу. Как следует из фиг. 4.2.3, этим шагам соответствуют отрезки времени 10 и 11; числа поставлены около двух ближайших к В узлов; возможное направление движения показано стрелками, ведущими в точку В. Определим теперь минимальное время движения из узла х (фиг. 4.2.3) в конечную точку В. Возможны два пути: один — через узел 10, который в сумме занимает 16 единиц времени (6 + 10). другой — через узел 11, который занимает 18 единиц времени (7 + 11). Очевидно, более быстрым является путь через узел 10; таким образом, узлу х поставим в соответствие число 16 и стрелку из этой точки направим вверх (к узлу 10). Эта процедура повторяется для следующих узлов, лежащих слева от тех, для которых уже определен быстрейший путь в точ- ку В. Таким способом для каждого узла (фиг. 4.2.2) определяется минимальное значение времени и оптимальное направление движения. Траектория наименьшего времени из точки А в точку В может быть теперь получена, если двигаться из А все время в направ- лении, указанном стрелками; этот оптимальный путь отмечен на фиг. 4.2.2 пунктирной линией, он занимает 40 единиц времени. Заметим, что предложенный алгоритм потребовал определения только 15 чисел вместо вычисления времени движения по каждому из 20 возможных путей. Сокращение вычислений становится более заметным при увеличении количества отрезков пути на каждой из сторон квадрата: Количество отрезков на стороне 3 4 5 6 7 п Число возможных путей 20 70 252 724 2632 (2п)!/п!п! Количество вычислений 15 24 35 48 63 (п + 1)2_ 1 Использование этого алгоритма дает полезную дополнитель- ную информацию, а именно минимальные по времени пути в точ- ку В из любого узла сетки. Задача 1. Решить задачу о минимальном расстоянии на пло- скости методом динамического программирования и указать соответствующую функцию оптимального качества и закон опти- мального управления с обратной связью. Задача 2. Для сети размером 5x5, изображенной на фиг. 4.2.4, найти минимальный по времени путь из точки А в точ-
Оптимальное управление с обратной связью 167 ку В, причем допускается движение только направо. Здесь имеет- ся 70 возможных путей, однако для получения решения достаточ- но определить только 24 числа. Фиг. 4.2.4. Сеть для задачи 2 (чи- слами указано время движения вдоль отрезков сети). Задача 3. Определить максимальный по времени путь из точ- ки Л в точку В для сети, изображенной на фиг. 4.2.4; по-прежнему разрешается двигаться только направо. Задача 4. Некоторые авиакомпании для определения мини- мальных по времени траекторий полета реактивных самолетов над Северной Атлантикой используют вычислительные машины. Фиг. 4.2.5. Сеть для задачи 4 (числами указано время движения вдоль отрезков сети). При этом принимаются во внимание сильные ветры, обычно дую- щие на высотах крейсерского полета таких самолетов, и ограни- чения на расположение возможных траекторий, вытекающие из условий управления воздушным движением. Таким путем удается получить экономию порядка 15 мин на каждый номи- нальный семичасовой рейс. Для расчета выбирается некоторая Сеть контрольных пунктов, а каждая траектория разбивается
168 Глава 4 на ряд отрезков, соединяющих эти пункты и направленных с востока на запад. Упрощенный пример такой сети изображен на фиг. 4.2.5. Пусть точка А — это Нью-Йорк, а точка М — Лондон. Контрольные пункты от В до L находятся над океаном и определены известными координатами — широтой и долготой. Используя сведения о ветре, собранные «кораблями погоды», диспетчер летной службы вычисляет время полета вдоль каждого из отрезков пути. На практике обычно число пунктов контроля значительно больше, чем изображено на фиг. 4.2.5, поэтому расчет времени полета необходимо осуществлять с помощью ЦВМ. Используя алгоритм динамического программирования, опре- делить минимальную по времени траекторию, считая, что числа, указанные на фиг. 4.2.5, означают время (в минутах) полета на участках между двумя контрольными пунктами. Задача 5. Алгоритм динамического программирования для ком- бинаторных задач, изложенный в этом разделе, можно приме- нить и к нерегулярным сетям, в каждом узле которых имеется Фиг. 4.2.6. Сеть для за- дачи 5 (числами указано время движения вдоль от- резков сети). более чем два выбора пути (фиг. 4.2.6). Определить минимальный по времени путь из узла 12 в узел 1; при этом двигаться можно только направо. Задача 6. Рассмотрим следующую задачу выбора маршрута (фиг. 4.2.7). Пусть требуется перейти последовательными шагами из некоторой точки, расположенной на уровне 0, в точку, рас- положенную на уровне 4. Затраты на каждом участке пути обо- значены цифрами около соответствующего участка, а общие затра- ты определяются суммой затрат на участках пути с учетом конеч- ных затрат, установленных для каждой из возможных позиций на уровне 4 (см. цифры в кружках на фиг. 4.2.7). 1. Определить минимальный по стоимости путь от точки А до уровня 4. - 2. Определить минимальный по стоимости путь из точки А в точку В.
Оптимальное управление с обратной связью 169 3. Определить минимальный по стоимости путь от уровня О до уровня 4. 4. Определить минимальный по стоимости путь от точки А до поверхности S (фиг. 4.2.7), считая, что конечные затраты на S .равны нулю. 5 х). Решить первую задачу при следующем дополнительном условии: каждый раз, когда изменяется направление движения Фиг. 4.2.7. Сеть для зада- чи 6 (числами указана сто- имость перехода вдоль от- резков сети). при переходе через данный уровень, к стоимости, соответствую- щей следующему участку пути, добавляется единица. В чем состоит отличие этой задачи от предыдущих? 6. Какие величины в рассматриваемой задаче являются ана- логами величин J°(x, t), и° = к(х, t), х, и, t, f(x, и, f), ф [х (tf), tf], L (х, u,t) и ф [х (tf), fyl? Задача 7. Определить минимальный по времени путь из точ- ки Л в точку В для сети, показанной на фиг. 4.2.8, и найти мини- Ф и г. 4.2.8. Сеть для задачи 7 (числами указано время движения вдоль отрезков сети). 1) Задача предложена С. Дрейфусом.
170 Глава 4 мальное время перехода. Движение вдоль отрезков пути разре- шается только направо, время перехода между промежуточными точками на фиг. 4.2.8 указано цифрами. 4.3. Уменьшение размерности фазового пространства путем использования безразмерных переменных Одна из трудностей использования поля экстремалей для полу- чения закона оптимального управленияю обратной связью состоит в том, что даже при рассмотрении систем умеренной сложности требуется запоминающее устройство большой емкости. В некото- рых задачах объем запоминаемого материала можно уменьшить, если удастся установить, что управление зависит только от неко- торых безразмерных группировок фазовых координат. Проиллю- стрируем этот прием на примерах. Пример 1. Задача о брахистохроне. Определить закон опти- мального управления с обратной связью 0 = 0 (V, х, у), соответ- Ф и г. 4.3.1. Схема и обозначе- ния к задаче о брахистохроне. ствующий минимальной по времени траектории из произвольного состояния (У, х, у) до прямой х = 0. Уравнения движения име- ют вид V = g sin 0, (4.3.1) ж'= — У cos 0, (4.3.2) у = V sin 0, (4.3.3) где V — скорость, g — гравитационное ускорение (фиг. 4.3.1) Заметим, что конечное значение координаты у не задано и у не входит в уравнения для V и х. Следовательно, искомый закон управления не зависит от у: 0 = 0 (У, х). (4.3.4) Далее, поскольку величина 0 (угол) является безразмерной, то для правой части уравнения (4.3.4) можно найти безразмерную группировку переменных V, х и параметра g. Существует только
Оптимальное управление с обратной связью 171 одна такая безразмерная группировка, а именно gx/V2; следо- вательно, 9 = /1(», (4.3.5) гДе /1 (2) — некоторая функция одной независимой переменной 2 = gx/V2. Подобным образом получаем общие функциональные соот- ношения для минимального значения времени перехода (if — t) и для изменения координаты у, т. е. у — yj (где yf — конечное значение у): 6-3.6) ($•). (4.3.7) гДе /г (2)> /з (2) — некоторые функции аргумента z = gx/V2. Задача 1 х). Используя результаты задачи 6 разд. 2.7, пока- жите, что функции (4.3.5), (4.3.6) и (4.3.7) примера 1 можно представить неявно в следующей форме: О = arccos , где Vf — значение конечной скорости; g (tf—t) (п/2)— arcsin (V/Vf) V V/Vf Vf — У V2 (Vl_ x 2gx \V2 Здесь отношение Vf/V является решением трансцендентного уравнения >4+ (-(А)’ 2-) . Построить графики зависимости 0, [g (tf — t)/V] и (у — У/)/х от 2gx/V2. Пример 2. Оптимальное программирование направления тяги в задаче встречи двух космических кораблей (g = О, а = const). Космическому кораблю (К К), имеющему постоянное реактивное ускорение а, необходимо за минимальное время встретиться с дру- гим (неманеврирующим) космическим кораблем; управляющей пере- менной является направление вектора тяги ц. Рассмотрим движе- ние в системе координат, начало которой совпадает с целью (т. е. с неманеврирующим кораблем, совершающим полет с постоян- ной скоростью относительно инерциальной системы отсчета, 1) См. J. L. Speyer, Teclin. Rep. 492, Div. Engineering and Appl. Physics, Harvard Univ., Dec. 1965.
172 Глава 4 фиг. 4.3.2). Задача состоит в нахождении закона управления с обратной связью ц = ц (V, ф, D, q), при котором преследую- щий корабль достигает выполнения условий встречи D (tf) = = V (tf) = 0 за минимальное время tf. Движение преследующего Фиг. 4.3.2. Схема и обозначения к задаче о встрече за минимальное время. корабля в относительной полярной системе координат описы- вается уравнениями V = a cos (ф + ц), 70 = V (ф — q) = —a sin (ф + ц), D = —V cos ф, Dq = V sin ф, (4.3.8) (4.3.9) (4.3.10) (4.3.11) где V — модуль вектора относительной скорости, 0 — угол между вектором относительной скорости и неподвижной линией отсчета (линией горизонта). Отметим, что конечное значение q не задано, и эта величина не входит в уравнения движения для V, ф и D, поэтому закон управления должен быть независимым от q. Далее, поскольку т] (угол) — безразмерная величина, то, следовательно, можно подобрать безразмерную группировку переменных V, D и пара- метра а (заметим, что угол ф тоже-безразмерная величина). В этом примере, как и в предыдущем, имеется только одна такая безраз- мерная группировка, а именно aD/V\ Таким образом, П = Л «,<₽)• (4.3.12) Подобным образом получаем общие функциональные соотношения для минимального значения времени до встречи tf — t и для изме-
-юг/гЛ е
Фиг. 4.3.4. Оптимальные по быстродействию траектории!встречи и линии постоянных значений времени (Г — /), оставшегося до встречи.
Оптимальное управление с обратной связью 175 нения величины q, т. е. qf — q (где qf — конечное значение q): a (tf — t) / aD ф), (4.3.13) (4.3.14) где Л и /2 — некоторые функции двух безразмерных аргументов. Эта задача была решена Брайсоном1), результаты графически Фиг. 4.3.5. Схема и обозна- чения к задаче выведения на орбиту за минимальное время. (X, у) vx представлены на фиг. 4.3.3 и 4.3.4. Решение не представляет труд- ностей, однако оказывается довольно утомительным. Задача 2. Возвращаясь к примеру 1, рассмотрим задачу о бра- хистохроне с терминальными условиями х = у = 0. (Направле- ние оси у следует изменить па противоположное.) Показать, что закон управления с обратной связью имеет вид и найти неявные уравнения, решение которых определит эту функцию и безразмерную величину — время до конца перехода . g (tf _ t)/V. Задача 3. Возвращаясь к примеру 2, показать, что закон управления с обратной связью, обеспечивающий перехват цели за минимальное время в точке г = 0 при g = 0, а = const, может быть представлен в форме / аО \ п = ф) . Найти неявные уравнения, необходймые для вычисления этой функции, а также безразмерного времени, оставшегося до дости- жения цели la (tf — t)IV] 2). l) А. Е. Bryson, Nonlinear Feedback Solution for Minimum Time Rendezvous with Constant Thrust Acceleration, 16th Int. Astro. Congress, Athens, Greece, Sept. 1965. (См. также Report 478, Div. Engineering and Appl. Physics, Harvard Univ., July 15, 1965.1 2) Cm. G. Smuck, M. Sc. Thesis, M. I. T., June 1966.
176 Глава 4 Задача 4 г). Показать, что закон управления с обратной связью для оптимального по быстродействию выведения на орбиту (фиг. 4.3.5) при незакрепленной конечной дальности и yf = О, Vyf = 0 можно представить в форме Здесь Vxf — конечная (орбитальная) скорость, yf — конечная (орбитальная) высота, V&? — конечная вертикальная скорость. Предполагается, что а = const, g = const. 1) См. D. Winfield, Techn. Report 507, Div. Engineering and Appl. Physics, Harvard Univ., July 1966.
> Глава 5 Линейные системы с квадратичным критерием качества; линейная обратная связь 5.1. Терминальные1} управляющие устройства и регуляторы; введение Для нелинейных управляемых систем, представляющих прак- тический интерес, дифференциальное уравнение в частных про- изводных первого порядка Гамильтона — Якоби — Веллмана может быть решено аналитически лишь в редких случаях. Поэтому разработка точных явных схем наведения 2) и управления с обрат- ной связью для этих систем в общем случае невозможна. Однако, как уже указывалось в гл. 4, во многих случаях могут быть осу- ществлены схемы управления возмущенным движением (иногда называемые пертурбационными или возмущенными схемами наве- дения). В этих схемах используются лишь экстремальные траек- тории, которые лежат вблизи номинальной экстремальной траек- тории. В гл. 6 будет показано, что схемы управления возмущен- ным движением приводят к рассмотрению нестационарных линейных систем с квадратичным критерием качества. Многие объекты управления достаточно точно описываются линейными динамическими моделями. Путем разумного выбора квадратичных критериев качества и квадратичных ограничений в этом случае удается синтезировать весьма удовлетворительные управляющие устройства с линейной обратной связью. При дальнейшем изложении будет делаться различие между терминальными управляющими устройствами (устройствами, управляющими конечным состоянием системы) и регуляторами. Терминальное управляющее устройство предназначено для при- ведения системы в условия, близкие к желаемым, в момент окон- чания процесса управления (который может быть либо задан, либо может оставаться свободным). При этом одновременно должно быть достигнуто приемлемое поведение системы в течение всего процесса управления. Регулятор предназначен для удерживания отклонений стационарной системы от заданных условий в допу- стимых пределах путем использования приемлемых значений управляющих воздействий. ') Терминальное управление — управление конечным состоянием систе- мы, т. е. состоянием, соответствующим моменту tf (при этом сам момент окон- чания не обязательно должен быть задан явно).— Прим, перев. 2) См. примечание па стр. 155. 12—0102
178 Глава 5 5.2. Терминальные управляющие устройства; квадратичная функция гитрафа на величину терминальной ошибки Пусть система описывается векторным линейным дифферен- циальным уравнением с переменными коэффициентами х = F (t) х + G (t) и; (5.2.1) здесь х — n-мерный вектор; и — m-мерный вектор; F (t), G (t) — матрицы размерности и X и и п X т соответственно. Необхо- димо перевести систему из некоторого начального состояния х (Zo) в заданное конечное состояние х (tf) 0 (5.2.2) (tf — заданный момент окончания процесса управления), исполь- зуя допустимые функции управления и (t) и не выходя за допу- стимые пределы по фазовым переменным в процессе движения. Один из методов решения этой задачи состоит в минимизации критерия качества, представляющего собой сумму квадратичной формы от вектора конечного состояния и интеграла от суммы квадратичных форм вектора состояния и вектора управления *): > *f J = i (xTSfX)t=t. + 4 ( (хТАх + urBu) dt. (5.2.3) to Здесь Sf и A (t) — положительно полуопределенные матрицы, В (t) — положительно определенная матрица. Для получения допустимых уровней величин х (tf), х (t) и и (t) должен быть произведен подбор соответствующих матриц Sf, А, В. Они могут быть выбраны, например, диагональными со следующими элементами: l/(Sf)n = Максимально допустимое значение [х, (tf)l2, 1/Ац = (tf — Zo) X Максимально допустимое значение [х; (Z)]2, 1/Вц — (tf — t0) X Максимально допустимое значение lu (Z)]2. Используя методы гл. 2 (или методы гл. 4, которые здесь также применимы; см. по этому поводу конец данного раздела), можно найти управление и (Z), минимизирующее (5.2.3), путем совме- стного решения системы (5.2.1) и уравнений Эйлера — Лагранжа Х(г,) = 5,»((,), (5.2.4). ' > = °- <5-2-5’ х) Более общее выражение для J привэдено в задаче 4 данного раздела.
Линейные системы с квадратичным критерием 179 где Н = 4- хТАх + 4- итВи + Кт (Fx + Gu). л £1 (5.2.6) Произведя операции дифференцирования в (5.2.4) и (5.2.5), получим откуда £ = -Ах - FTK, (5.2.4') Ви + Grk = 0, (5.2.5') и = -B-'GTk. (5.2.5") Подстановка (5.2.5") в (5.2.1) и присоединение к полученной системе уравнения (5.2.4') приводят к линейной двухточечной краевой задаче я] [F, — GS-1Gr] р xJ“L —~ВТ JU (5.2.7) (5.2.8) где х (i0) задано, (5.2.7') Л, (tf) = SfX (tf). (5.2.8') Поскольку задача является линейной, а дифференциальные урав- нения и терминальные граничные условия однородные, то, оче- видно, х (t) и A, (t) пропорциональны величине х (i0). Перейдем теперь к обсуждению двух способов решения изло- женной краевой задачи. Решение с помощью переходной матрицы. Один из путей реше- ния системы (5.2.7), (5.2.8) состоит в использовании линейной суперпозиции решений. Для этого определяется система п линейно, независимых решений указанной системы 2п дифференциальных уравнений, т. е. хВ> (t) и (t), i — 1, 2, . . ., п. При этом каждое решение удовлетворяет терминальным’гранич- ным условиям, т. е. (tf) = SfxV (tf). Удобный способ нахождения такого решения состоит в построе- нии так называемого единичного или фундаментального решения Системы (5.2.7), (5.2.8), т. е. решения, удовлетворяющего условиям {о при i~j, при £#=/’, А(О(^) = (5/)7,.. 12*
180 Глава 5 Полученные таким путем для 1 = 1, 2, . . ., п решения могут быть записаны в виде столбцов, образующих две переходные матрицы, X (/) *) иЛ (£), размерности п X п каждая с элементами = Лц (0 = ^(0- (5-2.9) Эти матрицы в силу способа их построения удовлетворяют усло- виям X(tf)=E, A(tf) = Sf, (5.2.10) где Е — единичная матрица размерности п X п. Теперь в силу справедливости для линейных систем прин- ципа суперпозиции решений можно записать общее решение системы при известном х (tf) в виде х (t) = X (t) х (tf), (5.2.11) Л. (t) = Л (t) х (tf). (5.2.12) Поскольку, однако, задано х (t0) при t = t0, а не ж (tf), необходимо из уравнения (5.2.11) при t = t0 получить зависимость х (tf) от х (t0): х (tf) = [X (Z0)l X^(U- (5.2.13) Подставив (5.2.13). в (5.2.11) и (5.2.12), получим х (t) = X (t) [X (Zo)l’1 х (t0), (5.2.14) k(t) = A (t) [X (Z0)l-1 x (t0). (5.2.15) Подстановка (5.2.15) в (5.2.5") приводит к выражению и (t) = —С (t, t0) х (t0), (5.2.16) где матрица коэффициентов усиления С (t, t0) определяется выра- жением С (t, t0) = [В (f)]-1 GT (t) A (t) [X (to)l-1. (5.2.17) В таком случае с учетом (5.2.17) уравнение (5.2.16) может рассма- триваться как дискретный закон управления с обратной связью, в котором время t0 является значением предыдущего момента дис- кретизации. Если производится непрерывное измерение состояния х систе- мы, то значением предыдущего момента дискретизации является текущее время t, т. е. t0 = t, и (5.2.16) превращается в непрерыв- ный закон управления с обратной связью и (t) = —С (t) х (t), (5.2.18) 1) Переходная матрица X (£) — матрица фундаментальных решений или фундаментальная матрица.— Прим. ред.
Линейные системы с квадратичным критерием 1©1 где переменная по времени матрица коэффициентов усиления С (t) имеет вид С (0 = (Д1-1 GT (t) Л (0 [X (Z)]-1. (5.2.19) Решение для Л. (£) в этом случае с помощью (5.2.15) может быть записано следующим образом: X (0 = 5 (0 х (t), (5.2.20) где 8 (t) = Л (t) [X (i)]-1. (5.2.21) Решение с помощью метода прогонки. В некоторых задачах, особенно в тех, которые связаны с процессами рассеивания, 'численное определение матриц X (J) и Л (t) фундаментальных решений, входящих в формулы (5.2.11), (5.2.12), может быть затруднительным вследствие различных скоростей роста состав- ляющих фундаментальных решений. Другими словами, вычисле- ния могут сопровождаться значительной потерей точности из-за того, что величины элементов матриц X (/) и Л (/) изменяются на интервале времени [Zo, tf\ на разные порядки. В этом случае, как, впрочем, и в некоторых других, может оказаться полезным использование для решения метода прогонки Д (см. также гл. 7 и работу [7.9]). Идея метода прогонки содержится в соотношениях (5.2.20) и (5.2.21). Вместо того чтобы определять матрицы фундаменталь- ных решений X (z), A(z), непосредственно находится матрица S (t) = = Л (t) [X (if)]-1. Этот процесс можно рассматривать как форми- рование для системы (5.2.7), (5.2.8) граничного условия, эквива- лентного терминальному условию Л. (tf) = SfX (tf), но для более ранних моментов времени; в действительности коэффициенты терминального условия «прогоняются» (переносятся) назад к начальному времени. Затем, поскольку х (t0) известно, Л. (t0) может быть вычислено из уравнения k (t0) = 8 (t0) х (t0) и систе- ма (5.2.7) — (5.2.8) может быть проинтегрирована вперед с уже известными начальными условиями (задача Коши). Подстановка (5.2.20) в (5.2.8) дает Sx-]-Sx~—Ах — FTSx. (5.2.22) Далее, подставляя х из (5.2.7) в (5.2.22) и снова исполь- зуя (5.2.20), получим (S SF FTS — SGB~1GTSA) x = Q. (5.2.23) О См. И. М. Г е л ь ф а н д, С. В. Ф о м и н, Вариационное исчисление, Физматгиз, гл. VI, 1961.
1 JbUtiU <J Поскольку a:(i)=0:O, то из уравнения (5.2.23) следует, что 8 = -SF-FTS + SGB~1GTS-A, (5.2.24) а из терминального граничного условия (5.2.8') очевидно, что ' граничное условие для 8 (t) имеет вид S (tf) = Sf. (5.2.25) Уравнение (5.2.24) квадратично относительно матрицы S и назы- вается матричным уравнением Риккати. Поскольку Sf является симметричной матрицей, а уравне- ние (5.2.24) также симметрично, то ясно, что S (t) — симметричная матрица при всех значениях t. Уравнение (5.2.24) можно проинтегрировать («прогнать») назад от терминального момента времени t = tf к начальному моменту t = £0. После этого с помощью уравнения (5.2.20) можно полу- чить X (i0) X (t0) = 8 (t0) х (t0). (5.2.26) Вектор X (t0) можно рассматривать как эквивалент терминального граничного условия (5.2.8'), перенесенного, однако, на более ран- ние моменты времени. Теперь решения для системы (5.2.7) и (5.2.8) могут быть получены путем интегрирования в «прямом» времени (т. е. от t0 к tf), поскольку начальные условия х (t0) и X, (t0) уже известны. Часто, однако, основной интерес представляет сам непрерыв- ный закон управления с обратной связью для задачи терминаль- ного управления. Его можно найти из уравнений (5.2.5") и (5.2.20), так как матрица 8 (t) теперь известна: и (t) = —С (t) х (t), C\t) = [В (t)]-1 GT (t) 8 (t). (5.2.27) Интерпретация с точки зрения динамического программиро- вания. Существует еще и третий подход к решению задач оптими- зации для линейных систем с квадратичным критерием качества. Он состоит в рассмотрении дифференциального уравнения в част- ных производных Гамильтона — Якоби — Веллмана. Примени- тельно к задаче, описываемой формулами (5.2.1), (5.2.3), это урав- нение имеет вид - ~ = min (Fx + Gu) + ±- (хТАх + итВи)} (5.2.28) с терминальным граничным условием J0 (х, tf) = у xTSfx. (5.2.29)
Линейные системы с квадратичным критерием 183 Минимизация правой части уравнения (5.2.28) по вектору и совпадает с минимизацией гамильтониана Н (5.2.6) и ведет к урав- нению (5.2.5) с заменой вектора на вектор dJ°ldx в соответствии с тождеством ОТ которое справедливо на оптимальной траектории. Подставляя в уравнение (5.2.28) вместо и его выражение через dJ°/dx \ дх ) получаем f5-2-3») Итак, найдено нелинейное дифференциальное уравнение в частных производных первого порядка относительно неизвестной функции J° (х). Оно имеет решение вида J°=--~xTS(t)x. (5.2.31) Подставив (5.2.31) в (5.2.30), получим соотношение 1 хТ [5 + SF + FTS- SGB~1GTS + A] х = 0, (5.2.32) Ci которое должно быть справедливым при всех значениях х. Отсюда получаем уравнение (5.2.24), а из (5.2.29) легко находим гранич- ное условие для 5 (£,): S (tf) = Sf. Таким образом, метод «прогонки» и метод динамического про- граммирования ведут к одинаковым результатам для случая линейных систем с квадратичным критерием качества. Выраже- ние (5.2.31) при этом дает еще одну интерпретацию матрицы S (t): величина 1/2ж1\<? (t) х есть оптимальное значение критерия каче- ства (т. е. минимальное значение J° = min J (п) при начале дви- и жения в момент t из состояния х). Пример 1. Простейшая линейная система первого порядка с квадратичным критерием качества. Дано х = и, х (i0), i0, tf заданы, х, и — скалярные переменные, tf 1 1г J = ~^-c [ж(^)]2 + -2 \ u2dt, с>0 — скалярная постоянная. to Найти и (i, t0), которое минимизирует J.
184 Глава 5 Решение Н = -^-и2Д'ки, X — скаляр, ; эн п . Л =----з— =0, Л = const, дх дН и-}-X = О, w =— X (необходимое условие оптимальности), X (tf) = ex (tf) (граничное условие, вытекающее из условий трансверсальности). Оптимальная траектория X (t) = — [ex (tf)] (t — t0) + х (t0), w(i, t0)=. x(tf) x (tp) 14-c (tf—10) ’ Цс + tf-to (дискретный закон управления с обратной связью). Если положить t0 = t, то и рывный закон управления с х (fy) 0 при с ->• оо. (t) = —х (t)/(l/c + tf — t) (непре- обратной связью). Отметим, что Пример Дано 2. Простейшая задача перехвата (или встречи) ]). v = a (t), У—и, Z io ct, с2> if — заданные постоянные. Найти a (v, у, t), которое минимизирует J. Решение а (и, у, t) = —Л„ (t) v (t) — Ау (t) у (t), д _ (i/C2) + (i/Ci)(tf-t^ + ^3(tf-t)3 D(tf-t) Д _ (1/Cj) (</ —O + V2 (1/—Q3 y D(tf-t) В данном примере рассматривается случай неманеврирующей цели. Обсуждение задачи перехвата с позиций теории дифференциальных игр пре- следования содержится в разд. 9.3 (пример) и 9.4 (пример). Случайный маневр цели и неточные измерения рассмотрены в примере 2 разд. 14.6.— Прим, перее.
Линейные системы с квадратичным критерием 185 где ° [тг+г'-Т Частные случаи 1. Если с2->0, то у (tf) — неуправляемая величина и Лв = (1/С1) + г/-г’ Л^ = 0- Отсюда _ v (г) а~ [(1/ч) + */-*1 ' Это простейшая форма закона управления, пропорционального скорости (управления по скорости). 2. Если Ci -> О, то v (tf) — неуправляемая величина и Л = (*/—0а v (1/с2) + 1/з(*/—О3 ’ д —______tf~t______ у + В этом случае а = v U (t} 3. Если Cj—>0, с2—>оо, то y(tf)-^-0 и ат- чГ г (0 , y(t) л Этот закон управления допускает следующую кинематическую интерпретацию (фиг. 5.2.1). Пусть о — угол между линией визи- рования «снаряд — цель» и линией отсчета, А — цель, у — угол Фиг. 5.2.1. Кинематическая схема к задаче перехвата и встречи. между скоростью снаряда Vm и линией отсчета, Vc — скорость сближения снаряда и цели вдоль линии визирования. Если угол ст мал, то, как следует из фиг. 5.2.1, р = _—.
186 Глава 5 Отсюда ' = 1 Г У (О , ^(0 1 vc L(«y—«)2 tf—t J ' Кроме того, из фиг. 5.2.1 при малых у имеем v = Vmy, откуда v = а =. Vmy. Таким образом, оптимальный закон a (i) может быть представлен в виде а = — 3VC о =/Кту; это известный закон так называемой пропорциональной нави- гации (в плоском случае). Этот закон наведения приводит к «совершенному» перехвату, т. е. к у (tf) = 0. 4. Если —>• оо, с2 —>• оо, то v (tf) 0 и у (tf) -► 0. В этом случае получаем или «=1л4=-М4»+-^т)- Полученный закон соответствует модифицированной форме про- порциональной навигации, ведущей к «совершенной» (одномерной) встрече снаряда и цели, т. е. к выполнению условия p (tf) = v (tf) = 0. Заметим, что если и (tf) и у (tf) в выражении для J заменить на (v (tf) — vd] и (у (tf) — yd], где vd, yd — заданные значения, то оптимальный закон управления с обратной связью будет иметь вид a (t) = — А„ (t) [и (t) — vd] — Ау (t) (у (t) — yd]. Отметим также, что v, у и а могут быть заменены трехмерными векторами v, г, а и по приведенной схеме может быть получено решение пространственных задач перехвата или встреч. В этом случае надо лишь ввести для двух компонент ускорения, перпен- дикулярных линии визирования, соответствующие угловые пере- менные (аналогичные углу о в плоском случае). Задача 1. Рассмотрим еще один подход к решению общей задачи оптимизации для линейных систем с квадратичным крите- рием качества. Пусть и = Кх, где К (I) — матрица передаточных
Линейные системы с квадратичным критерием 187 коэффициентов кц (t), которые в данном случае играют роль управляющих переменных, подлежащих определению. Исполь- зуя вариационные методы гл. 2, получить результаты данного раздела. При этом полезно иметь в виду следующие тождества: Тг (АВС) = Тг (САВ) = Тг (ВС А), д Аг (АВС) дС ’ здесь А, В, С — матрицы, Тг (М) —след матрицы М. Задача 2. Система первого порядка. Дано-. х = —ах + Ъи с начальным условием х (t0) = х0; квадратичный критерий 9 J = ±c[x(tf)]* + ± j [u(t)]2dt. to Здесь x, и — скалярные переменные; а, Ъ, с — скалярные по- стоянные. Показать, что дискретный и непрерывный законы оптималь- ного управления с обратной связью в случае минимизации J имеют следующий вид: ,, // t 1 = — h eiLp[-a(tf-t0)-a(tf-t)] °' (1/с) + Ь2/2а {1 —exp [ —2а («у—i0)]} '°'’ м _ h___________exp[ —2g (tf—t)\x(t) ' ' (l/c)-p2/2a{l— exp [ — 2a (tf — £)]} Найти также выражения для х (t) и X (t) в дискретном случае и для S (t) — в непрерывном. Показать, что х (tf) -+ 0 при с -> оо. Задача 3. Система второго порядка. Дано: х2 = — со2^ Ди, = х2 с начальными условиями *1 (to) = Ж1О, %2 (to) = Х201 J = у с [а?! (iy)]2 -j- i J и2 dt. to
1ОО Глава 5 Показать, что дискретный и непрерывный законы управле- ния с обратной связью, минимизирующие J, имеют вид ,, [4<o2cosco(«y — г0)] («0)+[4<» sin <о («у —«о)] х2 (i0) п ,,/у м U to) - - t0) - Sin 2<о (tf - t0)- Ш [ i ~ о) ’ , . _ [4а>2 cos со (iy — t)J ж! (t) + [4co sin a (ty — t)J х2 (t) . . _ . 4шЗ/с + 2ш(«/ —t) — sin2a(iy — t) Sin СО [Гу t) и что значение х, на правом конце определяется соотношением /, •. = *1 (<о) cosco (ty — t0)4-x2 (t0) [sin co (ty — t0)/co] l-|-c/4a3 [2a (tf t0) -sin 2co (tf—10)] Заметим, что при с —>- оо х{ (tf) —> 0 и коэффициенты усиления неограниченно возрастают при t -> tf. Отметим также, что коэф- фициенты усиления непрерывного закона управления с обратной связью, будучи отрицательными вблизи t = /у, изменяют знак при возрастании величины со (fy — t). Задача 4. Квадратичный критерий качества более общего вида. Линейная система описывается уравнением х = F (Z) х -ф G (£) и. Критерий качества имеет вид г 1 ( TV \ I 1 С г- Т Т1 [Л АЧО 1 М / = т(^зд1.,/ +yJ If „Г, в(;)| и Л. to Показать, что непрерывный закон управления с обратной связью, минимизирующий J, имеет вид и (/) = —B~l (NT + GTS) X (/), где S = —S (F - GB-tNT) - (F - GB-'N^S + + SGB-KfS - (A - NB-4VT), или S = -SF - FTS + (SG + N) B'1 (NT + GTS) - A, S (tf) = Sf и, следовательно, предложенная задача эквивалентна задаче оптимизации для системы X = (F - GB-'N1) x + Gu по критерию 1 1 J = -2-(xTSfX)t=tf + ^- j [хт, to UT] "A — NB^N7 О' О В dt. х и
Линейные системы с квадратичным критерием 189 Задача 5. Симплектический характер переходной матрицы для оптимальных линейных систем с квадратичным критерием качества. Для задачи, описываемой уравнениями (5.2.7) и (5.2.8), рассмотрим разбитую на блоки переходную матрицу Ф (Л /о): фхх(^, t0), Фхь(£, Ml (Ml _ФххМ М, М- MJ LMMr '*(0 .МО Показать, что матрица Ф (Z, t0) является симплектической, т. е. обладает свойством Фг (t, t0) 1Ф (J, t0) = I, где о — Е Показать далее, что Ф-1 (/, /0) = Е' о] ’ из симплектичности Ф (£, t0) следует ' Фи(Мо), -ФхММо)! - Ф^х М to), Фхх {t, t0). Е — единичная матрица. 7 = Заметим, что последнее равенство полезно при проведении чис- ленного решения. Задача 6. Простейшая система первого порядка описывается уравнением х = и, о м t М tf, где х, и — скалярные переменные. На интервале [0, tf] произ- водятся непрерывные, но не очень точные измерения величины х (/). Обозначим эти измерения как z (/). Имеется предположение, что начальное условие х (0) было равно нулю и что и (/) также рав- но нулю, но полной уверенности в этом нет. Для получения оценки состояния х (t) на отрезке времени О t tf можно произвести обработку результатов измерений методом наименьших квадратов; при этом в качестве оценок истинного состояния выбираются те х (/), которые минимизи- руют следующий квадратичный функционал: о где р, q, г — скалярные постоянные величины, выбираемые с уче- том относительной значимости соответственно оценок х (0), и (t) и измерений z (i). Необходимо разработать процедуру определения значения ж (/), которое минимизирует J при заданных z (t), р, q, г vt tf >(гл. 13).
190 Глава 5 5.3. Терминальные управляющие устройства; нулевая терминальная ошибка и управляемость системы Предположим, что необходимо спроектировать такое терми- нальное управляющее устройство, которое переводило бы неко- торые компоненты вектора х (tf) точно в нуль (в предыдущем раз- деле требовалось лишь приближенное равенство нулю) х). Таким образом, надо удовлетворить условиям xt (if) = 0’ i = 1, 2, . . ., q п. (5.3.1) Для этого можно пользоваться методами разд. 5.2, положив 0, i=£j, Sfj (0 = < °°> . 0, г=7> i < Ъ i = 7, i > O'- Тем самым предполагается, что оо при х^О, 0 при х = 0. Такой прием приводит, однако, к трудностям при интегрировании уравнения (5.2.24), которые связаны с бесконечными значениями в граничных условиях. Эти трудности можно обойти (см. зада- чу 1); однако есть и другой способ. Сформулируем задачу разд. 5.2 следующим образом: найти управление и (7), миними- зирующее критерий J = — j (хТАхиТВи) dt (5.3.2) to при терминальных условиях (5.3.1) и ограничениях х — F (t) х -f- G (t) и, (5.3.3) х (t0) — х0, х0 задано. (5.3.4) Эта задача является частным случаем задачи, рассмотренной в разд. 2.4 и 2.5. Условия (5.3.1) могут быть присоединены к критерию (5.3.2) с помощью правила множителей для задач на условный экстре- мум. Введя множители vT = (v1; . . ., vq), критерий (5.3.2) х) Более общие терминальные граничные условия рассмотрены в зада- че 1 этого раздела.
Линейные системы с квадратичным критерием 191 (5.3.5) можно записать в виде J = 2 ViXi (М +~2 J (хТ^Х + uTBu) dt. i—-1 to Уравнения Эйлера — Лагранжа для рассматриваемой задачи с критерием J имеют вид % = —Ах — Л, — I 0, у = g4*l, u = -B-^GX\. (5.3.6) (5.3.6') (5.3.7) Подставляя (5.3.7) в (5.3.3), получаем двухточечную краевую задачу 'F, -GB-W] Гх- _-А, — FT J Ь. х (tQ) = х0, х0 задано, %i (if) = 0, 1 = 1, X, (tf) = 0, i = q + 1, • • ., n. (5.3.8) (5.3.9) (5.3.10) (5.3.11) Решение с помощью переходной матрицы/ Двухточечная крае- вая задача (5.3.8) — (5.3.11) может быть решена путем нахожде- ния системы п единичных решений уравнений (5.3.8) и (5.3.9), где все единичные решения удовлетворяют (5.3.11) и, кроме того, 7-е единичное решение (7), Х<г> (7)] удовлетворяет условиям (1 при 7=7, X}(7y)=L ' 7=1, ...,<?, (5.3.12) 3 11 (0 при у, * v . (1 при 7 = 7, xi(if)={c\ i = q+i,---,n. (5.3.13) v “ (0 при г =#7, Общее решение теперь может быть записано в виде ]) х (7) = X (7) ц, (5.3.14) X (7) = Л (7) р, (5.3.15) где X)t = x(»(t), (5.3.16) Лл = (7), 7, j = 1, 2, . .., п, (5.3.17) Цт = [Vi, • • •, vQ, xq+l (tf), ...,хп (7У)]. (5.3.18) г) Отметим, что входящие в (5.3.14) и (5.3.15) единичные решения X (г), Л (7) не совпадают с единичными решениями разд. 5.2.
192 Глава 5 Очевидно, что при t = t0, если матрица X (t0) невырождена, уравнение (5.3.14) можно разрешить относительно ц, выразив р через х (i0): ц = IX (/о)]-1 х (t0). (5.3.19) Подставив теперь (5.3.19) в (5.3.15), получим выражение для Z (/) через X (Zo) и а?(/0); подстановка этого выражения для %(/) в (5.3.7) дает закон управления и (t) и (t) = —С (t, t0) х (t0), (5.3.20) где С (t, t0) = B~lGT A (t) [X (io)]-1. (5.3.21) Соотношения (5.3.20) и (5.3.21) получены таким же образом, как (5.2.16) и (5.2.17), с той лишь разницей, что граничные условия для единичных решений X (i), Л (i) отличаются от тех, которые использовались в разд. 5.2. Если теперь перейти к пределу i0 —> i для получения непрерыв- ного варианта закона оптимального управления с обратной связью, то возникнут практические затруднения, связанные с тем, что матрица X (i) является вырожденной при t = tf. Последнее означает, что матрица С (t) коэффициентов усиления обратной связи становится неограниченной, т. е. С (i) —> оо при t tf. Это и понятно, поскольку условие задачи требует, чтобы ошибка конечного состояния была нулевой [см. формулу (5.3.1)]. Как будет показано в последующих главах, при наличии шумов (неопределенностей) в измерительном устройстве или объекте управления неограниченные коэффициенты усиления [С (t) —>• оо при t -> tj\ являются недопустимыми, так как, вообще говоря, требуют неограниченных значений величин управляющих воз- действий: u (i) —>• оо при t —> tf. Решение с помощью метода прогонки. Двухточечная крае- вая задача, описываемая уравнениями (5.3.8) — (5.3.11), может быть также решена с помощью метода прогонки, который, как указывалось в разд. 5.2, при численном решении задачи обычно имеет преимущества перед методом, основанным на использова- нии переходной матрицы. Однако в данном случае метод прогонки по сравнению с изложенным в разд. 5.2 должен быть обобщен для учета линейных терминальных условий типа (5.3.11). Для этого удобно заменить п исходных граничных условий (5.3.11) следующими п граничными условиями: fv£ = 10 Для Для i = 1, 2, . . q, i — q 1, q + 2, . . ., n (5.3.22) и, кроме того, постулировать, что заданные граничные условия [xir . . ., xgJl=f являются линейными функциями начальных
Л инейные системы с квадратичным критерием 193 условий х (t0) и множителей (v,, . . yq): ф = U (t0) х (t0) + Q (t0) v, (5.3.23) где фт = [ж1, .. ., xq]t=tf, (5.3.24) v^=[X1T .(5.3.25) Исходя из линейности уравнений (5.3.8) — (5.3.11), можно сде- лать вывод, что X (t0) является линейной функцией от х (t0) и ф, или, что эквивалентно, от х (t0) и v: (to) — $ (to) х (to) 4" R (to) v- (5.3.26) Поскольку любой момент времени t tf может быть принят за начальный, уравнения (5.3.23) и (5.3.26) могут быть записа- ны ’) в виде X (t) = X (t) x(t) + R (t) v, (5.3.27) ф (t) = U (t) x (t) 4- Q (t) v. (5.3.28) Так как эти соотношения должны быть справедливыми при t = tf, очевидно, должны иметь место соотношения S (tf) = 0, (5.3.29) ил({/) = И^) = (^\ = У / 1 = 1 {1 при i = 1, i = 1, 2, . .., п, о • .о (5.3.30) О при i =£], ] = 1, 2, ..., q, v ' Q (tf) = 0. ' (5.3.31) Теперь, как и в разд. 5.2, подставим X (t) из выражения (5.3.27) в уравнение (5.3.9) (с учетом постоянства вектора у). В резуль- тате найдем Sx + si + Rv=—Ax — FT(Sx + Rv). (5.3.32) Подставив х из (5.3.8) и (5.3.32) и используя снова (5.3.27) для исключения X, получим Sx 4-X [Fx - GB~1GT (Sx 4- Ry)] + Ry = - (A FTS) x - FTRy. (5.3.33) Это уравнение должно оставаться справедливым при любых значениях х и v; поэтому коэффициенты при х и у должны тожде- Изложенный метод не всегда удовлетворителен, поскольку S и R могут не существовать, тогда как решение задачи существует. См. по этому поводу разд. 6.3 и пример 2. 13—0102
194 Глава 5 ственно обращаться в нуль: <8 + SF + FTS + А - SGB~‘GTS = О, S (tf) = О, (5.3.34) R + (FT — SGB ~1GT) R = О, <5-3'35’ Наконец, дифференцируя (5.3.28) по времени- и считая ф и v постоянными векторами, получим Ux-}-Ux-)-Qv — 0. (5.3.36) Подставляя х из (5.3.8) в (5.3.36) и используя (5.3.27) для исклю- чения X, найдем Ux + U [Fx — GB-Hf (Sx + Ry)] + Qv = 0. (5.3.37) Поскольку уравнение (5.3.37) также должно удовлетворяться при любых значениях х и v, то коэффициенты при х и v должны тождественно обращаться в нуль: U + U (F - GB^GTS) = 0, (5.3.38) Qa— UGB-1GT R — 0. (5.3.39) Исследование уравнений (5.3.35) и (5.3.38) и граничных усло- вий (5.3.30) показывает, что U (t) = RT (t). (Ъ.ЗАО) Поэтому уравнение (5.3.39) может быть представлено в виде Q = RTGR-1GTR, Q (tf) = 0. (5.3.41) Уравнение (5.3.34) представляет собой то же самое уравнение Риккати, что и уравнение, полученное в разд. 5.2, однако в данном случае граничные условия другие. Уравнение (5.3.35) — линейное матричное дифференциальное уравнение, коэффициенты которого зависят от S. Уравнение (5.3.41) является простой квадратурой. Все три матричных уравнения (5.3.34), (5.3.35) и (5.3.41) могут быть проинтегрированы в «обратном» времени (от tf к t0), что даст зависимости S (t), R (t) и Q (t). Отметим, что Q 0, поскольку Q >0 и Q (tf) = 0. При некотором значении начального момента времени t = i0 матрица Q (t0) оказывается невырожденной, и тогда уравне-
Линейные системы с квадратичным критерием 195 пир (5.3.28) может быть разрешено относительно v v = ](? (io)]’1 - R1 (t0) х (i0)]. (5.3.42) Если же матрица Q (i0) является вырожденной, то задача оптими- зации (5.3.1) — (5.3.4) называется анормальной г), что, в частно- сти, означает, что в этом случае не существует соседних (см. гл. 6) минимальных решений. Если задача не является анормальной, то значения v из (5.3.42) могут быть подставлены в (5.3.27). В результате получается выражение для X (i0) 1 (i0) - (S - RQ^R7)^ x (i0) + ^RQ-^t^. {Ъ.ЪАЪ} Зная X (i0), можно интегрировать уравнения (5.3.8) и (5.3.9) в прямом времени как задачу с начальными условиями (как задачу Коши). Если же при интегрировании уравнений (5.3.34) и (5.3.35) решения S (t) и R (t) запоминаются, то необходимо интегриро- вать в прямом времени лишь уравнение (5.3.8), используя (5.3.27) для вычисления X (t) и (5.3.42) — для вычисления v. Зная зависи- мость X (i), с помощью (5.3.7) можно определить управление и (i). Обычно, однако, на практике больший интерес представляет оптимальный закон управления с обратной связью вида (5.3.20), а не программное управление и (i). Такой закон можно получить, либо вычисляя v с помощью (5.3.42) в некоторые промежуточные моменты времени (дискретный закон управления с обратной связью); либо вычисляя v непрерывно (непрерывный закон управ- ления с обратной связью). Из соотношений (5.2.5') и (5.3.43) при t0 = t имеем и (t) = -С (0 х (t) - D (i) (5.3.44) где . С = B^G7 (S - ЯТ), (5.3.45) D = B~lGT RQ~\ (5.3.46) В противоположность закону управления (5.3.20) закон управ- ления (5.3.44) явно зависит от заданных терминальных значений вектора состояний [xt (tf), . . xq (tf)] = i|/. Если ip = 0, то получаем закон управления, эквивалентный непрерывному варианту закона управления (5.3.20) [т. е. закону управления (5.3.20), в котором t0 заменено на £]. Обращаясь к (5.3.22), видим, что случай v = 0 соответствует задаче, в которой не заданы Ь Подробнее смысл анормальности в вариационных задачах изложен в книге: Г. Блисс, Лекции по вариационному исчислению, ИЛ, 1952,— tUpuM. перев. 13*
196 Глава 5 какие-либо терминальные условия. Из (5.3.23) и (5.3.40) находим, что значение ip при v = 0 дается выражением ф = RT (?0) х (?0); (5.3.23а) таким образом, величина RT (t0) х (t0) является предсказанным значением ip в том случае, когда J минимизируется без учета каких-либо терминальных условий. Используя эту интерпрета- цию, закон оптимального управления (5.3.44) можно записать в виде u(t) = — B~1GTSx(t)—B-1GTRQ~1(ty — ty'). (5.3.44а) Минимизация интеграла от квадратичной формы управляю- щих переменных. Особый интерес представляет частный случай интегрального квадратичного критерия качества (5.3.2) при Л = 0. В этом случае минимизируется интеграл от квадратичной формы только управляющих переменных, т. е. критерий качества при- нимает вид 1 J = A (uTBu)dt. (5.3.47) <0 Условия (5.3.1), (5.3.3) и (5.3.4) при этом также должны быть удовлетворены. Уравнение Риккати (5.3.34) при А = 0 имеет тривиальное решение ' S (t) = 0. (5.3.48) Отсюда следует, что и (?) 0 является решением задачи в том случае, когда не наложены терминальные граничные условия. При этом J = 0. Уравнения (5.3.35) и (5.3.41) упрощаются: R + F?R = 0, #г(М=(4у) i=i/‘ (5-3.49) Q (?) = - j (RTQB-'GTR) dt. (5.3.50) t Непрерывный закон оптимального управления с обратной связью может быть записан в виде и (?) = —D (?) [ф - RT (?) х (?)], (5.3.51) ч где D (?) = B-HfRQ-'. (5.3.52) Заметим, что предсказанное значение ф в том случае, когда не используется управление на всем интервале (?, ?/), дается
Линейные системы с квадратичным критерием 197 выражением i = RT(t)x(t). (5.3.53) Поэтому соотношение (5.3.51) может быть представлено также в следующем виде: и (t) = —D (t) [ip — ip (£)]. (5.3.54) Управляемость (см. также приложение Б). Можно показать, что минимальное значение критерия качества (5.3.47) удовлетво- ряет равенству Ашн = 4 ГФ (*) — Ф1т [ — <? (ОН ГФ (0 - Ф] (5-3.55) где ф (4) дается выражением (5.3.53). Из (5.3.55) следует, что в случае, когда матрица Q (t0) вырождена, величина неогра- ничена («Тмин = оо); кроме того, из (5.3.51) вытекает, что в этом случае и (t0) = оо. Динамическая система называется частично неуправляемой, если матрица Q (t) вырождена для любого значения t в интерва- ле (4g, 4Д. Динамическая-система, которая управляема при q = п, назы- вается полностью управляемой, так как в этом случае все компо- ненты конечного (терминального) состояния, какими бы они зара- нее ни выбирались, могут быть достигнуты с помощью соответ- ствующего управления. В случае стационарных динамических систем, когда F и G — постоянные матрицы, критерий полной управляемости может быть представлен в виде Ранг (G, FG, F2G, . . ., Fn~lG) = п. (5.3.56) Если матрица F имеет различные собственные значения (дей- ствительные или комплексные) и линейное преобразование у = Тх таково, что D = TFT~l — диагональная матрица, то матричное уравнение (5.3.3) преобразуется к виду у = Dy 4- TGu. (5.3.57) Теперь ясно, что если матрица TG имеет одну или несколько нулевых строк, то соответствующие компоненты нового фазового вектора у не испытывают воздействия какой-либо управляющей компоненты и поэтому система не является полностью управляе- мой. Другая причина неуправляемости системы может заключаться в том, что матрица D в (5.3.57) имеет одинаковые диагональные элементы. Рассмотрим для примера систему, описываемую урав- *) Понятие управляемости с более формальных алгебраических позиций рассмотрено в приложении Б.— Прим, перее.
198 Глава 5 нениями У\ = + и, Уг = ^Уг 2и. Линейная комбинация 2у{ — у2 ле испытывает воздействия управ- ления и, и, следовательно, система не будет полностью управляе- мой. На эти заключения об управляемости не влияет выбор матри- цы В, если только она является положительно определенной (можно было бы выбрать в качестве В единичную матрицу). Таким образом, управляемость есть свойство, присущее самой динамической системе, тогда как нормальность (или анормаль- ность) является свойством, присущим задаче оптимизации. Оче- видно, что неуправляемая система приводит к анормальной задаче оптимизации, но обратное не обязательно верно. Пример. Два математических маятника длиной I соединены пружиной на расстоянии а от точек подвеса (фиг. 5.3.1). Маят- ники управляются двумя равными и противоположно направ- ленными силами и, которые приложены к маятниковым грузам Фиг. 5.3.1. Пример неуправляе- мой системы. массы т каждый. Уравнения движения системы связанных маят- ников имеют вид mZ20j = —ka2 (0! — 02) — mglQt — и, ml2Q2 — —ka2 (02 — 0i) — mglB2 Д- и. Приведение этой системы к диагональному (каноническому) виду может быть осуществлено непосредственно с помощью алгебраи- ческих преобразований. Для этого надо просто сложить эти два уравнения, а затем вычесть их друг из друга. В результате полу- чается 2/1= — у У1, тГ2у2 = — (2ка2 Д- mgl) у2 — 2и, ГДе у{ = 0J Д- 02, 1/2 = 0! — 02.
Линейные системы с квадратичным критерием 199 Очевидно, что в данном случае нет возможности управлять симметричными колебаниями yt 0; поэтому система не является полностью управляемой. Отметим, что если одну из сил исключить (или сделать ее не равной другой), то система будет полностью управляемой. Задача 1. Квадратичный критерий качества и терминальные условия общего вида. Найти управление и (t), которое минимизирует критерий f их] io N(t) ' NT (t), B(t). x u_ dt при условиях x = F (t) x + G (£) u, x (t0) задано, где гр — заданный размерности q X п, Ответ. Мх (tf) = гр, O'-мерный вектор, q п. М — заданная матрица и = — В-1 [NT + GT (S — RQ~1RT)] x-R'1GTRQ-1ip, или u= — S'1 (tVT-}-GTS)x — B~1GTR^1 (ip~(p), где S = —SF —FTS —A + (SG + N) B'1 (NT -j- GTS), S (tf) = 0, R = —[FT - (SG + TV) B^GT] R, R (tf) = MT, Q = RT GBMMR, Q (tf) = 0. При этом Лгин = 4 №TSx + (Ф — Ф) Т ( — С'1) Й — ^)]fc=io, где гр = RT (t0) х (t0) — предсказанное значение гр в случае мини- мизации J без учета терминальных условий. Задача 2. Показать, что уравнение Риккати (5.2.24) при А = 0 может быть записано как линейное дифференциальное уравнение для матрицы S~l: Л- (S'1) = FS~i + 8~МТ- GB~iGT.
00 Глава 5 Даже при S~r (tf) = 0 (т. е. при Sf -+ оо) это матричное уравне- ние можно интегрировать в обратном времени. Показать далее, что при q = п решение может быть записано с помогЦью матрицы R (/), определяемой уравнением (5.3.49), в виде *) [5 (£)]-! = [Дг (<)]-! + j RTGB'lGTR dt^ [R (0Г1- i Задача 3. Пусть F и G — постоянные матрицы. Показать, что условие s-1 (t) > 0 эквивалентно условию Ранг(С, FG, F2G, . . Fn~1G) = п. Указание. Продифференцируйте нужное количество раз пере- ходную матрицу Ф (£, т) и примените теорему Кэли — Гамиль- тона. Задача 4. Показать, что предсказанное терминальное состоя- ние ф, определяемое уравнением (5.3.53), изменяется при исполь- зовании управления согласно уравнению ф = RTGu, где R определяется из (5.3.49), а ф (/0) = RT (М х («о). Задача 5. Для простейшей системы второго порядка ж-|-ж = м, где х и и — скалярные переменные, найти управление и (t), которое переводит систему из состояния х (0) = х0, х (0) = и0 в состояние х (iy) = х (fy) = 0 и минимизирует критерий J = у j и- dt.. о Указание. Используйте тот факт, что частное решение урав- нения х + х = A sin t + В cos t имеет вид 1 1 ^част = т Bt sin t — At cos t. z z См. приложение Б.2 и работу Калмана, Хо, Нарендры, указанную в списке литературы к приложению Б.
Линейные системы с квадратичным критерием 201 Ответ. п = 2 — sin2 tf [sin (tf — t) sin tf — tf sin t, — cos (tf — t) sintf-^-tfCost] x° 5.4. Регуляторы и устойчивость Регулятор, согласно принятому в данной главе определению, является управляющим устройством с обратной связью; это устройство предназначено для поддержания в допустимых пре- делах отклонения состояния стационарной системы от заданного состояния с использованием лишь допустимых величин управ- ляющих воздействий. Возмущения, действующие на систему, часто оказываются случайными, и поэтому их предсказание невозможно. В последующих главах будет исследовано статисти- ческое поведение регулируемых систем при наличии случайных вынуждающих функций. В данном разделе рассматриваются только детерминированные возмущения в начальный момент [т. е. х (t0) #= 0] при отсутствии постоянно действующих воз- мущающих сил ]). В случае стационарных систем матрицы F и G постоянны. Будем, кроме того, предполагать, что матрицы А и В в критерии качества (5.2.3) также постоянны, а интервал времени регулирова- ния неограничен (т. е. tf — £0->-оо). Рассматривая уравнение Риккати (5.2.24) для матрицы 5 (t), видим, что возможно существо- вание установившегося конечного решения, если из условия 5 = 0 = -SF - FTS + SGB-H^S - А (5.4.1) следует, что 5 (0 -> 5° при tf — t0 -> оо. Здесь S° — установившееся конечное решение уравнения (5.4.1). В этом случае матрица коэффициентов усиления (5.2.27) также становится постоянной: С (t) ->С° = B-^S0. (5.4.2) Более того, из (5.2.31) следует, что оптимальное значение крите- рия качества при tf — t0 -> о° определяется равенством = (5.4.3) *) Поскольку «о произвольно, метод, разумеется, применим в случае- любых возмущений в переменных х (t) состояния системы, которые возникают на интервале регулирования, независимо от вызывающей их причины.
202 Глава 5 и не зависит от времени. Таким образом, в рассматриваемом слу- чае оказывается, что если существует установившееся конечное решение S° уравнения (5.4.1) и если оно является, положительно определенным, то х (t) и и (t) ограничены (т. е. никогда не обра- щаются в бесконечность) и закон управления и (t) = —С°х (t) . |(5.4.4) приводит к асимптотически устойчивому регулятору (см. задачу 1). Следует заметить, что, вообще говоря, квадратичное матрич- ное уравнение (5.4.1) допускает более одного установившегося решения для матрицы 5°. Лишние корни могут быть обычно исклю- чены введением дополнительного требования положительной опре- деленности матрицы 5°, S° >0. Другой подход состоит в инте- грировании уравнения (5.4.1) в обратном времени (t = —т) с граничным условием Sf = 0 до тех пор, пока не будет выпол- нено условие S » 0. Калман [5.2] показал, что в этом случае S (т) —>• S°. Такой метод является ценным практическим приемом синтеза регуляторов *). Пример 1. Регулятор для системы первого порядка. Система описывается уравнением 1 х =----х-\-и. т Необходимо синтезировать регулятор, который поддерживает состояние х в окрестности нуля. Решение. Если необходимо поддерживать х2 ниже заданного значения а?т = const при использовании управления и2, не пре- восходящего значения и2т = const, то для достижения этой цели можно попытаться использовать критерий качества Ч J = У (ах^ + Ъи2, dt, где а = ±- Ь = -^- to Соответствующее уравнение Риккати имеет вид S — х S -а+ ь В установившемся состоянии (5 = 0) имеем S^lLs-ab =0. т !) В нашей стране такой метод решения уравнений Риккати был разра- ботан Ю. М. Репиным и В. Е. Третьяковым [5.10 *].— Прим. ред.
Линейные системы с квадратичным критерием 203 Отсюда с ь /~ ьг , , 6 = Ч2- + а&- Поскольку S должно быть положительным, приемлемым является лишь знак « + » перед корнем. Таким образом, Пример 2. Регулятор для системы третьего порядка (регулятор канала стабилизации крена для управляемого снаряда *). Необ- ходимо спроектировать управляющее устройство с обратной связью для управляемого снаряда с гидравлическим приводом Фиг. 5.4.1. Схема и обозначения к задаче о регуляторе крена управляе- мого снаряда. для элеронов. Регулятор должен стабилизировать значение угла крена у 0; при этом должны выполняться физические ограниче- ния на угол отклонения элерона б3 и на скорость его отклоне- ния 63. Схема снаряда представлена на фиг. 5.4.1. Уравнения движения имеют вид 63 = м, 1 , Na s — т С>х1 ~|- т О3, 1 V 'т У = ®Х1- Здесь Ту — постоянная времени снаряда при движении по крену, N3 — эффективность элеронов, и — сигнал управления при- водом элерона, иЖ1 — угловая скорость крена. Используя теорию х) Присутствие случайных возмущений рассмотрено в примере разд. 14.2 (см. также задачу 1 разд. 14.5).— Прим, перее.
204 Глава 5 синтеза регуляторов для линейных систем с квадратичным крите- рием качества, будем минимизировать функционал где у0 — желаемое максимальное значение у, бэо — максималь- ное допустимое значение 6Э, и0 — максимальное допустимое зна- чение и. Установившееся матричное уравнение Риккати ~SF - FTS -I- SGB-1GTS -4=0, где 0 N3 о Закон управления имеет вид ^11 0 0 1 То - и — —С°х — —В xGTSx = —и?0 [511; Sl2, 513] 12 ^13 в22 ^23 $32 $33- ’ бэ " .. У - Подстановка матриц F, S, G, В, А в уравнение Риккати при- водит к шести скалярным алгебраическим уравнениям второй степени относительно Stj -2S12 + U*S* -о, 4^--513 —S2i + А2 = 0, Ч ©эо Ч Ч - 2523 + ~ 0, - S23 = 0, 1 V 1 v $зз + и1$12$1з = 0, — -5- 4- u3S2l3 = 0. 1 V To С помощью непосредственных преобразований эти уравнения могут быть сведены к одному уравнению четвертой степени Д относительно переменной о — н.оля ।\ q2______________/ 2Л’Э uFv ' 2б!о / u0Tt \ То“о , 1 4 8/У3 ; бэО 6эо“о^7 To“Fv 4
Линейные системы с квадратичным критерием ZUO При этом элементы Зц выражаются через о и другие перемен- ные следующим образом: <?__<? _ (nz 1 \ с ______ 1 <? _ Тув 311- ио , Л12- 27уэ 62о ) , Л13- Wg , &23- , Из решений уравнений четвертой степени представляют интерес только действительные положительные значения о. Численный пример. Пусть Ту = 1 сек, N3 = 10 сек-1, ий = = л рад-сек-1, бэ0 = л/12 рад, у0 = л/180 рад. Соответствующее этим данным уравнение четвертой степени о1 + 1,272о3 — 28,Зо2— —482о + 59,4 = 0 имеет лишь два положительных действитель- ных корня: о, = 8,55, о2 = 0,12. Использование наименьшего корня о2 приводит к условию 533 < 0, поэтому остается лишь корень Hi 1). В результате С? = и0о = 26,9 сек-1-, С“ = ^-(о2--М=28,9; С°3 = -^- = 180 сек-1- -(26,96э + 28,9саЖ1 + 180у). Задача 1. Рассмотрим общую задачу даннцго раздела при допол- нительном предположении, что пара (F, G) образует управляемую систему. Покажите, что в этом случае при А >0 можно указать верхнюю границу для интеграла min [ (|+ u(i) J ' 1 и что существует предел J при (tf — t0) —оо. Покажите далее, что оптимальное значение критерия J — 1/2 I! % (to) lls0 является функцией Ляпунова (см. приложение Б.4), что влечет за собой в свою очередь асимптотическую устойчивость управляемой систе- мы, описываемой уравнением х — (F — GB~1GTS0) х. Следует отметить, что оптимальность управления в общем случае не обязательно влечет за собой устойчивость системы. Так, некоторые критерии качества могут привести к тому, что управление будет дестабилизировать систему. Одной из важных проблем качественной теории оптимального управления является выяснение соотношения между критерием качества и свойствами г) Условие У33 <0 не удовлетворяет критерию Сильвестра положи- тельной определенности матрицы У.— Прим, перев.
206 Глава 5 управляемой системы *). В таком направлении можно вести даль- нейшую разработку материалов данного раздела [5.1—5.3]. задача 2. Рассмотрим управляемую и устойчивую стационар- ную линейную систему, описываемую уравнением х = Fx + Gu. Пусть ее управление и (t) подчинено условию || и ||2 1, а V = = х/г II х Ils является функцией Ляпунова для приведенной выше системы при и = 0. Выберем теперь закон управления таким образом, чтобы он минимизировал производную функции Ляпу- нова. Показать, что этот закон управления является также опти- мальным и для некоторого квадратичного критерия качества типа приведенного в задаче 1. Задача 3. Автопилот продольного канала самолета для стаби- лизации малых вертикальных ускорений. Продольное возмущен- Ф и г. 5.4.2. Схема и обозначения к задаче управления продольным движе- нием самолета. ное движение самолета относительно горизонтального крейсер- ского режима полета достаточно точно описывается следующей системой уравнений второго порядка: а =----+ cozl = — (a — 7VA), где (фиг. 5.4.2) а — возмущение угла атаки относительно угла атаки акр крейсерского режима полета, 0)21 = Й, й— возмущение угла тангажа относительно угла тангажа -&кр = акр на крейсерском режиме полета (отсчитывается от нулевой подъемной силы Ох?, г) Впервые на связь свойств оптимальности и устойчивости по Ляпунову указали Н. Н. Красовский и А. М. Летов [5.6 *]. Дальнейшее обсуждение этой связи содержится в [5.7 *, 5.9 *].— Прим, перее.
Линейные системы с квадратичным критерием 207 I \V2 coo (----~ j — недемпфированная собственная частота коле- баний по тангажу, , MZ1— аэродинамический момент относительно оси zi (момент тангажа), Л1 — момент инерции самолета, Л/6в ~~М^---эФФективность руля высоты, mV = —^---постоянная времени самолета при изменении угла наклона траектории (подъемной силы), 6В— угол отклонения руля высоты. = -^1 1 да Л^В = Требуется: а) определить установившиеся значения коэффициентов уси- ления Ci и С2 регулятора с законом управления С С 2coZf, который минимизирует критерий качества V , Л2 Г/2 \ J = lim [ /-4-+-Г+-Л) dt. t.-t^ J \ diiO “» “НО ' J to б) Нанести для данной управляемой системы семейство линий постоянных значений коэффициента демпфирования £ на график N в6в0/ССВ. Отметим, что синтезированный по такому критерию авто- пилот не поддерживает горизонтальный режим полета [т. е. нуле- вую вертикальную скорость (0 = 0)]. Задача 4. Автопилот продольного канала самолета для стаби- лизации малых вертикальных скоростей. Для учета изменения вер- тикальной скорости к уравнениям продольного возмущенного движения из задачи 3 следует добавить уравнение Й = что приводит к динамической системе третьего порядка. Найти уравнения для определения установившихся значений коэффициентов усиления С15 С2, С3 регулятора с законом управ^ ления — (J |СС ^2^21 Cgfl, минимизирующим критерий качества г V С / йв I (0—а)2 \ J — 11Ш 1 I 2 -|- д2 1 1 t.— to->oo •} ' UbO °0 ' J to
2 Глава 5 Заметим, что такой автопилот поддерживает почти горизонталь- ный полет, однако высота при этом не остается постоянной. Задача 5. Автопилот продольного канала самолета для под- держивания постоянной высоты полета. Для учета изменения высоты полета к уравнениям продольного возмущенного движе- ния из задачи 4 следует добавить уравнение h = V (О — а), где h — возмущение высоты относительно заданной. Получен- ная при этом динамическая система имеет четвертый порядок. Найти уравнения для определения коэффициентов усиления Ct, С2, С3, Ci стационарного регулятора с законом управления бв = —Cjcc — C2cozl — Сдф — CJi, минимизирующим функционал Ч г г т Г / бв , № \ - •/ lim I I-;— tf- to~*oo J \ бвО A'O ' J to Задача 6. Автопилот канала управления боковым движением самолета, предназначенный для стабилизации направления поле- та {курса) и угла крена ’). Движения самолета по крену, рыска- нию и скольжению взаимосвязаны и образуют в совокупности так называемое боковое движение. Это движение почти совсем не связано с изменениями угла тангажа и вертикальными переме- щениями самолета, т. е. с его «продольным» движением. Возмущен- ное боковое движение самолета относительно установившегося горизонтального полета описывается системой уравнений пятого порядка • z$ ₽=й>у1+^0+ Si V = ®xi, ф=соУ1, где (фиг. 5.4.3) возмущенные переменные имеют следующий смысл: р — угол скольжения, ф — угол рыскания (курса), соу1 — г) См. [14.4] и задачу 1 разд. 14.2, где учтены случайные ветровые воз- мущения.— Прим, перев. / дМХ1 / ™yi dMyi ,, 1 3(0х1 1 3% “«''SV6") ’
Линейные системы с квадратичным критерием 209 угловая скорость рыскания, у — угол крена, <оЖ1 — угловая ско- рость крена, 6Н — угол отклонения руля направления, 6Э — угол отклонения элеронов. Фиг. 5.4.3. Схема и обозначения к задаче управления боковым движением самолета. Вывести уравнения для определения десяти коэффициентов усиления (СН1, . • Сна), (Qi, • • •> Сэз) стационарного регу- лятора с законом управления 6н' А. Сн1> Сн2? • • •! Gia АэЬ Сэ2> •••, Сэ5_ минимизирующим функционал lim -5- I (tj!— tO)-*00 f J to 0>ж1 V L Ф J (Р - Ф)2 ₽2 Для самолета, имеющего вес Go = 45OOO кГ, летящего на высоте h0 = 9000 м со скоростью Vo = 800 км!час, типичны следующие значения коэффициентов системы: то^о = -0,0297 сек1, -т~ VI -=Л= 0,379 сек-2, -=^- = 1,580 сек1 Збн ’ 1Х1 XI Ан = —1,17 сек"2, = 7Х1 мау1 = —ОДЭОсек-1, —^- = 0,129 сек1, 1 XI VI I = 0,379 сек-2, = —0,0125 сек 1, —Л - = —0,0096 сек 1 VI 7У1 g ^0 = 0,0438 сек1, 1У1 = -0,0423, -^= -0,106. 14—0102
210 Глава 5 Определить величины коэффициентов усиления Сц в цепи обратной связи, используя приведенные выше числовые значения коэффициентов системы и принимая следующие значения весовых множителей в критерии качества $но = бз0 = Во — у о — Решение можно получить с помощью вычислительной программы для ЦВМ [5.4]. Найти далее также собственные значения и соб- ственные векторы (т. е. формы собственных колебаний) для слу- чаев управляемой и неуправляемой систем (см. также гл. 14, разд. 14.2, задача 1). Ответ. Числовые результаты для матрицы Сгу, полученные Р. К. Мехра, таковы: 0 ' '6Н1 ГО,317; 0,069; 1,01; 0,076; 0,551 Т б3 = ~ 0,177; 0,737; 0,388; 1,03; 0,834j “yl ‘ ф J Задача 7. Линейная обратная связь для оптимального отслежи- вания заданного выходного сигнала. Выходной сигнал нестационар- ной линейной системы, описываемой уравнением х = F (t) х + G (t) и, является линейной комбинацией компонент вектора состояния У = М (t) х, где х — n-мерный вектор состояния, и — m-мерный вектор управ- ления, у — р-мерный вектор выходного сигнала. Используя интегральный квадратичный критерий качества (функцию штрафа), найти соотношения, определяющие матрицу С \t) и вектор w (t) в законе управления вида и = —С (t) х + w (t), который заставит систему с достаточной точностью отслеживать желаемый выходной сигнал у (t) на интервале t0 t tf, при этом величина сигнала управления и должна находиться в разум- ных пределах. Ответ. Возьмите критерий качества вида t. J = ~ \ [(у (t) — Мх)т А (у (t) — Мх) 4- иТВи] dt. to
Линейные системы с квадратичным критерием 211 Тогда C = B~1GTS, w=—B~lGTg‘, S=—SF— FTS + SGB-rGTS — MTAM, S(tf) = O, g= — (FT — SGB~lGT)gA~MTAy, Задача 8. Оптимизация неоднородной линейной системы по квадратичному критерию качества (В. Гарбер). Найти управле- ние и (t), которое минимизирует критерий качества Л J = у (хТ SfX)t=-_tf +~2 j (хТАх Ц- ит Ви) dt to при условиях х = F (t) X + G (t) и + С (t), х (t0) = х0 (х0 — заданный вектор). Ответ. Оптимальный закон управления имеет вид и (t) = —В-^ (Sx + к), где S и к определяются как решения уравнений S = _ SF - FTS + SGB~1GTS - А, S(tf) = Sf, к = (SGB~iGT- FT) к - SC, к (tf) = 0. Задача 9. Решение линейной двухточечной краевой задачи общего вида (Г. Рибицкий и П. Ушер). Рассмотрим линейную двухточечную краевую задачу х = F (t) х + w (t)\ Ах (t0) = а, Вх (tf) — Ъ, где. ж — n-мерный вектор, а — (п — Л)-мерный вектор, Ъ — fc-мер- ный вектор, F (t), w(t), а, Ъ, А, В — заданные величины. а) Показать, что решение может быть получено с помощью метода прямой прогонки, если положить Ах (t) = S (t) Вх (t) + т (t)-, S = CiS - SCi - sc3s + c2, 5 (to) = 0, 14»
212 Глава 5 т = (Ci — 5CS) т + (А — SB) w, т (t0) — а, Отметим, что 5 является (и — к) X fc-мерной матрицей, ат — (п — /с)-мерпым вектором. Интегрирование дифференциальных уравнений для S и т вперед, т. е. от t0 до tf, дает семейство решений, удовлетворяю- щих начальным условиям. При t — tf имеем условия Ах (tf) = S (tf) b + т (tf), Вх (tf) = b, которые образуют систему п уравнений для определения х (tf). Определив из этой системы х (tf), можно проинтегрировать исход- ную систему уравнений назад (т. е. от tf до t0) для получения искомого решения краевой задачи. б) Очевидно, что аналогичная процедура может быть исполь- зована и для нахождения решения краевой задачи методом обрат- ной прогонки: для этого нужно лишь положить Вх (t) = QAx (t) + п (t).
Глава 6 Соседние экстремали и вторая вариация 6.1. Соседние экстремальные траектории при заданном времени окончания процесса Пусть найдена некоторая вектор-функция управления и(£), которая удовлетворяет всем необходимым условиям первого порядка для оптимальности управления в задаче Больца ’) (см. разд. 2.5). Другими словами, пусть имеются следующая система уравнений и условия: х = f(x, U, t), (6.1.1) кТч= _ дН дх ’ (6.1.2) дН ди = о, (6.1.3) где x(t0), t0, tf заданы, (6.1.4) 1 дх 1 t=t f (6.1.5) ф [х («у)] = 0; (6.1.6) критерий качества имеет вид ч J = ф [х (£у)| J L [ж (/), u(t),t]dt, (6.1.7) <0 H = L-\-'kTf. (6.1.8) Напомним, что расширенный (вспомогательный) критерий каче- ства для данной системы определяется выражением _ tf J = ф [х (tД] 4- утф [х (tf)] 4- J [H (x, u, X, t) — Хтж] dt. (6.1.9) ___________ to Ч Управление u (f), удовлетворяющее соотношениям (6.1.1)-—(6.1.6), называется экстремальным управлением, а соответствующая ему траектория называется экстремальной траекторией (экстремалью). Экстремальное управление не обязательно минимизирует (максимизирует) выбранный крите- рий качества, поскольку оно удовлетворяет лишь необходимым условиям оптимальности. Экстремальные управления важно рассмотреть потому, что оптимальное управление находится среди экстремальных.—Прим, перев.
214 Глава 6 Рассмотрим теперь малые отклонения от экстремальной траектории, возникающие вследствие малых возмущений в началь- ном состоянии 8х (£0) и в конечных условиях бф. Естественно ожидать, что малые возмущения в начальных и конечных усло- виях приведут к появлению возмущений (вариаций) 8х (t), б% (t), dv, удовлетворяющих линеаризованным - в окрестности экстре- мальной траектории уравнениям (6.1.1) — (6.1.6), т. е. бж = fx^x + tu^U, (6.1.10) 6Л = -Hx£x-fr8K-Hxu8u, Hxu~J-(Hxf, (6.1.11) HUxSx+fl8% + Huu8u = 0, (6.1.12) 8x (t0) задано, (6.1.13) 6ВД = [(фхх + (v4)x) 8x + ^Txdv]t=tf, (6.1.14) бф = задано. (6.1.15) С другой стороны, можно рассмотреть разложение в ряд исходного критерия качества и ограничений с точностью до членов второго порядка малости по 8х, 8и [поскольку члены первого порядка малости обращаются в нуль, если траектория удовлетво- ряет уравнениям (6.1.1) — (6.1.9)]. Как было указано в разд. 1.3, к такому же результату можно прийти, если разложить в ряд расширенный критерий качества с точностью до членов второго порядка, а все ограничения — с точностью до членов первого порядка малости относительно 8х, 8и. Таким образом, 8‘2‘J = -^\8x (^>xx-b(v 115х)х)&r]t=^ . lf г IJ н л ГбтП +± ie^Vj °* dt (6.1.16) j L0W. io при выполнении условий бж = fx8x + /„бн, (6.1.17) 8х (t0) задано, (6.1.18) бф = (^>x8x)t=tf, бф задано. (6.1.19) Поскольку нас интересуют соседние экстремальные траектории, то нужно определить 8и (t) так, чтобы величина б2/ достигала минимума при одновременном удовлетворении условий (6.1.17) — (6.1.19). Такая задача относится к задачам оптимизации линей- но-квадратичного типа (подробно она рассматривалась в гл. 5). Введя множители б% и dv (такое обозначение для множителей выби- рается с очевидной преднамеренностью), получим присоединенную
Соседние экстремали и вторая вариация 215 двухточечную краевую задачу, которая описывается уравнения- ми (6.1.10) - (6.1.15). Уравнения (6.1.10) — (6.1.15) определяют линейную двух- точечную краевую задачу, поскольку коэффициенты при 8х, 8и вычисляются на экстремальной траектории. Предполагая, что матрица Нии (t) невырождена для t0 t tf, можно разрешить (6.1.12) относительно величины 8и (t) и выразить ее через 6% (Z) и 8х (t): 8и (t) = - (Них8х + т. (6.1.20) Подстановка полученного выражения для 8и (t) в (6.1.10) и (6.1.11) дает 8х = A (t) 8х - В (t) 6Л, (6.1.21) 6Х = -С (t) 8х - АТ (0 6Л, (6.1.22) где A(t) = fx-fuH~iHux, (6.1.23) B(t) = fuH^f£, (6.1.24) C(t) = Hxx-HxuH^Hux. (6.1.25) Б этой задаче можно также считать, что отклонения от экстре- мальной траектории вызваны возмущениями 8х (£0) и dv (вместо 8х (to) и бф); при таком подходе необходимо определить значение dv, которое соответствует желаемому значению бф. 6.2. Определение соседних экстремальных траекторий при заданном времени окончания процесса методом обратной прогонки Метод прогонки .для решения линейно-квадратичных задач был изложен в разд. 5.2. В том же разделе (см. задачу 4) этот метод был применен к задачам, содержащим под знаком интеграла в критерии качества члены с произведением х на и. Далее в разд. 5.3 метод прогонки был распространен на задачи с линейными терми- нальными ограничениями вида (5.3.11). Ниже сделано дальнейшее обобщение — указанный метод применен для решения задачи с линейными терминальными ограничениями в форме (6.1.15) *). Как и в разд. 5.3, будем искать решения уравнений (6.1.22) и (6.1.19) в виде 6% (t) = S (t) 8х (t) -}- R (t) dv, (6.2.1) 6ф = RT (i) 8x (t) + Q (1) dv, (6.2.2) x) См. также задачу 1 разд. 5.3,
216 Глава 6 здесь dv и бф — векторы с постоянными бесконечно малыми компонентами, S (t), R (t) и Q (t) — матричные функции. Оче- видно, эти матрицы должны быть такими, чтобы удовлетворялись соотношения (6.1.14) и (6.1.15), т. е. 5 (tf) = [фхх + (уад<=4/, (6.2.3) R (tf) = (6.2.4) Q (tf) = 0. (6.2.5) Продифференцируем теперь выражения (6.2.1) и (6.2.2) по времени, считая dv и бф постоянными величинами: 6Х = S8x S8x R dv, (6.2.6) RT8x + RT8x + Qdv = 0. (6.2.7) Подставляя выражение для б% (t) из (6.2.1) в (6.1.21), получим 8х = (А - BS) 8х — BR dv.' (6.2.8) Приравняем теперь правые части уравнений (6.2.6) и (6.1.22), исключив из них предварительно 8х и б% с помощью соотноше- ний (6.2.1) и (6.2.8): (-С - ATS - SA + SBS - S) 8x - [(Лт - SR) R + A] dv-0. (6.2.9) Подобным образом, подставив 8x из (6.2.8) в (6.2.7), получим [RT + RT (A-BS)]8x + (~RTBR + Q) dv==0. (6.2.10) Если рассматривать уравнения (6.2.9) и (6.2.10) как тождества, справедливые при произвольных значениях 8х и dv, то очевидно, что коэффициенты при 8х и dv должны обращаться в нуль: S= — SA — ATS + SBS — С, или S=-Sfx—flS-HxxA- + (Sfu + HTx)H-ul(Hux + flS), (6.2.11) R=—(AT — SB)R, (6.2.12) Q = RTBR. (6.2.13) Соотношения (6.2.3) — (6.2.5) являются граничными условиями для этих матричных дифференциальных уравнений. Если инте- грировать эти дифференциальные уравнения от t — tf до t = t0, то выражения (6.2.1) и (6.2.2) будут представлять собой граничные условия, эквивалентные терминальным граничным условиям
Соседние экстремали и вторая вариация 21 < (6.1.14), (6.1.15), но заданным в более ранние моменты времени; таким образом, терминальные граничные условия «переносятся» назад, на более раннее время. Проинтегрировав уравнения (6.2.11) — (6.2.13) от tf до t = t0, можно разрешить уравнение (6.2.2) в точке t = t0 и получить таким образом необходимое значение dv для обеспечения нужного отклонения бф: dv = Q-1 (f0) [&ф - RT Go) (Ш (6.2.14} Заметим, что существование dv для всех значений 6-ф связано с невырожденностью матрицы Q (t0) (см. разд. 5.3, условие нор- мальности). Если величину dv из (6.2.14) подставить в (6.2.1) при t = tar то получим б% Go) = [5 Go) - R (to) Q-1 (to) RT Go)] (to) + + R (to) Q-1 (to) бф. (6.2.15} Далее можно найти 8х (t) и 6Х (t) путем интегрирования уравне- ний (6.1.21) и (6.1.22) «вперед» (т. е. от t0 к tf), как при решении задачи с заданными начальными условиями, с использованием в качестве начальных значений 8х (t0) и б% (t0) из (6.2.15). С другой стороны, если при интегрировании «назад» запомнить матрицы S (t) и R (t), то можно просто проинтегрировать урав- нение (6.2.8) «вперед», используя dv из (6.2.14). Полученное зна- чение 8х (t) затем можно подставить в (6.2.1) и определить б% (t). Еще один способ состоит в следующем. Если запомнить матри- цы S (t) и R (t) при интегрировании в обратном времени, то можно считать соотношение (6.1.20) линейным законом управления с обратной связью. Подстановка б% (t) из (6.2.1) в (6.1.20) дает 8u(t)= -Н^и [(Них + №) 8x + flRdv\. (6.2.16} Это соотношение совместно с уравнением (6.1.10) и выраже- нием (6.2.14) можно использовать для определения 8х (t). Величина dv в выражении (6.2.14) вычислена при t = t0. Рассматривая выражение (6.2.16) как закон управления с обрат- ной связью, видим, что величину dv необходимо вычислять либо в нескольких промежуточных точках по времени (подобно тому как это делается в случае дискретного закона управления с обрат- ной связью), либо непрерывно (как в случае непрерывного закона управления с обратной связью). Если dv вычисляется непрерывно с помощью соотношения (6.2.14), в котором t0 заменено на t, то выражение (6.2.16) примет вид 8и (t) = - {(Них + ft(S-RQ^R7)] 8х + ftRQ-Щ} = -A1(t)8x-A2(t)8^. (6.2.17}
218 Глава 6 Это непрерывный линейный закон управления с обратной связью, при котором терминальные условия имеют требуемые малые отклонения а критерий качества J (6.1.7) достигает минимума. Поэтому полученный закон управления целесообразно назвать оптимальным законом управления в окрестности номинальной траектории (или оптимальным законом управления по соседним траекториям). Задача 1. Рассмотрим динамическую систему х = (F + GK) х, х (0) = х0, тде х — скалярная переменная, К — скалярное управление. Пусть критерий качества имеет вид т / = 4^(7’) St + 4 j x*(t)(Q + KRK)dt, о тде F, G, ST, R, Q — известные скалярные величины. Записать необходимые условия обращения в нуль первой вариации J и решить полученную двухточечную краевую задачу. Заметим, что эта задача может быть получена из обычной линей- но-квадратичной задачи, если предположить, что закон управле- ния имеет вид и — Кх. 6.3. Достаточные условия локального минимума при заданном времени окончания процесса В этом разделе будет показано, что для существования сосед- них стационарных *) экстремальных траекторий (экстремальных в слабом смысле, т. е. при малых 8х и 8и) достаточно выполнения •следующих условий: Нии (t) >0 (т. е- матрица Нии положительно определена) при t0 t tf, (6.3.1) <2 (t) <Z 0 (т. е. матрица Q отрицательно определена) при t0 < t < tf, (6.3.2) Матрица [S' (i) — R (t) Q~r (t) RT (£)] ограничена при t0 t <Z tf. (6.3.3) В вариационном исчислении каждое из этих трех условий имеет -специальное название: (6.3.1) — условие выпуклости (или уси- г) Имеются в виду соседние траектории, удовлетворяющие условию стационарности (6.1.12).— Прим, перее.
Соседние экстремали и вторая вариация 219 ленное условие Лежандра — Клебша), (6.3.2) — условие нормаль- ности, (6.3.3) — условие отсутствия сопряженных точек на траек- тории (условие Якоби). Условия (6.3.1) — (6.3.3) совместно с необходимыми усло- виями (6.1.1) — (6.1.9) разд. 6.1 образуют систему достаточных условий локального минимума критерия качества J на рассма- триваемой траектории. Для доказательства рассмотрим снова выражение (6.1.16) для второй вариации б* 2/: б2/ = -^[6жт(фа:ж + (^т'фх)х6ж](=(/ + 9 + 4“ J [&ЕТбнТ] *0 Нхх Нхи §х Них Нии _ _ би (6.3.4) Если будет показано, что 82J >0 для всех 8и (t) 0, то тем самым будет установлено, что исходная траектория1) миними- зирует критерий J. Прибавим к выражению (6.3.4) следующее тождественно рав- ное нулю выражение2): [(бж^х — 6i|;T) dv]t=tf + + ^ { dvTRT (fx8x + fu8u — 8х) + to у 8xTS (Jx8x + fu8u — 8x) | dt == 0, в котором величины dv== const, R = R(f), S = S(t) должны быть определены. Интегрируя dvTRT8x и 8xTS8x по частям, получим 82J = | [бжт (фхх + (v^- 5) бх]t=tf + + dvT [Сфх — RT) 8x — 6i|)]t=t/ + + у [бжт5 бх] t=to + [бжтй dv]t=t0 + + J ^2dvT (RT + RTfx~) 8x + 2dvTRTfu8u + to i) В классической литературе эта задача называется присоединенной задачей на минимум. См., например, Г. А. Б л и с с, Лекции по вариацион- ному исчислению, ИЛ, 1950. 2) Метод доказательства принадлежит С. Макрейнольдсу и изложен в его докторской диссертации (S. R. McReynolds, Ph. D. Thesis, Har- vard Univ., 1966).
220 Глава 6 + 8xTS 8x^2 (8xTfx + 8uTfu) S8x = [HVV H'VTL Г бД/1 1 „ и L И (6-3-5> "их -#uuj [OUJ J Распишем подынтегральное выражение более подробно: 1 7 • -i- j [6ят (5 + Sfx + f$S + Hxx) 8x + 8uTHuu8u + to + 8xT (R + fxR) dv + dvT (RT + RTfx) 8x + + 8xT (Hxu + Sfu) 8u + 8uT (Hux + flS) 8x + dvTRTfu 8u + 8uTf£R dv] dt. Выберем теперь матрицы S, R так, чтобы выполнялись соотно- шения «S' -]- Sfx Ц- fxS -р Нхх = (Нха -]- Sfu) Дии (Hux 4~ fu^)i S (tf) [<£хх + (vT4x)x]i=(/, (6.3.6) R+fxR-(Hxu + SfT)H^fuR = O, R(tf) = ^f (6.3.7) а матрицу Q определим следующим образом: Q = RThH-^R, Q(tf) = V. (6.3.8) Следовательно, указанные матрицы удовлетворяют уравнениям (6.2.11) — (6.2.13) разд. 6.2. Интеграл в выражении (6.3.4) можно теперь представить в виде полного квадрата *) 8U = ±(8xTS. 8x)t=t0 + (8xTRdv)t=t0- (Wdv) + ± dvTQ(t0)dv + + 4 J II l(Hux + f^S) 8x + fuR dv] + 8u \\^uu dt. (6.3.9) Наконец, выберем dv так, чтобы удовлетворялись уравнения (6.2.14) или (6.2.2). Тогда получим ' 84= [у 8х? (S - RQ-4lT) 8х + 8^Т0~^ 8х — !) Напомним, что || г ||А обозначает квадратичную форму zTAz (см. при- ложение А.З).— Прим, перев.
Соседние экстремали и вторая вариация 221 + 4" J II (Я™)’Х №их + RQ^R?)] 8х + to + + 8и ||huu dt. (6.3.10) Если сравнить две траектории с одинаковыми начальными и тер- минальными условиями, т. е. при 8х (t0) — 6ф = 0, то 6V >0 для всех 8и (t), за исключением тех, при которых подынтеграль- ное выражение в (6.3.10) обращается в нуль, т. е. за исключе- нием 8и (t), определяемых выражением (для всех t) 8u(t)^-H-lu[Hux + fl(S-RQ-lRT)]8x. (6.3.11) При 8х (t0) =0 и = 0 из (6.3.11) следует, что 8и (t) = 0, если выполняются условия (6.3.1) — (6.3.3). Последнее означает, что 6V >0 для всех ненулевых 8и (t) при 8х (t0) = 6ф = 0; таким образом, исходное управление и (t) доставляет локальный минимум критерию качества J. Далее, если используется закон управления с обратной связью (6.2.17) при 8х (ta) =5^=0 и 6ф 0, то в соответствии с (6.3.10) изменение критерия качества с точностью до членов второго порядка определяется выражением 8J = Лт (t0) 8х (t0) — vT бф 4- у [6жт (t0), бфт] х -S-RQ^RT, ХI Q~rR, Отсюда получаются следующие водных от J°(x(to), ф]: dJa --УТ dJ0 dz ’ -f^- = RTQ-\ дх дф х RTQ * 8х (t0) ’ — Q1. бтр выражения для частных произ- -vT, ^- = S-RQ^RT, йф2 Можно показать также, что необходимым условием второго порядка для минимума J является ослабленное условие (6.3.1) (см. также гл. 4, разд. 2), т. е. Нии (t) > 0 для to < tf. (6.3.12) х) Смысл условия выпуклости легко понять, основываясь на материале гл. 4, где показано, что и (t) определяется минимиза- цией гамильтониана Н по и при фиксированных значениях х, х) В классическом вариационном исчислении это условие называется необходимым условием первого порядка; см. [6.21].
222 Глава 6 X и t. Если Н — гладкая функция и ограничения на управление отсутствуют, то должны выполняться условия Ни = 0, Нии > 0. Что касается условия нормальности, то уравнение (6.2.14) позволяет интерпретировать его следующим образом. Малые изменения 6ф могут быть получены при малых изменениях dv только в случае невырожденности матрицы Q (t) на t0 t < < tf. Если Нии >0, то из (6.3.8) следует, что Q 0. Поскольку Q (tf) = 0, то, следовательно, Q (t) 0. Если S — RQ^R7 -> оо в точке t = t', где t0 t' < tf, то необходимо, чтобы некоторая линейная комбинация 8х (t') была равна нулю; это означает, что система допустимых возмущений Фиг. 6.3.1. Кратчайший путь между точкой и большим кругом на сфере. 0 — географическая широта; ф — географическая долгота. имеет размерность меньше, чем п, где п — число переменных состояния. Следовательно, поверхность постоянных значений J° в окрестности точки t = t’ имеет излом (разрыв в частных произ- водных), поскольку d2J°ldx2 —> оо при t = t’. Если траектории продолжить от t = t' в сторону t < t', то они уже не будут мини- мизирующими х) (см. примеры 1 и 2 и задачи 1 и 2 этого раздела). Заметим, что если S —> оо, то это еще не обязательно означает, что S — RQ-1RTоо (см. пример 2). Пример 1. Кратчайшая траектория на сфере между точкой и большим кругом. Чтобы найти кратчайшую траекторию между точкой О и большим кругом, выберем систему координат с нача- лом в этой точке; пусть большой круг соответствует меридиану ф = фр Обозначим через 0 широту точки, а через ф — ее долготу (фиг. 6.3.1). г) Точнее: участки траекторий и управлений на отрезке времени [i, «у], где t < t', a tf фиксировано, не будут минимизирующими, если S — RQ~XRT оо при <= Проверку условия ограниченности матрицы 8 — RQ-XRT удобно проводить (при фиксированном tf) начиная с правого конца траекто- рии, поскольку граничные условия для 8, R, Q заданы при t = tf.— Прим, перев.
Соседние экстремали и вторая вариация 223- Элемент расстояния ds на поверхности сферы определяется равенством ds = [г2 (Й9)2 + г2 cos2 9 (cty)2]1/2, где г— радиус сферы. Задача состоит в отыскании и (<£), мини- мизирующего критерий качества Ф1 /= j (u,2 + cos2 9)х/2 d$, о где d$ld$ = u, 9(0) = 0. Легко показать, что траектория и = 0, 9 = 0 удовлетворяет необходимым условиям первого порядка, при этом J = ф^ Рас- смотрим теперь траектории, лежащие в окрестности найденной экстремали (т. е. соседние траектории). Разложение критерия качества с точностью до членов второго порядка дает х) Ф1 6J = J— ф^^- j (u2 —92)d<£. о Для полученной присоединенной задачи на минимум гамильто- ниан Н имеет вид Н = (и2 — 92) + Хн; уравнения Эйлера — Лагранжа Исключая X и и с помощью соотношения d&!d& = и, получаем — + 9 = 0, 9(0) = 0, =0. аф2 ’ \ / \ аф / ф=ф1 При 9 = A sin ф удовлетворяется дифференциальное уравнение и начальное условие 9(0) = 0, но еще необходимо, чтобы (-4?-) =ЛсозА1 = 0. Последнее равенство справедливо только при А = 0, если ф1 < л/2, и при любом А, если ф1 = п,12. Заметим, что в том случае, когда ф1 = л/2, л/2 67 = -|- ( (А2С082 ф — A2 sin2 ф) dф = 0. о г) Ниже в присоединенной задаче вместо би, 60, 6ф использованы обозна- чения и, 0, ф соответственно.— Прим, перев.
224 Глава 6 Точка О называется фокальной, или сопряженной, точкой для точки ф! = л/2 в данной задаче. Другой способ решения задачи основан на использовании уравнения Риккати. Принимая во внимание, что в рассматривае- мом примере F = О, G = 1, Нее — —1» Неи — 0, Нии = 1, полу- чим уравнение Риккати ^- = ^ + 1, 1§'(ф1) = 0. Оно легко решается: 5 = —tg (ф4 — ф). Видно, что S —> оо при ф1 — ф —>л/2. Таким образом, сопря- женная точка существует, когда ф! — ф — л/2. Оптимальный закон управления с обратной связью для соседних траекторий имеет вид би (t) = [tg (ф1 — ф)[ 69. Заметим, что коэффициент усиления tg (ф! — ф) закона управ- ления би положителен для 0 ф1 — ф л/2. Пример 2. Кратчайшая траектория между двумя точками на сфере. Эта задача отличается от предыдущей только терми- нальными граничными условиями. Пусть вторая точка имеет координаты 0 = 0, ф = фр, тогда 9 (ф1) = 0, [вместо X (ф^ = 0]. Так же как и в примере 1, решение 9 = A sin ф удовлетворяет уравнениям Эйлера — Лагранжа для присоединенной задачи на минимум; начальное условие 9 (0) = 0 также удовлетворяется. Требуется еще, чтобы 0 (ф1) = A sin ф1 = 0. Это равенство справедливо только при А = 0 для ф1 < л и при любом А, если ф1 = л. Точка О — сопряженная точка для точки 9 = 0, ф = л. Заметим, что для точки 9 = 0, ф = л б J = j (A2 cos2 ф —A2 sin2 ф) йф =0. о Полученное соотношение показывает, что между двумя такими точками на сфере существует бесконечно большое число траек- торий (полуокружности больших кругов), которым соответ- ствуют одинаковые значения критерия качества. Если ф1 >л, то на траектории и = 0, 9 = 0 не достигается даже локальный минимум, хотя необходимые условия первого порядка удовлетворяются. Отсутствие локального минимума легко
сосеоние экстремали и вторая вариация 225 установить, вычислив значение 6J на соседней траектории вида 9 = A этл-^-, Ф1 тогда *1 с г 1 Г / 42л2 „ лф „ . „ яф \ j , А2 . ,2 о/ = -у- (-2- cos2—-----Л2ЗШ2—7-) с/ф = —7—(А2 — л2). 2 J \ ф1 Ф1 ) г 4:ф1 1Т1 / Эта величина при увеличении А может быть сделана сколь угодно меньшей нуля. При решении задачи с помощью уравнения Риккати исполь- зуются вспомогательные величины R и Q, поскольку заданы терминальные граничные условия ^• = 5> + 1, S(« = 0, i.SS, Я(М = 1. Для 0 — ф < л/2 эти уравнения легко решаются: S = —tg (ф1 — ф), R = sec (ф1 — ф), Q = —tg (ф1 — ф), при этом S — RQ-1RT = ctg (ф± — ф) и RTQ~1 — cosec — ф). Оптимальный закон управления с обратной связью для соседних траекторий имеет вид би (f) = — [ctg (^>i — ф)1 60 + [cosec (ф4 — ф)] 60/. Хотя S, R и Q даже не существуют при ф1 — ф л/2, тем не менее 5 — RQ~TRT существует при 0 ф1 — ф <z л. Оче- видно, что S — RQ-1RT -> 00, если ф! — ф -> л; таким образом, сопряженная точка имеет место при ф1 — ф = л. Заметим, что S -> оо при ф1 — ф = л/2, но S — RQ^R1 не стремится к оо при ф4 — ф = л/2. Этот же результат можно было бы получить и без введения вспомогательных величин R и Q, если бы при решении уравнения Риккати использовать условие S (ф4) = оо вместо условия S (ф^ = 0. Пример 3. Минимальные по времени траектории, проходящие в среде, где скорость движения определяется зависимостью V (у) = Vo + у21№. В задачах 2—5 разд. 2.7 показано, что для данной задачи минимальные по времени траектории, выходя- щие из начала координат, описываются уравнениями х = Vo У1 + y2/h2 cos 0, х (0) = 0, у = у0 У1 -J- y2!h2 sin 0, у (0) — 0, 0= ---cos0, 0(0) = 0О. h2 Vl + y2!h2 ’ 15—0102
226 Глава 6 Первый интеграл этой системы получается из закона Снеллиуса (геометрическая оптика) cos 0 cos 0л ---- r= Т7 = const. V0Vl + № Fo Из первого интеграла можно найти зависимость y/h от 9 у ____~|/cos2 0 — COS2 0Q h cos 0O Подставив полученное выражение в уравнения для х и 9, полу- чим dx___ h cos2 0 sec 0O d9 ~ 1/cos2 0 — cos2 0O ’ dt __ __________h__________ ^9 Vo ~]/cos2 0 — cos2 0o Решения этих уравнений можно выразить через стандартные эллиптические интегралы: (90, Л_)_£(9о, ф)]зес90, (9о, -f)-F(90, Ф); здесь , sin 0 Sin Ф = —; д- , r sin 90 F (90, Ф ,. (* da ф) = 1 — . —неполный эллиптический о Д/4 — sin2 60 sin2 ос. интеграл первого рода, Я(9«, ф)= 1 1—sin2 90 sin2 a da—неполный эллиптический ин- J теграл второго рода. Имеются таблицы этих интегралов1). Можно далее выразить y/h через ф -|- = tg90 соэф. На фиг. 6.3.2 изображено несколько минимальных по времени траекторий («лучей») и несколько кривых постоянных значений Vot/h («волновых фронтов»). Заметим, что сопряженная точка здесь x/h = л, у = 0; прямая у = 0 является минимальной по времени траекторией для 0 < xf/h < л (но не для xflh г) См., например, Е. Янке, Ф. Эмде, Ф. Леш, Специальные функ- ции (формулы, графики, таблицы), изд-во «Наука», 1964,— Прим, перев.
Соседние экстремали и вторая вариация 227 Заметим, что кривые постоянных значений- VotJh (см. фиг. 6.3.2) имеют бесконечную кривизну в сопряженной точке Фиг. 6.3.2. Минимальные по времени траектории, проходящие в среде, где величина скорости движения определяется соотношением V (у) = = Vo VI + (гА)2. (т. е. д2Лду2 -> оо). Помимо этого, на прямой у = 0 за сопря- женной точкой (т. е. при x/h > л) линии уровня Vot!h = const имеют разрывы в наклоне касательных при переходе от у < О к У >0- (См. также задачу 3.) Задача 1. Пусть Q-1 (t) существует для t0 t <Z tf, но S — RQ^R1 -> оо в точке t = ti (т. е. t = ti — сопряженная точка). Показать, что: 1. Можно найти некоторую соседнюю траекторию, идущую от ti к tf, которая удовлетворяет уравнениям = фж6а: = 0, 8х = fx8x + fu$u, бк= —/жбХ — Нхх$х — Нхи$и, Н-l [Них + fl(S- RQ~1RT)] 8х 15*
228 Глава 6 и условию 8х (tt) = 0. Такую траекторию назовем сопряженной (фиг. 6.3.3). Фиг. 6.3.3. Сопряженная точка и сопряженная траектория. 2. На сопряженной траектории справедливо равенство 4- j |SzW| [£] dt + ±^TSta),.,/=s0. tl Следовательно, «стоимость» пути х) АВС (фиг. 6.3.3) равна «стои- мости» пути ABD. 3. Из полученного в п. 2 соотношения вытекает, что «стои- мость» пути от А до D, не проходящего через В, меньше «стоимо- сти» пути ABD. Таким образом, отсутствие сопряженной точки Фиг. 6.3.4. Сопряженная траектория и неоптимальность. на интервале t0 < t < tf является необходимым условием опти- мальности траектории (в данном случае — в смысле минимума критерия качества). [Указание. Рассмотреть траекторию AEBFD (фиг. 6.3.4), где Е —>- В, F-+B.] Задача 2. Какая часть положений, использованных при выводе основного уравнения метода динамического программирования (разд. 4.2), теряет силу, если при t = имеется сопряженная точка. Почему нельзя в этом случае применить для решения задачи метод переходной матрицы разд. 5.3? х) В смысле значения принятого критерия качества.— Прим, перев.
Соседние экстремали и вторая вариация 229 Задача 3. Пример 3 данного раздела можно сформулировать как задачу минимизации критерия качества 7_j_ 7 г i+«2 -1V2 Vo J Ll + yw J dx о при условиях = и, У (0) = о, у (xf) = 0. Если у <^ h и и<^1, то этот критерий качества можно аппро- ксимировать следующим образом: Показать, что для такой аппроксимации сопряженной точкой является точка х = nh, у = 0. Задача 4. В условиях примера 2 разд. 6.3 показать, что крат- чайшие пути (большие круги), проходящие через точку д=ф = О, описываются однопараметрическим семейством вида tg 9 = tg 9m sin <Ь, где 9m — максимальное значение 9 на большом круге. Задача 5. Найти минимальные по времени траектории, про- ходящие в среде, где величина скорости движения определяется зависимостью V (х, у) = 1 + х2 + у2. Начальная точка х = 1, у = 0. В частности, требуется показать, что точка х — —1, у .= 0 является сопряженной по отношению к точке х = 1, у = 0. (Указание. Следует использовать полярные, координаты х = — г cos 9, у = г sin 9.] Задача 6. Продольный изгиб балки. При отклонении от состоя- ния равновесия под действием нагрузки балка принимает такую форму, что интеграл i J = { [? u2 ~ Р (1 ~ C0S 0) ] ds о достигает минимума. Здесь dQ/ds = и — кривизна, Р — нагрузка на балку, Е — модуль упругости, I — момент инерции поперечного сечения бал-
230 Глава 6 ки относительно нейтральной оси, tg 0 — наклон нейтральной оси, I — длина балки, s — расстояние вдоль нейтральной оси балки. Как видно из фиг. 6.3.5, концы балки закреплены так, что 9 (0) = 9 (Z) = 0. Требуется определить форму прогиба балки, если известно, что EI и Р — постоянные величины, а длина I — возрастающий Фиг. 6.3.5. Схема и обозначения к за- даче об изгибе балки. параметр. Отметим, что если у — отклонение нейтральной оси от прямой линии (ненагруженного состояния), то -^-=sin9. ds Показать, в частности, что и = 9 = у = 0 является един- ственным решением до тех пор, пока I не достигнет определенной критической величины ZKp; при больших значениях Z (Z > ZKp) минимальному значению интеграла J соответствует 0^0. Задача 7. Пусть внутри сферы радиусом R величина скорости определяется зависимостью V = Vol ]/*2 —г2//?2. Показать, что плоская волна, движущаяся в свободном про- странстве со скоростью Уо, при падении на сферу преломляется Фиг. 6.3.6. Линза Люнеберга. и фокусируется в некоторой точке, расположенной на противо- положной стороне поверхности сферы (фиг. 6.3.6). Такая сфера называется линзой Люнеберга, она используется в оптике и радиолокации.
Соседние экстремали и вторая вариация 231 Задача 8. а) Показать, что задача Штурма — Лиувилля 4[г(<)4] + »(«)* = 0, *(0) = 0, ах (tf) + г (tf) х (tf) = О (все величины — скаляры) может быть интерпретирована как задача отыскания минимума интеграла вида J а [х (tf)]2 + J \r(t)u2-q (t) х2] dt, о где х = и, х (0) = 0. б) Для случая, когда г и q — положительные постоянные величины и а = О, показать, что, и = 0 — единственное решение, если tf < л/2 []Лr/q], и что существует бесчисленное множество решений, если tf = л/2 [J^r/ql (всем этим решениям соответ- ствует J = 0). Задача 9. Проверить выражение для б/ исходя непосред- ственно из уравнения (6.3.11). 6.4. Оптимальное управление с обратной связью для возмущенного движения при заданном времени окончания процесса Если состояние системы описывается тремя или более пере- менными, то объем вычислительной работы, а также объем памяти, необходимые для определения нелинейного оптимального закона । управления с обратной связью г) методами гл. 4, катастрофиче- ски возрастают из-за большого количества числового материала, с которым приходится иметь дело. Для практических целей приходится рассматривать управление с обратной связью для возмущенного движения, т. е. управление в окрестности номи- нальной траектории. Если номинальная траектория оптимальна, то использование коэффициентов усиления, определенных в разд. 6.2, приводит к соседним оптимальным траекториям. В разд. 6.1 показано, что этот тип управления совпадает с линейным законом управления с обратной связью (гл. 5). При этом весовыми коэффициентами !) Этот закон также называется явным законом управления, законом - управления по замкнутому контуру или решением, полученным методом дина- мического программирования.
232 Глава 6 в квадратичном критерии качества являются частные производ- ные второго порядка от гамильтониана исходной вариационной задачи [формула (6.1.16)], а линейными уравнениями объекта явля- ются линейные уравнения возмущенного движения относительно измененные Фиг. 6.4.1. Блок-схема системы оптимального управления с обратной свя- зью для возмущенного движения [управление по соседним оптимальным траекториям, би =—Л4 (t) бж— Л2 (t) бтр, см. (6.2.17)]. номинальной оптимальной траектории [уравнение (6.1.17)] х). На фиг. 6.4.1 представлена блок-схема системы оптимального управления для соседних траекторий, основанного на уравне- нии (6.2.17). Пример. Управление возмущенным движением для выведения ракеты на орбиту с максимальной горизонтальной скоростью в конце выведения. Считая, что гравитационные силы, действующие на единицу массы, постоянны, рассмотрим задачу оптимального программирования направления тяги для выведения ракеты- носителя на заданную высоту в заданное время с нулевой верти- кальной и максимальной горизонтальной скоростью. (Обозначе- ния см. на фиг. 6.4.2.) Эта задача оказывается «взаимной» по 1) Эта интерпретация в какой-то степени отвечает критике квадратичных критериев, отмечающей их произвольность и искусственность. [Эти квадра- тичные критерии не более искусственны, чем критерии типа (6.1.16).— Ред.}
Соседние экстремали и вторая вариация 233 отношению к задаче 13 разд. 2.7, где требовалось минимизировать время при заданной конечной горизонтальной скорости. Номи- нальное управление определяется из решения первых двух урав- нений указанной задачи относительно й0 и й/ в предположении, Фиг. 6.4.2. Схема выведения на орбиту. что конечное время Т известно и а — постоянная величина. Таким образом, получается следующая зависимость для й (t)z. tg Й = tg Йо-J-(tg йу —tg й0)-^-. Траектория описывается уравнениями р = азшй — g, р(0) = 0, y = v, у(0) — 0; критерий качества т J — а cos й dt. о Соседние экстремали описываются уравнениями (6.2.11) — (6.2.13)* с граничными условиями (6.2.3) — (6.2.5). В рассматриваемом случае имеем
234 Глава 6 Отсюда 7?ц — — Rzit T?12 = 7?22, Ли = 0, ^22 = О, Т?12(Г) = 0 । 7?21(Л = 0 Я22(Т) = 1 J Qu = — a cos3 fl', 212 = —а(Т — t) cos3 fl1, следовательно, 4 7?22 — Т — ti Я21 = 0, ч R%i = 1, 2u (T) = Q, <?12(Г) = 0, Qzt = —а(Т—£)2 cos3 fl, Далее, поскольку й = —V2cos2,fl ведливы соотношения ^2н = ^-cos A d'fl, dQ12 = (tg 'fl — Vi) cos fl dfl, dQ?2. = -~3 (tg fl — Vj)2 cos fl d'fl, V2 2гг (Л = 0- и (tgA— Vi)/v2 = T — t, то спра- 2n = -^-(sin fl —sin fly), _ a 1—cos (fl —fly) — vf cosfl} ’ n — — Г —sin fly . ^*22 v| L cos2 fly ' 11 tgfl + secfl -1 . ' tgfly+sec fly J ’ Q^ = 2г2, — 212 212, 211 D RQ~r = где 77 = 211222 — 212, 2гг, —21гП — 212, 211J__ D .0, 1 -222-(Г-0212, (T-t)Qu-Qi2' — 212, 211 1 D • Итак, получаем следующее выражение для оптимального закона управления (с обратной связью) по соседним траекториям: 6fl = ^[222-(r-0<?12, (r-/)2n-2dx ’ бру — бп х [(Г-t)8v + 8y]_ • На фиг. 6.4.3 изображена траектория, максимизирующая гори- зонтальную скорость в конце выведения при следующих числовых значениях параметров: alg = 3 и 2h!aT2 = 0,258; на фиг. 6.4.4
Соседние экстремали и вторая вариация 235 показаны коэффициенты усиления в цепи обратной связи для оптимального закона управления, соответствующие соседней траектории при 6р/ = бу/ = 0. Для реализации такого управле- Ф и г. 6.4.3. Траектория выведения на орбиту с максимальной горизонталь- ной скоростью в конце полета при а/g = 3, 2h!aT2 = 0,258. ния необходимы также зависимости v* (f), у* (t), й* (t) для номи- нальной траектории. Фиг. 6.4.4. Изменение во време- ни коэффициентов усиления об- ратной связи при a/g=3, 2h/aT‘i= = 0,258.
236 Глава 6 Задача. Минимизация интеграла от квадрата управления (конечное время задано). Номинальная траектория удовлетворяет условиям на конце -ф [я (fy)] = 0 в заданный конечный момент времени tf. Найти закон управления для возмущенного движения, при котором удовлетворяются измененные на малую величину условия на правом конце -ф [х (fy)] = dip и минимизируется кри- терий £ = 4 J (8и)ТВ8и dt, t где В (f) — положительно определенная матрица. Ответ. 8и (f) = -B-'fiBQ-1 (dip - RT8x), где R=-f%R, R (tf)= Q = RTfuB~^R, Q(tf) = O. 6.5. Соседние экстремальные траектории при незаданном времени окончания процесса В задачах оптимизации время окончания процесса tf чаще определяется неявно из терминальных ограничений, как в разд. 2.7. Методы, изложенные в разд. 6.1—6.4, необходимо распространить на зтот случай. Номинальное оптимальное реше- ние должно удовлетворять дополнительному необходимому усло- вию (2.7.23) Й(х, u,v, t)\^tf^(^- + L)t=tf = O, ' (6.5.1) где Ф = Ф(Х, t) + v ty(x, t), — = —+ — Скалярное уравнение (6.5.1) определяет дополнительную неиз- вестную величину tf. Линеаризация необходимых условий (6.1.5), (6.1.6) и (6.5.1) должна учитывать наличие вариации (возмущения) dtf во времени окончания процесса tf. a1*'],.,,' <6-5-3> Г-Р d^ + dvT-§ + ^- dtf] =(Р). (6.5.4) L дх ‘ dt 1 dt J v ' x) Заметим, что (dfi/du) = (дШди) = 0.
Соседние экстремали и вторая вариация 237 Далее, для вычислений потребуются величины 6А (tf) и 8х [а не d7. (tf) и dx]; поэтому подставим выражения dh (tf) = бА (tf) A. (tf) dtf, (6.5.5) dx (tf) = 8x (tf) + x (tf) dtf (6.5.6) в (6.5.2), в результате получим ад- (5)ГМ4 (^)г-4dl>- С помощью (6.1.2) и (6.1.5) можно установить, что <6-5-8) dt \ дх / к дх / ' ' Наконец, подстановка (6.5.8) в (6.5.7) и (6.5.6) в (6.5.3) и (6.5.4) дает следующее матричное уравнение: 8%(tf) -д*Ф дх% ’ / dip \ Т \ дх ) ’ f dQ\T \ d*J 8x(tf) (6.5.9) dip == dip дх ’ 0 dip dt dv , (6.5.10) 0 dQ - дх ’ / dip \ Т \ dt ) ’ dQ dt t=tf dtf (6.5.11) где dQ ___ dQ . dQ , dip ___ dip dip dt dt dx I’ dt dt ‘ dx Уравнения (6.1.10) — (6.1.13) и (6.5.9) — (6.5.11) описывают линейную двухточечную краевую задачу для соседних экстре- малей при малых изменениях начальных условий 8х (t0) и/или малых изменениях терминальных условий dtp. Эти изменения [6z (t0), dip] вызовут, вообще говоря, малые приращения 8x(tf), dv и dtf. Такая задача в принципе может быть решена методом линейной суперпозиции (разд. 5.3). Однако применение обобщен- ного метода прогонки, рассмотренного в следующем разделе, обес- печивает большую устойчивость при численном решении. Возможен и другой вывод граничных условий (6.5.9) — (6.5.11), основанный на рассмотрении соответствующего разложе- ния расширенного критерия качества [аналогично' тому, как зто описано в разд. 6.1 после уравнения (6.1.15) для случая фикси- рованного конечного времени tf] [6.3]. Значительного улучшения эффективности управления возму- щенным движением можно достигнуть, если коэффициенты усиле- ния обратной связи считать зависящими от времени, оставшегося .до окончания процесса, а не от текущего момента времени. При .этом требуется, чтобы оценка времени, оставшегося до окончания
238 Глава 6 процесса, производилась на протяжении всего процесса работы системы. Такая непрерывная оценка может быть осуществлена с помощью уравнения (6.6.15) следующего раздела. Дальнейшее обсуждение этих вопросов и численные примеры можно найти в работе [6.17*]. 6.6. Определение соседних экстремальных траектории методом обратном прогонки при не заданном времени окончания процесса Обобщение изложенного в разд. 6.2 метода прогонки на случай незаданного времени окончания процесса начнем с замечания о симметричности матрицы коэффициентов уравнений (6.5.9) — (6.5.11), относящихся к моменту tf. Эта симметричность делает разумным предположение о следующей форме указанных уравне- ний для произвольного момента t: ~6Х (Г) (6.6.1) (6.6.2) (6.6.3) Продифференцируем (6.6.1) — (6.6.3) по времени, считая, что с/ф, dv и dtf — постоянные величины, a dQ = O. Тогда (6.6.4) (6.6.5) (6.6.6) Линеаризованные уравнения (6.1.21) — (6.1.25) остаются спра- ведливыми и в данном случае, поэтому можно подставить выраже- ния для 8х и 6Х из (6.1.21) и (6.1.22) в (6.6.4) — (6.6.6), используя при этом (6.6.1) для исключения 6Х. В результате получим ГО ’ О = О S + SA + ATS — SBS + C, R + (AT — SB)R, m+(AT-SB)m RT + RT (A- BS), Q — RTBR, n-RTBm тт-}-тт(А — В8), nT — mTBR, a,"mTBm ~8x (t) ~ dv _dtf (6.6.7)
Соседние вкстремали и вторая вариация 2391 Если матричное уравнение (6.6.7) должно быть тождеством [т. е. если оно должно быть справедливым для любых 8х (t), dv, dtf] и если уравнения (6.5.9) — (6.5.11) выполняются в точ- ке t = tf, то должны удовлетворяться следующие соотношения: S=-SA-ATS + SBS-C, S(tf)=(^)t=4, (6.6.8) R——(AT—SB)R, R(tf)=(^)Tt=tf, (6.6.9) Q = RTBR, Q(tf) — O, (6.6.10) m=-(Ar-SB)m, Tn(tf)=(^)^tf, (6.6.11) n = RTBm, ^/)=(4r)t=</» (6-6.12) a = mTBm, a(tf)=^-^-^ (6.6.13) Уравнение (6.6.8) является матричным уравнением Риккати, уравнения (6.6.9) и (6.6.11) — линейными матричными уравне- ниями, а (6.6.10), (6.6.12) и (6.6.13) — просто квадратурами. Заметим, что уравнения (6.6.8) — (6.6.10) идентичны уравне- ниям (6.2.11) — (6.2.13). Если эти уравнения интегрировать от tf к /0, то следует исполь- зовать уравнения (6.6.2) и (6.6.3) при t0 для определения dv и dtf через 8х (t0) и dip: dv = [ё-i (dip- RT8x)]t=to, (6.6.14) dt>-+ (6.6.15) здесь Q = Q-^, (6.6.16) R = R-!^. (6.6.17) Теперь можно определить 6X(£0) из уравнения (6.6.1) [с уче- том (6.6.14) и (6.6.15)]: ^(^[(S-l^R^te + RQ-1 dip]t=t0; (6.6.18) здесь S = S — (6.6.19)
240 Глава 6 Зная начальные значения Sx (t0) и 6А. (t0), можно проинтегри- ровать один раз линеаризованные уравнения (6.1.21), (6.1.22) в прямом времени для определения соседнего оптимального решения. Если то с помощью (6.5.11) можно выразить dtf через &c(fy) и dvl di>-{(fГ[-“-£«*-(т)'*]},.,,- <б-6-20> Подставив теперь этот результат в (6.5.9), (6.5.10), получим 6Х(^) dip - Э2Ф / dQ\T dQ дх% \ дх ) \ dt ) дх ’ dip dip / dQ X”1 dQ _ dx dt \ dt J dx ' Теперь возможна простая обратная прогонка W)l[ Я(01ГМ)' dip _ |_/?г(£), Q(t) - dv (6.6.21) (6.6.22) (6.6.23) (6.6.24) Легко проверить, что S, R, Q удовлетворяют тем же дифферен- циальным уравнениям, что и S, R, Q, а. именно уравнени- ям (6.6.8) — (6.6.10), но имеют иные терминальные граничные условия. Эти граничные условия могут быть найдены с помощью матрицы, входящей в уравнения (6.6.21) и (6.6.22). 6.7. Достаточные условия локального минимума при незаданном времени окончания процесса Существование соседних оптимальных (в смысле минимума критерия качества) траекторий при незаданном времени оконча- ния процесса зависит от выполнения трех условий, аналогичных указанным в раэд. 6.3 для задач с фиксированным временем окончания процесса: Яии (Z) 0 для tQ t tf. (6.7.1) Q {t) <0, a (t) >0 для t0 t < tf, (6.7.2) Матрица S (t) — R (t) [(? (£)]-12?r (t) ограничена при t0 < t < tf. (6.7.3)
Соседние экстремали и вторая вариация 241 Входящие в эти условия величины Q, R, S определяются соот- ношениями (6.6.16), (6.6.17), (6.6.19). Условия (6.7.1) — (6.7.3), как и в разд. 6.3, носят следующие названия: (6.7.1) — условие выпуклости, (6.7.2) — условие нормальности, (6.7.3) — условие отсутствия сопряженных точек. Достаточным условием слабого х) локального минимума функ- ционала J является выполнение необходимых условий первого порядка (6.1.1) — (6.1.6), (6.5.1) и условий второго порядка (6.7.1) — (6.7.3). Необходимыми условиями второго порядка для минимума являются ослабленные условия (6.7.1) и (6.7.3): нии (Г) >0, to < t < tf, (6.1 А) * 2) Матрица 5 — RQ~XRT ограничена при t0<.t <itf, (6.7.5) Q (t) <0, a (t) < 0- (6.7.6) 6.8. Оптимальное управление с обратной связью для возмущенного движения при незаданном времени окончания процесса Если подставить выражение для 6Х (t0) из (6.6.18) в (6.1.20), то получится закон управления с обратной связью для соседней оптимальной траектории 8u(f) = ~H^{[Hux + f^(S-RQ^RT)]6x+f^RQ^d^}, (6.8,1) причем это выражение совпадает с (6.2.17). Часто оказывается желательным предсказать дополнительно изменение времени окон- чания процесса. Такое предсказание можно осуществить с помощью соотношения (6.6.15) (6.8.2) \ 1Л> (Л> / (л> Если задача не зависит от времени t явным образом3 * * *), то важна лишь величина tf — t, т. е. время, оставшееся до окончания процесса. Поэтому при реализации закона управления (6.8.1) коэффициенты усиления обратной связи целесообразно представлять в виде зависимостей от tf — t, а не от t. При незаданном времени оконча- ния процесса, однако, требуется непрерывная текущая коррекция х) То есть справедливого при малых вариациях &х, &и, &tf.~ Прим, перее. 7 2) См. замечание к уравнению (6.3.12). 3) То есть правые части системы уравнений (6.1.1) и функция L в крите- рии качества (6.1.7) от времени явно не зависят. В этом случае в силу автоном- ности системы управление и (!) допускает сдвиг по времени [2.16, стр. 21].— Прим, перее. 16—0102
242 Глава 6 величины tf. Эта коррекция в первом приближении может быть осуществлена с помощью (6.8.2), при этом в большинстве случаев она будет, видимо, достаточной для изменения времени, при котором вычисляются коэффициенты усиления в (6.8.1). Исполь- зование коррекции tj устраняет трудности, связанные с выходом из временного интервала определения коэффициентов, усиления, в тех случаях, когда действительное время tf на возмущенной траектории превосходит номинальное значение tf. Пример. Управление возмущенным движением центра масс летательного аппарата (ЛА) при входе в атмосферу г). На фиг. 6.8.1 показан пример задачи управления возмущен- ным движением. Задача заключается в разработке структуры Фиг. 6.8.1. Управление планирующим космическим аппаратом для пере- хода в горизонтальный полет на заданной высоте с использованием оптималь- ной системы управления возмущенным движением. а = %ом — С, (У — Уном) — С2 (О — еном) — С3 (Л — Лном); запоминается по 7 чисел для 24 моментов времени (через 10 сек), ~1700 бит *); номинальное время полета Т = 240 сек. I) Расчет количества бит запоминаемой информации произведен, видимо, исходя из десятиразрядной ячейки ЦВМ (в такую ячейку можно записывать трехзначные десятичные числа). — Прим, перев. закона управления движением центра масс планирующего лета- тельного аппарата, совершающего вход в атмосферу. Необходимо перевести планирующий аппарат в режим горизонтального полета (0к = 0), при котором заданная высота (~76 км в данном примере) достигается при минимальных потерях энергии на аэродинамиче- ское сопротивление (т. е. при максимальной конечной скорости). Для решения задачи прежде всего была вычислена оптимальная номинальная траектория, соответствующая номинальным усло- виям входа (Vo « Ю 980 м!сек, 0О = —7,5°, h0 ~ 122 км)-, значе- ния параметров этой номинальной траектории (VH0M (t), 0НОМ (t), AII0M (t)) вместе с соответствующими значениями номинального управления аном (t) запоминались через каждые 10 сек (при общем 2) Расчеты для этого примера провел Д. Спейер, они основаны на резуль- татах, приведенных в [6.2].
Соседние экстремали и вторая вариация 243 времени полета 240 сек). Далее вычислялись и запоминались коэф- фициенты усиления Ci (t), Сг (t), С3 (t) оптимального закона управления с обратной связью для возмущенного движения. Затем с помощью моделирования на ЦВМ было проверено, как Фиг. 6.8.2. Оптимальный режим спуска при возмущениях угла входа в атмосферу. Критерий качества: минимальная потеря энергии (т. е. максимальная конечная скорость). Конечные условия: высота Лк = 76 км, угол наклона траектории 0К ~ 0°. Фиг. 6.8.3. Оптимальный режим спуска при возмущениях в скорости входа в атмосферу. Критерий качества: минимальная потеря энергии (т. е. максимальная конечная скорость), конечные условия: высота hR = 76 км, угол наклона траектории 0К = 0°. 16»
244 Глава 6 ведет себя схема управления при наличии отклонений в началь- ных условиях. На фиг. 6.8.2 и 6.8.3 изображены графики зависи- мости скорости от высоты полета для траекторий, соответствующих управлению по замкнутому контуру, при отклонениях начального значения угла входа ±0,6° и начальной скорости ±300 м/сек. Полученная схема управления оказалась приемлемой и фак- тически очень близкой к управлению ЛА вдоль соответствующей соседней оптимальной траектории. Задача 1. Минимальная нагрузка на управление {время окон- чания процесса не задано). Пусть управлению и {t) соответствует номинальная траектория x{t), удовлетворяющая условиям на конце ф [х {tf), tf] = 0 в номинальный конечный момент времени tf. Требуется определить закон управления возмущенным движе- нием, при котором удовлетворяются несколько измененные конеч- ные условия вида ф [х {tf), tf] = <7ф (<7ф мало) при минимальной нагрузке на управление возмущенным движением. Таким обра- зом, требуется минимизировать критерий качества, представ- ляющий собой оценку затрат энергии на управление if E = Y ( {8u)TB8udt, "t где В {t) — положительно определенная матрица. Ответ. 8и {t) = - B^flB Q-1 [йф - RT8x] -B-^fu 8х, где R=-flR, Q = RrfuB-ifiR, <2(^ = 0; т= —flm, x I dQ\ n = RTfuB~1flm, а = тТfuB'1 f и т, И Q = R:-R_ at T T mn nn a ’ v v a Задача 2. Управление возмущенным движением в случае мини- мального по времени выведения на орбиту. Найти закон оптималь- ного по быстродействию управления с обратной связью для соседних траекторий в задаче выведения на орбиту (см. задачу 13 разд. 2.7). [Указание. Воспользуйтесь примером, рассмотренным в разд. 6.4.]
Соседние экстремали и вторая вариация•245 6.9. Достаточные условия сильного ~ локального минимумат) До сих пор рассматривался следующий вид вариации критерия качества: Ч 6J= j Hu8udt + O(\\8u\\\ ||6ж||2), (6.9.1) to причем в этом выражении вариация управления 8и является «слабой» вариацией, т. е. такой достаточно малой величиной, что членами || 8х ||2, || 8и ||2 более высокого порядка по сравнению с 8и можно пренебречь. Однако в тех случаях, когда рассматри- ваются произвольные по величине вариации управления и (t), но приводящие к пренебрежимо малым значениям || 8х ||2, такой вид вариации 8J может оказаться неверным. Вариации управ- ления, при которых можно пренебречь величиной || 8х ||2 (но не || 8и ||2), называются «сильными»2) вариациями. Целесообразно получить точную формулу для 8J, непосред- ственно сравнивая два значения функционала на управлениях и1 (t) и и0 (t). Введем следующие обозначения: J1 (х, t) — значение критерия качества в том случае, когда систе- ма начинает движение из состояния х в момент вре- мени t при произвольном управлении и\ (х, t); J° (х, t) — значение критерия качества в том случае, когда систе- ма начинает движение из состояния х в момент вре- мени t при управлении и° (х, t), которое является оптимальным. Будем предполагать, что оба рассматриваемых управления, и1 и и°, являются допустимыми. Метод динамического програм- мирования 3) [4.2] 4) позволяет получить дифференциальные урав- нения в частных производных для величин J1 и 7°: Jt + J^cf (%, и1, t) + L (х, и1, t) = 0, 71 [х (tf) tf] — ф [х (tf), if], (6.9.2) 7? + Jxf (х, и0, t) -f-L (х, и0, t) = 0, 7° [х (tf) tf] = ф[х (tf), tf]. __________ (6.9.3) х) Речь идет о локальном минимуме, достигаемом во внутренней точке области определения вариационной задачи.— Прим. ред. ) Более точно, сильная вариация ограничивает только величину дх, тогда как слабая вариация ограничивает как дх, так и производную от дх (т. е. дх). 3) Существование решений уравнений (6.9.2) и (6.9.3) равносильно пред- положению о существовании поля экстремалей для рассматриваемой задачи оптимизации, а также предположению об отсутствии сопряженных точек на интервале (t0, у (см. также задачу 2 разд. 6.3). ж ПРИВОДИМЫИ ниже вариант вывода достаточных условий справедлив, если функции J1 (х, t) и J° (х, t) обладают непрерывными частными производ- ными по х и t.~ Прим, перев. Г «
246 Глава 6 В уравнениях (6.9.2), (6.9.3) для удобства предполагается, что выражение для ф [ж (tf), tf] включает функцию штрафа, с помощью которой учитывается, если это необходимо, наличие терминаль- ных ограничений вида ф ]х (tf), fy] = 0. Положим 8J = J1 — и вычтем выражение (6.9.3) из (6.9.2): Л-Л + ЛУ^ЛУ^Я-Я^О. После прибавления к обеим частям этого равенства величины J°xf1 — Af1 = о получим J} - J°t + (Л— Л) У1 + Л (У1 - У0) + (Л - £°) = о, или !/>)] = — 8Н(х, л, и1, и°, t), (6.9.4) где У1 = У(я;/ u1, t), f — f(x, и°, t), а производная по времени (d/dt) бJ вычисляется на траектории Л (t), соответствующей управ- лению и1 (t). Интегрируя обе части равенства (6.9.4) и учитывая, что 8J [х (tf), tf] = 0, получим г) 8J (х, t)= 8Н (х, Jx, и1, и°, t)dt. (6.9.5) траект xi (О Таким образом, неявно выраженное уравнениями (6.9.2), (6.9.3) достаточное условие сильного локального минимума (в допол- нение к другим условиям) состоит в том, что 8Н = Н (х, Jx, и1, t) — Н (х, J°x, и°, £)>0 для всех t и u1=/=u0. (6.9.6) Это так называемое усиленное условие Вейерштрасса-, оно требует, чтобы управление и° минимизировало гамильтониан на оптималь- ной траектории. Кроме того, используя теорему о среднем значе- нии, можно получить 6Я == (ЛУи» + Л») (и1 - и0) +11| и1 - и° |6, (6.9.7) где Нии вычисляется в некоторой точке 0, и° < 0 < и1. Поскольку Ни = Jxfuo + Luo = 0 на оптимальной траектории, то можно заменить условие (6.9.6) следующим2): Яии >0 для всех х, и в окрестности х°, и°. (6.9.8) Другими словами, усиленное условие выпуклости (условие х) Идея приводимого здесь доказательства принадлежит Р. Калману. 2) Из условий (6.9.6) и (6.9.7) следует, что &Н = | || иХ — и° || нии । 0 > 0. Положительная определенность квадратичной формы || и1 — и° Пгт эквива- пии лептпа положительной определенности матрицы Нии.— Прим, перев.
Соседние экстремали и вторая вариация ' 247 Лежандра — Клебша) должно выполняться не только на опти- мальной траектории, но и в окрестности оптимальной траектории. Кроме того, оказывается, что если в условии (6.9.6) или (6.9.8) заменить знак строгого неравенства на знак <С^», то получится необходимое условие оптимальности управления н° (t) (это уже было показано в гл. 4 с помощью метода динамического про- граммирования). Таким образом, имеются следующие условия оптимальности для вариационной задачи управления [в предположении, что задача нормальна; см. разд. 6.3, формула (6.3.2)]. Необходимое условие I. Уравнения Эйлера — Лагранжа V = -Нх, Ни = О и соответствующие условия трансверсальности. Необходимое условие II. Условие Лежандра — Клебша Нии > 0 при t0 < t < tf. Необходимое условие III. Условие Вейерштрасса 6Н (ж, Jx, и1, и°, t) 0 для всех t и и1 =/= и° на t0 t tf. Необходимое условие IV *). Отсутствие сопряженных точек на полуинтервале {t0, fy]. Условия I, II, IV являются необходимыми условиями слабого локального (относительного) минимума функционала, а усло- вия I, III, IV — необходимыми условиями сильного локального (относительного) минимума функционала. Если усилить усло- вия II, III путем введения знака строгого неравенства «>» (вместо знака «^>») и усилить условие IV путем замыкания полуинтер- вала {to, tf] (другими словами, если потребовать отсутствия сопря- женных точек на отрезке к0, fy]), то усиленные условия I, II, IV будут достаточными условиями слабого локального минимума, а усиленные условия I, III, IV — достаточными условиями сильного локального минимума 2). Пример. Задача со слабым, но не сильным минимумом [4.3]. Задано 1 х = и, х (0) = 0, ж(1) = 1, /[w(£)]=J и3 dt. о Найти и {t), минимизирующую J [ы (£)]. Применение необходимых условий первого порядка дает Н = Хи + и3, X = 0, X (1) = v = X (t), Ни = X + Зы2 = v + Зы2 = 0, и = У—v/3 = const. х) Условие Якоби.— Прим, перев. 2) Формулировка достаточных условий при переводе несколько уточне- на.— Прим, перев.
248 Глава 6 Очевидно, прямая линия х = t (при v = —3, и = 1) является экстремалью. На ней J = 1. Кроме того, Нии |и=1 >0 и усло- вие отсутствия сопряженных точек, как легко показать, тоже имеется слабый локальный выполняется. Таким образом, Фиг. 6.9.1. Задача со слабым, но не сильным минимумом. А) кривая сравнения, имеющая силь- ную вариацию б х (t); Б) х (/) = t — слабая экстремаль. минимум. Но, с другой стороны, на оптимальной траектории 8Н = Н (и) — Н (1) = и3 — Зи + 2 = и3 — 1 — 3 (и — 1) = = (и — I)2 (и + 2); величина 8Н отрицательна при и < —2, т. е. на этой траектории гамильтониан не достигает абсолютного минимума. Необходимое условие Вейерштрасса нарушается. На фиг. 6.9.1 изображена ломаная линия, на которой значение критерия качества J меньше единицы, но эта линия имеет раз- рывную производную х (т. е. является сильной вариацией). Этот пример демонстрирует также необходимость условия Вейерштрасса. В разд. 3.9 (стр. 136) приведен другой пример, иллюстрирующий необходимость рассмотрения минимума Н вме- сто проверки условия Нии >0. 6.1(f. Дискретный многошаговый вариант метода обратной прогонки1) В этом разделе изложен метод обратной прогонки для опре- деления соседних зкстремальных решений в дискретных много- шаговых задачах оптимизации (типа тех, которые рассмотрены в разд. 2.6). Предположим, что имеется номинальное решение, которое удовлетворяет всем необходимым условиям первого порядка (2.6.2), (2.6.3), (2.6.9), (2.6.10) и (2.6.12) (см. разд. 2.6), и пусть эти условия линеаризованы относительно номинального решения dx (i 4- 1) = fx dx (i) + /u du (i), i = 0, ..., N — 1, (6.10.1) dx (0) задано, (6.10.2) x) Материал этого раздела основан на докторской диссертации С. Мак- рейнольдса (Ph. D. Thesis of S. R. McReynolds, Harvard Univ., 1966).
Соседние экстремали и вторая вариация 249 йф (N) = фх dx (N) задано, (6.10.3) dk (0 = HXX dx (i) + {fx)Td'k (i ф-1) -[Н'а du(i), i = 0, ..., N— 1, (6.10.4) d'k (N) = Фхх dx (N) + фх dv, (6.10.5) Якйп(0 + Якйж(0-|-(/кТйХ(г-)-1) = О, i = 0, ..., N — 1, (6.10.6) ^=^7о’ Hxu = дХ (о ди (о и т- д- Уравнения (6.10.1) — (6.10.6) описывают линейную двухточеч- ную краевую задачу относительно dx (0, йХ (0, du (г) и dv, посколь- ку коэффициенты этих уравнений вычислены на номинальном решении. В принципе такую задачу можно решить с помощью дискретного варианта метода переходной матрицы (разд. 5.2), однако при его использовании могут возникнуть серьезные вычис- лительные затруднения, если система является диссипативной. При использовании дискретного варианта метода обратной прогонки (рассмотренного в разд. 6.2) получается последователь- ность соотношений, эквивалентных соотношениям (6.10.3), (6.10.5): ЙХ (0 = S (i) dx (0 + R (1) dv, (6.10.7) йф = RT (0 dx (0 + Q (0 dv. (6.10.8) Предполагая, что входящие в эти равенства величины известны для i = k + 1, можно с помощью формул (6.10.1) — (6.10.6) получить соответствующие соотношения для i = к. Алгоритм метода состоит из следующих этапов (шагов): Шаг (а). Выражение (6.10.1) при i = к подставляют в соот- ношения (6.10.7) и (6.10.8), в которых I = к + 1: ЙХ (к-\-1) = 5 (& +1) I/» dx (к) + fhu du (Z0] + R (k-\-1) dv, (6.10.9) йф = RT (k 4-1) [fx dx (k) 0- fu du (к)] Ц- Q (к Ц-1) dv. (6.10.10) Шаг (б). В соотношении (6.10.9) полагают k = i и подстав- ляют йХ(г-|-1) в (6.10.4) и (6.10.6): ЙХ (0 = \Hlxx + (fyTS (i +1) /1] dx (0 + + [Як + {fx)TS (t +1) fu] du (0 + (Л)г R (i +1) dv, (6.10.11) [Як + {fyTS (i +1) /'] du (i) + [Як + (fu)TS (i +1) /1] dx (0 + + (Л)ГЯ(£ +1)^=0. (6.10.12)
250 Глава 6 Шаг (в). Считая, что матрица, являющаяся коэффициентом при du (1} в (6.10.12), невырождена, разрешают последнее урав- нение относительно du (Z): du (i) = — [Zuu (Z)]-1 [Zux (i) dx (i) + Zuv (i) dv], (6.10.13) где 2uu(i) = ^L + (A)r5(i + l)/i, (6.10.14) Zux(i) = Hiux+(fyTS(i + l)fix=[Zxu(i)]T, (6.10.15) Zuv (0 = (fyTR (i +1) = [Zvu (i)]T. (6.10.16) Шаг (г). С помошью уравнения (6.10.13) исключают du(i) из (6.10.10) и (6.10.11): dA. (Z) = {Zxx (Z) — Zxu (Z) [Zuu (Z)] 1 Zux (Z)} dx (Z) -|- + {Zxv (i)-Zxu (i)[Zuu (i)]-i Zuv (Z)} dv, (6.10.17) dip = {Zvx (Z) - Zvu (Z) [Zuu (Z)p Zux (Z)} dx (Z) + + {Q (i +1) -Zvu (i) [Zuu (г)Г Zuv (Z)} dv; (6.10.18) 2хх(0 = Яи+(Л)Г5(г + 1)А, (6.10.19) Zxv (Z) = (fyTR (i+1) = [Zvx (6.10.20) Шаг (д). Для того чтобы соотношения (6.10.17) и (6.10.18) были эквивалентны соотношениям (6.10.7) и (6.10.8) при про- извольных значениях dx (Z) и dv, должны быть справедливы сле- дующие равенства: S (Z) = (fx)TS (i -|-1) fx ~\-Нхх—[Hux-]-(ju) S(i-\-l)fx] X X [Hluu + (fyTS (Z +1) Ar1 [HI* + (fyTS (Z +1) /1], (6.10.21) R (0 {fx — fu [HuU + (/u) S (i -)-1) fu] 1 [Hux -)- + (/u)rS 0 +1) fx]}TR (i +1), (6.10.22) <2(Z) = <2(Z + 1)-[7?G + I)]r/U^L + + (/i)r5(Z + l)/ir1 (faTR(i+l). (6.10.23) Эти равенства являются дискретными аналогами соотношений (6.2.11) - (6.2.13). Равенства (6.10.21) — (6.10.23) могут рассматриваться как рекуррентные соотношения; величины S (Z), R (Z) и Q (Z) при этом вычисляются последовательно в порядке убывания индекса Z: от i = N — 1 к Z = 0. Граничные условия при Z = N опреде-
Соседние экстремали и вторая вариация 251 ляются из (6.10.3) и (6.10.5) S (N) = Фжх (N), (6.10.24) R (ЛЭ = {фх [ж (ЛЭН, (6.10.25) Q (N) = 0. (6.10.26) Улучшенные значения величин v и и (г) можно в этом случае получить добавлением приращений dv и du (i) к значениям, соот- ветствующим предыдущему номиналу, причем из (6.10.8) сле- дует, что dv = [<? (О)]-1 [йф - RT (0) dx (0)], (6.10.27) a du (i) определяется из (6.10.13) с учетом (6.10.27). По этим улучшенным значениям v и и (i) можно получить новое номи- нальное решение, которое будет лучше удовлетворять граничным условиям для ж (0) и ф (ЛЭЬ Улучшенные значения v и и (i) можно было бы находить на каждом шаге, так же как при построении дискретного закона управления с обратной связью в разд. 6.2: dv = [(? (i)]-1 [йф - RT (г) dx (г)], (6.10.28) du (г) = — [Zuu] 1 (/u) [<? (i +1) f x — - R (i +1) Q-1 (i) RT (01} dx (i) + (fu)TR (i +1) <2-1 (г) йф]. (6.10.29) Уравнение (6.10.29) представляет собой оптимальный закон управления с обратной связью для соседних траекторий в случае дискретных многошаговых задач. Этот закон обеспечивает требуе- мые изменения в терминальных условиях на величину йф по известным текущим отклонениям dx (i) от номинальной опти- мальной траектории и одновременно минимизирует критерий качества J. Задача. Для случая, когда матрица S (i) невырождена, пока- зать (используя лемму об обращении матрицы; см. разд. 1.3, задача 4 и разд. 12.2, задача 2), что рекуррентные соотноше- ния (6.10.21) — (6.10.23) могут быть представлены в виде S (г) = АТ (г) {[5 (г + 1)Н + В (О}"1 A (t) + С (г), R (0 = АТ (г) [Е + 5 (i + 1) В (ОН Я (г + 1), <2 (0 = <2 (г + 1) - RT (i + 1) В (0 X X [Е + S (i + 1) В (ОН R (I + 1); здесь а (0 = Л- A в (о = Л (HtuT1 (fyT, (См. также задачу 1 в разд. 2.2, где рассматривается случай отсутствия терминальных ограничений.)
252 Глава 6 6.11. Достаточные условия локального минимума для дискретных, многошаговых систем Как было показано в предыдущем разделе, существование соседней траектории, доставляющей минимум критерию качества, зависит от трех условий: Матрица Д- (fu)TS (i-J-1) fu > 0 (т. е. положительно определена), (6.11.1) Матрица Q (i) < 0 (т. е. отрицательно определена), (6.11.2) Матрица {5 (г + 1) fx — R (г + 1) Q-1 (г) RT (г)} ограничена при I = 0, . . ., N — 1. (6.11.3) Эти условия являются аналогами соответственно условий выпук- лости, нормальности и отсутствия сопряженных точек, которые были изложены в разд. 6.3 для систем с непрерывным временем. Следует, однако, отметить, что условие выпуклости (6.11.1) формулируется в данном случае более сложным образом, чем аналогичное условие для систем с непрерывным временем, для которых условие выпуклости сводится к требованию положитель- ной определенности матрицы Нии. Другими словами, для мини- мальности критерия качества в дискретных системах даже доволь- но слабое требование локальной минимизации функции Н уже не является необходимым. Дискретный принцип минимума (макси- мума), таким образом, несправедлив в общем случае х) (если не делать дополнительных предположений). Это объясняется тем, что в дискретных системах конечная величина шага по вре- мени препятствует выполнению варьирований с произвольной амплитудой, а именно такие варьирования необходимы для уста- новления минимальности Н. Кроме того, условия (6.11.3) являют- ся в определенном смысле излишними, поскольку для конечной матрицы Q выражения для S и R не могут стать неограниченными при конечном числе шагов. х) По поводу правильной формулировки дискретного принципа макси- мума см.: А. И. П р о п о й, Условия оптимальности для дискретных процес- сов, приложение к книге Фан Лянь-цэня и Вань Чу-сена «Дискретный прин- цип максимума», изд-во «Мир», 1967.— Прим, перев.
Глава 7 Численные методы решения задач оптимального программирования и управления 7.1. Введение За исключением тех случаев, когда система уравнений, кри- терий качества и ограничения являются весьма простыми, для решения задач оптимального программирования и управления необходимо использование численных методов. Однако объем вычислений, необходимых для решения даже сравнительно несложных задач, слишком велик, чтобы их можно было выпол- нить вручную. Именно поэтому вариационное исчисление мало использовалось до недавнего времени в технике и прикладных науках х). Появление в середине пятидесятых годов двадцатого века экономически выгодных быстродействующих вычислительных машин коренным образом изменило это положение. В настоящее время оказывается возможным решать весьма сложные задачи оптимального программирования и управления в течение допу- стимых отрезков времени и при допустимых затратах. Современные ЦВМ довольно быстро интегрируют задачи с начальными условиями, описываемые системами обыкновенных дифференциальных уравнений. Однако, как было уже показано, задачи оптимального программирования и управления являются по крайней мере двухточечными краевыми задачами, а в некоторых случаях даже многоточечными краевыми задачами (например, в тех случаях, когда заданы ограничения в промежуточных точках или ограничения в виде неравенств на фазовые координаты). Нахождение решений таких нелинейных двухточечных краевых задач является во многих случаях совсем не тривиальным обоб- щением методов решения задач с начальными условиями (одно- точечных краевых задач). Нелинейная двухточечная краевая задача, которая встре- чается в широком классе задач оптимального программирования, х) Вариационное исчисление начало интенсивно использоваться в теории управления после того, как стали известны принцип максимума Л. С. Пон- трягина и метод динамического программирования Р. Веллмана. Ранее вариа- ционное исчисление не находило достаточного применения потому, что до появления принципа максимума не было законченных и строгих постановок вариационных задач теории управления. Появление ЦВМ, а также запросы космической техники создали условия для использования вариационных методов при проектировании систем управления.— Прим. ред.
Глава 7 кратко подытожена в конце разд. 2.8. Эта задача состоит в нахож- дении - а) п фазовых переменных х (t) = [Xi (t), . . ., хп б) п функций влияния (сопряженных переменных) к (f) = = 1М*)> • • К № в) т управляющих переменных и (t) = [и1 (t), . . ., ит (£)], которые должны одновременно удовлетворять: 1) системе п дифференциальных уравнений объекта управ- ления (содержащей х и и)', 2) системе п дифференциальных уравнений для функций влия- ния (сопряженной системе, системе уравнений Эйлера — Лагран- жа), включающей к, х, ; 3) т условиям оптимальности (содержащим X, х, и)', 4) начальным и конечным условиям (включающим х и X). Все численные методы решения таких задач используют либо методы теории поля (или же динамическое программирование), либо итерационные процедуры. Методы теории поля применительно к двухточечным краевым задачам могут быть представлены как процесс построения множе- ства решений, удовлетворяющих заданным граничным условиям на одном конце при использовании незаданных граничных усло- вий в качестве параметров. Если выбран правильный диапазон параметров, то некоторые решения будут проходить (или почти проходить) через заданные граничные условия на другом конце. В настоящее время все предложенные итерационные процеду- ры используют последовательную линеаризацию. Сначала выби- рается номинальное решение, которое удовлетворяет одному, двум или трем из перечисленных выше условий 1—4 либо не удовлетворяет ни одному из них. Затем это номинальное решение модифицируется с помощью последовательной линеаризации так, что в конце концов удовлетворяются и остальные из четырех условий. Интересно, что только три из возможных пятнадцати подходов к построению вычислительных схем были интенсивно использованы до настоящего времени. Эти три подхода указаны в табл. 7.1.1 х). При использовании методов соседних экстре- малей или методов квазилинеаризации необходимо решать после- довательность линейных двухточечных краевых задач. Такие задачи могут быть решены: х) Относительно достоинств и недостатков этих методов применительно, к конкретным классам задач (несмотря на интенсивное их использование) в настоящий момент известно сравнительно немного. Среди немногочислен- ных работ, посвященных сравнительному анализу вычислительной эффек- тивности некоторых из методов, указанных в табл. 7.1.1, можно отметить серию статей Д. Льюоллена и Б. Тепли [7.15*, 7.23*, 7.27*].— Прим, перее.
Численные методы 255 а) путем нахождения переходной матрицы между незаданными граничными условиями на одном конце и заданными граничными условиями на другом; б) путем переноса («прогонки») граничных условий с одной конечной точки на другую конечную точку, основанного на использовании решения матричного уравнения Риккати (см. разд. 5.2, 5.3, 6.2, 6.6 и задачу 8 разд. 5.4). Для всех трех классов итерационных процедур возможно удо- влетворить терминальные ограничения либо путем использова- ния метода проекций градиента (линейных штрафных функций), либо с помощью нелинейных штрафных функций (обычно квадра- тичных) . Таблица Т.1.1 Итерационные процедуры 7 Номинальное решение удовлетворяет системе уравнений сопряженной системе уравнений условиям оптималь- ности граничным условиям Методы соседних экстре- малей Градиентные методы Методы квазилинеари- зации Да Да Нет Да Да Нет Да Нет Да Нет Нет Да или нет 7.2. Методы, использующие поле экстремалей. Динамическое программирование Один из методов решения задач оптимального программирова- ния состоит в систематическом варьировании незаданных (свобод- ных) начальных (или конечных) условий и вычислении соответ- ствующих оптимальных решений из начальной (или конечной) точки. Вычисления продолжаются до тех пор, пока часть фазо- вого пространства, находящаяся в окрестности противоположной точки, не будет достаточно густо покрыта оптимальными реше- ниями, после чего желаемое оптимальное решение может быть получено путем интерполяции. Очевидно, описанная процедура является одним из способов решения уравнения Гамильтона — Якоби — Веллмана (уравнения ГЯБ) в некоторой области фазо- вого пространства. Этот способ решения носит название метода характеристик х) и является полезным для формирования опти- J) См., например, Р. Курант, Д. Гильберт, Методы математиче- ской физики, т. 2,'гл. 2, ГТТИ, 1951 или Р. Курант, Дифференциальные Уравнения в частных производных, изд-во «Мир», 1968.— Прим, перее.
256 Глава 7 мального нелинейного закона управления с обратной связью в задачах оптимального терминального управления, если все оптимальные траектории вычисляются в обратном направлении, начиная с терминальной гиперповерхности. Сравнительно простые примеры нелинейных оптимальных законов управления с обрат- ной связью, решенные этим методом, представлены в разд. 4.1 и 4.3. Другая возможность заключается в непосредственном решении дифференциального уравнения ГЯБ в частных производных; при этом решение начинают с терминальной гиперповерхности. Эта процедура носит название «динамическое программирование», она рассмотрена в гл. 4. Для задач с числом фазовых координат свыше двух-трех этот метод обычно не может быть реализован даже с помощью современных больших ЦВМ. Запоминание одного только результата решения с тремя или более фазовыми переменными (которым является все вычисленное поле экстрема- лей) требует обычно практически недоступного объема памяти ЦВМ. 7.3. Алгоритмы, использующие соседние экстремали Введение В рассматриваемых методах используются итерационные алго- ритмы для последовательного улучшения первоначальных оценок незаданных начальных (или терминальных) условий до тех пор, пока не будут удовлетворены заданные терминальные (или началь- ные) условия. Основная трудность, связанная с этими методами, заклю- чается в выборе начального приближения, т. е. в нахождении такой первоначальной оценки незаданных условий на одном конце, которая приводила бы к решению, достаточно близкому к задан- ным условиям на противоположном конце. Причина указанной трудности состоит в том, что экстремальные решения часто оказы- ваются весьма чувствительными к небольшим изменениям неза- данных граничных условий. Эта чрезмерная чувствительность является прямым следствием природы уравнений Эйлера — Лагранжа, которые, как было показано в гл. 2, представляют собой уравнения для функций влияния. Действительно, уравне- ния Эйлера — Лагранжа являются дифференциальными урав- нениями, сопряженными линейной системе уравнений возму- щенного движения, причем линеаризация производится относи- тельно экстремальной траектории. Если фундаментальные реше- ния линейной системы уравнений возмущенного движения уменьшаются (по модулю) с возрастанием времени, то фунда-
Численные методы 257 ментальные решения сопряженной системы уравнений (уравне- ний Эйлера — Лагранжа) увеличиваются (по модулю) с возра- станием времени т). Таким образом, в процессе интегрирования (в любом направ- лении) решения ж (/) и X (t) дифференциальных уравнений имеют тенденцию становиться величинами, сильно различающимися по своим порядкам. Так как число значащих цифр, с которыми оперируют ЦВМ (безразлично, используют ли они арифметиче- ские операции с фиксированной или плавающей запятой), огра- ничено, то различие в степени роста решений х (t) и X (t) суще- ственно сказывается на потере точности 1 2 * *). Одно из проявлений этой трудности заключается в плохой обусловленности переход- ной матрицы при t > t0, возникающей из-за сильного различия значений величин ее элементов8). Поскольку процедура обра- щения переходной матрицы является необходимой частью числен- ного метода, то полученная в итоге точность решения оказывается недостаточной. Другой аспект этой же проблемы состоит в том, что небольшие ошибки при задании начальных значений функций влияния при t = t0 могут привести к огромным ошибкам в их конечных значениях (при t = tf). Это особенно заметно в сильно диссипативных системах, таких, как системы с трением или сопротивлением. Так как уравнения системы (объекта) и урав- нения Эйлера — Лагранжа взаимосвязаны, то не следует считать необычным, если интегрирование с плохо выбранными началь- ными условиями приведет к «диким» траекториям в фазовом пространстве. Такие траектории могут быть настолько «дикими», что значения х (t) и/или X (t) превзойдут диапазон чисел, с кото- рыми может оперировать ЦВМ! Ввиду указанной трудности с выбором начальных значений метод непосредственного интегрирования обычно практически при- 1) Фундаментальное решение X (t) системы х = A (t) х связано с фунда- ментальным решением Y (t) сопряженной системы ф = — А гф соотношением (t) X (t) = Е, справедливым для любого t (Е — единичная матрица). Нетрудно показать, что корни /., характеристического полинома системы dxldt = Ах [А — постоянная матрица, t0 t ty] и корни Дг характеристи- ческого полинома сопряженной системы dty/dt = —А гф связаны соотноше- нием Хг — —Л;. Отсюда, в частности, следует, что если исходная система устойчива (при выбранном направлении течения времени), то сопряженная система неустойчива (при том же направлении течения времени), н наоборот. Интересно также отметить, что если исходная система устойчива в прямом времени, то сопряженная система устойчива в обратном времени.— Прим, перев. 2) См. [6.9]. ®) При этом все большие величины выступают как равные, а все малые величины — как нули. 17—0102
258 Глава 7 годен для нахождения соседних экстремальных решений лишь после того, как одно экстремальное решение уже получено каким- либо другим методом (например, градиентным методом). Задачи, в которых некоторые из фазовых координат заданы в фиксированный терминальный момент времени Для пояснения основных идей метода рассмотрим сначала сравнительно простой класс задач, исследованных в разд. 2.4. Пусть надо найти управление и (i), минимизирующее tf + L[x(t), u(t), t]dtf (7.3.1) где x = / (x, и, t), (7.3.2) x (t0) = x0, x0 задано, (7.3.3) (tf) — xfi x{, . .., xfq заданы, (7.3.4) t0, tf заданы. (7.3.5) Необходимые условия первого порядка для экстремального реше- ния таковы: ' М</)=(|£)_„. / = г + 1. 9 + 2.....», (7.3.7) Р-3.8) Дифференциальные уравнения (7.3.2) и (7.3.6) должны быть решены при п начальных условиях (7.3.3) и п конечных усло- виях (7.3.4) и (7.3.7), при этом управление и (t) определяется из условия (7.3.8). В данном случае имеется п неизвестных (неза- данных) начальных условий Л, (t0) и п незаданных терминальных условий [A,! (tf), . . ., Xg (tf), xq+1(tf), . . ., xn (fy)J. Алгоритм переходной матрицы. Решение этого класса задач может быть проведено следующим образом: Шаг (а). Выбирают неизвестные начальные значения X (t0). (Другой метод состоит в выборе п неизвестных конечных значе- ний и очевидной модификации последующих шагов.)
Численные методы 259 Шаг (б). Интегрируют (7.3.2) и (7.3.6) от t = t0 до t = tf, используя (7.3.8) для определения и (/). Шаг (в). Запоминают х1 (tf), . . ., xq (tf), %g+1 (tf), . . . • • -1 (fy)- Шаг (г). Находят переходную матрицу [5ц (iy)/5% (^o)lo- Размерность этой переходной матрицы равна п >< п, а смысл ее ясен из следующего соотношения: ' ^l(tf) 6ц (tf) = 6zg (tf) 6Xg+i (tf) (if) M if \ . (if) . [Ниже приведены два конкретных метода вычисления переходной матрицы 5ц (t^ld'k (i0)-l Шаг (д). Выбирают 6ц (tf) так, чтобы следующее решение было ближе к желаемому значению ц (tf). Для этого, например, можно выбрать 6ц (tf) = — е [ц (tf) — цу[, 0 < е 1. Шаг (е). При выбранном значении ц (tf) [см. шаг. (д)1 обра- щают переходную матрицу шага (г) для получения 6% (t0)l Шаг (ж). Используя соотношение (^о)нов = (^о)стар + 6% (t0), повторяют шаги (б) — (ж) до тех пор, пока ц (tf) не станет равно заданному значению в пределах установленной точности. Отметим, что если изменения 6ц (tf) на шаге (д) выбраны слишком большими, то итерационная процедура может не схо- диться. Один из путей проверки «размера» шага 6ц (tf) состоит в. сравнении [ц (^)нов — И (^у)стар! с желаемым 6ц (tf): если они отличаются, скажем, более чем на 10—20%, то шаг (д) должен быть повторен с меньшим значением 6ц (tf). Методы вычисления переходной матрицы Переходная матрица на шаге (г) может быть образована двумя различными путями: 1) непосредственным численным дифферен- цированием; 2) путем определения единичных решений линейных дифференциальных уравнений возмущенного движения. 17*
260 Глава 7 Непосредственное численное дифференцирование требует п дополнительных операций интегрирования нелинейных систем (7.3.2) и (7.3.6) с использованием соотношения (7.3.8). При каж- дом таком интегрировании одна из компонент %г (г0) получает небольшое приращение 6%г (г0) относительно первоначального при- ближения, выбранного на шаге (а) [или уточненного на шаге (ж)]. Полученные в результате каждого интегрирования п величин (tf) запоминаются и делятся на (t0). -Таким образом нахо- дится переходная матрица [5|г (t^/d'k (f0)l. Трудность, связанная с таким подходом, заключается в следующем: если 6%г (£0) выбрано слишком малым, то ошибка округления при интегрировании нелинейных дифференциальных уравнений приводит к весьма неточному определению величины бц (tf); если же бЛг (t0) выбрано слишком большим, то нарушается предположение о линейности х). Определение единичных решений основано на п-кратном инте- грировании системы 2п линейных уравнений возмущенного движе- ния (6.1.21) и (6.1.22). При каждом таком интегрировании одна из компонент 6% (if0) принимается равной единице, а остальные — нулю; при этом всегда 8х (t0) = 0. Этот метод более точен, чем непосредственное численное дифференцирование, но требует дополнительного программирования уравнений возмущенного движения. Он может все же приводить к плохо обусловленной переходной матрице, если единичные решения сильно различают- ся по численным значениям; в этом случае обращение переходной матрицы, необходимое на шаге (е), будет весьма неточным * 2). Алгоритм обратной прогонки. Один из эффективных путей преодоления трудности, связанной с плохой обусловленностью переходной матрицы, состоит в использовании следующей моди- фикации метода обратной прогонки, изложенного в разд. 6.2: Шаг (а). Задают начальные приближения для значений q параметров vT = [%! (tf), . . ., kq (fy)] и (n — q) свободных (незаданных) терминальных фазовых переменных txq+1 (tf), . . . • • ч (£/)}• Шаг (б). Интегрируют (7.3.2) и (7.3.6) от tf до tq, исполь- зуя заданные на шаге (а) оценки vT (tf) и xq+i(tf), . . xn(tf), а также граничные условия (7.3.4) и (7.3.7). Управление и (t) находится при этом из (7.3.8). Шаг (в). Одновременно с выполнением шага (б) интегрируют уравнения (6.2.11) — (6.2.13) в обратном времени с граничными !) Это предположение необходимо при выполнении численного диффе- ренцирования по описанной простейшей схеме, основанной на разностной формуле первого порядка.— Прим, перев. 2) Относительно одного из путей обращения плохо обусловленной матри- цы см. задачу 5 разд. 5.2.
Численные методы 261 Rij (tf) — I условиями (6.2.3) — (6.2.5), которые в данном случае имеют вид 8 (tf) = Фхх li=if’ Q (tf) = О, 1, если i = j, г = 1, 2, ..., п; О, если i=/=7, / = 1, 2, ..., q. Шаг (г). Запоминают значения х (z0), Л. (Zo) и (5 — 7?T(2-17?)t=i0. Выбирают шаг (z0), на величину которого хотят приблизиться к заданному значению х (t0). После этого по формуле (6.2.15) находят 6% (t0) = (5 - RTQ-'R)^ 8х (to). Шаг (д). Интегрируют уравнения возмущенного движения (6.1.21) — (6.1.22) от t0 до tf с начальными условиями 8х (t0), 6Z (Zo), полученными на шаге (г). Запоминают значения dvT — = [SXj (tf), . . 6Xg (Zz)] и [6жд+1 (tf), . . 8хп (Zy)]. Шаг (е). Вычисляют новые значения v VLXt(tf), i = q + 1, . .. . . ., п, по формулам vhob = ^отар Ч~ dv, [•Z-i (Z/)]Hob \.Х} (Zy)]CTap 4“ 6^г (tf), t q Ч~ 1? • • •» И, и повторяют шаги (б) — (е) до тех пор, пока х (t0) не достигнет заданного значения с желаемой точностью. Задачи с ограничениями в виде функций от фазовых координат, заданных в нефиксированный терминальный момент времени f Рассмотрим теперь более общую задачу нахождения управле- ния и (Z), которое минимизирует критерий качества tf J=^{x(tf), tf] + j L [x (Z), u(t), t]dt (7.3.9) , to при наличии ограничений x = / (x, и, t) (n уравнений), (7.3.10) x (to) = Xo, to, Xo заданы (n начальных условий), (7.3.11) ф [x (tf), Zy] =0 (q терминальных условий). (7.3.12) Терминальное время tf (время окончания процесса) определено неявно посредством терминальных граничных условий (7.3.12).
262 Глава 7 Необходимые условия первого порядка для экстремального решения имеют вид Х= — (в уравнений), (7.3.13) ^ = 0, (7.3.14) = \~дх/t~tf (п терминальных условий), (7.3.15) Q[x, и, v, t]t=tf= + =0 (одно условие), (7.3.16) где Ф (х, v, г) = ф (х, t) 4- vri|) (х, t), d® дФ . дФ ,, .. -dF = ^- + -fe /^-“>0- В этой задаче требуется найти решение системы 2п диффе- ренциальных уравнений (7.3.10), (7.3.13) и определить (q ф- 1) значений неизвестных параметров v и tf так, чтобы удовлетво- рялись п начальных условий (7.3.11) и (q + п + 1) терминаль- ных условий (7.3.12), (7.3.15) и (7.3.16). При этом определение и (t) производится с использованием условия (7.3.14). Алгоритм переходной матрицы. Решение задачи может быть осуществлено следующим образом: Шаг (а). Задают начальные приближения для п терминаль- ных условий х (tf), q параметров v и для терминального време- ни tf. Шаг (б). Определяют значения ф [х (tf), ff], % (tf) и Q [х (tf), и (tf), v, tf] из условий (7.3.12), (7.3.Ф5), (7.3.16); и (tf) определяют из (7.3.14) при t = tf, используя X (tf) и х (tf). Шаг (в). Интегрируют уравнения (7.3.10) и (7.3.13) от tf до t0, используя (7.3.14) для вычисления u(t) и терминальные условия x(tf) и ^(tf), найденные на шагах (а) и (б). Шаг (г). Запоминают полученное в результате осуществле- ния шага (в) значение х (t0). Шаг (д). Находят переходную матрицу д [ж (t0), ф, й] 9 [ж {tf), v, t/]’ Размерность этой переходной матрицы равна (n-f-gr-f-l) х X (n + g-|-1), а смысл ее ясен из соотношения 'бх (t0)~ йф d£l _ д [х (to), ф, й] ak {tf),v, tf] bx(tf)~ dv dtf
Численные методы 263 (Ниже изложены два метода вычисления переходной матрицы — метод численного дифференцирования и метод единичных реше- ний.) Шаг (е). Выбирают значения бх (t0), йф и dQ так, чтобы следующее приближение было ближе к заданным значениям x(f0)=x°, ф = 0, Q = 0. Можно, например, выбрать -бх(г0)’ йф dQ x(t0) — x0 ' ф[х (tf), tfL где 0 < 8 1. Шаг (ж). По выбранным на шаге (е) значениям бх (t0), йф, dQ путем обращения переходной матрицы [вычисленной на шаге (д)1 находят значения бх (tf), dv, dtf. Шаг (з). по формуле Вычисляют новые приближения для х (tf), v, tf ~x(tf)~ V _ tf .J HOB X(£y)- V + tf J стар dx (tf) dv dtf и повторяют шаги (б) — (з) до тех пор, пока условия х (t0) — х0, ф [х (tf), tf] = 0 и Q [х (tf), и (tf), v, tf] = 0. не станут выполняться с необходимой точностью. Напомним, что ах (tf) = бх (tf) + х (tf) dtf = бх (tf) + / [х (tf), и (tf), dtf, где бх (tf) выбрано на шаге (ж). Следует заметить, что если величины бх (t0), ^ф, dQ выбраны на шаге (е) слишком большими, то итерационная процедура может и не сходиться. Один из методов устранения расходимости состоит в сравнении действительных изменений х (t0), ф, Q с желаемыми изменениями. Если разница между этими значениями превы- шает, например, 10—20%, то шаги (е) — (з) следует повторить с меньшими значениями бх (t0), йф, dQ. Методы вычисления переходной матрицы Переходная матрица, необходимая на шаге (д), может быть вычислена двумя различными способами: 1) путем непосред- ственного численного дифференцирования; 2) на основе опре- деления единичных решений для линейных дифференциальных уравнений возмущенного движения. Непосредственное численное дифференцирование требует (п + ц + 1) дополнительных интегрирований в обратном вре-
264 Глава 7 мени нелинейных уравнений (7.3.10) и (7.3.13) с использова- нием 17.3.14). При каждом таком интегрировании одна из ком- понент х (tf), v и tf изменяется на малую величину относительно начального приближения, выбранного на шаге (а) [или после- дующих приближений на шаге (б)]. Полученные после каждого интегрирования (п + q + 1) величин 6х (t0), йф, dQ. всякий раз запоминаются и делятся на соответствующие приращения ком- понент х (tf), v или tf. В результате будет получена переходная матрица, необходимая для шага (д). Возникающие при этом вычислительные трудности аналогичны тем, которые уже обсуж- дались выше (см. стр. 260). Определение единичных решений требует (п + q 4- ^-крат- ного интегрирования в обратном времени линейных уравнений возмущенного движения (6.1.21), (6.1.22). При каждом таком интегрировании одна из компонент вектора [6х (tf), dv, dtf] при- нимается равной единице, а все остальные — нулю. Определе- ние 6 A, (tf), йф, йО производится на основе линеаризации терми- нальных условий (7.3.15), (7.3.12) и (7.3.16) [см. (6.5.9) — (6.5.11)]. Уравнения (6.5.10) и (6.5.11) образуют часть переходной матрицы шага (д), а матрица (дх (t0)/d (х (tf), v, tf)} должна быть найдена путем (п + q 4- 1)-кратного интегрирования в обратном вре- мени уравнений возмущенного движения. При этом 6А (tf) нахо- дится из условия (6.5.9) при единичном значении одной из компо- нент вектора [6х (tf), dv, dtf}. Хотя данный метод и является более точным, чем непосредственное численное дифференциро- вание, он, очевидно, требует дополнительных затрат на про- граммирование уравнений возмущенного движения. Кроме того, ему присущи некоторые вычислительные трудности, которые уже упоминались в предыдущем разделе (см. стр. 260). Отметим, что необходимым условием минимума J по tf являет- ся соотношение (4гг),_„>0- <7-3-17) Если в условии (7.3.17) имеет место неравенство, то можно раз- решить уравнение (6.5.11) относительно dtf, выразив его через 8х (tf) и dv. Если теперь подставить этот результат в (6.5.9) и (6.5.10), то для вычисления переходной матрицы в этом случае потребуется только (п 4- q) единичных решений. Алгоритм обратной прогонки. Одно из возможных затруд- нений алгоритма переходной матрицы заключается в том, что необходимая точность вычисления может не достигаться даже при использовании метода единичных решений уравнений возму- щенного движения. По причинам, указанным во введении к разд. 7.3, такая потеря точности, в частности, характерна для диссипативных систем. Обычно эту трудность оказывается воз-
Численные методы 265 можным обойти, используя следующую модификацию метода обратной прогонки г), рассмотренного в разд. 6.6: Шаги (а) — (в) те же, что и в алгоритме переходной матрицы. , Шаг (г). Одновременно с шагом (в) интегрируют (6.6.8) — (6.6.13) с указанными там же граничными условиями. Шаг (д). Запоминают значения х, X, S, R, Q, т, п, ct при f = f0. Выбирают 8х (t0), йф, dQ так же, как и на шаге (е) алго- ритма переходной матрицы. Затем с помощью соотношений (6.6.14), (6.6.15) и (6.6.18) определяют dv, dtf и 6Х (t0). Запоминают dv и dtf. Шаг (е). Интегрируют уравнения возмущенного движе- ния (6.1.21) — (6.1.22) в прямом времени с начальными усло- виями 8х (t0), 8к (t0). Запоминают dx (tf) = 8х (tf) + х (tf) dtf = dx (tf) + + / lx (tf), и (tf), dtf. Шаг (ж). Вычисляют новое приближение и повторяют шаги (б) — (ж) до тех пор, пока условия х (to) = хо> Ф Iх (tf), tf] = О, Q [х (tf), и (tf), v, tf] = О не будут выполнены с желаемой точностью. 7.4. Алгоритмы градиентных методов первого порядка* 2) Введение Градиентные методы были разработаны для преодоления' затруднения, связанного с выбором «хорошего» начального приближения в методах непосредственного интегрирования (см. введение к разд. 7.3). Они характеризуются итерационными алгоритмами, предназначенными для улучшения предыдущих оце- нок зависимости и (t) с тем, чтобы на каждой итерации происхо- х) Причина этого состоит в меньшей вероятности различной степени роста элементов матрицы S (t), чем элементов матриц X (t) и Л (t), используемых в алгоритме переходной матрицы. 2) См. также [2.5, 7.14*, 7.18*, 7.19*].— Прим, перее.
266 Глава 7 дило приближение к удовлетворению условий оптимальности и граничных условий. Градиентные методы первого порядка обычно дают наибольшие улучшения на нескольких первых итерациях, но имеют плохие характеристики сходимости при приближении к оптимальному решению. Градиентные методы второго порядка, излагаемые в следующем разделе, обладают хорошими характеристиками сходимости в окрестности оптимального решения, но могут при- водить к затруднениям на начальном (стартовом) участке, свя- занным с выбором «выпуклого» номинального решения. Задачи, в которых некоторые из фазовых координат заданы в фиксированный терминальный момент времени Вернемся к классу задач, который уже рассматривался под этим названием в разд. 7.3. Алгоритм градиентного метода первого порядка для решения данного класса задач сводится к следую- щим процедурам: Шаг (а). Задают начальные приближения для и (t). Шаг (б). Интегрируют уравнения объекта х — / (х, и, t) в прямом времени от t0 до tf с начальным условием х (t0) = х0 при управлении, заданном на предыдущем шаге (а). Запоми- нают х (f), и (t) и ф [х (iy)]. Шаг (в). Определяют re-мерный вектор р (t) функций влия- ния и (re X ^-мерную матрицу R (t) функций влияния путем интегрирования в обратном времени от tf до ta уравнений для функций влияния. Для определения граничных условий исполь- зуют значение х (tf), полученное на шаге (б). Упомянутые уравнения и граничные условия имеют вид Р= — 'О для 1=1, 2, ..., д, для i = q + 1 ..., п, ^) = ИПРИ^’ ^12 ' ох I (0 при J#=7, / = 1, 2, ..., q. Шаг (г). Одновременно с шагом (в) вычисляются следующие интегралы: Лф = f R^W-1 (~\TRdt (матрица q X q), (JLv \ U 1л J to
Численные методы 267 '« = -Ф = (/>т^-+#) И”1 (<)т-я* to ((/-мерный вектор-строка), I(₽^+#) ^[(<}'Н£)ГР « to Здесь W — (т X тп)-мерная положительно определенная матрица (см. ниже пояснения к алгоритму). Шаг (д). Выбирают значения бф так, чтобы следующее при- ближение было ближе к желаемому значению ф [х (ty)l = 0. Например, можно положить бф — —еф [х 0 < е 1. После этого определяют вектор v: v = —[Ли,]-1 (бф 4- Шаг (е). Шаги (б) — (д) повторяют, используя каждый раз улучшенное значение uH0B (t): ^нов (0 = ^стар (0 4" би (£), где 8и («) = - [W (01"1 {-^4- [р (0 + R (0 v]T Т. Вычисления заканчиваются, когда условия ф [х (fy)] = 0 и Ijj—— 0 выполняются с желаемой степенью точности. Пояснения к алгоритму. Данный алгоритм основывается на использовании функций влияния, введенных в разд. 2.4. Вели- чины р (t) и R (t) предсказывают изменения значений критерия А качества J и q граничных условий фг = [х1 (tf), . . xq(tf)] при изменении 6u (t) управляющего вектора и (t) 4^-) би (t) dt, ди J ' ' to RT4^~ 8u (t) dt. du v > (7-4.1) (7-4.2) Выполняемое на шаге (в) интегрирование (в обратном времени) уравнений для функций влияния не связано с интегрированием уравнений объекта (за исключением определения производных dfldx и dL/дх)', это обстоятельство (по причинам, изложенным
268 Глава 7 в начале разд. 7.3) делает процесс интегрирования вычислительно весьма устойчивым. Поскольку (7.4.1) и (7.4.2) являются линеаризованными соот- ношениями, то величина 6/ при наличии ограничений на значе- ния 6ф не имеет минимума. Математически простой способ обра- зования минимума состоит в добавлении к (7.4.1) интегральной штрафной функции, квадратичной по 8и: == 6/ + у J (6u)r W (t) 8u (t) dt, (7.4.3) to где W (t) — произвольная положительно определенная весовая матрица размерности, т X т. Минимизация 8J\ при наличии ограничений (7.4.2), где значения 6ф заданы, представляет собой линейно-квадратичную задачу оптимизации, уже рассмотренную в разд. 5.3. Эта задача легко решается присоединением выражения (7.4.2) с постоян- ными множителями Лагранжа v к критерию 8J1 ti 67= 6Л4-¥Г[ J RT-^-8u(t)dt — 6ф]. (7.4.4) to Если пренебречь изменением коэффициентов1), то первая вариа- ция (7.4.4) дается выражением ti 8 (Sj) = J Й + + S (S“) to из которого ясно, что минимум 8J достигается при <7-4-5> Подставляя (7.4.5) в (7.4.2), находим, что 6ф = (7.4/6) где и определены на шаге (г) основного алгоритма. Если Тфф является невырожденной матрицей, то уравнение (7.4.6) можно разрешить относительно искомого значения v v = —[7фф1-1 (6ф -(- 7ф/). (7.4.7) Предсказываемое изменение 8J можно найти, подставляя (7.4.5) и (7.4.7) в (7.4.1): ~ —{Ijj — + Т/ф/ффбф, (7.4.8) где Ijj определено на шаге (г) основного алгоритма. 4) Изменение коэффициентов учитывается в разд. 7.3 и 7.5.
Численные методы 269 Из условий (7.4.8), (7.4.7) и (7.4.5) следует, что по мере при- ближения к оптимальному решению и к 6ф = О выполняются предельные соотношения > 0, (7.4.9) v —> — (7.4.10) J£+(/, + jRv)r^-->0 для (7.4.11) Заметим, что левую часть условия (7.4.11) можно интерпрети- ровать как производную дН/ди, где Н = L (х, и, t) + V/ (х, и, t), (7.4.12) Л (f) = р (t) + R (t) v. (7.4.13) Уравнение (7.4.13) полезно для оценки начального приближения вектора X (t) при нахождении решений методами разд. 7.3, 7.5 и 7.6. Выбор весовой матрицы W (t) на шаге (г). должен произво- диться так, чтобы величина первого шага спуска в алгоритме была ограниченной. Этого можно достигнуть путем сравнения действительных значений 6ф и 8J с предсказанными значениями, найденными из (7.4.6) и (7.4.8). Если между ними имеется слишком большое расхождение, то W следует увеличить, если же рас- хождение слишком мало, то можно использовать большие шаги спуска и W следует уменьшить. После получения удовлетвори- тельного первого шага матрица W может оставаться неизменной в течение всех последующих итераций. Ввиду условия (6.1.16) вполне удовлетворительным значением для W является вели- чина е (д2‘Н/ди2‘'), где 0 < е 1 (разумеется, если гарантировано условие положительной определенности матрицы д'1Н/ди2'). Задачи с ограничениями в виде функций от фазовых координат, заданных в нефиксированный терминальный момент времени Рассмотрим класс задач, уже исследовавшихся в разд. 7.3. Последовательность шагов алгоритма градиентного метода перво- го порядка перечислена ниже: Шаг (а). Задают начальные приближения для и (t) и терми- нального времени tf. Шаг (б). Интегрируют уравнения объекта в прямом вре- мени с заданными начальными условиями, используя и (t) и tf,
270 Глава 7 заданные на шаге (а): х = / (х, и, t), х (t0) = х0 задано. Запоминают векторы х (t), и (f), ф [х (tf), tf], [(d$/dt) + L]t=tf и (dty/df) t=tj. Шаг (в). Находят re-мерный вектор функций влияния р (t) и (re X (^-мерную матрицу функций влияния R (t) путем инте- грирования в обратном времени уравнений для функций и матриц влияния: / df \ Т / dL\T I дф \ Р~\'д7) ’ р ~ t^t' Шаг (г). Этот шаг аналогичен шагу (г) предыдущего алго- ритма. Шаг (д). Этот шаг аналогичен шагу (д) предыдущего алго- ритма, за исключением того, что 6ф заменяется на с?ф и v опре- деляется соотношением где Ь — скалярный весовой множитель (см. ниже пояснения к алгоритму). Шаг (е). Повторяют шаги (б) — (д), используя каждый раа улучшенные приближения для и (t) и tf, полученные по фор- мулам [и (f)]HOB ” (^)1стар Ч~ ^14 (#), (^/)нов= (^у)стар 4" dtf, где 6“ W - - tW' W1- [-Й-+(Р+т £]г, Л,= _* (*+vr4t+L\ . т b \ dt 1 dt 1 / t=tj Процесс вычислений заканчивается после того, как условия ф lx (if), tf] = 0, [(d$/dt) Ч~ vT (dty/dt) -j- = 0 и Ijj — — Iстанут удовлетворяться с желаемой,точностью. Пояснения к алгоритму. Данный алгоритм основан на исполь- зовании функций влияния р (t) и R (t), введенных в разд. 2.7. Изменения в критерии качества J и краевых условиях ф при варьировании управления и (t) на величину 8и (t) определяются
Численные методы 271 соотношениями "=(^+г),=,/',+П^+?тя-)6“»‘г‘’ <7-4Л4> ’ to tf dtf+^ (RT^)8u^dt- (7-4-15> f to Как и в предыдущем алгоритме, добавим к (7.4.14) квадратичную по 8и (#) и dtf штрафную функцию и сложим результат с (7.4.15),. предварительно умноженным на вектор v: - dJ = dJ + ±-b(dtfy + ±- f [6u (O]T W (t) 8u(t)dt + to (rI£} M- <7-416> 1 to Здесь b — произвольная положительная весовая константа,, a W (t) — произвольная положительно определенная весовая матрица размерности т X т. Если не учитывать изменение коэффициентов *), то выражении для первой вариации dJ можно записать в виде d [4г+L4г+<>*/],_,,d + ч + J [^- + (p + JRv)r-g- + (6u)TW7]6(6u)di. (7.4.17> to Из (7.4.17) следует, что минимум dJ достигается, если 8и (?) = -И~ [-£- + (р +-Rv)T -£-]Т, (7.4.18> dtf= — lr4r + vT4r +^1 • (7.4.19). 1 b L dt 1 dt i 1 ' Подставив (7.4.18) и (7.4.19) в (7.4.15), получим ^--Жтг) (тг+^тг+^к, (7.4.2О> где и определены на шаге (г). Если матрица 4~ + (1/Ь) (dty/dt) (dty/dt)T] невырождена, то уравнение (7.4.20) можно» г) Изменение коэффициентов учитывается в разд. 7.3 и 7.5.
272 Глава 7 разрешить относительно v -МЖ)Т над (7.4.21) Предсказанное изменение dJ может быть найдено путем под- становки (7.4.18) и (7.4.19) в (7.4.14); в результате получается -I [Hr+z) (^адт-ад -ад. (7.4.22) где Ijj определено на шаге (г) алгоритма. Из (7.4.18) и (7.4.19) следует, что при приближении к опти- мальному решению выполняются предельные соотношения • ^.+ (p + jRv)r^->0 для (7.4.23) (^г + ^ + Ч ( ->0. (7.4.24) \ U-t tit f Если, кроме того, Л|) — 0, то условие (7.4.24) может быть исполь- зовано в (7.4.20), а затем и в (7.4.22), чтобы показать, что v-> —1^1 у j, (7.4.25) Ijj — IjtyItytyItyJ~*"0* (7.4.26) Заметим, что (7.4.23) и (7.4.24) можно интерпретировать как частную производную дШди и Q соответственно, где Н ~ L + V/, (7.4.27) X (7) = р (7) + R (t) v. (7.4.28) Уравнение (7.4.28) полезно для оценки начального приближе- ния X (7) при нахождении решений методами, изложенными в разд. 7.3, 7.5 и 7.6. Выбор весовой константы Ъ и весовой матрицы W (i) на шаге (г) должен производиться так, чтобы величина первого шага спуска в алгоритме была ограниченной. Для этого можно сравнивать действительные значения Л|) и dJ с предсказанными значениями, найденными из (7.4.20), (7.4.22). Если между ними имеется слиш- ком большое различие, то Ъ и W следует увеличить, если же различие слишком мало, то представляется возможным исполь- зовать в процессе счета большие шаги. В этом случае Ъ и W сле- дует уменьшить. Алгоритмы, использующие минимизацию гамильтониана (min 77-алгоритмы). Было предложено несколько алгоритмов гра- диентных методов первого порядка, использующих минимиза-
Численные методы 273 t цию гамильтониана Н *). Одна из сравнительно недавних публи- В наций по этому вопросу принадлежит Готтлибу2); (см. также статью Н. Halkin, Method of Convex Ascent, в сборнике [6.8]). £ В min Я-алгоритмах управление находится путем минимизации гамильтониана Н [определенного соотношениями (7.4.27) и (7.4.28)] ? по управляющему вектору и; при этом х и А, считаются фиксиро- , ванными. Благодаря применению этой процедуры оказывается возможным использовать большие изменения в и, что, видимо, ускоряет сходимость алгоритма вблизи оптимума. Задача. Рассмотрим систему х = / (х, и, t), х (t0) — х0 задано, критерий качества т J=<£ [ж(Т’), Т]-j- j L(x, и, t) dt, T фиксировано. <0 Пусть дано управление и(1) 2 (t), относительно которого утверж- дается, что оно минимизирует J (по крайней мере в смысле отно- сительного минимума). а) Требуется составить (без вывода) детальную пошаговую блок-схему программы, включающей все необходимые вычисли- тельные шаги, которым должен следовать человек или ЦВМ, чтобы, доказать или опровергнуть это утверждение. Если неко- торые процедуры неизвестны в литературе, то это следует отметить. б) Пусть х = и, х (0) = 2, х, и — скаляры, т J = lz3 + 2. J u2(t)dt, wtn(£)=—2, 0<г<7’=1. о Является ли управление и'1’ (i) оптимальным? Если нет, то нужно найти лучшее управление н<2’(Ц, используя один шаг градиентного метода первого порядка или любого другого метода, изложенного в данной главе. 1) Один из таких алгоритмов рассматривался в работе: И. А. Кры- лов, Ф.Л.Черноуеько, О методе последовательных приближений для решения задач оптимального управления, ЖВМ и МФ, № 6, стр. 1132—1139, < 1962.— Прим, перев. 2) R. G. Gottlieb, Rapid Convergence to Optimum Solution using a Min-H Strategy, AIAA J., 5, № 2 (1967); русский перевод: Готтлиб, Уско- рение сходимости к оптимальному решению с помощью min Я-стратегии, Ракетная техника и космонавтика, № 2, 1967. ‘8—0102
274 Глава 7 в) Найти такое управление и° (t), которое будет для зада- чи «б» по крайней мере слабо минимизирующим (т. е. оно должно удовлетворять почти всем проверочным тестам блок-схемы «а»). 7.5. Алгоритмы градиентных методов второго порядка Введение Как отмечалось во введении к разд. 7.4, алгоритмы градиент- ных методов первого порядка дают существенное улучшение управления на нескольких первых итерациях, но имеют плохие характеристики сходимости при приближении к оптимальному решению. Рассматриваемые ниже алгоритмы градиентных мето- дов второго порядка обладают хорошими характеристиками схо- димости в окрестности оптимального решения, но требуют выбора «выпуклого» начального (номинального) приближения (т. е. матри- ца д2Н!ди2 должна быть положительно определенной на всем интервале времени в задачах минимизации и отрицательно опре- деленной — в задачах максимизации). Иногда бывает трудно найти выпуклое начальное приближение, в этих случаях можно использовать градиентные методы первого порядка для улучше- ния исходного начального приближения до тех пор, пока оно не станет выпуклым. Заметим, что для рассмотренного в преды- дущем разделе алгоритма градиентного метода первого порядка в задачах минимизации выпуклость обеспечивается за счет выбора положительно определенной весовой матрицы W и положитель- ной весовой константы Ь. (В задачах максимизации выпуклость достигается за счет отрицательно определенной матрицы W и отрицательной константы Ь.) Задачи с ограничениями в виде функций от фазовых координат, заданных в нефиксированный терминальный момент времени (включая задачи оптимального бы ст родействия) Вернемся снова к классу задач, описанных в разд. 7.3. Здесь также будут изложены два метода решения: метод переходной матрицы и метод обратной прогонки. Алгоритм 'переходной матрицы *). Этот алгоритм состоит из следующей последовательности шагов: /) См. работу: Н. G. К е 1 1 е у, R. К о р р. G. М о у е г, A Trajectory Optimization Technique Based on the Second Variation, Progress in Astrona- utics, Vol. 14, Academic Press, N. У., 1964.
Численные методы 275 Шаг (а). Задают начальные приближения для и (i) и тер- минального времени tf. Шаг (б). Интегрируют уравнения объекта х = / (х, и, t) в прямом времени от i0 до tf при заданном начальном условии х (t0) — х0, используд начальные приближения для и (t) и tf, заданные на шаге (а). Запоминают х (£), и (t) и ip [х (tf), fy]. Шаг (в). Задают начальное приближение для вектора мно- жителей v, удовлетворяющего условию =0’ \ ди ) t=lf dt dt Запоминают Q (tf). Шаг (г). Путем интегрирования в обратном времени урав- нения где Лт dL ,т df Л — дх к дх с граничным условием ' '' \ дх 1 дх f t=, определяют re-мерный вектор функций влияния A (i). Запоминают Ни (t) — Lu №fu. 'J Шаг (д). Одновременно с выполнением шага (г) находят п + q + 1 однородных решений и одно частное решение системы уравнений возмущенного движения SX. ’ А, —В ' . — С, — Ат. 'fix'] Гу (О _6А. -W (t). (7.5.1) (7.5.2) где матрицы А, В, С определяются соотношениями (6.1.23) — (6.1.25), а v (t)=-tuHuUbHTu, (7.5.3) w(t) = HmH~uu&Hl. (7.5.4) Вектор 8Ни выбирается так, чтобы величина Ни (t) была воз- можно ближе к нулю; можно, например, положить = —&Ни, 0 < е 1 п + Ч + 1 единичных решений однородной системы должны быть получены при условии 8HU (t) = 0. Частное решение должно 18*
276 Глава 7 быть вычислено при 8HU (f) =/= 0 и 8х (tf) = 0, dv = O, Таким образом, 8x(t) ______ 5[д;(г), А, (/)] 6Х (i) J ~ v> 01 ~8х (tf)~ dv dtf '8х<р> (t)' _6Х№> (i). dtf = 0. (7.5.5) где 8x{p'> (t), 61<p> (t) — частное решение. Шаг (e). Выбирают значения 8х (70), dtp и dQ так, чтобы приблизить следующее решение к заданным значениям х (i0) = ха, tj; = 0 и Q = 0. Можно, например, положить ~8х (t0)~ dtp dQ x(t0) — x0 tp[z(^), Qk(^), tf] 0<e<l. (7.5.6) J Шаг (ж). Используя выбранные на предыдущем шаге зна- чения 8х (f0), dtp и dQ, выражение для 8х (t0) из (7.5.5), а также выражения для dtp и dQ, полученные из терминальных гранич- ных условий *), определяют значения 8х (tf), dv и dtf, решая систему 8х (£0) dtp dQ ~ дх (г0) дх (tf) 1 дх fa) dv ’ дх (t0) ' dtf 8x (tf) ~8x™ (tf) (7.5.7) = дх (tf) ' 0, dtp dtf dv + 0 . (7.5.8) да _ дх (tf) * / <Этр \ т \dtfj * dQ dtf dtf 0 (7.5.9) Шаг (з). Используя 8х (t) и 6 A, (t), полученные на шаге (д), с помощью значений 8х (tf), dv и dtf [последние определены на шаге (ж)] находят необходимые изменения 8и (t) управляющего вектора и (t) 8u(t) l[~8Hl(t) + Hux8x + HuK8k]. (7.5.10) Необходимые изменения tf и v находятся с помощью dtf и dv, определенных на шаге (ж). III а г (и). Процедуры (б) — (з) повторяются (с постепенно увеличивающимся значением е, стремящимся к единице) до тех 2) После их линеарйзации.— Прим, перев.
Численные методы 277 пор, пока условия 4^=о, М = о, йк(7у), ?/] = о, x(t0) = x0 не будут выполняться с желаемой точностью. Пояснения к алгоритму. Изложенный алгоритм может интер- претироваться как результат решения следующей линейно-квадра- тичной задачи: (у tf 8J = — J 8Ни8и dt -j- | [6а:т6ит] ^0 <0 U XX Них Н хи Нии 8х ’ 8и dt -j- 1 + у (8xT<bxs8x)tf + (Ф+ dtf при условиях 8х = fx8x -(- fu8u, dip = ipx dx ip; dtf, dQ = Qx dx -j- Qf dtf. 8x (t0) задано, dip задано, dQ задано. Здесь 8HU является заданным изменением Ни. Если положить —8Ни = Ни, то выражение для 8J будет представлять собой разложение (вдоль номинальной траектории) исходного крите- рия качества J с точностью до членов второго порядка. Алгоритм обратной прогонки. Этот алгоритм почти полностью совпадает с алгоритмом переходной матрицы, за исключением шагов (д) и (ж). Вместо нахождения п + q + 1 однородных решений и одного частного решения для уравнений функций влияния второго порядка производится «прогонка» (перенос) терминальных граничных условий для зтих уравнений с пра- вого конца на левый (т. е. от момента tf обратно к моменту £0). При этом принимается во внимание, что упомянутые дифферен- циальные уравнения являются неоднородными, т. е. 8HU (t) =/= 0. Для учета этого обстоятельства вводится неоднородный вариант уравнений (6.6.1) — (6.6.3), т. е. ”6Х tf)~ dip dQ ’ Stf), Rtf), KT(t), Qtf), ntf) mT tf.), nT tf), m (01 г(0~ dv a tf) J L dtf 'Л tf)~ + g (t) . L₽ (0 J (7.5.11) (7.5.12) (7.5.13) Продифференцируем соотношения (7.5.11) — (7.5.13) по времени, учитывая, что величины dip, dQ, dv и dtf постоянны: (7.5.14) (7.5.15) (7.5.16)
278 Глава 7 Теперь можно исключить 8х и 6Х из (7.5.14) — (7.5.16) с помощью уравнений возмущенного движения (7.5.1) и (7.5.2), а 6Л, можно исключить с помощью уравнения (7.5.11). В результате получим Г О “I О о S + SA + ATS — SBS + C, R-{AT — SB)R, m+{AT-SB)m Q — RTBR , n — RrBm X a — mTBm 8x (t) dv dtf hA-(AT— SB) hA-Sv + w g — RT {Bh — v) {1.SA1) (7.5.18) (7.5.19) fi — mT {Bh — v) Если уравнения (7.5.17) — (7.5.19) должны быть тождества- ми, справедливыми для любых 8х (г), dv, dtf, и если уравне- ния (7.5.11)— (7.5.13) должны удовлетворяться при t = tf, то должны иметь место соотношения (6.6.8) — (6.6.13) и еще сле- дующие дополнительные соотношения: . h = —(Ат - SB) h — Sv — w, h {tf) = О, (7.5.20) g = RT {Bh - v), g {tf) = 0, (7.5.21) P = m? {Bh - v), p {tf) = 0. (7.5.22) Систему уравнений для S, Q, R, m, n, a, h, g и P следует интегрировать в обратном времени от t = tf до t — t0. После это- го уравнения (7.5.12) и (7.5.13) при t = t0 можно использовать для определения dv и dtf через значения 6х {t0), dip и dQ dv=Q^[{d^-g)-RT8x-^{dQ-^t=to. (7.5.23) dtf — —~^^{тт + nTQ~1RT) 6x-)-nTQ~1 (dip— g) — <7-5-24’ Матрицы Q и R определены соотношениями (6.6.16), (6.6.17). Найденные значения dv и dtf можно подставить в уравне- ние (7.5.11) для получения зависимости 6Л, (t0) от 8х {t0), а затем
Численные методы 279 снова проинтегрировать дифференциальные уравнения (7.5.1), (7.5.2), но уже в прямом времени. В результате будут получены би (i) и 8х (tf), так как s /да\-‘Г яггТ х , д2Н сл 1 п с 6?Z (£) = — I ~д" 9 - ) I — и (О Ч- —л— Ч- ~л—лТ" • (* «5»25) 4 7 \ ди2 / L ' ' 1 ди дх 1 ди дь J 7 Это соотношение вновь возвращает нас к шагу (з) предыдущего алгоритма [см. (7.5.10)). Одно из преимуществ метода прогонки перед методом пере- ходной матрицы заключается в большей вычислительной точно- сти. Единичные решения уравнений второго порядка для функ- ций влияния могут различаться порядками величин, что приво- дит к плохой обусловленности переходной матрицы. В результате величины бх (tf), dv и dtf из уравнений (7.5.7) — (7.5.9) опреде- ляются недостаточно точно. Обычно указанные трудности не встречаются при применении метода обратной прогонки. Другое преимущество этого метода заключается в простоте получения коэффициентов усиления обратной связи оптимального управле- ния для соседних оптимальных траекторий. Кроме того, при выполнении обратной прогонки предоставляется возможность неявной проверки условий выпуклости, нормальности и наличия сопряженных точек (см. разд. 6.3). Дифференциальное динамическое программирование. Еще один вариант метода обратной прогонки был предложен Джекобсоном1), который назвал его дифференциальным динамическим програм- мированием (ДДП). В ДДП гамильтониан Н сначала минимизи- руется по и при фиксированных х и X; это дает улучшенное управ- ление и*. Затем рассматриваются вариации по х и X, а также соответствующие им дальнейшие вариации и относительно и*. Разложение функционала, содержащее члены второго порядка относительно 8х и би, минимизируется по би, что приводит к линей- ному закону управления с обратной связью вида би= —С (t)6x. В качестве нового управления на следующей итерации берется величина и* — С (i) 8х. Этот метод является усовершенствова- нием алгоритмов, основанных на минимизации гамильтониана Н (min /('-алгоритмов, изложенных в разд. 7.4). В нем допускается использование больших изменений по и (больших шагов спуска) и преодолевается затруднение, связанное с невыпуклыми номи- нальными решениями (это затруднение может иметь место в алго- ритме обратной прогонки). Алгоритм Джекобсона включает в себя также метод регули- рования длины интервала варьирования управления, который представляется весьма заманчивым. Метод регулирования длины 2) D. Н. I а с о b s о п, New Second Order and First Order Algorithms for Determining Optimal Control: A Differential Dynamic Programming Approach, J. Optimization Theory and Application (Dec. 1968). ж.
280 Глава 7 интервала варьирования заключается в следующем. Если какая- либо итерация не дает улучшения критерия качества (или при- водит к слишком большим отклонениям х от номинала), то она повторяется, но при этом «улучшенное» управление используется только на интервале t tf, где > t0. В ходе повторных итераций значение постепенно увеличивается до тех пор, пока не будет достигнуто улучшение критерия J (или пока изменения х не станут достаточно малыми). Затем, на последующих итерациях, величина tt постепенно уменьшается, пока не станет равной ta. Задача 1. Требуется показать, что в задачах с фиксированным конечным временем tf алгоритм градиентного метода первого порядка оказывается частным случаем алгоритма градиентного метода второго порядка, если проделать следующие операции: а) приближенно положить Нхх ~ 0, Них = 0, Нии = И', фхх ~ фхх [t- t? “ 0; б) в качестве номинального значения выбрать v = 0; в) отождествить Х(£) с p(t), а [ — 67/Д0] с номинальным значением Hu(t)^pT^ + ~. ' ' ди ‘ ди В частности, показать, что S(t) = O, R(t) для этих методов совпадают, w(t) = 0, h{t) = Q, Q(t) = l^(t), g(t)=—l^j(t). Задача 2. Показать, что алгоритм метода прогонки, изложен- ный в разд. 7.5, может быть использован для получения опти- мального решения за одну итерацию, если имеющееся допустимое номинальное решение очень близко к оптимальному. При этом следует взять в качестве предварительной оценки v — 0. Заме- тим, что это приводит к следующим соотношениям: 8Hu(t)=-kT^ + -^}, , v z \ du 1 du J ’ ' J/ \ dx J ' " \ dx2 / t=tf Vhob = — [<20’Wo), [>-(0]hob==>-(0-|-^ (0vhOb+^-(0+<S (t) 6x(t), 6« (t) = —H~uu [fu^ + Ll + Hux8x + fu (S8x + RvH0st+ h)] = = —Huu [Hux8x 4- f и T.H0B 4- L? 1 Если номинальное решение является оптимальным, то (77и)нов == hi ^пов+ Lu = 0, t0^t<tf,
Численные методы 281 откуда при 6х (*0) = 0 следует, что 8и (t) = 0 на 7.6. Алгоритм квазилинеаризации Введение Как уже указывалось в разд. 7.1, один из вариантов метода квазилинеаризации состоит в выборе таких номинальных функ- ций х (t) и X (i), которые удовлетворяют возможно большему числу краевых условий. Затем из условий оптимальности опре- деляется номинальный вектор управления u(t). Уравнения объек- та и уравнения для функций влияния (сопряженная система) линеаризуются- относительно номинала, после чего решается последовательность неоднородных линейных двухточечных крае- вых задач. При этом решение улучшается до тех пор, пока оно не станет (с желаемой точностью) удовлетворять уравнениям объекта и уравнениям для функций влияния. Методы квазилинеаризации привлекательны с нескольких точек зрения. Во-первых, номинальное изменение фазовых пере- менных во времени часто легче задать, чем номинальную про- грамму управления и (/). Во-вторых, эти методы быстро схо- дятся в окрестности оптимального решения (точно так же, как градиентные методы второго порядка). Задачи с заданными значениями некоторых фазовых координат в фиксированный терминальный момент времени Для пояснения деталей метода вернемся к задачам, уже обсуж- давшимся в разд. 7.3. Для невырожденных задач управление и (t) определяется по значениям х (t) и X (t) с помощью условия (7.3.8) -|^- = 0, откуда и — и (х, X, t). (7.6.1) С учетом этого соотношения уравнения объекта и уравнения для функций влияния могут быть записаны в виде . х = / (х, X, t) (п уравнений), (7.6.2) X = g (х, X, t) (п уравнений). (7.6.3) Граничные условия (7.3.3), (7.3.4) и (7.3.7) принимают вид х (t0) задано (п уравнений), (7.6.4) h [х (tf), X (tf)] =0 (п уравнений). (7.6.5)
282 Глава 7 Соотношения (7.6.2) — (7.6.5) описывают нелинейную двух- точечную краевую задачу для a: (t) и X (t). Пусть х1 (t) и V (г) — значения х (t), X (t), полученные на i-й итерации. Предположим, что 'они не удовлетворяют любому из соотношений (7.6.2) — (7.6.5). Тогда необходимо отыскать такие функции хг+1 (t) и V+1 (t), которые бы лучше удовлетворяли условиям (7.6.2) — (7.6.5). Другими словами, нужно, чтобы име- ли место соотношения V+1 — g(xi+1, V+1, t) я'*1 ((о) — X (Zo) = (l~e) ’ a:1 — f(x\ 7?) V-g(x\ V) a? (Zo) — x (t0) (7.6.6) (7-6.7) (7.6.8) h[xl (tf), V (Ш (7.6.9) где 0<е<Д. Чтобы условия (7.6.6) — (7.6.9) были достигнуты, линеаризуем их левые части относительно хг (£) и V (if), т. е. положим х*+1(Г) = х1(1)+8х(Г), (7.6.10) г+1(0 = х{5(0 + б^(0. (7.6.И) Подставляя (7.6.10) и (7.6.11) в (7.6.6) — (7.6.9) и сохраняя в разложении левых частей в ряд Тэйлора лишь члены первого порядка, получим (8x) —8x — -~f- 67. dt ' ' dx dt. xi-t(xi, V) (7.6.12) ~(8K)-^-8x-^-8K dt 4 > dx dK — — 8 V-g(?, V) (7.6.13) 8x (to) a:’ (to) — x (to) (7.6.14) (^L8x + ^8X\ \ dx 1 dh / t~t^ h[xl (tf), V (fz)] (7.6.15) Уравнения (7.6.12) — (7.6.15) описывают неоднородную линей- ную двухточечную краевую задачу для 6а: (t), 67. (t), которая может быть решена либо методом переходной матрицы, либо методом прогонки (см. разд. 7.5). По мере выполнения последовательных приближений вели- чина е должна постепенно увеличиваться, стремясь к единице. Если метод сходится, то сходимость, как и в других методах второго порядка, оказывается квадратичной.
Численные методы 283 Задачи с функциями от фазовых координат, заданными в нефиксированный терминальный момент времени (включая задачи на оптимальное быстродействие) В этих задачах необходимо задавать не только функции х (I) и X (t), но и значения v и tf. Улучшающие поправки dv и dtf могут быть найдены в данном случае с помощью метода, подобного изложенному в разд. 7.5. 7.7. Алгоритм градиентного метода второго порядка для дискретных многошаговых систем Как указано в разд. 2,6, путем надлежащего представления исходной непрерывной задачи в виде дискретной многошаговой можно достичь значительного ускорения сходимости итерацион- ных процессов. В данном разделе представлен алгоритм обрат- ной прогонки для дискретных систем, аналогичный алгоритму, .изложенному в разд. 7.5 для непрерывных систем. Иногда и в дис- кретных задачах может быть использован алгоритм, основан- ный на переходной матрице, однако здесь он не рассматривается. Как и в разд. 2.6 и 6.10, будем предполагать, что число шагов (стадий дискретности) фиксировано. Отличие материала данного раздела от изложенного в разд. 6.10 состоит в том, что начальное (номинальное) приближение не обязано удовлетворять условиям оптимальности ^- = 0. ди (i) Алгоритм обратной прогонки. Рассмотрим класс задач, опи- санных в разд. 2.6. Алгоритм обратной прогонки состоит из следующих шагов: Шаг (а). Задают последовательность управляющих векторов и (i), i = 0, 1, . . ., N — 1, и решают систему уравнений} х (i + 1) = /г [х (i), и (i)J, х (0) задано, i = 0, 1, . N — 1, последовательно в порядке возрастания индекса i. Запоминают значения х (i + 1), и (1 + 1) и ф [х (2V)]. Шаг (б). Задают значения множителей v и решают систему уравнений для функций влияния первого порядка Xr(i) = zi + ^r(i + l)/i, г = У-1, У-2, ...,0, A, (У) = [<^x + 'vT'I5x]x=x(N)j последовательно в порядке убывания индекса i. При этом коэф- фициенты уравнений вычисляются на номинальной траектории шага (а). Запоминаются значения Нги = Llu + V (i + 1) /I- Одно- временно решается следующая система уравнений для функций
284 Глава 7 ' влияния второго порядка (последовательно в порядке убывания индекса г): 5 (i) = ZXX (i) — Zxu(i) Z^i) Zux(i), S (N) = 4- vHpxx]x=a.(?0, R (г) = fxR (i + 1) - Zxu (i) Z?u (i) fu R (i +1), 7? (TV) = [1рх]х=а:(Х). Q (i) = Q (i +1) - RT (i + 1) (ftfZ^ (i) fuR (i +1), h (i) = fxh (г +1) — Zxu, (i) Zuu (j) [fuh (i + 1) — dH^], A(JV) = O, g (0 = g (i +1) - RT (i +1) (fuf Z-u\ (j) [jluh (i +1) - dHtu], g(N) = 0, где Zxx, Zux, Zuu определены соотношениями (6.10.19), (6.10.15) и (6.10.14), a dHlu——sHu, 0<е-<1. Запоминают значения Zuu(i)Zux(i), Z^UO/u^CH-l), Zuu'd)[fufi(i+l)—dHlu], <? (0) и g (0). Шаг (в). Выбирают dip так, чтобы приблизить следующее номинальное решение к желаемому значению ip [х (Лг)1 = 0. Можно например, положить dip = —sip [х (2V)], 0 < е sC 1. После этого определяют (и запоминают) значение dv dv — [—(? (О)]*1 [dip — g (0)]. Шаг (г). Повторяют шаги (а) — (в), используя улучшенные значения для и (i) и v, полученные путем сложения и (i) и v предыдущего цикла со значениями поправок du (г) и dv, при этом du (Г) — —Z^u (i) [ZUx (0 dx (i) 4- fuR (i 4* 1) dv4- /uh (j + 1)“ dHu], где dx (г) = [x (г)1нов — [x (Olciap- Процесс итераций прекращает- ся, когда ip [х (2V)1 и Н1и становятся близкими к нулю с заданной точностью. Пояснения к алгоритму. Единственная часть алгоритма, тре- бующая дополнительных пояснений (кроме тех, которые уже даны в разд. 6.10), заключается в методе вычисления неоднород- ных выражений, содержащих dHlu. Для их вычисления необхо- димы следующие неоднородные варианты выражений (6.10.7) и (6.10.8) для dX (г) и dip: ~dX (г) dip FS(O, _ят(0, R(i)~ ~dx(i)~ ~h(i) Q(i). . dv . +l_£(0
Численные методы 285 Учитывая эти соотношения и проведя рассуждения, аналогичные изложенным в- разд. 6.10, можно непосредственно показать, что последовательности h (i) и g (i) определяются рекуррентными соотношениями, приведенными на шаге (б). Заметим, что h (i + 1) входит в выражение для du (г) на шаге (г), a g (0) входит в выраже- ние для dv, используемое на шаге (в). 7.8. Алгоритм метода сопряженных градиентов Пусть и будет вектором параметров или функций, которые должны выбираться из условия оптимизации критерия J (и), a u(I) — значением и на i-й итерации. Алгоритмы, изложенные в предыдущих разделах, могут быть отнесены к одной из следую- щих двух категорий: 1. Методы первого порядка, в которых улучшающие измене- ния управления строятся по схеме AuW 1 н(Н-1)-и<*)= —e(Ju)u=u(i) и где е выбирается в соответствии с каким-либо ограничением на величину шага Ан. 2. Методы второго порядка, в которых = и<г+1) _ U(i) = _ ([/ии]-1 J^)u=u(i) Некоторые преимущества и недостатки алгоритмов этих двух категорий указаны в табл. 7.8.1. Метод сопряженных градиентов является попыткой объеди- нить преимущества двух методов, указанных в табл. 7.8.1, при одновременном устранении их недостатков *). На начальных х) Методы сопряженных градиентов представляются весьма многообе- щающими. В настоящий момент известно несколько их модификаций, пред- назначенных либо для решения задач минимизации функций конечного числа переменных [7.16*, 7.20*, 7.25*], либо для решения задач оптимального управления [7.11, 7.24*, 7.26*]. Методы сопряженных градиентов для решения конечномерных задач на безусловный минимум (т. е. при отсутствии ограничений на значения переменных) интенсивно используются при решении прикладных задач. Они прошли экспериментальную проверку на системе специально подобран- ных тест-функций и в большинстве случаев оказались примерно на порядок более эффективными (по количеству вычислений значений минимизируемой функции, необходимых для достижения заданной точности решения), чем градиентные методы первого порядка. При этом одним из самых эффективных оказался метод Давидона [его модификация изложена в работе: R. F 1 е t - с h е г, М. Powell, A Rapidly Convergent Descent Method for Minimization, The Computer Journal, 6. № 2 (1963)]. Следует отметить, что реализация мето- дов сопряженных градиентов на ЦВМ требует несколько больших затрат времени на программирование по сравнению с градиентными методами первого
286 Глава 7 Типы алгоритмов Таблица 7.8.1 Методы Преимущества Недостатки Первого порядка 1. Простота вычисления градиента Ju 2. Отсутствие затрудне- ний при начале счета из далекого прибли- жения Медленная сходимость в окрестности оптимума Второго порядка Быстрая сходимость в окрестности оптимума 1. Необходимость вычисления мат- рицы вторых производных Juu и ее обращения, что весьма затруд- нительно, особенно если и—функ- ция (т. е. имеет размерность со) 2. В начальной точке (особенно если она далека от оптимума). мо- жет не существовать или не быть в какой-либо связи с ее значением в окрестности оптимума; в резуль- тате может иметь место расходи- мость алгоритма итерациях этот алгоритм ведет себя как метод первого порядка, однако по мере увеличения числа итераций его поведение стано- вится все более похожим на метод второго порядка. В то же время в этом алгоритме не нужно вычислять Juu- Имеется несколько вариантов этого алгоритма, но все они построены на двух ключе- вых идеях. Первая идея состоит в формировании последователь- ности направлений спуска т) р0, р1г . . pn-i, которая 'обла- дает свойством сопряженности (обобщенной ортогональности) относительно Juu. Это свойство означает, что = 0 для всех i =/= j, i = О, 1, ... . (7.8.1) Вторая идея заключается в проведении последовательных одно- мерных поисков оптимума J вдоль каждого из сопряженных направлений. Точка оптимума иЮ вдоль р;м-го сопряженного направления используется в качестве начальной точки для поиска порядка. Кроме того, необходимо более точно вычислять частные производные и более точно производить одномерную минимизацию вдоль направления спуска.— Прим, перев. !) Здесь pi — n-мерный вектор, Р; = (рц, Дг;, • • •» pnj), * = 0> 1, п~ — 1.— Прим, перев.
Фиг. 7.8.1. Направления сопряженных градиентов в двумер- ной задаче минимизации квадратичной формы. 1 — линии постоянных значений критерия качества; 2 — направление спуска из точки В в методе сопряженных градиентов; з — направление 'антиградиента в точке В (это направление перпендикулярно АВ). Фиг. 7.8.2. Блок-схема алгоритма сопряженных градиентов.
288 Глава 7 оптимума вдоль следующего сопряженного направления pt, т. е. u(i+l) _ u(j) — diPi, (7.8.2) где х) di = arg min J (и<‘)— dpt). (7.8.3) d>-.0 Графически этот процесс представлен на фиг. 7.8.1. Если критерий оптимальности квадратичен, то вторая произ- водная Juu в (7.8.1) постоянна, и если она при этом положительно определена, то направления рй, pt, . . ., /»п_4 образуют систему п ортогональных линейно независимых базисных векторов в про- странстве оптимизируемых параметров (здесь предполагается, что и — чг-мерный вектор, и g Нп, где Нп — n-мерное векторное про- странство). В этом случае после г итераций (г п) имеем г—1 w(r) = M(0)_ 2 diPi. (7.8.4) 4=0 Можно показать, что вследствие обобщенной ортогональности векторов pi раздельное определение d-L, г = 0, 1, . . ., п — 1, эквивалентно их совместному определению * 2). Другими словами, это означает, что дает точный минимум J (п), если J (и) — положительно определенная квадратичная форма. (Подробное доказательство этих утверждений содержится в работе [6.101.) Блок-схема одного из вариантов метода сопряженных градиентов показана на фиг. 7.8.2. При применении алгоритма к нелинейным критериям, отлич- ным от квадратичных, сходимость за конечное число шагов уже не может быть гарантирована. Однако если критерий в окрестно- х) <1{ — скалярная величина, индекс i относится к номеру итерации, arg min J (d) — значение аргумента, при котором достигает минимума функ- d^O ция J (d).— Прим, перев. 2) Легко показать, что если направления рг, pj попарно ортогональны относительно матрицы А (т. е. если p'fApj = 0 для всех I у), то квадратич- )— 1 ная форма Q (и) = итАи + Вти + С при u<r> = u<°> — принимает г=0 ВИД г- 1 Q(u<r>) = Q {dlpTApi-dip? (2Au^ + b)} + Q («<«>). 4=0 Вследствие попарной ортогональности (сопряженности) векторов рг, Pj относительно матрицы А произведения didj, i =/= j, не входят в выражение для Q (di). Следовательно, минимизация Q (dt) по dt может производиться независимо от остальных dj, j =/= i. Поэтому последовательная минимизация по каждому из п направлений рг приводит к абсолютному минимуму квадра- тичной формы Q (и) на всем пространстве Un = Rn (если такой минимум существует).— Прим, перев.
Численные методы 289 сти оптимума достаточно хорошо аппроксимируется квадратичной формой, то следует ожидать быстрой сходимости. Обобщение этого метода на задачи оптимального управления можно найти в работе [6.11]. Задача. Требуется проверить выполнимость уравнения (7.8.1) для описанного выше алгоритма в случае J (и) = = Vz (м — и)Т А (и — и) и показать, что d/ Ju (иУ) рi!рi Арi. 7.9. Задачи с ограничениями в виде неравенств на фазовые и управляющие переменные Все ранее рассмотренные в данной главе алгоритмы применимы к задачам, в которых отсутствуют ограничения в виде неравенств, содержащих управляющие и/или фазовые переменные. Таким образом, эти алгоритмы применимы только в тех случаях, когда критерий качества и/или уравнения системы являются нелиней- ными. Задачи линейного оптимального программирования при правильной постановке непременно должны содержать ограниче- ния на управляющие и/или фазовые переменные. В таких задачах решение всегда лежит на границе допустимой области, и вычисли- тельная задача сводится к определению момента переключения с одной границы ограничения на другую, а также того, с какой именно границы производить переключение и на- какую (при числе границ ограничений больше двух). В нелинейных задачах с ограничениями на управляющие и/или фазовые переменные часть решения может лежать на границе допустимой области (граничный участок решения), а часть — внутри допустимой области (участок свободного, нестесненного решения). Интегральные штрафные функции. Простейший, но не обя- зательно наиболее эффективный подход к решению задач с огра- ничениями состоит в использовании интегральных функций штра- фа. Если ограничение в виде неравенства С (х, и, t) 0 (7.9.1) задано на интервале t0 t tf, то критерий качества J может быть преобразован путем введения дополнительного слагаемого (штрафа) к виду J = J[С(х,и, t)]2E(C)dt, (7.9.2) <0 где f ° ПРИ С<0> £(С) [1 пр» С>0. (7.9.3) 19—0102
Соответствующим выбором постоянной ц (положительной, если J минимизируется, и отрицательной, если J максимизируется) ограничение (7.9.1) может быть приближенно удовлетворено. Вообще говоря, чем больше выбранное значение | ц |, тем меньше будет значение интеграла в (7.9.2). Однако если | ц | взято слиш- ком большим, то итерационные алгоритмы, рассмотренные в разд. 7.3—7.8, будут в основном стремиться удовлетворять ограничение, а не минимизировать (или максимизировать) исход- ный критерий качества J. В результате сходимость к удовлетво- рительному решению будет весьма медленной (см. разд. 1.10 отно- сительно аналогичной ситуации в задачах оптимизации пара- метров). Метод сопряжения граничных и свободных участков решения. Более эффективный подход к решению задач с ограничениями состоит в сопряжении друг с другом граничных и свободных участков решения. Он основан на использовании необходимых условий, описанных в разд. 3.10 и 3.11. В противоположность методу интегральных штрафных функций такой подход способен обеспечить нахождение точного решения и требует меньших затрат машинного времени. Однако при его использовании необ- ходимо предварительно задавать последовательность граничных и свободных участков. Кроме того, программирование этого метода на ЦВМ оказывается более сложным. Для описания метода рассмотрим довольно общий пример, состоящий в определении управления и (Ц, минимизирующего критерий качества V J — ф [х (tf)] 4- j L (х, и, t) dt (7.9.4) <0 при условиях х — / (х, и, t), х (t0) задано, tf задано (7.9.5) и С (х, и, t) < 0. (7.9.6) Здесь Сии — скалярные функции. Допустим, что есть основание предполагать, что оптимальная траектория состоит из трех сле- дующих участков: а) свободного участка (С < 0) для t0 t Ц, б) граничного участка (С = 0) для Ц t t2, в) свободного участка (С < 0) для t2 t tf, однако значения х (Ц), tf, х (t2), t2 априори неизвестны. Предпо- ложим, что можно найти номинальную (неоптимальную) траекто- рию, которая удовлетворяет условиям (7.9.5) и (7.9.6). Далее можно попытаться найти такие малые изменения 6u (t) номи- нальной программы управления, которые уменьшают J и одно-
Численные методы 291 временно удовлетворяют тем же условиям. Для этой цели можно использовать алгоритм градиентного метода первого порядка, аналогичный рассмотренному в разд. 7.3, но с модификациями, учитывающими, что при С (х, и, t) = О и (х, t) определяется из этого условия (С = 0), (7.9.7) = - Lx - kTfx - [iCx, (7.9.8) -Cu(Lu + KTfu)>0. (7.9.9) Время ti определяется как момент, когда впервые выполнится условие С = 0, а время t2 определяется как момент обращения в нуль р, (далее ц отрицательно) х). Заметим, что неравенство р > 0 на ограничении С = 0 является* необходимым условием. Управление и (£) может быть разрывным в точке и/или в точ- ке t2, если гамильтониан Н имеет два или более минимума по п; однако сам гамильтониан Н должен быть непрерывным в точ- ках ti и t2. Общий алгоритм работает по-разному на разных интер- валах. На свободных участках вычисляется поправка бп = —еЯ„, а на граничном участке используются уравнения (7.9.8) и (7.9.9) для вычисления К (t) при движении вдоль ограничения, при этом X (t) остается непрерывным в точках и t2. Дальнейшие детали метода можно найти в работах [2.10] и [6.7]. 7.10. Задачи с ограничениями в виде неравенств на фазовые переменные Для задач с ограничениями на фазовые переменные применим метод интегральных штрафных функций и справедливы соответ- ствующие рассуждения из разд. 7.9. Однако метод сопряжения граничных и свободных участков решения, использующий алго- ритм градиентного метода первого порядка, более сложен, поскольку в общем случае, для любого граничного участка функ- ции к (t) разрывны в точках входа на границу и схода с нее. Нару- шение непрерывности происходит вследствие того, что решения, соответствующие свободным участкам, должны касаться решений, соответствующих граничным участкам, в точках их соединения; это требование приводит к появлению так называемых ограниче- ний для внутренних точек (разд. 3.11). Если ограничение имеет вид £(£,£)< 0, (7.10.1) х) Эта ситуация обычна. Однако в точке i2 (схода с ограничения) в более сложных случаях может быть ц (/2) #= 0 (см., например, разд. 8.6). 19*
292 Глава 7 то на граничном участке (S = 0) уравнения (7.9.7) — (7.9.9) будут применимы, если заменить в них С {х, и, t) на 5<9> (х, и, t) х). Как и в разд. 7.9, общий алгоритм работает различным образом на граничных и свободных участках, но при этом дополнительное усложнение состоит в решении возникающей здесь многоточечной краевой задачи. Дальнейшее обсуждение этих вопросов можно найти в работах [2.10] и [6.7]. Некоторые задачи с ограничениями в виде неравенств на фазовые переменные могут быть разделены на две полностью не связанные друг с другом двухточечные краевые задачи. Эта возможность является большим упрощением, она исследована Спейером, Мехра и Брайсоном2) (см. также разд. 3.12). 7.11. Применение методов математического программирования Если принять во внимание, что большинство задач оптималь- ного управления должно решаться численно с помощью ЦВМ, то всегда можно рассматривать задачу определения и (t) на интер- вале t0 t tf как эквивалентную задаче нахождения после- довательности и (0), и (1), . . ., и (N — 1) [т. е. некоторого дис- кретного эквивалента и (t)]. Рассмотрим систему х (i + 1) = /г [х (t), и (г)], х (0) задано, (7.11.1) с ограничениями С1 [х (i), и (/)] 0, i = 0, 1, . . ., N — 1, N задано; (7.11.2) критерий качества JV-1 J = ^[x(JV)] + 3 Ll[x(i), u(i)]. (7.11.3) i=0 Положим теперь (согласно разд. 1.7) уТ = [х (1), . . ., X (N); и (0), . . ., и (N - 1)], L (у) = J I) У<3> (х, и, t) — полная производная g-го порядка по времени • от S (х, £), в которой х последовательно заменяется правой частью уравне- ния х = f (х, и, t). Порядок q — наименьший, при котором управление и явно входит в SW (разд. 3.11).— Прим, перев. 21 J. L. Speyer, R. К. М ehr а, А. Е. В г у s on, The Separate Com- putation of Arc of Optimal Flight Path with State Variable Inequality Constra- ints, in «Advanced Problems and Methods for Space Flight Optimization», Ed. by B. Fraeijs de Veubeke, Pergamon Press, Oxford, 1969.— Прим, перев.
Численные методы 293 и введем Ж (1) —/О [Ж (0), 14(0)] //7Л= U(N-1)] lvy> С°[х(О), u(0)] [х (IV-1), u(JV-l)] Итак, задача свелась к уже рассмотренной задаче разд. 1.7, т. е. к определению вектора у, который минимизирует L (у) при ограничении / (у) 0. Если применить необходимые усло- вия (1.7.12) и (1.7.13) к введенным уравнениям, то будут получены обычные необходимые условия для дискретных по времени задач оптимального управления. Очевидно также, что и более сложные дискретные задачи оптимизации могут быть преобразованы ана- логичным образом и соответствующие им необходимые условия могут быть выведены из основных условий (1.7.12) и (1.7.13). После того как эти условия определены, . численное решение заключается в итерационном нахождении последовательности и (f), которая удовлетворяет необходимым условиям. Степень слож- ности осуществления двух этапов итерационного процесса, опи- санных в общих чертах в разд. 1.9 (т. е. нахождение допустимого решения и допустимого направления улучшения этого решения), в большой степени определяется характером конкретной задачи и принятым методом дискретизации или параметризации. Пример. Управление, минимизирующее терминальную ошибку. Пусть система описывается уравнением х.(i + 1) = Ф (г) х (г) + d (I) и (г), i = 0, 1, . . ., N — 1, (7.11.4) с ограничением I w (j) | 1, или i = 0, 1, ..., JV—1; (7.11.5) критерий / = 1|ИЛ0||2. (7.11.6) Так как любая последовательность u(i), удовлетворяющая (7.11.5), является допустимой, то первый этап (первый шаг) численного
294 Глава 7 решения достаточно прост. Определим теперь функции Я* (0 = (i + 1) [ф (0 х (0 + d (i) и (0], (7.11.7) (0 = (i-j-1) Фт (0, kT(N) = xT(N). (7.11.8) Путем обычных рассуждений можно установить, что если не учи- тывать ограничение (7.11.5), то dJ ди (i) дН* (i) ди (i) A,T(i + l)d(0. (7.11.9) Следовательно, допустимое улучшение и (0 будет определяться вектором к (0 = < л ,... дН* „ 1 —м(0, если , <;0, L ’ (7.11.10) 4 , ,ч дН* п — 1 — и (г), если - > 0. v z’ ди (г) Вектор и (0 просто указывает направление на вершину гиперкуба | и (0 | 1 в пространстве управляющих параметров, которая лежит в том же квадранте, где и градиент дН*/ди (0. Это направ- ление всегда является допустимым, так как допустимое решение должно лежать либо внутри, либо на границе гиперкуба. Как далеко следует идти вдоль допустимого направления для полу- чения максимального улучшения, можно определить либо с по- мощью одномерного поиска, либо аналитически. В последнем случае где бн (0 = av (0, (7.11.11) а = Sat ' xT(N)Kv(i) I vT (i) KTKv (i) J К = [Ф (N - 1), . . ., Ф (1) d (0), . . . . . ., Ф (N - 1) d (N - 2), d (N - 1)]. Отметим, что в данном случае, поскольку компоненты ограни- чения [формулы (7.11.5)] не связаны друг с другом [т. е. выбор и (0 не влияет на выбор и (0 при i Ф у], направление допустимо- го улучшения находится легко. В задачах, где ограничение содер- жит фазовые переменные, независимость компонент уже не имеет места. В этом случае определить нужное направление значительно труднее.
Глава 8 Особые решения в задачах оптимизации управления 8.1. Введение В некоторых задачах оптимизации управления встречаются участки экстремалей (Яи = 0), на которых матрица Яии оказы- вается вырожденной. Такие участки называются особыми', они удовлетворяют необходимому условию выпуклости (6.3.12), но не удовлетворяют усиленному условию (6.3.1); другими словами, матрица Нии является только полуопределенной. Для того чтобы установить, является ли особый участок оптимальным, необходи- мы дополнительные исследования. Ниже рассматривается только случай особых участков, наиболее часто встречающихся в при- ложениях, когда гамильтониан- линеен по одной или нескольким управляющим переменным (но является нелинейным по одной или нескольким фазовым переменным). Для таких систем на осо- бом участке в гамильтониане Н коэффициент в члене, линейном по управлению, равен нулю; поэтому необходимое условие экстре- мума Ни — 0 (или условие минимума Н по и) не позволяет опре- делить управление вдоль особого участка как функцию фазовых и сопряженных переменных гик Вместо этого управление нахо- дится из условия, что на особом участке коэффициент при этом линейном члене остается равным нулю; другими словами, произ- водная Ни по времени должна равняться нулю [(d/dt) Ни = 0 на особом участке]. Недавно для особых участков было получено дополнительное необходимое условие, аналогичное условию выпуклости (6.3.12) т). Так, для задачи на минимум с одной управляющей переменной (и — скаляр) можно легко показать, что на особом участке [(4ГЯ«]>»• ‘’°, ч 2............. <8-1Л> Вывод этого неравенства для случая к = 1 приведен в разд. 8.4. Для особых участков до сих пор не разработаны условия, анало- гичные условию отсутствия сопряженной точки (6.3.3); поэтому отсутствуют и достаточные условия оптимальности особых уча- стков. 1) См. работы [8.1—8.3].
296 Глава 8 8.2. Особые решения в задачах оптимизации линейных динамических систем с квадратичным критерием качества Рассмотрим задачу терминального управления разд. 5.2, когда В (£) = 0. В .этом случае критерий качества J является квадратичной формой фазовых переменных х и не зависит от управления и: J = -^хТ (tf) $ xT(t) A(t)x(t) dt. (8.2.1) to Предположим, что матрицы Sf и A (t) положительно полуопре- делены, система уравнений линейная, т. е. х = F (t) х + G (t) и, х (t0), t0, tf заданы. (8.2.2) Отсюда следует, что гамильтониан Н линеен по и-. H^=~xTAx + 'KT(Fx + Gu) (8.2.3) и при этом х = ~FTK — Ах, X (tf) = SfX (tf). (8.2.4) Если и ограничено, то минимум Н по и может достигаться на гра- нице (как это и имеет место в задачах, линейных по переменным управления и фазовым переменным; см. разд. 3.9). В этом случае необходимое условие сводится к тому, что для всех допустимых вариаций 6н ^Gbu > 0. (8.2.5) Однако может случиться, что найдутся интервалы времени, где функции и (t), значения которой не лежат на границах, соот- ветствуют такие К (t), что _^- = X,I’G = O, (8.2.6) ди х ' другими словами, этим и (t) соответствует стационарное решение. Участки траектории, соответствующие этим интервалам, назы- ваются особыми, минимум на них может как достигаться, так и не достигаться. Если и не ограничено, то с помощью управления, содержащего импульсы, систему (8.2.2) можно мгновенно перевести в любые другие состояния. Такие импульсы не изменяют величину крите- рия качества. Таким образом, если с помощью импульса можно
Особые решения 297 перевести систему в состояние х = 0, то это и будет минимиза- цией J, поскольку при этом J = 0! Если такая возможность отсутствует, то импульс можно использовать для перемещения системы на минимизирующий особый участок и далее двигаться по этому участку до тех пор, пока не будет достигнуто состояние, из которого другим импульсом система переведется в точку х = О (или в состояние х (tf), где хт (tt) Sfx (tf) = 0, что менее сложно, когда матрица Sf является полуопределенной). Отметим, что в любом случае условие (8.2.6) не дает непосредственной инфор- мации для определения таких управлений. Пример 1. Автономная линейная система второго порядка с одной управляющей переменной и критерием качества, содержа- щим квадратичную форму только от фазовых переменныхх). Частным случаем такой системы является система с двумя фазо- выми и одной управляющей переменными, где Ч J = ±^x\dt, (8.2.7) о ад = ^2 + и, х2 = —и; Xi, х2, и — скалярные функции, (8.2.8) хх (0), х2 (0), tf заданы, xt (tf) = х2 (tf) = 0. Эта задача линейна по и, но нелинейна по Xi в силу выбранного критерия качества. Гамильтониан задачи Н = (х2 и) -j- А.2 (—и) -j—xi> (8.2.9) причем (8.2.10) Особыми участками должны быть такие, где на конечном интервале времени -^-=^1-^ = 0. (8.2.11) На этом интервале <8-2-12) или —X} Zq 0. Поскольку гамильтониан Я явно не зависит от t, то на оптималь- ном решении он должен быть постоянным: Я = у + А,2) и = const. (8.2.13) 0 Пример 1 аналогичен примеру, рассмотренному К. Джонсоном и Дж. Гибсоном в работе «Singular Solutions in Problems of Optimal Control», IEEE Trans. Automatic Control (Jan. 1963).
298 Глава 8 Учитывая, что на особом участке дН/ди = (d/dt) (дН/ди) = О, получаем соотношение Н — у х\ + х^хг = const, (8.2.14) которое на плоскости (х^, х2) соответствует однопараметрическому семейству особые участков (гипербол) (фиг. 8.2.1). Фиг. 8.2.1. Оптимальная траектория примера 1, включающая, особый участок. Если воспользоваться тем, что d2 / дН \ •, : „ *2 ("аг) — О, то получим —х2 — и — xt = О, т. е. что закон управления на особом участке н = — + х2) является линейным. Отметим, что -д (Г / дН \ . „ ди dt? ди / 1 (8.2.15) (8.2.16) (8.2.17) Таким образом, упомянутое в разд. 8.1 обобщенное условие выпук- лости выполняется. Если и не ограничено, то ясно, что, используя в управлении импульсы типа 6-функции Дирака, можно мгновенно изменять состояние системы вдоль прямых xt -j- х2 = const; положитель- ные импульсы переводят состояние вниз и вправо (фиг. 8.2.1), а отрицательные — вверх и влево. Такие перемещения не изме- няют критерий качества, поскольку и не входит в его выражение.
Особые решения 299 На особом участке, используя (8.2.16), получаем Xi = Х2 — (Х1 + хг), Xi + Xi = О, Xz — Х1 + Х2’ Хг — Хг = Xi, откуда Xi = се"1, где с = const, (8.2.18) т. е. величина Xi уменьшается со временем по экспоненте; направление движёния вдоль обеих ветвей особого участка показано на фиг. 8.2.1 стрелками. Таким образом, типичное экстремальное решение включает (фиг. 8.2.1) начальный импульс, переводящий начальное состояние на особый участок (в момент t = 0+), дальнейшее движение вдоль особого участка до прямой х, + хг = 0 и второй импульс, переводящий состоя- ние в начало координат. Значение постоянной Н, которое выделяет конкретный особый участок из однопараметрического семейства возможных, определяется из условия, что в момент t — tf состояние должно стать таким, чтобы xt х2 = О J). Непосредственно проверяется, что -2tf Н= -2с2—е (8.2.19) 1 —е f где с = Xi (0) + х2 (0) 2). Также можно показать, что ®i(0 + ) = — ’ ж2(0 +) = ТБТу ’ (8.2.20) Xi (t) = Xi (0 + ) е~*, xz (t) = Xi (0 + ) sh t^xz (0 + ) e‘. (8.2.21) Далее, если и ограничено, то для того чтобы попасть на особый участок и затем сойти с него, нужно вместо импульсов типа б-функции Дирака пользоваться максимальными или минималь- ными значениями и; такая задача для случая tt —>- оо исследова- лась Джонсоном и Гибсоном. Итак, оптимальное решение пред- ставляет собой комбинацию управления на упорах и линейного закона управления (особые участки). Пример 2. Автономная линейная система общего вида с крите- рием качества, содержащим только квадратичную форму от t х) Конечно, для того чтобы доказать оптимальность такого решения, нужно сравнить его с другими комбинациями особых и импульсных участков, реализуемыми другими импульсами, которые приходят в начало координат и остаются в нем до момента tf. В последнем случае величина х будет больше, но она будет интегрироваться на меньшем интервале времени. См. задачу этого раздела. 2) В задаче Гибсона и Джонсона ty -* оо, так что Н -> 0. В этом случае особыми участками являются вырожденные гиперболы, а именно две прямые: + 2ж3 = 0 и Xi = 0.
300 Глава 8 фазовых переменных J = L{xTSfX)l=4+l. j xTAxdt, (8.2.22) о х = Fx + Gu, x (0) и tt заданы, (8.2.23) A, F, G — постоянные матрицы, x — n-мерный вектор, и — m-мерный вектор. На оптимальном решении Н = хТАх + № (Fx + Gu) = const (одно уравнение), (8.2.24) № = _)TF _ хтА, X (tf) = SfX (tf). (8.2.25) На особых участках -^- = A,TG = O (m уравнений), (8.2.26) ("^г) = —hTG= —(ATF-|-хтA) G = 0 (т уравнений), (8.2.27) dt2 \ ди / = (KTF + хтA) FG - (xTFT + uTGT) AG = О, откуда u = — (GTAG)~lGT[(AF — FTA)x — FTFTK\ (8.2.28) и матрица GTAG должна быть невырожденной. Системы (8.2.24), (8.2.26) и (8.2.27) содержат 2m + 1 уравнений для X и х, которые в 2тг-мерном пространстве (х, К) определяют семейство возможных особых участков. Соотношение (8.2.28) задает линейный закон управления, имеющий место на особом участке. Если матрица А является положительно определенной, то выполняется обобщенное условие выпуклости = (8.2.29) ди L dt2 \ ди / J ' ' Более подробное исследование этой проблемы можно найти в рабо- те [8.4]. Задача. Система в примере 1 является полностью управляемой, и поэтому с помощью достаточно большого управления ее можно за достаточно малое время перевести в начало координат; так, например, управление и(0), 0<4<А, u(t) = < u (A), A<i<2A, 0, 2А<£<£/:
Особые решения 301 переводит систему в начало координат за время 2А, где А -> 0. Покажите, что, несмотря на то что критерий не содержит и, такое управление хуже особого. 8.3. Особые решения в задичаю оптимизации нелинейных динамических систем В предыдущем разделе рассматривались лишь случаи, когда гамильтониан Н был линейным по управляющим переменным и квадратичным по фазовым переменным. В этом разделе ограни- чение на тип нелинейности гамильтониана по фазовым перемен- ным будет ослаблено, но предположение о линейности Н по управ- ляющим переменным будет сохранено Исследуем проблему минимизации функции ф [х (£/)] (8.3.1) при ограничениях х = / (х) g (х) и, t0 t tf, х (£0) задано, (8.3.2) ф 1х (£/)] = 0, (8.3.3) где х — тг-мерный вектор, и — скаляр 1 2) и ф — «/-мерный вектор. Гамильтониан является линейным по и, и предполагается, что он нелинеен по х: Н = fJlf (х) + g (х) и]. (8.3.4) Необходимые условия стационарности решения включают соот- ношение Ни = lTg = 0, (8.3.5) где X, =—[A, (fx-\~gxu)]> (if)= (фх + ,У'гфх)(=^- (8.3.6) Управление и (А,, х)- непосредственно из формулы (8.3.5) опреде- лить нельзя, так как она не содержит и, тем не менее может ока- заться возможным найти на конечном интервале времени такое и (if), что соотношение (8.3.5) будет выполнено; тогда как след- ствие 4(^) = ^+XTg=(^x)i + XTg = 0. (8.3.7) 1) Данный пример не является наиболее общим, но он включает боль- шинство тех важных случаев, которые встречаются в современных прило- жениях. 2) Это не является серьезным ограничением, так как в векторном случае выкладки этого и следующего разделов проводятся для каждой компоненты вектора и.
302 Глава 8 Подстановка (8.3.2) и (8.3.6) в (8.3.7) дает 4 (7М = (/+(А + g=^тч = °- (8-3-8) где q (*) = gxf — fxg- Заметим, что в (8.3.8) члены, содержащие и, взаимно уничтожают- ся, так что это соотношение определяет и (х, X) не в большей сте- пени, чем соотношение (8.3.5). Вследствие этого, снова дифферен- цируя (8.3.8) по времени, попытаемся получить выражения, опре- деляющие и: -4 (Ни) = XTq + KTq = XTqx (f + gu) — XT (fx + gxu) q = = (qxf— fxq) + (qxg~—gxq) u = Q. (8.3.9) Теперь, если только XT (qxg — gxq)=£® [см. (8.1.1)], уравнение (8.3.9) действительно определяет и и = - (8.3.10) Ar(?xg—gx?) В том случае, если соотношения (8.3.5) и (8.3.8) выполнялись в начале (или в конце) особого участка, закон управления (8.3.10) реализует условие стационарности (8.3.5). Все это напомина- ет ограничения типа неравенств на фазовые переменные из разд. 3.1.1. Итак, особые участки (со скалярным управлением) для всех точек 2к-мерного пространства (х, X) невозможны; в силу (8.3.5) и (8.3.7) они ограничены гиперповерхностью размерности 2п — 2, которая называется особой поверхностью. Для стационар- ных систем со свободным временем размерность особой поверхно- сти равна 2п — 3, поскольку гамильтониан равен нулю на всем промежутке времени Н = Хг (/ + gu) = 0, или с учетом (8.3.5) Н = KTf = 0. (8.3.11) Для стационарных систем со свободным временем и п = 3 урав- нения (8.3.5), (8.3.8) и (8.3.11) являются линейными и однород- ными по Х15 Х2, ^з- Совместность этих трех уравнений требует равенства нулю определителя из коэффициентов при Х15 Х2 и Х3. Это приводит к соотношению, определя’ющему особую поверх- ность в пространстве фазовых координат (см. ниже пример с зонди- рующей ракетой).
Особые решения 303 Пример. Определение программы тяги для максимизации высо- ты подъема зондирующей ракетых). Простой вариант задачи можно сформулировать следующим образом. Дана одноступен- чатая ракета с фиксированным запасом топлива. Как следует программировать тягу с тем, чтобы высота подъема была макси- мальной? Уравнениями движения являются v = (1/щ) [Р (t) — Q(v,h)] — g, (8.3.12) h = v, (8.3.13) m = —(1/c) p (t), (8.3.14) где v — вертикальная скорость; h — высота; m — масса ракеты; Р — тяга, управляющая переменная; Q — лобовое сопротивле- ние, заданная функция h и и; g — ускорение силы тяжести (взятое здесь для простоты постоянным); с — удельный импульс (импульс, отнесенный к единице массы сжигаемого топлива). Задача заключается в нахождении тяги Р (t), максимизирую- щей высоту h (tf), когда v (0) =0, h (0) = 0, т (0) и т (tf) заданы, (8.3.15) 0 Р (t) Риакс. (8.3.16) Так как максимизируется h (tf) и v (tf) не задано, то (tf) = 1, К (tf) = 0. (8.3.17) Гамильтониан Н = Х[; (—g j -j- ХдР ~ (8.3.18) линеен по управляющей переменной Р (t). Задача является авто- номной, поэтому на оптимальной траектории гамильтониан Н постоянен; поскольку конечное время не задано, то Н (t) = 0. (8.3.19) х) Эта знаменитая задача была предложена Р. Годдардом в 1919 г. и стро- го сформулирована Г. Гамелем (G. Hamel, Uber eine mit dem Problem der Rakete, Zusammenhangende Aufgabe der Variationsrechnung, ZAMM, 7, № 6, p. 451 (1927). Русский перевод: Г. Г а м e л ь, Об одной задаче вариа- ционного исчисления, связанной с движением ракеты, сб. «Исследование октимальных режимов движения ракет», Оборонгнз, 1959). Важное частное решение получено С. Тзяном и Р. Эвансом (Н. S. Т s i е n, R. С. Evans, Optimum Thrust Programming for a Sounding Rocket, Amer. Rocket Soc. J., 21, № 5 (1951). Русский перевод: С. Тзян и Р. Эванс, Оптимальное программирование тяги высотной ракеты-зонда, см. упомянутый выше сбор- ник). Полное решение проблемы получено Б. Гарфинкелем (В. Garfin- k е 1, A Solution of the Goddard Problem, SIAM J. on Control, 1, № 3, pp. 349-368 (1963)).
304 Глава 8 Уравнения для функций влияния имеют вид 7-0 = rv 1 1 т dv Л’ (8.3.20) 1 dQ т dh ’ (8.3.21) Кщ = Ху P-Q m2 (8.3.22) Максимум Н по и определяется при максимизации выражения Ку Кп т с при этом получаются три возможных решения: Р = Рмакс, если ^>0, (8.3.23) 0< /’|</>макс5 если —-^ = 0 (особый участок), (8.3.24) Р = 0, если (8.3.25) На особом участке I = сХг, — ткт = 0. (8.3.26) Если I = 0, то ясно, что на особом участке и I = 0. Дифферен- цируя (8.3.26) и подставляя в полученный результат выражения (8.3.14), (8.3.20), (8.3.22) и (8.3.26), получаем <8-3-27) Точно так же на особом участке 1 = 0. Дифференцируя (8.3.27) и подставляя в результат соотношения (8.3.12) — (8.3.14), (8.3.20) — (8.3.22), (8.3.26) и (8.3.27), получаем выражение для тяги Р = Q + mg + ir 2с С2 (a2Q/ap2) х[-<?(е+с4?-)+»<'-’)<8-3-28» Таким образом, выражение (8.3.28) является нелинейным законом изменения тяги на особых участках. Семейство возможных особых участков в пространстве фазо- вых координат определяется условием совместности системы уравнений (8.3.19), (8.3.26) и (8.3.27) с, 0, —т =0
Особые решения 305 ИЛИ Q + mg—'LQ-v^Q, (8.3.29) что соответствует поверхности в пространстве фазовых координат, т. е. в пространстве (и, h, т). Если Q (v, h) монотонна как по v, так и по h (что обычно и имеет место), то, как правило, решение задачи содержит только три участка: а) Р = РМакс до тех пор, пока не удовлетворяется усло- вие (8.3.29); б) особый участок с законом управления (8.3.28) до того момента, когда т = т (tf); в) Р = 0 до тех пор, пока v не станет равным нулю. Структура решения имеет вид «ограничение — особый участок — ограничение», что совпадает с результатом примера 1 разд. 8.2. Отметим, что значение т = т (tf) могло бы быть достигнуто на участке «а» с максимальной тягой еще до того, как выполнится условие (8.3.29), в этом случае решение не содержало бы особого участка. Так и происходит, когда Q = 0 (нет атмосферы), посколь- ку в этом случае условие (8.3.29) сводится к т = 0. В задаче, которую рассматривали Тзян и Эванс, поэтому _g_=-2₽^. (8.3.30) dv v dv2* v2* dh dhdv ~ v ' 7 Далее, особая поверхность есть ш£=(1+^)<2. (8.3.31) Нелинейный закон управления на особом участке имеет вид P = Q + mg + ,.,..^t,li. 2,| —(1+-)- 1-2-1. (8.3.32) < . ь 1 1-j 4 (с/г?)2 (ca/?’2) L g \ ' с ) V J ' ’ Тзян и Эванс также не накладывали ограничений на Р, т. е. /’макс “>• оо. Следствием этого является наличие в момент t = 0 импульса достаточной величины (мгновенное сжигание части топлива), переводящего корабль на особую поверхность (8.3.31). Отметим, что за время действия импульса величина те'1!а остается постоянной. Далее, до тех пор пока не израсходуется топливо, пользуются уравнением (8.3.32), после чего начинается участок свободного полета вплоть до максимальной высоты. Задача 1. Другой подход к проблеме особых участков состоит в исключении управляющей переменной и такой замене фазовых переменных, при которой одна из исходных фазовых переменных 20—0102
306 Глава 8 становится управляющей. Уравнениями движения в примере с зондирующей ракетой этого раздела являются v = -~-[P(t) — Q(v,h)] — g, h = v, m=—^P(t). а) Исключите управляющую переменную Р (t) и выберите h и me°lQ в качестве новых фазовых переменных. б) Используя эти новые переменные, сформулируйте необ- ходимые условия первого порядка максимума высоты. в) Пользуясь новыми переменными, сформулируйте условие выпуклости (Лежандра — Клебша). г) Обсудите, как в случае 0 Р (i) /’макс, по вашему мне- нию, следует пользоваться этим подходом для определения всей траектории. Задача 2. Рассмотрите задачу J = ф [я (t/)l, х = Fx + Gu, | u (t) | 1,' tf задано. Покажите, что особые участки не существуют, когда система (F, G) управляема и фх({/> 0. [Указание. См. приложение Б2.] Задача 3. Определение программы изменения тяги, углов атаки и крена, минимизирующих расход топлива на разворот реактив- ного {или ракетного) самолета, летящего на постоянной высоте. (Обозначения и квазиустановившийся случай этой задачи см. в разд. 1.3, задача 8.) Уравнения движения имеют вид mV = —CXQqS — T[C^a2qS -ф- Р (t), mg — C^aqS cos у, пгИф = CyaqS sin у, ГДе q = l^pV2S. При заданных значениях ф (tf) — ф (t0) и т (£0) требуется найти зависимости Р (t), a (t) и у (t), максимизирующие величину т (tf). Покажите, что на оптимальном особом участке у и V опре- деляются уравнениями = l + (-£•)* (з+е-£-)/(1 + еф)-«*Т, где Отметим, что выражения для а и Р определяются затем из уравне- ний движения.
Особые решения 307 8.4. Обобщенное условие выпуклости для особым участков1) Полученное в разд. 6.3 необходимое условие минимума Нии > 0 (8.4.1) является условием выпуклости. На особых участках HUIL = 0, поэтому условие (8.4.1) выполняется, но информация, даваемая этим условием, невелика. Можно получить более полезное необ- ходимое условие, упомянутое во введении к этой главе, которое очень похоже на соотношение (8.4.1), а именно «)]>» Дадим вывод условия (8.4.2) для случая к = 1. Для этого обра- тимся к разд. 6.1, где было получено выражение для второй вариации критерия качества 6V = у [бхгФжжбх]е/4-у J [бхг, бпг] fo НХх^ Нхи HUX, с ограничениями бх = Я>.жбх 4- Ях„6п, бх (t0) = 0, 6Х — —ЯжХбХ — Яжжбх — Нхи8и, 6Х (tf) = [Фжжбх];/. (8.4.3) (8.4.4) (8.4.5) Рассмотрим следующий интеграл, полученный интегрированием уравнения (8.4.5) и тождественно равный нулю: (бкТ + 8кг1х 4- 8иНих 4- бхгЯжзс) бх dt = 0. to Интегрирование первого члена по частям дает -?г [6A,r6x]^4--i- j [ —бХгбх4-(бА,г/ж4-бпЯиж4-бхгЯжх)бх]Й = 0. to Подставляя вместо бх его выражение (8.4.4) и учитывая, что бх(£о) = О, 8kT(tf)~ [бхгФжх]^, получаем -у [бхтФжжбх](/ + 4- j [—• 8кТНКи8и + 8иНих8х 4- 8хТНхх8х] dt = 0. to • (8.4.6) *) Этот раздел основан на работе [8.1]. 20*
308 Глава 8 Вычтем (8.4.6) из (8.4.3): ч 84 = -L j (8хтНхи + 8ктНКи + 8иНии) 8и dt. (8А.1) to Непосредственно дифференцируя и используя уравнения (8.4.4) и (8.4.5), можно показать, что 4 (8.411 хи + 8ктНКи + 8иНии) = = 8хТ (Ни)х + 8кт (Ни)к + 8и (Ни)и, (8.4.8) 4 (8x41 m + 6ХГII-,и + 8иНии) = = 8zT (Ни)х + 8кт (Ни)к + 8и (Ни)и. (8.4.9) Далее, интегрируя по частям (8.4.7) с учетом (8.4.8), получаелт ч 84 = - 4- J 1&т (Ни)х + 8\т (Ни)к + 8и (Ни)и\ 8щ (t) dt + <0 + 4 1(8хтНхи + 8КтНьи + 8иНии)8щ]^, (8.4.10) где . t 8ui(t) = j 8u(t)'dt. (8.4.11) to Точно так же, если проинтегрировать по частям (8.4.10) и воспользоваться равенствами (8.4.8) и (8.4.9), то можно получить ч 84 = ^- (Ни)х + 8кт (Ни)к + 8и (Ни)и) 8и2 (t) dt + <0 + 4 l(8xTHxu + 8%тНКи + 8иНии) — -4 [(8xT(Hu)x + 8kT(Hu)K + 8u(Hu)u)8u2]tf0, (8 4.12) где Ч 8и2 (t) = J 8ut (t) dt. (8.4.13) to
Особые решения 309 Заметим, что подынтегральное выражение в (8.4.12) очень похоже на подынтегральное выражение в (8.4.7). Аналогом слагаемого 8иНии8и здесь является 8и (Ни)и8и2. В неособом случае условие выпуклости Нии 0 является необходимым для наличия мини- мума, так как, выбрав 8и в виде пары положительного и отрица- тельного импульсов большой величины, это слагаемое всегда можно сделать доминирующим. Этой же специальной вариацией 8и воспользуемся в случае особого участка, когда Ни = Нии = 0. Фиг. 8.4.1. Специальные вариации управления и (t), используемые при выводе обобщенного условия выпукло- сти (к = 1). Ясно, что в выражении (8.4.10) всеми членами можно снова пре- небречь, ибо все 8х и 6Х из-за выбора такой пары импульсов прак- тически равны нулю, а (Ни)и = 0, согласно (8.3.7). С другой сто- роны, для 8щ, 8и2 и 8и имеет место ситуация, представленная на фиг. 8.4.1. Если считать (Ни)и в период изменения 8и (фиг. 8.4.1) постоянной, то ясно, что ч § (8и 6и2) dt <0. (8.4.14) to Таким образом, для того чтобы в случае этой специальной вариации выполнялось соотношение 82J 0, необходимо, чтобы (ни)и < 0. (8.4.15) Может оказаться, что Ни не зависит от и или, в более общем случае, что (4)^“ = °’ z = 0’ 11 ’ zn-1’ (8.4.16) а (4Пя“)=а^ (8-4Л7)
310 Глава 8 Процедура, которой следует придерживаться при решении такой проблемы, в принципе та же, что и в рассмотренном выше случае с иг- 2. Можно доказать следующее (см. работы [8.1—8.3]). 1. Переменная т всегда четная. Назовем задачу вырожденной порядка т, если выполняются условия (8.4.16) и (8.4.17). 2. При выполнении условия п. 1 особая поверхность в про- странстве (ж, %) имеет размерность 2п — т. 3. Обобщением условия (8.4.15) является неравенство т/2 д ди >0. (8.4.18) Отметим, что свойство вырожденности инвариантно по отношению к взаимно однозначному преобразованию управляющей пере- менной. Предположим, что и = h (и); тогда для преобразованной системы получаем Н [х, X, h (р)] == Huh„ -= 0, ~Н[х, X, h(v)] = Huuhl + Huhx>1> = 0 и, кроме того, ~ = + H*h„ = Q, аь аъ Но = Huho + Huhv -J- Huhv 4- HjiB = HuuhB, и поэтому то есть I д rr \ I d TT \ И^я\пЧ^>Ч Задача. Пусть и = h (u) v, где v—новая управляющая пере- менная, и J — ф [х (tf), tf] 4- j L (v) dt. о Покажите, что это преобразование не изменяет характера вырож- денной задачи.
Особые решения ail 8.5. Условия в точках сопряжения участков При рассмотрении сопряжения неособого участка с особым и наоборот можно получить дополнительное необходимое условие, по виду аналогичное (8.4.18). Предположим, что оптимальная траектория х (f) попадает на особую поверхность в момент t = t2; тогда из предшествую- щих выкладок (разд. 8.3) получаем Ни (t2) = 0, Ни (*2) = О и ни (h) = № (qxf — fxq) + А.т (qxg — gxq) и. Для t <z t2 и м&лых t2 — t величину Hu можно разложить в ряд Тэйлора Нц (t)=Hu (t2) —На (t2) (t2—t) (i2) (i2—i)a— • • • = = у ~—gxq)u](t2—t)2—... . Так как в момент t траектория по определению не является особой, то и (i) равно своему предельному значению и Ни (t) #= 0. Если и (t) равно наибольшему значению ив [тем самым Ни (t) < 01, то 1ЛТ (qxf — fxS) + № (qxg — gxq) ив] < 0. (8.5.1) Аналогично, если и равняется своему наименьшему значению пн, то (q*f — fxq) + V (qxg — gxq) uB] >0. (8.5.2) Вычитая из первого неравенства второе, приходим к условию, необходимому для того, чтобы был возможным сход с обеих границ управления: V (qxg—gxq) = -^--^2 ("У”) <0. (8.5.3) \^хь ьху qu ^2 \ /в момент ' 7 сопряжения участков Если порядок вырожденности т больше двух, то, продолжая выкладки и учитывая (8.4.17), находим <о, wi = 4, 6, ... . (8.5.4) du ' dtm ди ' 1в момент сопряжения В вырожденных задачах явление сопряжения довольно сложно. С другой возможной формой соединения неособых и особых уча- стков, когда решение «вибрирует» с бесконечной частотой на осо- бом участке, можно познакомиться по работам [8.2 и 8.6].
Глава 8 Задача. Покажите, что: 1. Если т/2 нечетно, то в момент перехода t = t2 от неособого оптимального участка к особому допустим разрыв в управлении. 2. Если т!2 четно, то разрыв в управлении в точке сопряжения недопустим. [Указание. Сравните (8.5.4) с (8.4.18).] 5.6*. Задача распределения ресурсов с ограничениями типа неравенств и особыми участками х) После обсуждения ограничений типа неравенств в гл. 3 и осо- бых участков в этой главе целесообразно рассмотреть пример, полностью использующий рассмотренные теоретические резуль- таты. Формулировка задачи. В упрощенной модели планирования ресурсов национальной экономики имеются две основные фазовые переменные: г — отношение суммарных капитальных затрат к общему числу рабочих (измеряется числом зданий, машин, площадью земельных участков и т. д.); w — отношение числа работающих рабочих к общему числу рабочих (коэффициент занятости). Выработка (общий национальный продукт) на одного работающе- го / есть функция величины rlw, суммарных капитальных затрат,- приходящихся на одного работающего, / (rlw) — отношение общего национального продукта к числу работающих. Эта функция обладает следующими свойствами: / (а) >0, (dflda) >0, (d2//d2a) < 0 при а 0. Выбором двух управляющих переменных, з и I, выработка на од- ного рабочего wf разделяется на три части, при этом з есть доля wf, выделяемая на капитальные вложения, I — доля wf, отводимая на обучение рабочих (образование), 1 — з — I — доля wf, пред- назначаемая на потребление. Между г, w, I и з имеется следующая связь: г = swf (r/w) — (п 4- 6) г, r(t0) = r0, (8.6.1) w = ~ wf (r/w) — (n4'H)u?, w(to) — wo, (8.6.2) где п — коэффициент прироста рабочей силы, б — коэффициент амортизационных отчислений, ц — коэффициент смертности и вы- хода рабочих на пенсию, d — стоимость обучения одного рабочего. х) Эта задача представляет собой весьма элегантный пример математиче- ской экономики.— Прим. ред.
Особые решения 3ia Имеются следующие ограничения типа неравенств на фазовые и управляющие переменные для всех t: 1 > s 4- I, з^О, 1^0, w 1, W >0. (8.6.3) (8.6.4) (8.6.5) (8.6.6) Оказывается, что в рассматриваемой ниже задаче w >0, поэтому условие (8.6.6) будет опущено. Разумным критерием качества может быть ч J — j (1—s — Z) wf (r/w) exp (— yZ) dt, (8.6.7) <0 где у — норма процента (процентная ставка); иными словами, желательно максимизировать общее потребление за планируемый промежуток времени от t0 до lt. Член ехр (—yZ) означает, что сегодняшнее потребление оценивается более высоко, чем потребле- ние в будущем. Эта задача является задачей с ограничениями типа неравенств, на управляющие и фазовые переменные, в которой управляющие переменные входят в систему уравнений и критерий качества линейно (обусловливая возможность особых участков). Решение и анализ. Как и в предшествующих главах, определим гамильтониан *) в виде Н (г, w, Хг, Xw, s, I, Ц, Z) = (1—8 — /)го/ехр(—yZ)4* + [swf— (п + 8) г] + (Л«, + ц) [-J- wf— (п 4- ц) w j , (8.6.8) где ( ОО, w = 1, ' Я=1 0, щ<1, (8.6.9) и условие w — 1^0 есть условие вида S (х, Z) 0 (гл. 3), кото- рое в данном случае является ограничением типа неравенства первого порядка. Сначала рассмотрим случай w < 1, затем w = 1. Случай, когда w < 1. Так как гамильтониан линеен по s и I, то исследование его на максимум можно свести к исследованию х) Мы могли бы определить гамильтониан, присоединяя ограничение на управление типа неравенств (8.6.3) и (8.6.4); тогда можно было бы полагать Ни = 0 даже в том случае, когда фазовые координаты находятся на грани- це (8.6.5). Однако оказалось, что непосредственная максимизация гамиль- тониана (8.6.8) быстрее приводит к цели.
314 Глава 8 его градиента (Яг, Hs) Hi= — exp ( — yZ)j , (8.6.10) Hs = — exP (—ТОЬ (8.6.11) Из геометрических соображений следует, что в зависимости от на- правления grad Н в пространстве координат управления могут представиться семь подслучаев (фиг. 8.6.1): Случай A: Ht >HS, т. е. (Zu,/d) >ХГ. Ясно, что максимум гамильтониана соответствует выбору I = 1 и s = 0. Получающиеся s Прямая з+1=1 gradH= Область допустимых изменений координат управления, задаваемая D неравенствами(8.6.3) и Не Л. Фиг. 8.6.1. Ограничения и воз- можные направления grad Н в пространстве управлений при w < 1. I при этом уравнения системы и уравнения Эйлера таковы: г=—(«4-б)г, —(ге+ (*)]“’, = НТ = -|- (п 4- б) А.г, = - Hw = [ - + (ге + и) ] Хц,. Здесь штрих означает дифференцирование по аргументу. Случай В: Я8 > Hi, т. е. > Ckwld). При этом s = 1 и Z = 0 и по аналогии с предыдущим можно записать уравнения соответствующей системы и уравнения Эйлера. Случай С: Hs < 0, Hi < 0, т. е. < exp (— yt), (Kw/d) < < exp (—yi). Отсюда следует, что s = 0, I = 0 и получаются соот- ветствующие им уравнения процесса. Случай D: Hs = Hi > 0, т. е. (Хш/й) = Хг, откуда s -ф- I = = 1. Это интересный случай вырожденности. Максимизация Н дает одно уравнение для двух управляющих переменных s и I. Следуя правилу, установленному в первых разделах этой главы, продифференцируем дважды по времени характеристическое урав-
Особые решения '315 нение вырожденности — (Хш/й) = 0. В результате получим [/ - (rM f] -df + (6 - |л) d = 0, (8.6.12) f [sw — I (rid)] — (6 — ц) г = 0. (8.6.13) / Решая совместно уравнения (8.6.13) и s + i = 1, находим выра- жения для s и I = w/-(6—р)г _ /(r/d) + (5 —ц)г /к + (г/й)] ’ /[w + (r/d)] с помощью которых можно определить результирующий процесс. Легко можно проверить, что в этом случае особый участок есть прямая, проходящая через начало координат фазового простран- ства. Случай Е: Hs < 0, Hi = 0, отсюда s = 0 и = = йехр (—yt). Этот случай является вырожденным для управ- ляющей переменной I. Дважды дифференцируя равенство — — dexp (—yt) = 0, получаем I/ — (r/w) f] = (п + ц + у) d, (8.6.15) 1= (8.6.16) Случай F: Hs = 0 и Ht < 0, отсюда I = 0, = ехр (—yt). Для этого случая вырождения получаем /' = (« + 6 + у), (8.6.17) S = -^=±1L, (8.6.18) Отметим, что в зависимости от относительных величин ц и ё один из двух вышеупомянутых случаев в силу ограничений (8.6.4) не может иметь места. Однако в любом случае результирующие движения происходят вдоль прямых, проходящих через начало фазового пространства. Будем предполагать, что ц >6. Случай G: Hs = 0, Hi = 0, т. е. Zr = exp (—yt) и 7.w = = d exp (—yt). Дифференцирование этих соотношений приводит к выражениям (8.6.15) и (8.6.17), которым в общем случае удов- летворяют разные значения r/w. Поэтому приходим к выводу, что этот случай двойного вырождения не может иметь места. Случай, когда iv = 1. Если на траектории сохраняется значе- ние w — 1, то ясно, что должно быть iv = 0, что приводит к ‘ (8.6.19) Кроме того, имеем равенство Я;= W2L_exp(-?/) = 0, (8.6.20)
316 Глава 8 из которого не только определяется г|, но и получается (посколь- ку Л < 0) неравенство 3^_exp(_Ti)>0, (8.6.21) означающее, что дальнейшие улучшения возможны, если было бы снято ограничение w 1. Значение s находится в соответствии со знаком величины Hs. Имеются три подслучая, которые пред- ставлены на фиг. 8.6.2. Случай I: Hs >0, т. е. s = 1г— I = If — (п -j- р) d/f]. Случай II: Hs <С 0, поэтому s = 0. Случай III: Hs = 0. Это другой случай вырождения, приво- дящий к выражению для управления «=[(« + р) r]lf, (8.6.22) которое совместно с (8.6.19) дает точку равновесия г = 0, w = 0- Этим завершается перечень возможных случаев. Условия в угловых точках, условия на конце и последователь- ности переходов. Оставшаяся проблема заключается в определе- нии последовательности возможных случаев (т. е. в построении Фиг. 8.6.2. Ограничения и воз- можные направления grad# в пространстве управлений при w = 1. траектории в фазовом пространстве), которая удовлетворяет задан- ным начальным условиям г (0) = г0, IV (0) = w0, (8.6.23) промежуточным условиям в угловых точках и терминальным усло- виям. Условия в угловых точках имеют место в момент выхода на ограничение. w = 1. Они имеют вид [см. (3.13.4) и (3.13.5)1 w (ij) = 1 и Н (^) = Н (1+), (8.6.24) = + (8.6.25) М*7) = МФ- (8.6.26) Рассмотрим две совокупности терминальных условий.
Особые решения 317 Промежуток времени и терминальные условия заданы. Здесь имеем г (#Д = rT, w (tf) = wT, (8.6.27) что приводит к kT (tf) — vT — постоянная, которую нужно определить, (tf) = vw — постоянная, которую нужно определить. (8.6.28) Бесконечный промежуток времени и свободные терминальные условия. В этом случае Хг (оо) = О, Xw (оо) = 0. (8.6.29) Легко проверяется, что в силу того, что уравнения для X,. и Xw однородны и асимптотически устойчивы, это может быть реали- зовано только в равновесном случае III. Подобный результат типичен для моделей, оптимальных по экономичности. Следует, наконец, рассмотреть возможные переходы от одного случая к другому. Исключить некоторые последовательности пере- ходов помогает тот факт, что как Hi, так и Hs являются непрерыв- ными (за исключением момента выхода ^) функциями времени. Фиг. 8.6.3. Схема возможных переходов. Возможные переходы показаны на фиг. 8.6.3. Дальнейшего обсуж- дения заслуживает тип переходов, который связан со сходом с гра- ницы w = 1. Вновь обращаясь к фиг. 8.6.2, отметим, что переход от случая I к случаю В происходит всякий раз, когда Хг — ехр( — ?i)>|v | 5 это означает, что в момент схода возможен разрыв множителя т)- С ДРУГОЙ стороны, переход от случаев II и III к случаям Е
О1О Глава 8 и G может иметь место только тогда, когда величина Л (0 = d exp (—yt) — (t) становится положительной. Для задачи с бесконечным временем и свободными терминаль- ными условиями экономически выгодными и удовлетворяющими всем условиям последовательностями являются В —> D —> I —>- III или А I -> II или или А II -> III Л III Траектории в фазовом пространстве показаны на фиг. 8.6.4. Оптимальность экстремалей и численные результаты. Для установления того, являются ли рассмотренные выше экстремали Фиг. 8.6.4. Пример планирования экономики. Траектории в фазовом про- странстве. оптималями, имеются три подхода. При одном подходе обычно используется свойство выпуклости системы и критерия качества и показывается, что стационарные экстремали являются макси- малями. Второй подход включает проверку вдоль экстремали условий Якоби (сопряженной точки) и Вейерштрасса. Третий под- ход заключается в численном решении задачи, использующем метод, динамического программирования. Для этой задачи ввиду ее дву- мерной природы и сложности аналитических выражений выбран последний подход. Непосредственное решение по методу динамического програм- . мирования проводилось для / (r/w) = (г/ш)“; а = 0,3; п = 0,03; р = 0,15; б = 0,05; у = 0,05; d = 2. Пределы изменения и дискретизации рассматриваемых переменных таковы: 0,5 w (Д 1 (10 делений), 0,8 w (tf) 1, 0 <1 г (t) 4 (40 делений), г (tf) = 4, 5 t 15 = tf (30 делений).
Особые решения 319 Вместо системы дифференциальных уравнений использовалась ее разностная аппроксимация первого порядка. На фиг. 8.6.5 Фиг. 8.6.5. Численный пример нахождения оптимальной траектории для задачи планирования экономики. показана типичная траектория. Видно, что она хорошо согласуется с траекторией на фиг. 8.6.4. Задача 1. Полагая / >0, f >0 и/"<0, покажите, что для случаев D, Е и F выполняется обобщенное условие Лежандра — Клебша (5/5п)[(<?/(/12) Ни] 0. [Указание. В случае D, исключив I с помощью уравнения s + + I = 1, можно перейти к одной переменной.] Задача 2. Пусть х = и Ух — пх и т / = шах 1 (1—и)У xdt, | u| < 1, х, и— скаляры. “ 0 1. Покажите, что эта задача имеет особое решение. 2. Положив и = и, где v — ynpai т J = max 1 Г(1 — и) ] v 0 шяющая переменная, и /”х—dt,
320 Глава 8 покажите, что несмотря на то, что Hvv < 0, эта задача сохраняет вырожденность. Одной из возможных интерпретаций этой задачи является следующая: х — отношение основного капитала к численности насе- ления; Ух — отношение величины национального дохода к основ- ному капиталу; и — доля национального дохода, отводимая на уве- личение основного капитала; (1 — и) Ух — отношение расходов на потребление к числу населения; и — скорость изменения и', п — амортизационная постоянная для переменной х.
Глава 9 Дифференциальные игры 9.1. Дискретные игры В элементарной теории игр рассматриваются дискретные задачи оптимизации таких ситуаций, в которых имеются два участника (игрока) со строго противоположными (конфликтными) интересами. В типичной, так называемой матричной, игре имеется два игрока U и V, каждый из которых обладает набором стратегий ut, i = 1, 2, . . ., т, и Vj, j = 1, 2, . . ., п, соответственно. Для каж- дой пары стратегий ut, uj задан выигрыш J = L (ut, Vj) = Ltj (ставящий в соответствие стратегиям ut и vj число L,j). Числа L{j удобно расположить в виде матрицы с т строками и п столбцами. Игрок U пытается минимизировать выигрыш, а игрок V — макси- мизировать его. Такая игра называется «игрой с полной инфор- мацией» в том смысле, что каждому игроку известна вся вышепере- численная информация об игре (т. е. ut, i = 1, 2, . . ., nv, v}, j = 1,2, . . ., п; Li}), а также то, какую стратегию выбирает другой игрок. В такой ситуации, если V (максимизирующий игрок) играет первым, то он должен, очевидно, выбрать столбец с наибольшим минимумом, поскольку ему известно, что потом игрок U выберет строку с минимумом. Аналогично, если первым играет U (мини- мизирующий игрок), то он должен выбрать строку с наименьшим максимумом, поскольку он знает, что V выберет столбец с макси- мумом. Пример игры с матрицей размерности 2x2 показан на фиг. 9.1.1. vi • v2 V максимизирует 1-11 = 2 Z-12 — 7 ч— Строка с наименьшим максимумом w2 £2i = 5 ^*22 — 9 । 1-----Столбец с наибольшим минимумом U минимизирует Фиг. 9.1.1. Простая дискретная игра. В данной игре оптимальными стратегиями независимо от того, кто играет первым, являются щ и н2, а соответствующий выигрыш 21—0102
322 Глава 9 равен 7, поскольку имеет место соотношение max min Ьц = 7 = min max Ьц vj ui ui vj (первым играет У) (первым играет U) ИЛИ L (ui, vj) < L (щ, v2) < L (uh v2). Стратегии Uj и v2 называются минимаксным решением данной игры * 2). Д1=и Д2 = 7 Д1 = 5 ^22 = 9 pj v2 ч— V максимизирует - Щ и2 t U минимизирует Ф и г. 9.1.2. Дискретная игра, в которой имеет значение порядок игры. Однако выбор стратегий не всегда столь прост. Предположим, например, что значение Ьц изменено с 2 на 11, как показано на фиг. 9.1.2. В этом случае имеем max min Ду=7<^ min max Ду =9. ____ui (первым играет У) (первым играет U) Если V (максимизирующий игрок) играет первым, то он должен выбрать v2, поскольку соответствующий столбец содержит наи- больший минимум, равный 7. Если же играет первым U (мини- мизирующий игрок), то он должен выбрать и2, поскольку это соот- ветствует строке с наименьшим максимумом, равным 9. Таким образом, результат получается различным в зависимости от того, кто начинает первым. Это противоречие можно разрешить, если каждая сторона будет выбирать стратегию случайным образом в соответствии с некотдрой определенной вероятностью 2). В этом В теории игр величина max min носит название максиминной Д UJ (нижней) цены игры, а величина min max Lq — минимаксной (верхней) цены игры.— Прим, перев. 2) Такие стратегии в теории игр называются смешанными.— Прим, перев.
Дифференциальные игры 323 случае, если V выбирает фиксированную стратегию, в то время как U играет случайным образом, то математическое ожидание выигрыша для U при различных вероятностях выбора щ и и2 имеет вид, представленный на фиг. 9.1.3, а (аналогичная ситуа- ция для V показана на фиг. 9.1.3, б). Как видно из фиг. 9.1.3, а, если U играет с любыми значениями вероятностей выбора щ, и2, отличными от тех, когда в половине случаев выбирается ulf а в другой половине — и2, то V может получить большую величину среднего выигрыша, если выберет Фиг. 9.1.3. Пояснения к минимаксному решению дискретной игры фиг. 9.1.2. фиксированную стратегию, указанную над соответствующим участ- ком жирной линии. Точно так же убеждаемся (фиг. 9.1.3, б), что, для того чтобы реализовать максимальный средний выигрыш, V должен играть с такими значениями вероятностей выбора страте- гий Vi и vz, при которых в одной четверти случаев выбирается щ, а в трех четвертях — v2. Равенство Е [min max Ьц\ — 3 — Е [max min Ьц\, р а ра где операции взятия математического ожидания Е и оптимиза- ции (min max, max min) проводятся по двум возможным значе- ниям вероятностей р и q выбора стратегий иг, V; соответственно, не является случайным. Это равенство выражает суть знаменитого минимаксного принципа Неймана и Моргенштерна, согласно кото- рому с помощью рандомизации (случайного выбора) стратегий и рассмотрения математического ожидания выигрыша можно избежать разницы между минимаксом и максимином. Задача 1. Найдите минимаксное решение для платежной мат- рицы, представленной на фиг. 9.1.4, где U минимизирует, а V мак- симизирует выигрыш. 21*
324 Глава 9 vi Ч 3 1 6 2 4 9 12 7 8 9 3 10 Фиг. 9.1.4. Платежная матрица в задаче 1. Задача 2. а) Рассмотрим типичную для динамического программирова- ния задачу о выборе наивыгоднейшего пути (гл. 4, разд. 4.2). Пусть игрок U (минимизирующий) принимает решения на шаге 2, Ф и г. 9.1.5. Траекторная сеть для задачи 2. а игрок V (максимизирующий) контролирует 1-й шаг. Вычислите минимаксную цену игры, соответствующую тому случаю, когда U объявляет выбранную стратегию своей игры первым. Подсчитайте также максиминную цену и покажите, что она меньше минимаксной. б) Сведите эту двухшаговую игру к матричной игре того типа, который описан в этом разделе. Задача 3. а) Рассмотрите задачу о выборе пути, показанную на фиг. 9.1.6. Два игрока А я В попеременно принимают решения, на каждом В Фиг. 9.1.6. Траекторная сеть для задачи 3. шаге выбирая отрезки пути. Игрок А контролирует выбор пути на 1-м и 3-м шагах и хочет максимизировать общие затраты на весь
Дифференциальные игры 325 путь, тогда как игрок В контролирует выбор пути на 2-м и 4-м ша- гах и стремится к минимизации затрат. Определите оптимальные затраты и стратегию для всех узловых точек, в частности для начальной точки. б) Решите ту же задачу, но со следующим усложнением: в каж- дой точке, где принимается решение, у игрока имеются две воз- можности: 1) Выбрать путь детерминированным способом, но при этом заплатить дополнительно 2 единицы (т. е. для игрока А две единицы должны вычитаться из его оптимальных затрат; для игрока В две единицы должны прибавляться к его оптимальным затратам). 2) Выбрать путь случайно, для чего подбросить монету и при- нять решение в зависимости от того, на какую сторону она упадет. Определите оптимальное математическое ожидание затрат и стратегию (детерминированную или случайную) в каждой точке. 9.2. Непрерывные игры Если выбор стратегий кик проводится игроками U и V не- прерывно, а не дискретно, то вместо платежной матрицы Ltj долж- на быть задана непрерывная функция выигрыша L (и, и). Будем рассматривать пару стратегий и0, к0, таких, что L (и0, v)^L (и0, и0) L (и, и°) для всех и, и. (9.2.1) Следуя разд. 1.1, можно утверждать, что необходимыми условия- ми для и° и являются -^ = 0, 4^ = °, (9.2.2) ди dv v ' (9-2-3) а достаточными условиями — соотношение (9.2.2) и условие (9.2.3), в котором сохранено лишь строгое неравенство. Любые u9, и°, удовлетворяющие достаточным условиям, называются теоретико- игровой седловой точкой. Следует отметить, что, как показывают нижеследующие примеры, условия (9.2.2) и (9.2.3) не эквивалент- ны обычным условиям для седловой точки в дифференциальном исчислении, которые имеют вид dL q dL ди ’ dv difl д-[, d2L dv% (9.2.2') (9.2.3') Пример 1. Рассмотрим функцию выигрыша J (и, и) = ~ (и2 — У2),
326 Глава 9 заданную на квадрате —1 и 1, —1 v 1, и найдем ее седловую точку. Из (9.2.2) имеем -^ = 0, ^ = 0. ди dv Отсюда иР = 0, v° = 0, при этом - 1^0 d2L I < ди2 ’ dv2 ’ ди2 Sv2 \ ди ди ) Эта точка является как теоретико-игровой, так и дифференциаль- ной седловой точкой (фиг. 9.2.1). Пример 2. Рассмотрим функцию выигрыша L = и2 — 3uv + + 2г?2, заданную на квадрате —1 и 1, —1 SjwSjl. Для нее условия -|^- = 0, -^- = 0 дают п° = 0, р° = 0, при этом d2L d2L ( d2L \ 2_ du2 dv2 \dudv) Таким образом u°, — дифференциальная седловая точка Фиг. 9.2.1. Геометрия окрестно- сти седловой точки в примере 1. Фиг. 9.2.2. Геометрия окрестно- сти седловой точки в примере 2. (фиг. 9.2.2). Однако d2L/dv2 = 4 >0, поэтому эта точка не являет- ся теоретико-седловой точкой. Можно проверить, что max [min L (и, p)] = maxf —~v2 при п = 3/2гЛ=0 при и = 0, V и V 1- J min [max L (и, р)] = min [и2 + 3 ] и | + 2 при v = — sgn и] — 2 и V и при и = 0, т. е. max min L < min max L. v и и v
Дифференциальные игры 327 С другой стороны, если записать L (и, и) в виде L-=u? — 3uv -f- 2у* 2 = — (2и — Зу)2 — у2, то и° = 0, р° = 0 можно рассматривать как теоретико-игровую седловую точку в системе координат [(2и — Зу), »]• Разница между двумя типами седловых точек обусловлена смешанными членами в функции выигрыша L (и, у). Если д^Ыдиди = 0, то два типа седловых точек совпадают. Такие задачи называют разделимыми (сепарабельными)', для них всегда min max L (и, у) = max min L (и, и), и V V и В последующих разделах этой главы всегда предполагается, что при минимаксимизации функций двух групп переменных условие разделимости выполнено. Поэтому здесь не рассматривается возможность использования смешанных или случайных стратегий при уравнивании разницы между минимаксом и максимином. Задача., Проверьте, что функция L = uv имеет как теоретико- игровую, так и дифференциальную седловую точку. 9.3. Дифференциальные игры1) Естественным обобщением материала разд. 9.1 и 9.2 на дина- мический случай являются задачи, известные под названием диф- ференциальных игр 2). Такая задача может быть сформулирована следующим образом. Дана динамическая система х = / (х, и, v, t), х (t0) = х0, граничные условия ф [х (tf), tf] — О, критерий качества J = ф [х (tf), tf] + J L (x, и, v, t) dt. to Требуется найти такие u° и у0, чтобы J (и°, v)^J (и°, у0) < J (и, у°). (9.3.1) (9.3.2) (9.3.3) (9.3.4) 4 Теория дифференциальных игр была создана Р. Айзексом одновремен- но и независимо от развития теории управления [9.1, 9.2]. 2) Другим естественным обобщением могли бы быть последовательные, или многошаговые игры. В этом кратком обзоре они не рассматриваются.
328 Глава 9 Если просмотреть выкладки гл. 2, то можно обнаружить, что вывод необходимых условий первого порядка определяется только сооб- ражениями стационарности, а не максимизации или минимизации функционала J. Естественно ожидать поэтому, что необходимые условия сформулированной выше задачи на минимакс можно получить аналогичным образом; в результате будем иметь Н = V/ + L, (9.3.5) V = —Нх, №(tf) = Фж(//), (9.3.6) Ни =0, Hv = 0, (9.3.7) или Н° = max min Н. (9.3.7') V и Несмотря на то что непосредственное применение соотношений (9.3.5)—(9.3.7') часто дает полезные результаты (разд. 9.4i, сле- дует соблюдать некоторые предосторожности. Прежде всего, уравнения (9.3.7) или (9.3.7') содержат минимаксимизацию функ- ции Н от переменных и и v. В общем случае теоретико-игровая седловая точка не существует, если явно не предполагать, что функция Н разделима (разд. 9.2). К счастью, в большинстве при- кладных задач / = /t (ж, u, t) -Ь /2 (*, У, t) и L = Li (х, и, t) + L2 (х, v, t); при этом функция Н разделима. В дальнейшем предполагается, что функции / и L имеют указанный вид. Однако стоит отметить, что разделимость функции Н, вообще говоря, не означает разделимости функционала J, а именно это нас и интересует. Справедливость разделимости функционала J проверить трудно, в большинстве случаев она просто не имеет места. Например, пусть 2 ,/=Z2(3) + 3 [«(О2-’ (021 i=0 и динамическими уравнениями будут х (j 1) = х (г) + и (г) + v (j). Непосредственная подстановка показывает, что в данной задаче функционал J не является разделимым [есть члены с произведе- ниями и (i)v (г)], а функция Н разделима. В общем случае это озна- чает, что стратегии, полученные из решения двухточечной крае- вой задачи (9.3.5) — (9.3.7), могут не удовлетворять условию седло- вой точки (9.3.4). Однако это не снижает ценности вариационного подхода, поскольку во многих управляемых ситуациях бывает
Дифференциальные игры 3291 желательным встать на точку зрения, согласно которой одна из сто- рон всегда будет играть первой. Например, в расчетах на «наихуд- ший случай» мы предполагаем, что природа достаточно умна, чтобы определить наихудшее v (t); однако мы не предполагаем, что при- рода настолько сообразительна, чтобы изменить v {£), после того как игра началась. Другими словами, рассчитывая на наихудший случай, мы неявно предполагаем, что природа играет первой, заранее объявляя о v° (t). Таким образом, сведения о максимине- или минимаксе, даже если они не равны, все же могут быть полез- ными. Второе соображение относится к интерпретации и° и v° в урав- нении (9.3.4) как стратегий в разомкнутых или замкнутых системах. Ф и г. 9.3.1. Простая двумерная игра преследования. ЖА = иХ’ У А “ иУ< 'ХВ = У В = ®й- Игран U л Игран v -----*-х В обычной детерминированной задаче управления разницы между разомкнутой и замкнутой схемами управления нет; в случае игры ситуация иная. Это утверждение можно пояснить на простом примере. Рассмотрим двумерную задачу преследования с простой кине- матикой, критерием качества которой является квадрат промаха в фиксированный конечный момент времени tt (фиг. 9.3.1). Огра- ничения: || и ||2 1 и || v ||2 < 1/4. Проверкой убеждаемся, что - иу _ = -1 - .0 _ , (9.3.8) ' Уу. — ’1/2- . о; (9.3.9) J (ufi, р0) = ^_ (хв(0)+-1^) ]2. В форме управления с обратной связью имеем Хв— ХА н0(0 = У(^в—^а)2 + (г/в—г/л)2 у в — У А = ки(х, t) (9.3.8') _У(х — ха^ЛДУв — Уа)2_
330 Глава 9 и аналогично 1 v° (0 = V и° (0) = kv (х, t)г). (9.3.9') Очевидно, ЧТО при условии ув (0) -- У А (0) = 0 и хв (0) — rv2i управление р° (t) = I является оптимальным независимо от того, определяется ли и° (t) выражениями (9.3.8) или (9.3.8') или каким-либо иным путем * 2). С другой стороны, совершенно неясно, будет ли при тех же начальных условиях Г 11 0 оптимальным, если р° (Г) определяется с помощью формулы (9.3.9'), включающей обратную связь. Действительно, простым рассуждением можно показать, что и°(£) = тирует значение J если tf н»(0 = ’1' 0 гаран- _ [tf — (хв (0) + 1/2tf)]2 только в том случае, хв (0) — хА (0). Более того, значение критерия при '11 0 будет больше того значения, которое можно было бы получить, если бы управление (9.3.8') использовалось тогда, когда V играет неоптимальным образом. Математически это объясняется тем, что второе неравенство в (9.3.4) можно рассматривать двояко: min J [и, к0 (£)] = J [u° (f, х0, t0); у0 (£)], (9.3.10) «(О min J [u, kv (x, £)] = J [u° (t; x0, tQ); kv (x, £)]. (9.3.10') u(i) С точки зрения игрока U, соотношения (9.3.10) и (9.3.10') описы- вают две различные задачи обычного («одностороннего») управления. Соотношение (9.3.10') представляет более сильный случай опти- мальности. Оно означает, что и° должно быть оптимальным, несмотря на действия противоположного игрока, чье управление вырабатывается по типу обратной связи; иными словами, игрок V может немедленно воспользоваться любым неоптимальным шагом, сделанным игроком U. Оптимальные управления и° (t), полу- ченные по (9.3.10) и (9.3.10'), вообще говоря, будут разными (более точные результаты см. в разд. 9.4). Итак, общая процедура решения задач дифференциальных игр состоит в основном из двух этапов: х) Предполагается,'что в момент tf перехвата не происходит. 2) Нетрудно убедиться, что утверждение об оптимальности v° (f) = = [1/а,0]т при произвольном и не является справедливым.— Прим, перев.
(9.3.11) (9.3.11') (9.3.12) (9.3.13) Дифференциальные игры 331 1) Определение и° и v° либо путем решения двухточечной крае- вой задачи [формулы (9.3.1), (9.3.2), (9.3.5) — (9.3.7)], либо с по- мощью метода динамического программирования (см. задачу этого раздела). 2) Раздельная проверка неравенств (9.3.4) путем решения двух обычных задач управления с использованием и0 и к0 в разомкну- той или замкнутой форме. Следует подчеркнуть, что проверка 2 необходима при установ- лении седлового свойства решения. Существование решения 1, как видно из предшествующих рассуждений, вообще говоря, не означает, что седловая точка достижима. Проверочный зтап 2, как это и следовало ожидать, приводит к различным необходимым условиям второго порядка. Эти условия имеют вид Я°„>0, Я°с<0, или Я (х, К, t) = min max Я (х, %, и, и, t), u£U 1>£У отсутствует сопряженная точка для задачи J (и°, v°) — min J (и, v°), и где ( v°(t; х0, t0), VQ = \ [ kv(x, t), отсутствует сопряженная точка для задачи /(u°, n°) = maxJ(u°, и), V где ( и° (t; Xo, t0), и°= ( , . . I ки(х, t). Таким образом, чтобы установить наличие седловой точки, нужно показать, что в (9.3.12) и (9.3.13) и0 и v° одинаковы. Пример. Минимаксный конечный промах при ограниченном ускорении. В игре преследования управлением преследователя является его ускорение ар (t), нормальное к начальному направ- лению линии визирования на преследуемую цель. Управлением преследуемого также является его ускорение ае (t), нормальное к начальному направлению линии визирования. Относительная скорость вдоль начального направления линий визирования такова,
332 Глава 9 что среднее время до наибольшего сближения равно tf. Если v (i) есть относительная скорость, перпендикулярная начальной линии визирования, а у (t) — относительное смещение, перпендикуляр- ное той же линии, то уравнениями движения будут *) v = ар — ае, v (t0) = Vo, (9.3.14) У = v, у (t0) = 0. (9.3.15) Преследователь стремится минимизировать конечный промах | у (tf) тогда как преследуемый хочет его максимизировать. Таким образом, за критерий качества можно взять J = ily(h)]*- (9-3.16) Ускорения преследователя и преследуемого ограничены: |ар|<арт| (9.3.17) \ав\<ает J’ W аРт>ает- (9.3.18) Решение начинается с построения гамильтониана Н — Kv (ар — ае) + Kyv. (9.3.19) Сопряженными уравнениями будут = -Ку, Kv (tf) = 0, (9.3.20) Ку = 0, Ку (tf) = у (tf), (9.3.21) а условиями оптимальности — (t) = —арт sgn К„, (9.3.22) (t) =ает sgn Kv. (9.3.23) Сопряженные уравнения легко интегрируются Kv (t) = (tf — t) у (tf), (9.3.24) Ky (ty = У (if) ~ const, (9.3.25) и поэтому понятно, что sgn Kv (t) = sgn у (tf) = const. (9.3.26) Подставляя (9.3.26) в (9.3.22) и (9.3.23) и далее в (9.3.14) и (9.3.15), получаем простую систему дифференциальных урав- нений, решение которой можно записать в виде у (tf) = v0 (tf — t0) — 1- (apm — aem) (tf — t0)2 sgn у (tf), (9.3.27) О Это игровой вариант примера 2 разд. 5.2, в котором квадратичный штраф для ускорения заменен на ограниченное ускорение.
Дифференциальные игры 333 откуда и определяется у (tf). Итак, имеем 2 & [ tf-10 а<гт)] ’ если г;—ттт ; > 1 > {tf— to)(apm~aem) У(М = { ! Г -2уп ,-1 (У-3-2а) 2 М [Z/_Zo (аР™ 2i?o а если 77 7-7-7 г < — 1. (V — W \арт — ает) Для ' — 1 < Э2 < 1 (9.3.29) (4у —10) (арт — ает) решение уравнения (9.3.27) не существует. Действительно, для этой совокупности начальных условий преследователь всегда мо- жет свести промах к нулю, т. е. получить у (tf) — 0. Например, это можно сделать, выбрав ар (t) так, чтобы ap(t)=ae(t) + ^-. (9.3.30) Задача 1. В рассмотренном примере проверьте седловое свой- ство решения (9.3.22), (9.3.23) и (9.3.28). Задача 2. Докажите справедливость равенства — = min max Н (х, Jx, v, и, t), и V которое является аналогом равенства (4.2.15). 9.4. Линейные игры преследования с квадратичным функционалом Р-41) Пусть имеются две динамические системы: хр = Fpxp + Gpu, хр (to) задано, (9.4.1) хе = Fexe + Gev, хе (t0) задано; (9.4.2). здесь индексы р и е обозначают соответственно преследователя и преследуемого, а матрицы Fp, Fe, Gp и Ge определяются обыч- ным для линейных систем общего вида образом. При перехвате цели преследователь пользуется управлением и (t)', стремясь уйти от погони, преследуемый использует управление v (t). х) См. также М. Ю. Гаджиев, Автоматика и телемеханика, 23, № 8, 9 (1962).— Прим, перее.
334 Глава 9 Для такой линейной системы игра получается особенно простой, если целью ее является минимизация преследователем конечного промаха и максимизация этого промаха преследуемым, причем промах определяется как взвешенная квадратичная форма ||Жр.(«/)-же(^)|ЦтА. (9.4.3) Однако, чтобы игра имела смысл, нужно наложить также неко- торое ограничение на управляющие переменные. Например, V f || и||| dt-^Ep, (9.4.4) to P 4 ( || у ||| dt^Ee, (9.4.5) J e to где Rp >0, Re >0, a Ep и Ee-—положительные числа. Для простоты будем также считать время конца игры tf фиксированным. Ясно, что в случае конечной величины минимакса промаха в конце как преследователь, так и преследуемый будут исполь- зовать все имеющееся в их распоряжении управление, так что ограничения (9.4.4) и (9.4.5) будут равенствами. Добавление зтих ограничений к критерию качества (9.4.3) дает t. 1 1 г J = ^\\xp^ — xA4}\\\ta + ~2 J [|MIrp~IMIrJ dt, (9.4.6) to где Rp = CpRp, Re = ceRe, а срнсе — положительные константы, которые нужно определить так, чтобы удовлетворить равенствам в (9.4.4) и (9.4.5). Отметим, что, поскольку преследуемый стре- мится максимизировать (9.4.3), второе ограничение (9.4.5) вычи- тается из (9.4.3). Вводя следующие определения: хр (t) = Фр (tf, t) хр (t), (9.4.7) Хе (f) =Фе(^, t) Хе (t), (9.4.8) z(i)=A[ip (t)-ie(i)I, (9.4.9) где Фр (tf, t) и Фе (tf, t) — фундаментальные матрицы для Fp и Fe соответственно, находим, что задачу можно записать более компактно ч J = min max {у || z (tf) ||2 + у j HI w Цдр —И y IlnJ • (9-4.10)
Дифференциальные игры 335. где z = oP(£)u—g (t) v (9.4.11) и & (t) = АФр (tf, t) Gp (t), g (t) = АФе (tf, t) Ge (t), z (t0) = z0 = A [Фр (tf, to) Xp (to) — Фе (tf, to) xe (^o)l- (9.4.12V Необходимыми условиями стационарного решения являются следующие: % = О, % (tf) = z (tf), (9.4.13) HU = O или u = -Др1^т%= — R£&Tz(tf), (9.4.14) Я„ = О или р = -R^T^ = -Re^Tz(tf), (9.4.15) где Н = “ (uTRpu— vTRev) + № [cP (t) и— g (t) v]. £ Двухточечная краевая задача, описываемая уравнениями (9.4.11) и (9.4.13) — (9.4.15), получается линейной и очень простой. Реко- мендуемый способ ее решения состоит в использовании метода обратной прогонки, который уже обсуждался в разд. 6.2 и 6.3.. Определим матрицу S (t) из условия K(f) = S (t) z (t). (9.4.16) Так как в этой задаче, согласно (9.4.13), % = 0, то из (9.4.11) следует, что Sz + S [<£Р (t) и - g (t) и] = 0. (9.4.17) С помощью (9.4.14), (9.4.15) и (9.4.16) пир можно выразить через z: и= —Rp^Sz, v=-R?$T(t)Sz. (9.4.18) После подстановки (9.4.18) в (9.4.17) видно, что матрица S (t) должна удовлетворять уравнению 5 = 5[^/?p1^r_g7?;igT]5 (9.4.19) или 4 (S-1) = - [&R?&T-SR;1^]. Из (9.4.13) следует, что граничное условие для S есть S (tf) = Е. (9.4.20) . Интегрирование (9.4.19) с условием (9.4.20) дает S'1 (t) = Е + Мр (tf, t) - Me(tt, t), (9.4.21)
336 Глава 9 тде к Мр (tf, it)=\& (t) Rp1 (t) &T (t) dt, t 9 Me(tf, t) = ( §(г)7?Д(*) $T(t)dt. (9.4.22) (9.4.23) Уравнения (9.4.18) описывают стратегии с обратной связью для игроков U и V как функции текущего состояния. Матрицы в выра- жениях (9.4.22) и (9.4.23) характеризуют частичную управляе- мость системы с преследователем и преследуемым (см. в разд. 5.3 случай с матрицей А = 0). Для проверки условия седловой точки (этап 2 разд. 9.3) рассмотрим две вспомогательные задачи: max || z (tf) ||2 + 4" J (II и ||нр —1| v dt} | V to при условиях Z = & (t) и — § (t) V и и= —Rp1AiTSz, где S определяется с помощью (9.4.19); 1 'I тт{4-||2(^)ц2+4-j(im^hmim*} I “ to j. при условиях Z = cP (t) U — g (t) V и y = —Rg1^TSz, (P-1) (P-2) где S определяется с помощью (9.4.19). После подстановки выра- жений и = —Rpi&'TSz ti v = —R^TSz в критерии качества задач (Р.1) и (Р.2) соответственно обе задачи сводятся к стандарт- ным неигровым линейным задачам с квадратичным критерием каче- ства, рассмотренным в гл. 5. Для задачи (Р.1) находим, что v = -R-e4gTS<i'z, - где S<» = S^&Rp^S + S&Rp'&TSa -S&Rp^S - -Sll)$R?gTS“’, Sa'(tf) = E. Для задачи (P.2) получаем, что u= -Rj&rS^z,
Дифференциальные игры. 337 где Sm = - SgR-^S™ - SW$R?$TS + S<2 >&R-x&TSm + + 5§Я;1§Т5, S^{tf) = E. Отметим, что 5(1) = 5(2> = S [уравнение (9.4.19)], поскольку S(1) {tf) = 5(2) {tf) = S {tf). Итак, установлено, что стратегии с обратной связью (9.4.18) действительно соответствуют седло- вой точке задачи на минимакс. Теперь можно попытаться также проверить оптимальность управлений и° и v°, рассматриваемых как стратегии разомкнутого типа. В этом случае приходим к задачам (Р.З) и (Р.4): max (|Н/) У2+ 4 J ] .‘° (p-3) при условиях Z = oP {t) и — § {t)v и и — — Rp1^ {t) S {t0) z (£0) — функция времени , tf 1 “j11 +4 J <IMI2Kp-IHl2Ke)*} | /° . } (P.4) при условиях Z = efi{t)ll—S {t) V | и v = — R^'1 {t) S {t0) z{t0) — функция времени J Задачи (Р.З) и (Р.4) являются обычными линейными задачами на оптимум квадратичного критерия с тем дополнительным осложне- нием. что теперь критерии качества и уравнения системы содер- жат известные функции времени и° (t) и г?° {t). Задачи решаются так же просто, как и ранее. Для задачи (Р.З) имеем V {t) = - R?$T{t) [S(3> {t) z {t) + a{t)], где a = S^PR^S '{t0) z {t0) - S‘*WTa, a {tf) = 0, 5<з)= _5<3)§^-igT5<3>f si3y{tf)=E. Для задачи (P.4) u{t)=-R^T{t)[Swz{t) + b{t)], где 6 = -S^gRe^S {t0) z {t0)+Sw^Rp^b, b {tf) = 0, 5<4> = s^&R^&TS^, Sw {tf) = E. 22-0102
338 Глава 9 Отметим, что 5<3> =£ 5(1> и 5(4> =£ 5<2>. Последние соотноше- ния являются частными случаями уравнений (9.3.10) и (9.3.10'), которые обсуждались в разд. 9.3. Опираясь на уже известные свой- ства решения уравнения Риккати (разд. 6.3), приходим к сле- дующим утверждениям: 1) Если 5(1> = 5<2> = S конечна при t0 <1 t <1 tf, то стра- тегии с обратной связью (9.4.14) и (9.4.15) соответствуют седло- вой точке J, при этом J-0 = г/2 11 z {t0) ||s(t0)- 2) Стратегия разомкнутого типа и° (t) = —НрlfT (t) S (t0) z0 оптимальна только в том случае, когда матрица 5(3> остается конечной. Для достаточно больших значений t0— ty и >0 матрица 8(3> будет всегда стремиться к бесконечности. 3) Стратегия разомкнутого типа v° (t) = — R^<ST (t) S (t0) z всегда является оптимальной, поскольку всегда 5<4> < оо. Для широкого класса линейных задач с квадратичным крите- рием утверждения 2 и 3 аналогичны тем, которые были сделаны в простом примере разд. 9.3. Утверждению 1 можно дать дальней- шую интерпретацию. Из (9.4.21) видно, что если матрица S ко- нечна, то [Е Мр {tf, t) — Ме {tf, t)] >0, to t ty. (9.4.24) Так как 7ИР и Ме — матрицы, характеризующие управляемость систем преследователя и преследуемого соответственно, то из фор- мулы (9.4.24) видно, что седловая точка имеет место, если Мр > Z>Me, т. е. когда преследователь более управляем, чем пресле- дуемый. Поведение промаха в конце интересно исследовать в том случае, когда величина энергии, отводимой на управление [формулы (9.4.4) и (9.4.5)], становится очень большой. Ясно, что по мере того, как Ер и Ее стремятся к бесконечности, константы ср и се прибли- жаются к нулю [см. (9.4.6)]. Это в свою очередь приводит к тому, что Мр оо, Ме оо; если при этом Мр — Ме -> оо, то 5 (t) -> -> 0 при t -* tf [см. (9.4.21)]. Из соотношений J° =г/2 11 z (t0) | ||(fo), (9.4.10) и того, что се и ср 0, следует, что промах в конце стре- мится к нулю. Таким образом, для того чтобы произошел пере- хват, преследователь должен быть более управляемым, чем пре- следуемый. Такой вывод представляется довольно разумным. Пример. Закон наведения для перехвата цели. Частным слу- чаем г) рассмотренных выше задач является следующая. 0 Данный пример представляет собой дифференциально-игровой аналог примера 2 из разд. 5.2. Здесь используется классическое векторное обозначе- ние для трехмерного пространства, не зависящее от выбора системы коор- динат.
Дифференциальные игры 339 Уравнения пространственного движения перехватчика и цели имеют вид vp = fp + Яр, Гр = Vp, Ne = fe + ае, Ге = Ve, (9.4.25) где v — скорость тела в пространстве трех измерений; г — вектор положения в том же пространстве; f — отнесенная к единице массы сила притяжения, действующая на тело; а — управляющее ускорение тела. Предполагаем, что расстояние между преследо- вателем и преследуемым достаточно мало, так что ipfvie. Сле- довательно, если интерес представляет лишь разность гр (t)—re (t), то влиянием внешних сил можно пренебречь. В качестве кри- терия рассмотрим J = 4 [Гр (tf) — ге (tf) ] • [Гр (tf) — re (tf) 1 + 1 ? + -у J [с/ (Яр-Яр) —Се1 (яе-ае)] dt, (9.4.26) где ср и се — постоянные, связанные соответственно с энергией преследователя и преследуемого. Используя результаты этого раздела, можно непосредственно проверить, что в этом случае уравнения (9.4.14) и (9.4.15) сводятся к __ cp(tf О 1гр (0 ге (0 + Ivp (0 (4)] (tf 4)} Яр (l/b) + (cp-ce)[(tf-ty>/3] ’ (y-4'Z ае = -^-Яр. (9.4.28) Сразу отметим, что: 1) Если ср >се, то знак коэффициента обратной связи не ме- няется. 2) Если ср < се, то при достаточно большом tf коэффициент обратной связи изменит знак в момент t, для которого ^+(сР-Се) [(^-«)3/3]=0. (9.4.29) Но (9.4.29) есть просто конкретизированное для этой задачи усло- вие (9.4.24) наличия сопряженной точки. Поэтому для больших tf в случае 2 соотношение (9.4.27) уже не является оптимальным. Отметим, что этот факт очевиден, в частности, когда Ъ — оо. В этом случае при ср < се (сравните с Мр < Ме) перехват невоз- можен. Если рассматривать случай 1 и положить Ь = оо, то стра- тегия управления для преследователя упростится аР = [1-(Се/~)](4/- 4)2 <ГР W W + tVr (0 - V* (01 (tf ~ t)}- (9.4.30) Пусть преследователь и цель находятся па номинальной траектории встречи на расстоянии R и скорость сближения 22*
340 Глава 9 V=Rl(tf—t). Обозначим через ур—уе боковое отклонение от траек- тории встречи (фиг. 9.4.1). Тогда боковое управляющее ускорение, которое нужно сообщить преследователю, согласно (9.4.30), будет равно Моковое) = [1 — (се/ср)] V°’ (9.4.31) т. е. это просто пропорциональное наведение с эффективной нави- гационной постоянной Ке = 3/[1 —(се/ср)]. На практике уста- новлено, что наилучшее значение Ке лежит в пределах от 3 до 5 *). Преследователь /Линия визирования ] -------- Номинальная линия визи- R=v(tf_t) \Р0<™иЯ Преследуемый Ф’и г. 9.4.1. Метод пропорциональной навигации. Из формулы (9.4.28) видно, что Ке = 3 соответствует случаю, ког- да цель не маневрирует (се = 0), тогда как Ке= 5 имеет место при (се/ср) = 2/5. Задача 1. Проверьте результаты задач (Р.1) и (Р.2). Задача 2. Проверьте результаты задач (Р.З) и (Р.4). Задача 3. Рассмотрите более общую линейную задачу на мини- макс с квадратичным функционалом Ч Г А J = ±-(xTSfx)t=if+± j [х^ТрТ] 0 to .0 х = Fx-^-Gu-^-Dv, RfX (tf) = Q. Предполагая, что В >0 и С >0, получите условия анормаль- ности и наличия сопряженной точки. Ответ. Матрица [5 — RQ~rRT] ограничена; Q < 0 или Q >0; tQ t tf, где 5 = -SF - FTS - А + S (GB~1GT - DC~lDT) S, S (tf) = Sf- RT = __RTF + RT (GB ^JT - DC^DT) S, R (tf) = Rf, Q = RT (GB-1GT - DC^DT) R, Q (tf) = 0. i) Cm. S. R a m о, A. P u c k e t, Guided Missile Engineering, McGraw- Hill, N. Y., pp. 176—180, 1959. Русский перевод: С. P а м о, А. П а к к e т, Конструирование управляемых снарядов, Воениздат МО, 1963.
Дифференциальные игры 341 9.5. Задача на минимакс времени перехвата с ограничениями на управления Рассматриваемая здесь задача является игровым аналогом задачи разд. 3.9, в которой управление находится на «упорах». Имеются две системы с ограниченными управлениями: хр = FpXp + gpu, ) и ] < 1, (9.5.1) хе = FeXe + gev, | w | < 1. . (9.5.2) Система p (преследователь) стремится за минимальное время перехватить систему е (преследуемого^, в то же время система е пытается максимизировать время перехвата. Пусть условием пере- хвата будет Ахр (tf) = ‘Ахе (tf)4 (9.5.3) здесь А — вектор-строка. Это скалярное условие перехвата не- явно определяет время окончания перехвата tf. Поступая так же, как в разд. 9.4.1, определим скалярную величину z: z А^А [Фр (tf, t) Хр (t) — Фе (tf^ffXe (£)]. (9.5.4) Тогда системы (9.5.1) и (9.5.2) сведутся к скалярному уравнению z = р (t) и — е (t) v, (9.5.5) где р (t) = АФр (tf, t) gp, е (t) = АФе (tf, t) ge. (9.5.6) - Если ввести гамильтониан Н (z, и, v, %, t) = % [р (t) и — e(t) у] + 1, (9.5.7) то, согласно изложенному в разд. 9.3, необходимые условия х) стационарности примут вид % = -Hz = 0, (9.5.8) % (tf) = v, (9.5.9) Н (z, и°, tF, %, t) = min max H (z, и, v, X, t), I UI «S 1 I V | Sg 1 (9.5.10) откуда следует, что u° (t) = — sgn'tvp (f)], (9.5.11) v° (t) = — sgn'lve (£)]. (9.5.12) О Имеется еще одно условие стационарности Н (tp=—Ф(= 0, которое, однако, будет лишним, поскольку важен только знак величины % (tf).
342 Глава 9 Подставляя (9.5.11) и (9.5.12) в (9.5.5) и учитывая, что z (fy) = О, получаем Z (to, tf) = sgn V j Q (tf, t) dt, где Q (tft t) = | p (t) | — | e (t) |. to (9.5.13) Наименьшее значение tf, которoe удовлетворяет уравнению (9.5.13), называется возможным минимаксным временем перехвата. По- скольку каждый член скалярного уравнения (9.5.13) либо изве- стен, либо может быть вычислен, величину tf и знак v можно определить сразу. Таким образом, для систем р и е оптимальные стратегии управления и° (t) и у0 (t) могут быть найдены как функ- ции z (t0). Соотношения (9.5.11) и (9.5.12) фактически являются стратегиями с обратной связью. Если необходим многомерный пере- хват, то по существу ничего не меняется, однако для нахождения tf и знаков координат вектора v требуется решить не одно уравне- ние (9.5.13), а большее их число. Итак, на данную игровую задачу можно распространить большую часть результатов разд. 3.9, полученных для неигровой задачи. Задача 1. Рассмотрите задачу на минимакс времени встречи с некооперирующим участником для системы х = и, | и | а, У = v, | и | С bt а >Ъ. Для U и V найдите минимаксные стратегии с обратной связью. Задача 2 [9.4]. Рассмотрите следующую задачу преследования: х = и — v (х — вычисляемый промах), М<1, j=4 и* (tf) г Ясно, что tf tf д max и2 dt — max j v2 dt — (tf —10) = B. о 0 Поэтому предположим, что cp и ce В.
Дифференциальные игры 343 1) В случае, когда перехват невозможен, покажите, что при оптимальной игре Ч { и2 dt= ср и j и2 dt = се. о о 2) Покажите, что если сд <Z В/3, то для всех t при оптимальной игре и (i) <С 1. 3) Определите оптимальные стратегии и и v, а также поверх- ность, разделяющую области перехвата и промаха в пространстве переменных х (i0), ср, се, когда х (i0) =/= О, В/3 ср В, се В/3. Условимся, что преследователь будет использовать при перехвате только минимальную величину 1 и2 dt. (Это приводит к единствен- 0 ности оптимальной стратегии и.) Ответ для п. 3. Уравнение поверхности перехвата г и равно линейному управлению, когда и равно управлению на упорах, когда Г г- , / г2 , т-1/2~> Задача 3. (Предложена Е. Гильбертом, Мичиганский универ- ситет.) Пусть уравнениями движения преследователя и пресле- дуемого будут . • 8 Л хе2 = — хе1 + V, где | и | sg: 1, Условие окончания перехвата: Жр1 (О = хе1 (<), xpi (*о) — — » xel (t0) = 1, хе2 (А)) ~ Д | V | < 1. хе2 (t) = 0. Докажите, что минимаксного времени перехвата не существует, но само время перехвата может быть сделано сколь угодно близким к 2л. Задача 4 {9.1]. В плоской задаче перехвата с минимаксным вре- менем скорости Vp и Уе преследователя и преследуемого являются постоянными величинами, причем Vp > Ve. Преследуемый может
044 Глава 9 Фиг. 9.5.1. Фазовые тра- ектории задачи 3. непосредственно управлять направлением своей скорости, а у пре- следователя есть возможность регулировать свое боковое уско- рение, которое ограничено по величине. Таким образом, у пре- следователя имеется минимальный радиус поворота R. В связанной с преследователем системе координат, ось у которой всегда параллельна вектору скорости преследователя (фиг.9.5.2), Фиг. 9.5.2. Иллюстрация к задаче 4. относительным положением преследуемого является точка (х, у), при этом х= Fesin% — и, i/ = Fecos% —Fp-f-Fp-^-u, — Здесь % есть управление преследуемого (неограниченное), а и — управление преследователя (ограниченное, | и | 1). Время пере- хвата tf определяется из условия (z2 + y^tf = I2, начальные условия х (0), у (0) заданы. Покажите, что (при опре- деленных условиях) минимаксными стратегиями являются — sgn(T] — %), где T] = arctg-y, % = -~-sgn (т]~ %), и что эти стратегии порождают однопараметрическое семейство- экстремалей с параметром параметрические уравнения которых
Дифференциальные игры 345 с аргументом % имеют вид Х= [Z~Хг)] sin x + -ff [1 — cos (% —Х/)1, У = R (X — X/) J c°s X + R sin (х — X/), р [Указание, Обратите внимание на то, что = const. I 9.6. Общие замечания к теории дифференциальных игр В предыдущих разделах было показано, что для решения игро- вых задач оптимизации (т. е. задач с двумя участниками) можно- пользоваться обычными вариационными методами. Приведем не- которые общие соображения, относящиеся к таким задачам. 1. В задаче на оптимум с неизвестной возмущающей силой или параметром естественной является попытка моделировать неиз- вестное как случайный процесс, а затем, как это будет сделано в гл. 14, отыскивать управление, минимизирующее математиче- ское ожидание критерия качества. Однако может оказаться, что о статистических характеристиках возмущающей силы или пара- метра известно так мало, что соответствующая вероятностная формулировка задачи невозможна. В этом случае можно восполь- зоваться традиционным методом построения управления, взяв в качестве возмущающей силы наихудшую из всех возможных; при этом предполагается, что возмущающая сила находится в рас- поряжении разумного противника, который стремится максими- зировать все, что мы пытаемся минимизировать. Таков другой способ замены ^стохастической задачи детерминированной. (Обыч- ный способ, изложенный в гл. 11—14, использует средние и вторые моменты фазовых координат, связь между которыми детермини- рованная. Например, задачи в предыдущих разделах можно сфор- мулировать как стохастические, в которых действие преследуе- мого рассматривается как случайный процесс.) 2. Имеется другая особенность дифференциальных игр, которая делает их отличными от обычных задач оптимального управления. Рассмотрим, например, обычную задачу оптимального управления, в которой первая координата линейной динамической системы сводится к нулю за минимальное время. Такая задача решается просто, и она не очень интересна. Однако значительный интерес может представлять ее дифференциально-игровой аналог, причем, как было показано, решение его не оказывается труднее. Боль- шинство задач на дифференциальные игры более легкие, посколь- ку обычно они связаны с пространством меньшей размерности (один, два или три). Главным образом по этой причине Айзексу
346 Глава 9 19.1] удалось решить много интересных задач и графически изо- бразить их стратегии с обратной связью. 3. С другой стороны, введение противодействующей управляю- щей переменной также приводит к осложнениям. Прежде всего в игровых задачах нужно рассматривать стратегии с обратной связью1) или, что эквивалентно, непрерывно получаемые в реаль- ном масштабе времени стратегии разомкнутого типа. С практиче- ской точки зрения задачи на дифференциальные игры со страте- гиями разомкнутого типа не очень полезны2) (см., например, обсуждение в разд. 9.3). Поэтому задачи либо решают полностью, либо не решают совсем. Также может быть неразумно (в противо- положность задачам обычного управления) рассматривать стра- тегии с обратной связью, линеаризованные относительно неко- торой разомкнутой номинальной. Это объясняется тем, что проти- воположная сторона может выбрать такую стратегию (замкнутую или разомкнутую, не обязательно оптимальную), которая приве- дет к тому, что наша линеаризованная стратегия с обратной связью уведет нас далеко от номинала. В этом случае нельзя уже утверж- дать о каком-либо локальном минимаксном свойстве регулятора. 4. Наличие противодействующего управления также приводит к большому разнообразию в поведении систем, находящихся под действием минимаксного управления. Так, в разд. 9.4 было обна- ружено, каким естественным путем появляются сопряженные точки. Фактически в дифференциальных играх скорее как правило, а не исключение встречаются вопросы существования (см. зада- чу 3 разд. 9.5), единственности (две различные стратегии приводят к одному и тому же значению критерия качества), вырожденности решений (II и тождественно равен нулю). При решении игровых задач значительная часть усилий направляется на отыскание обла- стей и поверхностей, определяющих эти ситуации (см. 19.1] и за- дачу 2 разд. 9.5). 5. Наконец, можно рассматривать очень естественные и инте- ресные обобщения задач этой главы на случаи, где имеются слу- чайные воздействия и/или где интересы игроков не совсем про- тивоположны; это стохастические дифференциальные игры и диф- ференциальные игры с ненулевой суммой. В настоящее время о таких задачах известно сравнительно мало, и поэтому у нас нет возможности останавливаться на них 3). L х) Имеется в виду обратная связь того же типа, какая ранее была пред- ставлена формулой (4.1.1).— Прим. ред. 2) Если не производить непрерывного вычисления таких стратегий в реальном масштабе времени.— Прим, перее. 3) См. Y. С. Н о, Optimal Terminal Maneuver and Evasion Strategy, SIAM J. Control, 4, № 3 (1966); Y. С. H o, R. В e h n, On a Class of Stochastic Dif- ferential Games, Trans. Automatic Control IEEE (June 1968); A. Starr, Y. С. H o, Nonzero Sum Differential Games, J. Optimization Theory and Appli- cation (1969).
Глава 10 Некоторые понятия из теории вероятностей 10.1. Дискретные случайные скалярные величины Почти у каждого имеются некоторые интуитивные понятия о случайной скалярной величине и связанных с ней вероятностях. Обычный пример — результат бросания кости. Вероятности выпа- дения чисел 1, 2, 3, 4, 5, 6 одинаковы для каждого из возможных результатов бросания, называемых элементарными ийи непере- секающимися событиями. Для «неправильной» кости некоторые результаты более правдоподобны, чем другие. Если кость броса- ется N раз и Nj обозначает, сколько раз выпало число у, то интуи- тивно оправдано определение вероятности события j как N, р (У) = lim. (10.1.1) Часто представляет интерес сложное событие: «при данном бро7 сании кости выпадает либо /, либо к»; с ним связана вероят- ность / Nj + Nb у pH -или к) = lim (---~. (10.1.2) Из приведенных определений ясно, что вероятностная функция р (у) удовлетворяет следующим условиям: 0 < р (у)< 1, 2р (у) = 1, Р U или к) = . = р(у)+р(*)- (10.1.3) Дискретная случайная скалярная величина х определяется как функция с дискретными значениями х (/), причем вероятность у-го значения х равна р (у). Функция р (у) называется распределе- нием вероятностей случайной величины х. Обозначение х (j) обычно не применяется. Там, где это не приведет к недоразумению, мы будем писать х и р (х). Таким образом, для характеристики диск- ретной случайной величины х следует задать распределение веро- ятностей р (х). Приближенно случайную величину ж можно харак- теризовать, задавая конечное число моментов распределения р (/). Первыми двумя моментами являются: 1) среднее значение х [первый момент р (ж)] 3 ж (у) р (/); (Ю.1.4) 3
348 Глава 10 2) дисперсия х [второй центральный момент р (х)] о2= 3 к(1) — х]гр (/), (10.1.5) i где о известна также под названием среднего квадратического отклонения х. Математическое ожидание функции от х определяется как Ш)1 = 3/k(7)lP(7). (Ю.1.6) i) j Из (10.1.4) и (10.1.5) следует, что среднее есть математическое ожидание х, а дисперсия — математическое ожидание (х — х)а. Отметим, что оператор математического ожидания является линейным. 10.2. Дискретные случайные векторы Случайный вектор — это вектор, компонентами которого явля- ются описанные в разд. 10.1 скалярные случайные величины. Рассмотрим случайный вектор х с компонентами хг, i =' 1, 2, ... . . ., п. Если каждая компонента вектора может принимать дис- кретное множество значений;^ (у\), где Д = 1, 2, . . ., тиг, то ясно, что имеется трп2. . '.тп возможных векторов. Для полной характеристики случайного вектора нужно задать совместное распределение вероятностей р (Д, Д, . . ., Д). Здесь р j2, . . . jn)—вероятность того, что случайная величина Xj принимает Д-е значение и случайная величина х2принимает Д-е значение,. .. . . ., и хп принимает Д-е значение. Часто, когда это не приводит к недоразумению, функцию р (Д, Д, . . ., Д) записывают в виде р (xj, х2, . . ., хп). Если интересуются только одной компонентой случайного вектора, например х15 то безусловное распределение вероятностей случайной величины определяют как тп p(ii)= 3 S Ip (Л, /2, (Ю.2.1) 32=1 Д=1 Здесь p (/j) — вероятность такого сложного события, в котором xi принимает свое Д-е значение, а случайные величины х2, . . ., хп принимают любые возможные значения. Итак, в зависимости от ис- ходного пространства элементарных событий значение случайной величины может соответствовать результату либо одного элемен- тарного, либо сложного событий. В общем случае имеем mi+l тп P(ji, •,}<)= S ••• S Р (пДг, , jn). (10.2.2) __________ Д+1=1 Е — начальная буква английского слова «expectation»—ожидание.— Прим. ред.
Некоторые понятия из теории вероятностей 349 Для характеристики отдельных компонент вектора х достаточно знать их безусловное распределение вероятностей. Однако для полного описания х нужно задавать распределение р (х17 . . . • • ч Хп)' Как и в скалярном случае, вектор х можно приближенно харак- теризовать с помощью моментов распределения р (х). 1) Вектор средних значений х ~&п (in) ~ р(й, iz, -Jn). (Ю.2.3) 2) Вторые моменты вектора х. В отличие от единственной дисперсии случайной скалярной величины случайному вектору соответствует п дисперсий и п (п — 1)/2 величин, называемых сме- шанными моментами второго порядка. Матрица ковариаций Р определяется как Р == Е[(х — х) (х — х)Т] =Е (Х{ — Xi)2, . . . , (Xi — Xi) (хп — хп) (хп — Хп) (Xi — Xi), . .., (хп — хп)2 ™п (Х1 (71) — Х1)2, . • .,(Xi (ii) — Xi) (хп (jn) — хп) = .s ... з ; _ ; х П 1 in {.(xn(in) — Xn)(Xi(ii) — Xi), . . .,(xn(jn) — xn)2_ X p(ii, /2, • • ,/n)- (10.2.4) Здесь предполагается, что оператор математического ожидания Е применяется к каждому элементу матрицы. Диагональные члены матрицы Р являются дисперсиями компонент вектора; элементы, стоящие вне диагонали, есть смешанные моменты второго порядка. Отметим, что матрица Р симметричная, так что имеется только п (п -р- 1)/2 различных элементов. Пример. Рассмотрим вектор с двумя компонентами х = [х‘]. Первая компонента принимает два значения: Xi (1) = 3, Xi (2) = 4. Вторая компонента имеет три возможных значения: х2 (1) = 0, х2 (2) = —1, х2 (3) = 2. Таким образом, имеется шесть возможных элементарных событий или векторов. Предположим, что вероят- ности этих векторов равны р(1, 1) = 0,1; р (1,2) =0,2; р (1, 3) = 0,3; р (2, 1) = 0,2; р (2, 2) = 0,1; р (2, 3) = 0,1.
350 Глава 10 Математическим ожиданием вектора будет Дисперсии и смешанные моменты второго порядка определяются так: '(«1 — Xi)2, (Xi— xi){x2— x2) ' .(X2 — X2) (Xi-Xi), (x2 — x2)2 . = 0,1 '-0,4' .-0,5. [-0,4; -0,5]+ 0,2 '-'0,4' .-1,5. [—0,4;—1,5] + 0,24; —0,10" -0,10; 1,65. Можно непосредственно проверить, что в данном случае мат- рица Р положительно определенная. Задача. Покажите, что любая матрица ковариаций по край- ней мере положительно полуопределена. [Указание. См. прило- жение АЗ.] 10.3. Корреляция, независимость и условные вероятности В предыдущем разделе было отмечено, что если одновременно имеется более одной случайной величины, то недостаточно знать только безусловные распределения вероятностей отдельных слу- чайных величин. Приближенно характеризуя случайные величины, пользуются, в частности, недиагональными ковариационными
Некоторые понятия из теории вероятностей 351 членами матрицы Р. Если Рц 0 при i #= /, то говорят, что случайные величины х^ и Xj коррелированы. В более общем случае говорят, что случайные величины xlt . . ., хп зависимы, если знание распределений р (х^, р (х2), . . ., р (хп) полностью не определяет распределение р (хг, . . ., хп). С другой стороны, если р (xlt . . ., хп) = р {xi) р (х2), . . р (хп) (10-3.1) для всех возможных значений Xi, . . ., хп, то случайные величины называются независимыми. Заметим, что попарная независимость х{, . . ., хп не означает независимости. В то же время попарная независимость является достаточной для некоррелированности, т. е. достаточна для того, чтобы матрица Р была диагональной. Отметим также, что отсутствие корреляции не означает независи- мости *). Пусть два случайных вектора х и у зависимы. Если бы было известно, что х принял конкретное значение, то значение у можно было бы предсказать более точно, чем при отсутствии этой инфор- мации. В связи с этим полезно ввести понятие условного распре- деления вероятностей Р (У I *) = Для р (х) 0. (10.3.2) Здесь р (у\х) есть вероятность у при условии, что задано значение х. Условное среднее и условный второй момент определяются форму- лами, аналогичными (10.2.3) и (10.2.4). Совместное распределение вероятностей просто заменяется на условное распределение вероят- ностей. Заметим, однако, что поскольку математическое ожидание и второй момент есть функции случайной величины х, на которую накладывается условие, то они являются уже не постоянными, д а случайными величинами. Так как р (у, х) р (ж]у) р (у), то Р(у\х)^'р{х^р^ . (10.3.3) Это известная формула Бейеса. В выражении (10.3.3) р (у) можно считать априорной вероятностью у без знания значений х, а Р (у\х>) — апостериорной вероятностью у, если задано, что х при- нимает определенное значение. Когда хну независимы, то выра- жение (10.3.3) приводит к равенству р (у | х) = р (у), означаю- щему, что, зная х, нельзя предсказать у. Это, конечно, является интуитивным основанием для независимости. х) См., например, [10.1].
352 Глава 10 10.4. Непрерывно распределенные случайные величины Для целей, преследуемых этой книгой, приведенные в разд. 10.1—10.3 понятия можно непосредственно обобщить на слу- чайные векторы с непрерывным множеством значений 1). Функция р (xt, . . ., хп) становится плотностью распределения вероятно- стей, причем р (х{, . . ., хп) dXi . . . dxn есть вероятность того, что случайный вектор х будет находиться в элементарном объеме dx{ . . . dxn с центром в точке (хг, . . . ., хп). Таким образом, имеем ОО 00 р (Xt, .. ., хп) dx{ . . . dxn = 1. — ОО —оо Математическое ожидание вектора определяется как (10.4.1) Дисперсии и смешанные моменты второго порядка вектора опре деляются как Р^Е[(х—х){х—^)г] = у (хх — х{у, .. ., (хх — ajj) (хп — хп) — °о _{Хп (^1 ^1)» • • •, (хп Хп)2. X р (Xi, .. ., хп) dXi ... dxn- (10.4.3) Короче, для того чтобы найти математические ожидания дискрет- ных (непрерывно распределенных) случайных величин, пользу- ются распределением вероятностей (плотностью распределения вероятностей) и производят суммирование (интегрирование) по всем возможным значениям случайных величин. С помощью 6-функции Дирака распределение можно заменить плотностью распределения Рпл (£) 1,Ррасп (£j))l 6 (а; х (у)). (10.4.4) г) Чтобы переход к непрерывному случаю был строгим, нужно учесть различные специальные условия и дополнительные допущения. Хорошим пособием могут служить книги [142, 10.31.
Некоторые понятия из теории вероятностей 353 Преобразования плотности распределения. Если х — случай- ный вектор с плотностью распределения р (х) и у = / {х) — всюду дифференцируемое взаимно однозначное преобразование х), то можно показать, что плотность распределения у задается выраже- нием р (У) = Р (*) II J I “Ч гДе х = У-1 (У) (Ю.4.5) и ] J | — определитель матрицы Якоби J, элементы которой = (Ю.4.6) Это легко показать, если рассмотреть два элементарных объема пространств векторов х и у. Функция распределения. Другой полезной вероятностной функ- цией является функция распределения Р (х) * 2 *). Р (xlt . . ., хп) = Вероятность того, что случайно выбранное значение первой ком- поненты меньше или равно xt, ... и случайно выбранное значение п-й компоненты меньше или равно хп. Очевидные свойства функции распределения: 1) Р (-оо) = 0, 2) Р( + оо) = 1, 3) Р (х) при возрастании любой компоненты не убывает, 4) Р (х) может быть разрывной. Когда Р (х) непрерывна и дифференцируема, то = Р (Х1’ ’ Хп) (10-4- 7) И J • • • J р (51, ..., 5n) dgi ... d^n = Р (xi, . .., хп). (10.4.8) — оо —оо Часто встречаться с функцией распределения в этой книге нам не придется. Задача 1. Пусть х — двумерный вектор с плотностью распре- деления р х2), а у = / (xt, х2) — однозначное преобразова- ние пространства (a^j, х2) в скалярное пространство у (т. е. на чис- 0 Взаимная однозначность преобразования, в частности, означает, что размерности векторов х и у одинаковы. Случай неодинаковых размерностей указанных векторов рассмотрен, например, в книге: В. С. П у г а ч е в, Тео- рия случайных функций, Физматгиз, 1962, гл. 5.— Прим, перее. 2) Путаницы между этим символом и матрицей ковариаций Р не должно быть, так как обычно эти две величины встречаются в различных ситуациях. 23—0102
354 Глава 10 ловую прямую). Покажите, что плотность распределения у равна п hA — f п (т т\ \<Ыдх2> dxj-^dfldx^dx^ Р W)— J Р ( 11 г> (дЦдх^ + (дЦдх^ где J — интеграл по контуру у — const в пространстве (#1, х2)- Задача 2. Пусть х — случайная скалярная величина, такая, что у = ах2 (обратите внимание на то, что обратное отображение у х двузначно). а) Если покажите, что плотность вероятности у определяется формулой Р (у) = < ---.---ехр о Д/ 2лау О, б) Покажите также, что Е1у]=У = а<Р, Е [(у — у)2] = 2а2о4, Р(у)=< является функцией распределения. Задача 3. Пусть х — случайная скалярная переменная, а у — такой скаляр, что Если у = ах + Ьх2. ₽w“7VsexpL-^']' покажите, что плотность вероятности у определяется формулой а "|/2л (а2 + 4Ьу) а2 16 а2 Но
Некоторые понятия из теории вероятностей 355 10.5. Совместные распределения вероятностей ' Равномерное распределение. Равномерное распределение, когда все возможные значения равновероятны, является простейшим распределением случайного скаляра. Если имеется N возможных значений х, а именно а; (1), . . ., х (N), то Р(7)=-^’ / = 1’ (10Л1) Очевидно, что Зр(7) = 1, (10.5.2) 3=1 N х = Е[х]=-^^х(]), (10.5.3) 3=1 N Е[(х-х)2]=±- 2 к(/)-^2- (Ю.5.4) 3=1 Биномиальное распределение. Пусть р — вероятность появ- ления определенного события в каждом опыте; 1 — р есть вероят- ность непоявления этого события. Вероятность того, что в п по- следовательных опытах событие не произойдет ни в одном из опы- тов, равна р0 = (1 — р)п. (10.5.5) Вероятность того, что в п опытах событие произойдет точно один раз, есть Pl = пр (1 - р)"-1, (10.5.6) поскольку это событие может произойти в каждом из п опытов, и вероятность того, что это случится в любом конкретном опыте, а не во всех остальных, равна р (1 — р)п-1. Аналогично вероят- ность того, что событие произойдет ровно к раз в п опытах, равна так как п\1к\ (п — к)! есть число способов, какими из п различных элементов можно выбрать к элементов. Непосредственным вычис- лением получают среднее и дисперсию случайной величины к (числа появлений определенного события в п опытах) Е [&1 = 3 kph = np, (10.5.8) fe=0 Е[(к — пр)2} = 2 (* — np)2ph = np(i— р). (10.5.9) ь=о 23*
356 Глава 10 Для того чтобы быстро получить эти результаты, полезно опре- делить производящую функцию случайной величины к следую- щим образом:. = ? = 1-р. (10.5.10) Коэффициент при tk равен ph. Производящая функция G (t) слу- чайной величины к имеет следующие свойства, часто дающие воз- можность быстро подсчитать среднее и дисперсию: -^G(t)\l=1 = E[k], G" (1) Д- G' (1) — [G' (I)]2 = Дисперсия к. Пример 1. Вероятность появления 1 при каждом бросании кости равна Вероятность появления 1 ровно к раз в п после- довательных бросаниях есть re! / 1 / 5 \n-h к\ (п — к)\ \ 6 / \ 6 / Положим п — 6, тогда Ро = 0,335; р! = 0,401; р2 = 0,201; р3 = 0,053; р4 = 0,008; р5 = 0,0006; рв = 0,00002 и Е Ifc] = 1, Е [(к - I)2] = 5/6. Распределение Пуассона. Рассмотрим биномиальное распреде- ление, когда п очень велико, а р очень мало, например пусть р = = pin, где р, есть среднее число появлений события в п попытках. Производящая функция При п—> оо это выражение стремится к величине D, кото- рую можно представить как ОО (10.5.12) fc=0 Отсюда следует, что вероятность того, что событие произойдет ровно к раз в большом числе опытов, когда в среднем оно про- исходит ц раз, равна = (10.5.13) Вместо того чтобы рассматривать события, происходящие во время большого числа опытов, можно рассматривать события,
Некоторые понятия из теории вероятностей 357 случающиеся на отрезке времени заданной длины. Тогда выше- упомянутое ph будет вероятностью того, что в течение заданного интервала времени некоторое событие произойдет ровно к раз, причем в среднем на этом интервале оно происходит р раз. Пример 2. Пусть р есть среднее число автомобилей, пересе- кающих некоторый пункт в единицу времени; вероятность то-го, что ровно к автомобилей пересечет этот пункт за время t, равна (p/)fe е^ !к\ Упомянутую вероятность рь можно также представлять как вероятность того, что ровно к объектов будут занимать опреде- ленное пространство, когда в среднем это пространство занимают р объектов. Пример 3. При севе травы на единицу площади попадает р се- мян; (рЛ)ь e~vA/k\ есть вероятность того, что ровно к семян попа- дут на площадь А. Задача 1. Покажите, что среднее значение распределения Пуассона есть р и что дисперсия тоже равна р. Задача 2. Каким можно было бы выбрать наименьший объем воздуха (при давлении в одну атмосферу и температуре 20° С), чтобы среднее квадратическое отклонение плотности воздуха не превышало одной тысячной средней плотности, если можно было бы подсчитать число молекул в данном объеме? Считайте, что число частиц в объеме V есть случайная величина с распределением Пуассона; иными словами, равна вероятности нахождения ровно к частиц в объеме V, где в единице объема в среднем имеется р частиц. Для воздуха при температуре 20° С и давлении в одну атмосферу р = 2,7-109 ча- стиц/см3. Ответ. Выбираемый объем должен быть кубиком с ребром равным 3,3-IO-5 см. 10.6. Совместные плотности распределения вероятностей Равномерная плотность распределения. Равномерная плот- ность есть простейшая плотность распределения случайного ска- ляра 1 , С с , Т’ + 0, я>Ь + у, x<zb — у. (10.6.1)
358 Глава 10 Фиг. 10.6.1. Плотность равномерного р аспре деления. j p(x)dx=l, (10.6.2) —со E[x] = b, (10.6.3) (10-6-4) Плотность гауссовского распределения случайного скаляра. Гаус- совское распределение, вероятно, является наиболее общим рас- пределением случайного скаляра Легко показать, что J р(я)1Й:=1, (10.6.6) — ОО Е[х] = х, (10.6.7) Оправданием для представления многих сложных явлений с по- мощью плотности гауссовского распределения служит централь- ная предельная теорема *), согласно которой, если х есть сумма N *) См., например, [10.4].
Некоторые понятия из теории вероятностей 359 независимых величин с неодинаковыми плотностями распределе- ния, то при п оо плотность распределения х стремится к гаус- совской (см. задачи 1 и 2). Вероятность того, что х лежит между х — В и х + определяется как «+£ j р (х) dx 3-1 =-------( e-('2/2<j2> dt = (2л)1/2 о J S/ /2<7 —^=- С e~n2 draJL erf (l/V2о). 1/л J (10.6.9) Таблицы этого интеграла вероятностей или функции ошибки имеются во многих книгах. Ниже приведены представляющие особый интерес значения итеграла при | = а, 2о и Зо g Значение интеграла а 0,683 2а 0,955 За 0,997 Так как вероятность того, что х лежит между х — За и х ф- За, равна 0,997, то величина Зет часто используется в практических задачах в качестве верхней границы отклонений от среднего. Аналогично понятию производящей функции распределения опре- деляется характеристическая функция для плотности распределе- ния случайной величины оо Mx(jv)^E[^vx] = j eivxp(x)dx, /=]/"—[, (10.6.10) — оо являющаяся преобразованием Фурье плотности распределения. Можно легко проверить, что Е М = (- /Г dLMdxv^} |„=0 • (Ю.6.11) Задача 1. Пользуясь результатами задачи 1 разд. 10.4, рас- смотрите случай, в котором х{ и х2 — независимые случайные Фиг. 10.6.3. Плотность распределения суммы двух равномерно распределен- ных случайных величин.
660 Глава 10 величины, распределенные равномерно на интервале (—V2, х/2). Покажите, что для у = Xi -J- х2 Р(У) = 1-|Н 1г/1<Х о, м>1. Задача 2. Используя результаты задачи 1 (и, кроме того, зада- чи 1 разд. 10.4), рассмотрите случай, в котором х^, x2w. х3 — неза- висимые случайные скаляры, равномерно распределенные на ин- тервале (—х/2, х/2). Покажите, что для у = х^ -|- х2 х3 Обратите внимание на то, что р(у) стремится к плотности гауссов- ского распределения, что указано в центральной предельной тео- реме. Фиг. 10.6.4. Плотность распределения суммы трех равномерно распреде- ленных случайных величин. Задача 3. Покажите, что Г — -1 Мх (]V) = exp [уга---2~ J есть характеристическая функция гауссовской случайной вели- чины. 10.7. Плотность гауссовского распределения случайного вектора Если х — случайный n-мерный вектор, компоненты которого могут принимать непрерывное множество значений, то плотностью вероятности, чаще всего встречающейся на практике и, конечно, наиболее важной в этой книге, является плотность гауссовского,
Некоторые понятия из теории вероятностей 361 или нормального, распределения Р И = (2я)п'*\Р^ еХ₽ [ - у («) (* “ *) ] ’ (1°-7- !> Можно показать, что* 2) 4-00 4-00 j ... j p(x)dxt ... dxn--=l, (10.7.2} — oo — oo E Ы = x (математическое ожидание вектора), (10.7.3} E [(я — x) (x —а;)г] = P (матрица ковариаций вектора). (10.7.4) Здесь ] Р | — определитель матрицы Р, Р~г — матрица, обрат- ная к Р. Отметим, что р (х) полностью определяется заданием только х и Р. Если Р — диагональная матрица, то компоненты х — х ста- тистически независимы, поскольку в этом случае р (х) можно представить в виде произведения п плотностей нормальных рас- пределений скаляров. Другими словами, если компоненты гаус- совского случайного вектора не коррелированы, то они статисти- чески независимы. В силу своего определения Р является неотри- цательно определенной матрицей, т. е. ее собственные значения положительны (либо равны нулю). Поэтому с помощью ортого- нального преобразования S у — S (х — х) (10.7.5} матрицу Р всегда можно привести к диагональной форме. Другой способ доказательства этого утверждения основан на том, что- гиперповерхностями постоянного правдоподобия (постоянных зна- чений плотности распределения) в пространстве х являются гипер- эллипсоиды и после поворота системы координат главные оси этих гиперэллипсоидов можно использовать в качестве коорди- натных осей. Часто интересуются вероятностью того, что х лежит внутри гипер эллипс оида (х— х)ТР~1(х — х) = Р, (10.7.6} Удобное сокращенное обозначение этого вектора: х есть .IV (х, Р). 2) См. работу [10.5].
362 Глава 10 где Z — число. После преобразования к главным осям (10.7.6) принимает вид #+-J+.-.+^=Y2. (Ю.7.7) U1 и2 °П Это выражение с помощью другого преобразования zt = ytldi переходит в уравнение гиперсферы п измерений Z? + z2+...+z^ = y2. (10.7.8) Вероятность нахождения z внутри этой гиперсферы равна И • • ( ' ехр у [z? + zl+ ... + Zn]} dz! .. . dzn, (10.7.9) э j j c J причем интегрирование проводится по объему V гиперсферы радиусом г r2 = z? + z22+..-+z£. (10.7.10)- В пространстве переменных гг определитель | Р | = 1, так как все дисперсии равны единице, а смешанные вторые моменты — нулю. Итак, вероятность нахождения х внутри гиперэллипсоида {х—х)т Р~} (х— х)=12 равна где / (г) dr есть сферически симметричный элемент объема в п- мерном пространстве. Для п = 1, 2, 3 эта вероятность равна i п=1: У 2/п ехр (—у г2) dr = erf (//]Л2), о i п = 2: ехр — yr2jrdr=l— ехр ( — yZ2j , (Ю.7.12) о г тг = 3: |Л2/л jexp ( — г2) г2 dr = erf (Z У 2) — У2/п I ехр ( —у Z2) . о Особый интерес представляют значения Z = 1, 2, 3: 1 п 1 2 3 1 0,683 0,955 0,997 2 0,394 0,865 0,989 3 0,200 0,739 0,971
Некоторые понятия из теории вероятностей 363 Эти величины часто называют вероятностями одной, двух и трех сигм. Пример. Рассмотрим нормально распределенный двумерный вектор, у которого х = 0 и ГР Р = '4, Г _1, 1_ ' 'll Р12 _Р12 ^22. Собственные значения матрицы ковариации находятся из урав- нения 4 — о2, 1 1, 1 —о2 = 0, или о4 — 5 о2 + 3 = 0, откуда о2 = 4,3; = 0,7 и собственные векторы пропорциональны векторам [_g 3^ • На фиг. 10.7.1 для Z = 1, 2, 3 показаны эллипсы правдоподобия xt (а?!, ж2) '4, I]"1 1, 1J L^2. = Z2. Вероятность нахождения х внутри эллипса с Z = 1 равна 0,394, внутри эллипса с Z = 2 составляет 0,865 и внутри эллипса с Z = 3 равна 0,989. случайного вектора. Важное свойство гауссовских случайных векторов. В даль- нейшем часто используется важное свойство гауссов- ских случайных векторов, а именно: линейная комбинация
364 Глава 10 гауссовских случайных векторов также является гауссовским слу- чайным вектором. Его аналитическое выражение: если х — гаус- совский случайный вектор со средним х и ковариационной матри- цей Рх, ay = Ах + Ь, где А — постоянная матрица, b — постоян- ный вектор, то у есть гауссовский случайный вектор со средним у и ковариационной матрицей Ру, причем у = Ах 4- Ь, (10.7.13) Ру = АРХАТ. (10.7.14) Соотношения (10.7.13) и (10.7.14) сразу следуют из определения математических ожиданий: у = Е [у] = j ... j (Ах -rb)p (х) dxt .. . dxn = — оо —оо оо оо = A j ... J хр (х) dx{ . .. dxn + — оо — оо ОО ОО + Ъ § ... р (х) dxi . . . dxn = Ax- -b, — ОО —ОО Рц — Е((у — у) (у — у)т} = оо оо = j ... j А (х — х) (х— х)т Атр (х) dxi ... dxn = АРХАТ. — 00—00 Если матрица А невырожденная, то также очень просто показать, что у есть гауссовский случайный вектор х). Вероятность того, что точка у лежит в определенной области Ry пространства г/-ов, равна вероятности того, что точка х находится в соответствующей области Rx пространства ж-ов, т. е. j • • • j Р (У) dyi • • • dyn = j ... j p (x) dxi . .. dxn. (10.7.15) Ях Если изменить переменные интегрирования и учесть, что dx, . . . dxn = | ААТ \~li2dyi . . . dyn, (10.7.16) то придем к следующему результату: р(г/) = |ЛЛт|“1/2р(ж) = ~ °хр (»-»)}, где х = А ~* 1 (у — Ь), 1) Чтобы провести доказательство в случае, когда матрица А вырожден- ная, рассмотрите задачу 2 или см. [10.4].
Некоторые понятия из теории вероятностей 365 ИЛИ Р(У) = ,1/2 ехР {-^(y-yf Ру^У-у)} - (10.7.17) \^п) j Гу | J который и нужно было доказать. Задача 1. Пользуясь многомерным преобразованием Фурье, определите аналогично (10.6.10) совместную характеристическую функцию случайного вектора и покажите, что для гауссовского вектора х (см. [10.10*]) Мх (/к) = exp (jvTx — 1l2vTPv). Задача 2. Используя результат задали 1 (см. [10.4]), докажите равенства (10.7.13) и (10.7.14) для случая произвольной матрицы Л. Задача 3. Покажите, что если b — гауссовский случайный вектор, независимый от х, со средним b и ковариационной матри- цей Рь, то уравнения (10.7.13) и (10.7.14) переходят в Е [г/] = Ах + ~Ъ, cov (у) == Ру = АРХАТ + Ръ. (Указание. Рассмотрите вектор^^.) Задача 4. Пусть v — трехмерный гауссовский случайный век- тор с ортогональными компонентами vt, v2, vs и нулевым средним и предполагается, что компоненты его не коррелированы и имеют одинаковые дисперсии <т2. Покажите, что плотность распределения вероятностей длины вектора v есть Р^=(1Г) оз-ехр^-^, где величина v = (ref+ + i^)l/2 по определению неотрицательна. (Указание. Перейдите к сферическим координатам.) В кинетиче- ской теории газов, где v — величина скорости молекул и <т =кТ!т, Т — температура, к — постоянная Больцмана, тп — масса мо- лекулы, р (и) называется плотностью распределения Максвелла — Больцмана. В статистике р (р) называют плотностью распределе- ния %2 с ге = 3. г?2
Глава 11 Введение в теорию случайных процессов 11.1. Случайные последовательности и марковское свойство Случайной последовательностью называется совокупность не- прерывно распределенных случайных величин (скалярных или векторных), помеченных дискретным параметром, как, например, х (0), х (1), х (2), . . ., х (N). Обычно для удобства значения параметра берутся целыми, а в при- ложениях они часто соответствуют единицам времени или длины х). Примеры последовательностей случайных векторов весьма распространены: а) скорость ветра (величина и направление) в ка- кой-либо фиксированной точке пространства в последовательные моменты времени; б) положение и скорость центра масс летатель- ного аппарата в равно отстоящие друг от друга моменты времени; в) крутящий и изгибающий моменты, тангенс угла наклона и сме- щение в последовательности точек вдоль балки в заданный момент времени; г) амплитуда и фаза радиоволны в различные моменты времени. Для полного описания случайной последовательности нужно задать плотность совместного распределения вероятностей р [х (N), х (N - 1), . . х (0)] всех элементов последовательности. Обычно это требует огром- ного количества информации. К счастью, большинство встречаю- щихся на практике случайных последовательностей обладает специальным свойством, которое позволяет определять их проще, чем случайную последовательность общего вида; таким свойством является свойство марковости. Марковские последовательности. Говорят, что случайная после- довательность х (к), к = 0, 1, ...,7V, является марковской, если для всех к р [а: (к + 1) | х {к), х (к — 1), . . ., х (0)] = = р [гг (к + 1) | а; (&)], (11.1.1) *) К сожалению, вышеупомянутые обозначения совпадают с обозначе- ниями N значений дискретного случайного вектора. Однако по смыслу изло- жения, где встречаются эти символы, обычно ясно, что имеется в виду.
Введение в теорию случайных процессов 367 т. е. если плотность распределения вероятностей для х (к + 1) зависит только от знания х (к) и не зависит от х (к — I), I = 1, 2, ... . Информация о х (к) может быть либо детерминирован- ной [известно точное значение х (к)], либо вероятностной (извест- но р [а; (к)]). Короче говоря, марковское свойство означает, что знание настоящего отделяет прошедшее от будущего. Плотность совместного распределения вероятностей случайной марковской последовательности может быть полностью описана заданием начальной плотности распределения р [ж (0)] и плот- ностей вероятностей перехода р [я (k + 1) | х (Л)]. Это легко ви- деть из следующего: р [х (N), х (N — 1), . . ., х (0)] — р lx (7V) | х (N — 1), ... . . ., х (0)1 р [х (N — 1), . . ., х (0)] = = р [х (7V) | х (N — 1), . . ., х (0)] х X р [х (N - 1) | х (N - 2), . . ., х (0)] . . . . . . р [х (1) | х (0)] р [ж (0)]. (11.1.2) С помощью (11.1.1) последнее выражение можно упростить до р [ж (N), . . ., х (0)] = = p[x(N) | ж (TV - 1)] р [ж (TV — 1) | ж (TV — 2)] ... ... р [ж (1) | ж (0)] р [ж (0)], (11.1.3) иными словами, плотность совместного распределения вероятно- стей равна произведению плотностей вероятностей перехода и на- чальной плотности распределения. Чисто случайные последовательности. Говорят, что последова- тельность является чисто случайной, если для всевозможных зна- чений к р [ж (к + 1) | ж (Л)] = р [ж (к 1)Е Чисто случайную последовательность образуют результаты последовательного вращения уравновешенного колеса, постепен- но тормозящегося трением. Результатом вращения считается рас- стояние от линии отсчета, связанной с колесом, до линии, не свя- занной с ним, измеренное по часовой стрелке вдоль периметра колеса (фиг. 11.1.1). Плотность распределения вероятностей результата является равномерной и не зависит от предшествующих вращений. Если все время пользоваться одним и тем же колесом, то последовательные результаты образуют стационарную чисто случайную последовательность. Предположим, что имеется много колес с различными диаметрами и после каждого вращения колесо заменяют другим; теперь последовательные результаты образуют
368 Глава 11 нестационарную чисто случайную последовательность х). Для каждого вращения плотность распределения вероятностей резуль- тата остается равномерной, однако константы плотностей для каждого вращения различны. Результаты, накопленные в игре с вращением колеса, не обра- зуют чисто случайной последовательности, так как они зависят / Линия отсчета, не связанная / с колесом Фиг. 11.1.1. Пример чисто случайной последовательности. Вращающееся ко- лесо. от предшествующих результатов; в действительности накопленные результаты образуют марковскую последовательность. Скалярная марковская последовательность Xi (к) = с (к) Xi (к) + w (к), (11.1.4) где w (к) — скалярная чисто случайная последовательность, а с (к) — известная числовая последовательность, является лишь обобщением призера с накопленным результатом (где с = 1). Большая распространенность марковских последовательностей. Марковское свойство по тому, как оно было введено выше, может показаться ограничением. Например, если уравнение (11.1.4) заменить скалярным разностным уравнением второго порядка хг (к + 1) = Ci (к) Xi (к) + с2 (к) xt (к — 1) + w (к), (11.1.5) где ш (к) — чисто случайная последовательность, a Ci (к) и с2 (к) — известные последовательности чисел, то станет ясно, что после- довательность Xi (к) не является марковской. Однако ее можно рассматривать как компоненту векторной марковской последова- тельности с вектором состояния '*1 (к)' _х-> (ку где х% (&+ 1) = Xi (к), так что а?! (к-\-1) _ж2(* + 1) ш (к); х) Вместо этого можно пользоваться одним колесом, но после каждого вращения изменять единицу измеряемой вдоль периметра длины.
Введение в теорию случайных процессов 369 таким образом, двухкомпонентный вектор (* + 1)1 /7 , .. зависит 1^2 (* + 1)J только от знания предшествующего элемента последовательности 'х, (Л)”| и от чисто случайной последовательности ш (к). _^2 (^/2 Обобщая вышесказанное, заметим, что если задана любая случайная последовательность, которая зависит от конечного прошлого в смысле- (11.1.5), то соответствующим расширением вектора состояния всегда можно превратить ее в эквивалентную марковскую случайную последовательность. Итак, случайные марковские последовательности с конечномерными векторами состояния включают в этом смысле все случайные последователь- ности, находящиеся между двумя крайними случаями, а именно чисто случайной последовательностью и случайной последователь- ностью, зависящей от бесконечного прошлого. Следовательно, марковские случайные последовательности могут быть исполь- зованы для описания большого числа физических явлений. По этой причине наше исследование случайных последовательностей будет ограничено случайными марковскими последовательностями. Марковские цепи. Если в марковской последовательности х является дискретным случайным вектором с конечным числом воз- можных значений, то такая последовательность обычно назы- вается марковской цепью. Для марковских цепей справедлива боль- шая часть изложенного выше с тем исключением, что вместо плотности вероятности перехода требуется переходная матрица вероятностей, а другие плотности распределения вероятностей заменяются на распределения вероятностей. Марковскую цепь можно использовать в качестве аппроксима- ции марковской последовательности непрерывно распределенных случайных величин. Переходная матрица вероятностей (см. задачу 3 этого раздела) является дискретной аппроксимацией плотности вероятностей перехода р [a; (t + 1) | х (£)], зависящей от двух переменных х (t 4- 1) и х (t). Дискретной аппроксимацией плот- ности распределения р [х (£)] в каждый момент времени служит вектор вероятностей. Примером чисто случайной марковской цепи служит после- довательное вращение колеса, окружность которого разделена на конечное число N равных дуг; каждой дуге приписывается целое число от 1 до N. Результатом вращения является одно из этих чисел. Распределение вероятностей равномерное, равно UN и не зависит от предыдущих вращений. Задача 1. Рассмотрите марковскую последовательность, обра- зованную накопленным результатом игры типа вращения колеса s (к + 1) = s (к) + w (к), s (0) = 0, 24-0102
370 • Глава 11 где s (к) есть результат к-ro вращения, а и> (к) — чисто случайная последовательность с плотностью равномерного распределения, равной 1/N на отрезке (0, N). Покажите, что -IV № s(k) = k~Y и £[($(*) — (Ar))2] = Ar есть среднее и дисперсия результата. Покажите также, что при увеличении к плотность распределения s (к) стремится к плот- ности гауссовского распределения. Задача 2. Рассмотрите марковскую цепь, образованную, как и в задаче 1, накоплением результата игры типа вращения колеса с тем исключением, что и> (А) есть чисто случайная цепь с возможными значениями 1,2, . . ., N, имеющими равномерное распределение, равное UN. Покажите, что среднее и дисперсия равны соответственно s(*) = *Z+L, £[(«(*)-; да = Задача 3. Предположим, что в некотором лесу погода харак- теризуется только тремя состояниями: состояние 1 — облачно, состояние 2 — дождь и состояние 3 — солнечно. Тогда суточная Фиг. 11.1.2. Схема вероятностей перехода для ежесуточных измене- ний погоды в дождливом лесу (зада- ча 3). погода образует марковскую цепь. На фиг. 11.1.2 представлена схема вероятностей перехода, полученных наблюдениями за дол- гий период времени. С ее помощью определяется матрица вероят- ностей перехода Pi (& +1) Рг (&+1) (*+!)_ Рг {к) ’0,6 0,3 0,2~| [*£!(£)- 0,3 0,7 0,5 0,1 0,0 0,3_ L/?3 (Аг) Покажите, что для этой системы существует стационарное (при к -► оо) распределение вероятностей с = 0,42; р2 = 0,52; р3 = 0,06.
Введение в теорию случайных процессов 371 Предскажите погоду на несколько дней вперед, если дано, что конкретный день — солнечный (р3 = 1, Pi = р2 = 0). Задача 4. Симметричная монета подбрасывается много раз. Найти вероятность выпадения герба в шестом и седьмом бросании и отсутствия в предшествующих бросках двух гербов подряд. '/2 '/2 Решетки Чг /Гербы /^ Фиг. 11.1.3. Схема вероятностей J перехода в задаче подбрасывания • Два герба подряд монеты. 3 (Указание. Это марковская цепь с тремя состояниями: состоя- ние 1 — решетка, состояние 2 — герб, состояние 3 — второй герб подряд и отсутствие в предшествующих бросках двух гербов подряд.) Схема вероятностей перехода представлена на фиг. 11.1.3, начальное-распределение таково: р^ (1) = р2 (1) = 1/2, р3 (1) — 0. Требуется определить р3 (7). Заметим, что для этой системы не су- ществует стационарного распределения вероятностей. Почему? 11.2. Гауссовские марковские случайные последовательности Случайная марковская последовательность, у которой для всех к плотности р [а: (к)] и р [а: (к + 1) | х (к)] являются плотно- стями гауссовского распределения вероятностей, называется слу- чайной гауссовской марковской последовательностью. Плотность распределения р [х (Л)] случайной гауссовской мар- ковской последовательности полностью описывается заданием двух детерминированных последовательностей: векторов средних значений х (k) -- Е [х (Л)] и матриц ковариаций X (к) = Е {[а? (А:) — х (к}] [а: (к) — х (&)]т}. С помощью гауссовской марковской случайной последователь- ности можно довольно точно аппроксимировать многие динамиче- ские явления как в природе, так и те, которые созданы руками человека. Более того, часто из-за ограниченности статистических данных о действительной последовательности целесообразно аппро- ксимировать негауссовскую марковскую случайную последова- тельность гауссовской. 24»
312 Глава 11 Так как линейные преобразования гауссовского вектора сохра- няют его гауссовское свойство (см. разд. 10.7), то гауссовская марковская случайная последовательность всегда может быть пред- ставлена в виде вектора состояния многомерной линейной динами- ческой системы, возбуждаемой чисто случайной гауссовской после- довательностью и имеющей гауссовское начальное состояние х (к + 1) = Ф (к) х (к) + Г (к) w (к). (11.2.1) Здесь х — n-мерный вектор, и> — m-мерный вектор, Е [w (к)] = w (к), (11.2.2) _ _ „ ( г (к), к = 1, E{[w(k)-w(k)](w(l)-w(l)]T}=[ о (11.2.3) Е [х (0)] = х (0), (11.2.4) Е {{х (0) - х (0)1 [х (0) - х (0)И) = X (0), (11.2.5) Е {[ж (0) - х (0)1 [w (к) - w (к)]Т} = 0. (11.2.6) Блок-схема такого представления показана на фиг. 11.2.1. х(0) -гауссовский вектор Фиг. 11.2.1. Блок-схема представления гауссовской марковской последо- вательности. Начальное состояние х (0) является гауссовским со средним значе- нием х (0) и матрицей ковариаций X (0). Гауссовской со сред- ним Ф (к) х (к) + Г (к) и> (к) и корреляционной матрицей Г (к)% (к) Гг (к) является и плотность вероятности р [х (к + + 1) | X (*)] *) р [х (к +1) |ж(*)] = ~ (2л)"/2 | Г (/0 х (/0 Г 7 (/с) |! /2 6ХР { “ Т(*+!)- — Ф (к) х (к) — Г (к) и? (к)]Т [Г (к) % (к) Гг (&)]-1 [л?(Аг4-1) — — Ф (к) х (к) — Г (к) w (к)] | . *) Если матрица Г/Г7" вырожденная, то при заданном х (К) точно извест- ны значения некоторых линейных комбинаций компонент х (к + 1).
Введение в теорию случайных процессов 373 Из уравнений (11.2.1) — (11.2.6) легко находятся соотношения для определения последовательностей х (к) и X (к). Беря мате- матическое ожидание выражения (11.2.1), получаем х (к + 1) = Ф (к) х (к) +V(k)w (к), х (0) и ш(к) заданы. (11.2.7) Вычтем (11.2.7) из (11.2.1), тогда х (к + 1) — х (к + 1) = Ф (к) [х (к) — х (Л)] + + Г (к) [w(k) - w (к)]. (11.2.8) Умножив (11.2.8) на результат его транспонирования и взяв затем математические ожидания обеих сторон равенства, придем к соотношению X (к + 1) = Ф (*) X (к) ФТ(к) + Г (к) % (к) Гт (к), X (0) и % (к) заданы. (11.2.9) Здесь принято во внимание, что в силу чисто случайного харак- тера последовательности ш (к) Е {[х(к) -х (к)] [ш (к) - w (*)]?} = 0. (11.2.10) Уравнения (11.2.7) и (11.2.9) являются линейными разност- ными уравнениями для вектора математического ожидания и кор- реляционной матрицы. Обратим внимание на то, что эти уравне- ния друг с другом не связаны, так что последовательности х (к) и X (к) можно вычислять раздельно. Они полностью определяют эволюцию плотности распределения р 1х (Л)]. Одномерный случай графически показан на фиг. 11.2.2 [см. формулы (11.2.20)]. Коли- чественное описание фиг. 11.2.2, например уравнениями (11.2.7) и (11.2.9), составляет основной результат исследования стохасти- ческих процессов. Корреляционная матрица гауссовской марковской случайной последовательности. Корреляционная матрица случайной гаус- совской марковской последовательности х (к) определяется как х) С (к, I) = Е { [х (к) - х (к)] [х (Z) - х (Z)]r}. (11.2.11) Эта детерминированная последовательность матриц является дву- мерной, так как она зависит от двух параметров ки I. Последова- тельность матриц ковариаций есть частный случай (11.2.11) X (к) == С {к, к). (11.2.12) х) Иногда корреляционную матрицу определяют как Е [х (к) хТ (Z)] = = С°. Ясно, что С = С° — х (к) хт (Z).
Пользуясь уравнениями (11.2.1) и переходной матрицей Ф (Zc + + I, к) = Ф (/с + I — 1) • • • Ф (к), вектор х (к + Z) можно выразить через х (к) и последовательность w(n), п = к, . . ., к + + I - 1: х (к 4- Z) = Ф (к + Z, к) х (к) + У! Ф (к +I, п Ц- 1) Г (n) w (п), (11.2.13) где Ф (т, т) = Е — единичная матрица. Вычитая из (11.2.13) средние значения, умножая затем на [х (к) — х (к)]Т и. беря мате- Ф и г. 11.2.2. Эволюция плотности вероятности случайной последователь- ности. . матическое ожидание результата, получаем й-н-1 С(к + 1, к) = Ф(к+1, k)X(k)+ 3 Ф(к-\-1, X n=fc X E{[w (n)—w(n)] [х (к) — х(к)]г}. Так как w (п) есть чисто случайная последовательность, то Е {[гр (гг) — w (гг)] [х (к) — х (/с)]Г} = 0 при п = к, . . ., к + I — 1 • Поэтому корреляционная матрица случайной гауссов- ской марковской последовательности просто равна С (к + I, к) = Ф (к + I, к) X (к), Z = 1, 2, . . ., (11.2.14) где X (к) можно определить из (11.2.9).
Введение в теорию случайных процессов 375 Из уравнения (11.2.14) для С (к + I, к) следует, что С(к, к + I) = 'Х (к) фт(к + I, к), Z = 1, 2, . . . . (11.2.15) Вычитая средние значения из (11.2.13), умножая затем на [w (к) — — w (к)]ТГТ(к) и беря математическое ожидание результата, полу- чаем взаимно корреляционную матрицу между входом и выхо- дом случайной гауссовской марковской последовательности Е {[а: (к 4- Z) — х (к +1)] [w (к) — w (к)]т Гг (к)} = ( Ф(к + 1, *4-1) Г(Л) х(к) Гг(к), 1 = 1, 2, ..., “1 0, 1 = 0, -1, —2, ... . (11.2.16) Соотношения (11.2.16) или (11.2.15) можно использовать для экспериментального нахождения элементов переходной матрицы неизвестной линейной системы1). Чтобы найти все компоненты Ф в (11.2.16), необходимо, чтобы существовала матрица (Г^Г2)-1- Статистически стационарные последовательности. Если Ф (к + I, к) = Ф (Г), а Г (Z) = Г и % (к) = % — постоянные матрицы, то возможно, что X (к) —X, где X — постоянная матри- ца, при к =>- оо (см. задачу 2 в приложении Б.4). В этом случае становятся стационарными корреляционная и взаимно корреля- ционная матрицы, т. е. С (к + Z, к) —С (Z). При 1 = 0, 1, 2, ... из (11.2.14)— (11.2.16) следует, что С (Z) = Ф (Z) X, (11.2.17) С (—Z) = ХФТ (I), (11.2.18) Е {[х (к1) — х (к +1)] [w (к) — w (Zc)]TTr (&)}-> Ф(г-1)ГхГт, 1 = 1, 2, ..., О, 1 = 0, -1, —2, ... (11.2.19) Гауссовская марковская последовательность первого порядка. Рассмотрим частный случай уравнения (11.2.1), когда х(к) — скаляр, Ф = а = const и Г=1 "х (к -{-1) = ах (к) + w (к), E[w(k)]=,0, (а, к = 1, Е [w (к) w (Г)] = I (11.2.20) ( V, К 4, Е [а: (0)1 = 0, Е [х (О)]2 = Хо (все величины — скаляры). (11.2.21) Ъ Это один из подходов к задаче «идентификации». Существуют более совершенные методы, однако в этой книге они не будут рассматриваться.
376 Глава 11 Скалярной является и переходная матрица Ф (к 4~ I, к) = а1, поэтому X (к + 1) = а2Х (к) + q, X (0) = Хо. (11.2.22) Решение этого разностного уравнения равно X(k) = a*X0 + q±^g-. ' (11.2.23) Далее, из (11.2.14) — (11.2.16) получаем + 1>0, . О'1 [о? О+^Хц-Ц *7°"*'' ] г<°. ( a,l^1q, 1=1, . • , Е [ж (k + l)w (*)] = | Z = 0,-l, .... (1L2-25) Если 0<^а<1, то при &->оо приходим к статистически ста- ционарной последовательности с11-2-26) с (к +1, к) ->С (Z) = аи. (11.2.27) Заметим, что если бы Хо было равно д' (1 — а2), т. е. начало совпадало бы со статистически стационарным состоянием, то X (Л) осталось бы постоянным. Задача 1. Покажите, что вектор средних значений и матрицу ковариаций можно представить с помощью переходной матрицы Ф (к, I) следующим образом: _ _ fe-i _ х (к) = Ф {к, 0) х (0) + 2 Ф (&, п + 1) Г (n) w (тг), п-0 X (к) = Ф (к, 0) X (0) Фт (к, 0) + /г-1 2 Ф (^, п +1) Г (тг) х (и) ГГ (тг) ФГ {к, тг 4-1), п=0 где Ф (к, Г) = Ф (к, к - 1) Ф (к - 1, к - 2) . . . Ф (Z + 1, I) и Ф (к, к) = Е — единичная матрица. Задача 2. Рассмотрите стационарную корреляцию [соотно- шение (11.2.27)] для гауссовской марковской последовательности первого порядка в том случае, когда последовательность состоит из N шагов. В этом случае корреляционная матрица [соотношение
Введение в теорию случайных процессов 377 (11.2.27)1 есть матрица размерности (N X N) 1, а, а2, JV-11 ... а г — q ° 1 — а2 Покажите, что матрица, а, 1, а2, а, N-1 а, , .. . обратная к 1, а а, 1 корреляц ионной, является тридиагоналъной 1, —а, — а, 1-|-а2, 0, —а, С~1 = - 0, — 1 + а2, ... 0, ... 0, ... 0, 0 0 0 ч 0, • — а, 1-]-а 0, —а, \ -а 1 Задача 3. Объем воды в резервуаре замеряется каждый год в одно и то же время. Пусть х (к) есть объем воды в /с-м году, и пусть и (к — 1) и у (к — 1) равны соответственно поступлению и расходу воды за предыдущий год. Замеры показывают, что при поддержании расхода воды постоянным, равным среднему поступлению воды, т. е. при v (к) = и для всех к, и (к) можно хорошо аппроксимировать статистически стационарной гауссов- ской марковской последовательностью со средним значением и. и корреляционным моментом Е[(и(к)—и) (и(1)— и)] = 0<а<1. Покажите, что при увеличении к дисперсия объема возрастает неограниченно. [Указание. Образуйте векторный гауссовский марковский процесс с вектором состояния [а: (к), и (к) — и] и покажите, что при к -> сю ХХх (А: +1) — Ххх (к) где Ххх — дисперсия объема.]
378 Глава 11 11.3. Случайные процессы и марковское свойство Случайным процессом называется однопараметрическое семей- ство непрерывно распределенных случайных величин х (t) с непре- рывным параметром t, t0 t tf. В приложениях непрерывный параметр (или независимая переменная) t часто является мерой времени или расстояния. Вследствие того что никогда нельзя точно узнать состояние систем в природе или созданных руками человека, то все происхо- дящие в таких системах непрерывные динамические процессы являются случайными. Примерами векторных случайных про- цессов служат: а) скорость ветра (величина и направление) в фиксированной точке пространства как функция времени; б) положение и скорость летательного» аппарата как функции времени; в) крутящий и изгибающий моменты, тангенс угла наклона и смещение вдоль балки в заданный момент времени как функции расстояния); г) амплитуда и фаза радиоволны в раз- личные моменты времени. Полное описание случайного процесса общего вида потребо- вало бы знания всех возможных плотностей совместных распре- делений р [ж («!), х (t^, . . ., х (^)J (11.3.1) для всех ti, t2, . . ., tN из интервала (t0, tf), где N есть любое целое число между 1 и оо. Вообще говоря, количество информа- ции, которое требуется для данного процесса, является недоступ- ным. К счастью, большинство встречающихся на практике слу- чайных процессов являются марковскими, а марковский процесс полностью определяется заданием плотности совместного рас- пределения р [a: (t), х (т)] для всех t, т в интервале (i0, tf)- (11.3.2) Так как р [a: (t), х (т)] = р [х (t) | х (т)] р [а: (т)1, то марковский процесс также полностью определяется заданием плотностей распределения р [х (t) | х (т)] и р [х (т)] для всех t, т в интервале ((0, t}). (11.3.3) Для марковского процесса знание (11.3.2) позволяет в прин- ципе находить все плотности совместных распределений (11.3.1) 1см. разд. 11.1, уравнения (11.1.1) — (11.1.3), где х (N) заме- лены на х (tN) и т. д.].
Введение в теорию случайных процессов 379 Чисто случайные процессы. Если для всех т из (£0, р [a: (f) | х (т)] = р [x(i)J, то х (t) называют чисто случайным процессом (или процессом белого шума). Так как в любом реаль- ном процессе при достаточно малых | t — т | величины х (t) и х (т) зависят друг от друга, то данный процесс является вообра- жаемым и должен рассматриваться только как предельный слу- чай. Как мы увидим, процесс белого шума есть удобная абстрак- ция 1). Если имеется случайное силовое воздействие и (t) на систему, для которого р [и (t) | и (т)] ^р [и (£)] при | t — г | > Т, и Т много меньше постоянных времени системы, то по отноше- нию к этой системе и (t) может рассматриваться как белый шум. Тяга ракетного двигателя Р (t) есть пример процесса белого шума; мгновенные отклонения тяги от среднего значения Р (t) от одной миллисекунды к другой предсказать нельзя. В то же время запаздывания в ракете измеряются секундами или, возмож- но, десятками секунд, так что по сравнению с динамикой лета- тельного аппарата отклонение тяги от среднего значения можно считать белым шумом. Другим примером процесса белого шума служит ток в про- воднике или электронном луче; мгновенные колебания тока относительно номинального установившегося значения от одной микросекунды к другой предугадать нельзя. Поэтому, если ток является входным сигналом системы с постоянными времени, большими чем микросекунда, то колебания тока относительно среднего значения можно считать процессом белого шума. Если ток в последнем прцмере определяется величиной заряда Дд (tj), проходящего через данное поперечное сечение электрон- ного луча в последовательные моменты времени, кратные микро- секунде, — tj = 1 мксек, то а? образуют чисто слу- чайную последовательность. Предположим теперь, что наблю- дается суммарный заряд q (t) в данном поперечном сечении элек- тронного луча; эта величина является скалярным марковским, а не чисто случайным процессом. Имеем q = i (t), t0 t tf, (11.3.4) где i (t) есть ток, чисто случайный процесс. Скалярный марковский процесс Xt (t), у которого xt = с (t) xt + w (t), (11.3.5) где w (f) — скалярный чисто случайный процесс, а с (t) — изве- стная функция времени, является небольшим обобщением случая с суммарным зарядом. г) Сравните с удобной, но фиктивной частицей массы в ньютоновской механике, имеющей конечную массу и нулевой объем.
380 Глава 11 Большая, распространенность марковских процессов. Марков- ское свойство не является таким ограничением, каким оно может показаться. Предположим, что для скаляра Xj (t) уравнение (11.3.5) заменено дифференциальным уравнением второго порядка = С, (t) Xf + С2 (f) Xj + w (t), (11.3.6) где w (t) — скалярный чисто случайный процесс, а с{ (t) и с2 (t) — известные функции времени. Тогда xf (?) не является марковским процессом. Однако xt можно рассматривать как компоненту векторного марковского процесса с вектором состояния j , где х2 = Xf, так как Обобщая это, заметим, что, если задан любой случайный про- цесс, описываемый конечным числом производных, то соответ- ствующим расширением вектора состояния всегда можно пре- вратить его в эквивалентный марковский случайный процесс. По этой причине исследование случайных процессов будет ограни- чено ниже марковскими процессами. 11.4. Гауссовские марковские случайные процессы Марковский случайный процесс, у которого для всех ?, т в интервале (?0, ?/) функции р [х (т)] и р [х (?) | х (т)1 являются плотностями гауссовского распределения, называется гауссовским марковским случайным процессом. Плотность распределения р [х (?)] гауссовского марковского процесса полностью описывается заданием двух детерминиро- ванных функций, вектором средних значений х (?) = Е [х (?)] и матрицей ковариаций X (?) = Е {[ж (?) — ж(?)1 [х (?) — х (?)] г}. С помощью гауссовского марковского случайного процесса можно довольно точно аппроксимировать многие динамические явления как в природе, так и те, которые созданы руками чело- века. Более того, часто из-за ограниченности статистических данных о действительном процессе целесообразно аппроксими- ровать негауссовский марковский случайный процесс гауссов- ским. Так как линейные преобразования гауссовского вектора сохра- няют его гауссовское свойство (см. разд. 10.7), то гауссовский марковский случайный процесс всегда может быть представлен как вектор состояния непрерывной линейной динамической системы,
Введение в теорию случайных процессов 381 возбуждаемой гауссовским чисто случайным процессом и имеющей гауссовский вектор начального состояния х = F (t) х + G (t) w (t), (11.4.1) где x — n-мерный вектор, w — m-мерный вектор, Е k'(0)] = x(t0), (11.4.2) Е {[ж (t0) — х (Z0)l k (t0) — x (0)]г} = X (t0) (11.4.3) и w (t) есть гауссовский чисто случайный процесс с Е [w (0] = w (t). (11.4.4) Блок-схема такого представления показана на фиг. 11.4.1. w(t) C(t) Гауссовский чисто случайный процесс я (Q)-гауссовский вектор хт t Гауссовский марковский случайный процесс Фиг. 11.4.1. Блок-схема представления гауссовского марковского процесса. В формулах (11.4.1) — (11.4.4) чисто случайный процесс w (t) был задан не полностью. Из определения чисто случайного про- цесса, данного в разд. 11.3, следует, что w (0 — w (0 очень раз- рывная случайная функция, значения которой от момента вре- мени t до следующего t + \t непредсказуемы даже при Д£—>-0. Посмотрим, каким образом при наличии w (0 определяется матри- ца ковариаций X(t) = {E k(0 -x(t)][x(t) -x(t)lT}. (11.4.5) Среднее значение х (0 определяется математическим ожида- нием соотношения (11.4.1) [х (0] = F (0 х (0 -j- G(t) w (0, х (t0) задано. (11.4.6) Вычитая (11.4.6) из (11.4.1) и умножая затем результат на [х (0 — x(t)f, получаем {^[х (0 -х (01} [х (0-х (0]г = F (0 [X (0 - — х (01 [х (0 — х (t)]T+G (0 [w (0 — w (0] [х (0 — х (0]т. (11.4.7)
382 Глава 11 Если к уравнению (11.4.7) добавить результат его транспони- рования, то придем к {к(0 — х (0] [х(0 — х(0]т} = . = F (t) [х (0 — х (t)] [х (0 —х (0] т4-[х (0 —х (0) [х (t)—x (t)]T FT (04- + G (0 [w (t) — w (0] lx (t) — x (0]r+ [x(0 —x (0] x X [u> (0 — w (0]T GT (0. (11.4.8) Взяв математическое ожидание (т. е. среднее по ансамблю) урав- нения (11.4.8) и используя определение (11.4.5), найдем, что X = F (t) X + XFT (0 4- G (0 Е {[ш (0 — w (0] [х (0 — х (0]Г} + + Е {[х (0 — х (0] [ш (0 — w (0]т) GT (0. (11.4.9) Используя переходную матрицу Ф (0 т) линейной динамиче- ской системы (11.4.1), получаем t -л-J С- x(t) —х (t) = Ф (0 t0) [х (t0) — х (0)] 4- j Ф (0 т/[ш (т) — w (т)] dx. ‘° (11.4.10) Предположим, что Е {[х (0) -~х (0)] [ш (0 - w (0R }= 0, (11.4.11) т. е. случайные отклонения начальных условий не коррелированы со случайными колебаниями возмущающей силы. Перемножая (11.4.10) и \w (0 — w (0]т, взяв математическое ожидание резуль- тата и учитывая (11.4.11), получаем Е {к (0—х(0] [ш(0 — w (0]т} = / t = j Ф (0 т) G (т) /?{[ w (т) — w (т)( [нг (0 — w (0]г} dx. (11.4.12) to Из соотношений (11.4.9) и (11.4.12) видно, что вся информация о процессе w (l) — w (0, нужная для определения матрицы кова- риаций X (0, сводится к знанию взвешенного интеграла от авто- корреляционной матрицы Е {[ш (0 - w (0] [ш (т) - w (т)]г). (11.4.13) Чисто случайный процесс нужно рассматривать как предельный случай случайного процесса с малым временем корреляции (разд. 11.3). Поэтому в качестве (11.4.13) выберем простую корре-
Введение в теорию случайных процессов 383 ляционную функцию, которая позволит совершить эту предель- ную операцию £{[«?(/) — w(Z)] |>(т) —w(r)]T} = x(Z) exp ( -- -у---) , (11.4.14) где Т — постоянное число, значительно меньшее, чем постоянные времени переходной матрицы Ф (t, т), а X (t) — матрица кова- риаций w (г) % (t) = Е {[ш (t) — w (Z)] [ш (t) — w (i)]T}. (11.4.15) Для случая скалярного w (t) эта корреляционная функция пока- зана на фиг. 11.4.2. Так как корреляция быстро уменьшается после того, как величина | t — т | превысит Т, то при подстановке (11.4.14) Фиг. 11.4.2. Экспоненциальная корреляционная функция. в (11.4.12) приближенно можно считать Ф (г, т) Е единич- ной матрицей и заменить t0 на — оо; тогда E{[x(f) — x (01 [№ (t) — w (0)Т} £ ,(t) J exp (__HzllpT = 7’G(0x(O- (H.4.16) Подставляя выражение (11.4.16) и результат его транспонирова- ния в (11.4.9), получаем X = FX + XFT + GQGT, X (t0) задана, (11.4.17) где Q (t) = 2ГХ (t). (11.4.18) Итак, Q (t) есть неотрицательно определенная матрица, представ- ляющая интеграл от корреляционной матрицы гауссовского чисто случайного процесса w (t).
384 Глава 11 Поскольку речь идет об уравнении (11.4.17), то (11.4.14) можно записать в виде Е {[w (t) — w (£)] [ш (т) — w (<} = Q (t) б (t — т), (11.4.19) где 6 (Z— т)—дельта-функция Дирака, определяемая как б (t) = lim бЕ (t), 8—>0 Г о, |>е, (11.4.20) Это определение означает, что С2 о , , fl, И < t < Z2, \ 6 (t — т) dx — < J L 0, tf>t или t2<Zt. (11.4.21) Фиг. 11.4.3. Определение функции (<)• Из соотношений (11.4.19) и (11.4.14) видно, что величину Q (t) можно рассматривать как Q (t) = lim [2ГХ (f)], (11.4.22) т->о где Т — время корреляции случайного процесса и / (/) — его второй момент. Ясно, что при Т —► 0 X(i)->oo (11.4.23) таким образом, что предел (11.4.22) конечен. Итак, гауссовский чисто случайный процесс есть предел гаус- совского марковского процесса с очень большим вторым моментом и очень малым временем корреляции. Когда Q постоянна, то w (t) называют стационарным чисто слу- чайным процессом. Преобразование Фурье по (t — т) корреля- ционной матрицы (11.4.19) равно Q, т. е. спектр процесса — белый. По этой причине гауссовский чисто случайный процесс часто называют белым шумом. Уравнения (11.4.6) и (11.4.17) являются линейными дифферен- циальными уравнениями для вектора средних значений х (I)
Введение в теорию случайных процессов 385 и матрицы ковариаций X (i). Эти уравнения друг с другом не связаны, и поэтому х (i) и X (t) могут быть вычислены раздельно. Корреляционная матрица гауссовского марковского случайного процесса. Корреляционная матрица случайного процесса х (t) определяется как С (t, х) = Е {[ж (i) - х («)] [х (т) - х (т)П- (11.4.24) Это детерминированная функция двух переменных t и т. Матрица ковариаций, определенная соотношением (11.4.5), является част- ным случаем (11.4.24) X (i) = С (t, t). (11.4.25) С помощью (11.4.11), (11.4.6) и переходной матрицы Ф(^ + т, t') величину х(г-)-т) — x(f-}-T) можно выразить через х (t)—х (t) и w(t')— t^t' <£ + т, х(« + т)—х(£+т) = Ф(£-}-т, t) [х(£) — х (i)] + + j ф(* + т, t')G(t') dt’. (11.4.26) it Умножая (11.4.26) на [x(i)—x (i)]T и беря математическое ожи- дание, получаем *+т С (t 4-т, t) = Ф (i-f-т, t) X (i) + Ф (i-f-т, t')G(t') Е {[w (t')— i — w(t')] [x(t)—x(t)}T} dt’. (11.4.27) При т >0 подынтегральное выражение в (11.4.27) равно нулю, поскольку w (i) есть чисто случайный процесс и не коррелирован с х (t). Отсюда следует, что при т 0 С (i + т, t) = Ф (t + т, t) X (i). (11.4.28) Из определения корреляционной матрицы (11.4.24) видно, что С (t, t + т) = СТ (i + т, i). (11.4.29) Используя (11.4.28) и (11.4.29), получаем С (t, t + т) = X (t) Фт (t + т, t) при т > 0. (11.4.30) Умножая (11.4.26) на [w (i) — w (i)]T GT (i) и беря математиче- ское ожидание, получаем взаимную корреляционную функцию между входным сигналом G (t) w (t) и выходным х (^)J Е {[х(г-]-т) —х(г + т)] [ш(0 — ю (t)]TGr (t)} = Ф(t + x,t)G(t)Q(t)Gт(t), т>0, I 0, т<0. (И.4.61) 25—0102
386 Глава 11 Соотношения (11.4.31) или (11.4.28) можно использовать для экспериментального определения элементов переходной матрицы неизвестной линейной системы. Для того чтобы с помощью (11.4.31) найти все компоненты Ф, необходимо, чтобы матрица GQGT была невырожденной. Статистически стационарные процессы. Если в (11.4.1) F (t) равна постоянной матрице F, то Ф (t + т, t) зависит только от т; назовем эту матрицу Ф (т) стационарной переходной матри- цей. Если, кроме того, G (i) = G, a Q (/) = Q, где G и Q — постоян- ные матрицы, то при Z->oo может случиться, что X (i) -> X, где X — постоянная матрица (см. задачу 2 в приложении Б.4). Если это так, то X -> 0, и поэтому X можно найти из линейного соотношения FX + XFT + GQG^ = 0. (11.4.32) Такой процесс называют статистически стационарным', здесь просто случайная возмущающая сила уравновешивается демпфи- рованием системы, которое характеризуется матрицей F. Корреляционные функции статистически стационарного про- цесса являются также стационарными; так, С (t 4* т, t) является только функцией т, поэтому ее можно записать как С (т). Таким образом, при т 0 С (т) = Ф (т) X, (11.4.33) С(-т) = ХфТ(т) (11.4.34) и Е {[х (t 4- т) — х (t 4-т)] [w (I) — w(t)]T GT (£)} = _f ®(i:)GQGT, т>0, I 0, т < 0. (11.4.35) Гауссовский марковский процесс первого порядка. Рассмотрим частный случай уравнения (11.4.1), когда х — скаляр и F = = —G = —а, а — постоянное число, х (t0) =0, X (t0) = Хо, w (t) = 0, Q (t) = q, q — постоянная, x — —a (x — w). (11.4.36) Переходная матрица- является стационарной, Ф (t 4* т, t) = = Ф (т) = ехр (—ат), и X = — 2аХ 4- a2q, X (t0) = Хо, (11.4.37) где X (t) есть дисперсия х (t). Решением (11.4.37) будет X (г) = Х0е~2° Р-«о) -J-yg'a [1 — е-2а (i-i0)]. (Ц.4.38)
Введение в теорию случайных процессов 387 Выражение ( е~ахХ (i), C(t + r, Z)=| еаТХ(г + т)? т^О, т < О, (11.4.39) определяет автокорреляционную функцию процесса х (i); взаимно корреляционная функция процессов х (I) и iv (i) имеет вид {qae~ax, т>0, , , О, т<0. (И.4.40) При a (t—10)—> оо процесс становится статистически стацио- нарным X(t)-^^qa, (11.4.41) С (т)—qae' a 1Т1. (11.4.42) Результат (11.4.42) служит оправданием выбора экспоненциальной корреляции в выражении (11.4.14). Отметим, что в этом процессе время корреляции Т = На (фиг. 11.4.2). Если а становится очень большим (Т = 1/а становится очень малым), то х (t) -> w (i), т. е. процесс х (i) с большой дисперсией 1/2gra и малым временем корреляции 1/а приобретает черты гауссовского процесса типа белого шума. Гауссовский марковский процесс второго порядках). Рассмо- трим автономную динамическую систему второго порядка с возму- щающей функцией, являющейся белым шумом: х + 2^®х Ч- <д2х = a>2w (i), (11.4.43) Е [w (i)] = 0, Е [w (i) w (i')l = q8 (t — t'). (11.4.44) В векторных обозначениях (11.4.43) можно записать как ГхЯ Г 0, 1 "I ГхЛ Г 01 • = , „ iv(t). (11.4.45) x2j L-~®> — Lx2j L® J Предполагается, что случайные начальные условия имеют вид E[xi (0)] = 51 [х2 (0)] = 0, х2, ххх2 _____ Хн(0), Х12 (0) Х4Х2, X2 _ t=0 Л12(0), -X22 (0) Переходная матрица для (11.4.45) определяется легко: cos Pi + 4psinPi, -i-sin = Ш2 ><0 —-p- sin Pi, cos Pi —sin Pi где p = ® /1 — £a. •*) (11.4.46) (11.4.47) (11.4.48) •*) См. работу M. C. Wang, G. E. U hlenbeck в [10.6]. 25*
388 Глава 11 Из решения задачи 1 этого раздела и уравнения (23) прило- жения А.4 следует, что X (i) = Ф (f) X (0) Фг (i) + ( Ф (t — т) gqgTa>T (t — т) di, (11.4.49) После подстановки (11.4.48) в (11.4.49) и интегрирования получается Хи (t) = £ (cos fit 4-у-sin ptУ Хи (0) 4~ 4-—sinpt (cos pt 4--^-sin pt) Xj2(0)4-y-sinaPiX22 (0) J 4- + -^г [1 — (wa — g2coa cos 2fit 4-gcop sin 2fJZ) J , (11.4.50) X12 (t) = e~2sw/ sin pt (cosPi 4--y-sin pt j XH (0) 4- + (cosaPi —|i^sinapi) X12(0) + 4-j- sin pi ( cos Pi —-y-sin Pi) X22 (0) ] 4- -yfjTjaj e~2gM< sin3 Pi, (11.4.51) X22 (t) = е~2£“г sin3 pt XH (0) — — y- sin Pi (cos Pi — y- sin Pi) X12 (0)4- 4- (cos pt —-y- sin Pt)2 X22 (0)] 4- 4- [ 1 — e ' (“2 — 52“2 cos 2fit — g«p sin pt) J. (11.4.52) При (oi->oo и £>0 корреляционный момент X12 (i) ->• 0, a XH (i) -> (дчо/4Э, X22 (i) -> (groW). (11.4.53) На фиг. 11.4.4 представлены графики Х1Ь Х22 и Х12, соответ- ствующие = 0,2; Хв (0) = Х12 (0) = Х22 (0) = 0. На фиг. 11.4.5 для различных значений i показаны эллипсы, соответствующие вероятности 2п, которые наложены на среднюю траекторию системы, начинающуюся в известном состоянии xj (0) = 1,0; х2 (0) = 0.
Введение в теорию случайных процессов 389 Отметим, что в этом случае эллипс, соответствующий вероят- ности 2п, вначале сильно вытянут в направлении х2. Это объяс- Ф и г. 11.4.4. Графики элементов матрицы ковариаций гауссовского мар- ковского процесса второго порядка с малым демпфированием. Фиг. 11.4.5. Фазовая траектория х (г) и математическое ожидание х (г) гауссовского марковского процесса второго порядка с малым демпфирова- нием. няется тем, что вначале Х22 растет быстрее ХГ1 (это отражает то физическое обстоятельство, что скорость более чувствительна
390 Глава 11 к шуму в ускорении, чем положение). По мере роста времени размеры эллипса увеличиваются, он становится более круглым и поворачивается. В момент t = л/р эллипс переходит в окруж- ность, затем опять поворачивается до тех пор, пока при t = 2л/р снова не станет окружностью. И так продолжается до тех пор, пока в конце концов не будут достигнуты стационарные значения Хц, Х22 И Х12- ' Можно ожидать, что в установившемся состоянии траектория динамической системы остается внутри круга 87% времени. На фиг. 11.4.5 показана действительная траектория этой системы, полученная с помощью аналогового моделирования. Вид траек- тории подтверждает справедливость аналитического результата. Случайные возмущающие функции, отличные от белого шума. Результат (11.4.42) свидетельствует о том, что выходной сигнал стационарного гауссовского марковского процесса первого поряд- ка имеет экспоненциальную корреляционную функцию с постоян- ной времени, равной 1/а. Это указывает путь исследования задач, в которых шум на входе является случайным, но не белым. вектора возмущений Фиг. 11.4.6. Коррелированное по времени возмущение, полученное с помо- ' щью формирующего фильтра. Используя формирующие фильтры первого или высшего порядков (стационарные или нестационарные). с белым шумом на входе, получаем в качестве выходных сигналов коррелированный во вре- мени или окрашенный шум, т. е. гауссовский марковский процесс. Почти любую корреляционную функцию шума достаточно хорошо для практических целей можно аппроксимировать соответствую- щим выбором коэффициентов в формирующем фильтре. Это иллю- стрируется схемой на фиг. 11.4.6. Ясно, что анализ систем типа показанной на фиг. 11.4.6 не представляет дополнительной прин- ципиальной трудности. Здесь требуется лишь определить состоя- ние всей системы как х = Расширенный вектор состоя- ния х является гауссовским марковским процессом.
Введение в теорию случайных процессов 391 Задача 1. Покажите, что вектор средних значений и матрицу ковариаций с помощью переходной матрицы Ф («, т) можно пред- ставить следующим образом: t х (t) = Ф (£, 0) х (0) Ф (t, т) G (т) w (т) dx, о t X (0 = ф (t, 0) X (0) Фт (t, 0) + j Ф (t, т) G (т) Q (т) GT (т) Фг (t, т) dx, о где ФТ (t, т) = —FT (т) Фт (t, х), Ф (t, t) = Е — единичная матрица. Задача 2. Покажите, что среднее значение и дисперсию скаляр- ной величины у (t), являющейся линейной функцией векторной величины х (i), у (t) = атх (t) можно найти из выражений t у (t) Кт (0) х (0) + j (т) G (т) w (т) dx о и Е {[У (0 - у (Z)]2} = (0) X (0) % (0) + t + j (т) G (т) Q (т) GT(х) % (т) dx, о где -^-=-^(т)%(т), = а х, F, G, w л Q совпадают с теми, что уже были определены в этом разделе ранее. Заметим, что если х есть n-мерный вектор, то для отыскания % (т) требуется п интегрирований, для определе- ния X (i) по соотношению (11.4.17) нужно х/2 [п (п + 1)1 интегри- рований, нахождение матрицы Ф (i, т) требует п2 интегрирований. Задача 3. Пуассоновский процесс. Скалярный сигнал и (t) равен либо 4-п0, либо —и0 со случайными временными интерва- лами между моментами изменения сигнала. Среднее число пере- мен (от и0 до —и0 и обратно) за единицу времени равно v. Вероят- ность иметь ровно п перемен за время t «
392 Глава 11 Среднее значение и (t), очевидно, равно нулю. Покажите, что корреляционная функция является стационарной и равняется Е [и (t + т) и (£)] = UgC-2v 1*1. Заметим, что этот процесс является марковским, но не гаус- совским. Задача 4. Часто имеется возможность измерять только линей- ные комбинации компонент вектора состояния, засоренные адди- тивным белым шумом z (i) — Н (t) x(t) + v (i), Е [р («)] = О, Е [к (t) vT (т)] = R (i) 6 (« - т). Покажите, что автокорреляционная матрица процесса г Е [г (i + т) z? (i)] = Н (t + т) С (t + т, t) HT(t) 4- R (i) 6 (т). Пусть х (t) и v (i) являются независимыми случайными процес- сами. Будет ли процесс z (i) марковским? Задача 5 х). Рассмотрите систему уравнений второго порядка с демпфированием (11.4.43) и (11.4.44). Покажите, что в стати- стически стационарном случае матрицы корреляций имеют вид £11, £12 _£г1, £22. cage 1*1 Е pl (*-|-т) «>(£) [^2 (М'Т) W (<)_ X (t 4- т) Xi (t), Xt (t 4- т) х2 (£)' _ _ж2(«4-т)а:1(^), x2(t + r) x2(t) _ ~ 2|т1+у«пр|т|, -ysinpT —^-sinpr, <в2 cos р | т | — sin р | т | -(l/P)sinpT 1 cos Рт — (|а»/Р) sin рт J ’ т < 0. О, д = Е Покажите также, что E {[x2 (i + t) 4- axi (t 4- t)] [x2 (i) 4- aXi («)]} = <o3ge-S“ 1*1 = —12|-----:COsP|t|, Для случая | — 0,2 элементы корреляционной матрицы Сц, С12 и С22 показаны на фиг. 11.4.7. Задача 6. В 1905 г. Эйнштейн получил решение задачи о броу- новском движении (см. работу Uhlenbeck and Ornstein в [10.6]). Он предположил, что видимые глазом частицы велики по сравнению 4 См. примечание на стр. 387.
Введение в теорию случайных процессов 393 со средним свободным пробегом молекул жидкости, так что урав- нения движения такой частицы хорошо аппроксимируются уравнениями mv = —cv + / (i), х = v, где т — масса частицы; v — ее скорость; с — коэффициент вяз- кости Стокса (постоянная); / — случайная сила, обусловленная столкновениями с молекулами; х — положение частицы. Фиг. 11.4.7. Статистически стационарная корреляционная функция7гаус- совского марковского процесса второго порядка с малым демпфированием. Три таких уравнения можно записать для трех взаимно перпен- дикулярных направлений; из изотропности (жидкости) ясно, что- они статистически независимы. Среднее время между столкновениями очень мало, и / (<) хорошо аппроксимируется гауссовским белым шумом, т. е. имеем Е [/ («)] = 0, EJf (i) / (i')l = (i — t'), q = const. Предполагая, что E lx (0)] = E [v (0)] = E lx2 (0)1 = E [p2 (0)1 = = E lx (0) v (0)1 = 0, покажите, что £1[z;2 («)] =~2^- (1 — Elv(t)x(t)]=^-(i-e-^)2r E (i)] = > (3-e~ct!m) Отметим, как и Эйнштейн, что. для t тс величина Е [х2 («)] стремится к qtlc2, не зависящей от массы частицы. Задача 7. Большую ракету запускают по вертикали. Интере- сующее нас изменение высоты мало по сравнению с радиусом
394 Глава 11 Земли, поэтому приближенно гравитационную силу на единицу массы g можно считать постоянной. Вес намного превышает величину аэродинамического сопротивления, поэтому последним будем пренебрегать. Таким образом, приближенными уравнения- ми движения будут т = —Р/с, mv = Р — mg, х = и, где т — масса ракеты, v — ее скорость, Р — тяга, с — удельный импульс (постоянный), х — положение ракеты. Найдите средние -значения и вторые моменты и, т, х как функции времени, если дано, что Е [р (0)1 = Е [х (0)1 = 0, Е [т (0)] = т0, Е [п2 (0)], Е [х2 (0)], Е {[ш (0) — ш0]2} заданы, Е [у (0) х (0)] = Е [п (0) (т (0) — m0)] = Е [х (0) (т (0) — т0)] = 0, Е [Р («)] = Ро = const, Е [(Р (Z) - Ро) (Р (Г) - Ро)1 = q8 (t-t'), q = const. Задача 8. Другим распространенным типом случайной возму- щающей функции является случайная постоянная, которую мож- но рассматривать как возмущающую функцию с бесконечным временем корреляции. Исследуйте влияние такой функции на систему второго порядка с демпфированием х + 2|сох + арх = ш (Z), где Е {w (Z)] =0, Е [ш2 (i)] = q — const, В < 1, Е [х (0)1 = Е [х (0)] = 0, Е [х2 (0)] и Е [(г (О))2] заданы, Е [х (0) х (0)] = 0. [Указание. Примите w за другую переменную состояния, описы- ваемую уравнением w — 0 со случайными начальными условия- ми Е [т (0)] = 0, Е [ш2 (0)] = ?.] 11.5. Аппроксимация гауссовского марковского процесса с помощью гауссовской марковской последовательности В приложениях обычно бывает необходимо путем численного интегрирования на вычислительных машинах найти вектор сред- них значений х (t) и матрицу ковариаций X (t). Если исполь- зуется цифровая машина, то фактически в численной процедуре .непрерывный процесс аппроксимируется многошаговым.
Введение в теорию случайных процессов 395 Если интервал времени (z0, tf) разделен на N подынтервалов длины Az = (tf — t0)/N, то полагают х (t) ~ х (к) для к = 0, 1, 2, . . ., N. (11.5.1) Простой аппроксимацией уравнения х — F (Z) х 4- G (Z) iv (Z) является х (t + Az) = [Е + F (t) Az] х (z) + G (Z) w (t) Et. (11.5.2) Для того чтобы это соответствовало схеме многошаговой аппро- ксимации х (к + 1) = Ф (к) х (к) + Г (к) w (к), (11.5.3) нужно положить Ф (к) = [Е + F (Z) AZ] t-t0=feAt> (11.5.4) Г (к) G (Z) AZ , (11.5.5) и считать w (Z) кусочно-постоянной функцией (ступенчатой функ- цией) w (Z) = iv (к) для ArAz Z — Zo < (к + 1) Az. (11.5.6) Однако не столь очевидно, что следует брать за матрицу ковариа- ций %(&) ступенчатого процесса iv (к) при аппроксимации непре- рывного процесса белого шума iv (Z) с заданной матрицей Q (Z). Здесь Е {[ш (Z) — iv (Z)] [iv (т) — iv (т)П = Q (Z) б (Z — т), (11.5.7) Е {[ш (к) — iv (Л)] [iv (Z) — iv (Z)]r) = х(^) &ы (Н.5.8) и 1, к=1 О, к=£1 Очевидно, что выбор % (к) сильно зависит от величины Az и обусловлен нашим желанием иметь X(t)\t_t0=hM^X(k), к = 0, 1, 2, . . ., N. (11.5.9) Простой аппроксимацией уравнения X = FX + XFT 4- GQGT является X (Z 4- AZ) - X (Z) = F (Z) X (Z) AZ 4- 4- X (Z) FT (Z) AZ 4- G (Z) Q (z) GT (Z) AZ. (11.5.10) Соответствующее выражение для X (к 4- 1), согласно уравне- нию (11.2.9), равно X (к 4- 1) = Ф (к) X (к) ФТ (к) 4- Г (к) х (*) Гт (к). (11.5.11) Подставляя (11.5.4), (11.5.5) и (11.5.9) в (11.5.11), получа^ X (Z 4- AZ) - X (Z) = F(t)X (Z) AZ 4- X (z) FT (Z) Az 4- 4- F (Z) X (Z) FT (Z) (AZ)2 4- G (Z) [% (Zc) Az] G^ (t) Et. (11.5.12) 8ki= | (функция Кронекера).
396 Глава 11 Далее ясно, что, для того чтобы (11.5.12) соответствовало (11.5.10) до членов первого порядка по AZ, необходимо, чтобы Q (О = X (*) (11.5.13) Другими словами, % (к) обратно пропорционально приращению времени А Л Сравнивая (11.5.13) с уравнением (11.4.18), замечаем, что они различаются множителем 2. Это объясняется наличием остро- го пика у экспоненциальной корреляционной функции, исполь- зуемой в разд. 11.5, в противоположность плоскому характеру кусочно-постоянной функции, входящей в выражение (11.5.6). 11.6. Координаты состояния системы и марковское свойства Между понятием состояния детерминированных процессов и понятием марковости стохастических процессов имеется боль- шое сходство. Это видно из следующего: Детерминированный процесс Стохастический процесс 1. В любой момент времени t сущест- вует конечномерный вектор х, ко- торый, будучи заданным, опреде- ляет будущее развитие процесса независимо от того, каким было прошлое, и наоборот. Это свойст- во состояния системы. Координа- тами состояния является совокуп- ность чисел 2. Зависимость будущего от настоя- щего определяется заданием раз- ностного (дифференциального) уравнения, которое описывает пе- реход (дифференциальный пере- ход) от одного состояния к дру- гому, т. е. имеем ж («+!) = /(ж (г), t) и начальное состояние х (0) 3. Частным, но важным случаем является такой, когда уравнения линейны 1. В любой момент времени t сущест- вует плотность распределения ве- роятностей, являющаяся функ- цией конечномерного вектора х, который, будучи заданным, опре- деляет будущее вероятностное по- ведение процесса независимо от того, каким было прошлое, и на- оборот. Это марковское свойство. Состоянием случайного процесса является плотность распределения 2. Зависимость вероятностного пове- дения в будущем от плотности распределения в настоящем оп- ределяется заданием механизма перехода (дифференциального ме- ханизма перехода) Р (х (£-{-1)) = = jp (a: (i+ i)/x (t))-p (x(t)) dx (t)' и начальной плотности распреде- ления р (х (0)) 3. Частным, но важным случаем является такой, когда механизм перехода и начальная плотность гауссовские
Введение в теорию случайных процессов 397 Гауссовскую марковскую последовательность (процесс) можно представить с помощью белой гауссовской случайной последова- тельности (процесса), действующей на линейную дискретную (непрерывную) динамическую систему, имеющую гауссовское начальное состояние. Состояния процесса в будущем и настоящем можно связать дифференциальным механизмом перехода, а не вышеупомянутым интегральным соотношением общего вида. С вычислительной точки зрения первое представление более удобно. Более того, состояние процесса является только конечно- мерным, так как для его описания необходимы лишь среднее и матрица ковариаций. Подчеркиваем, что уравнения (11.4.6) и (11.4.17), которые описывают процесс в пространстве состоя- ний, являются детерминированными и поэтому доступны детер- минированному исследованию. В этом ключ к анализу стохасти- ческих процессов: характеризовать их с помощью величин, которые связаны между собой детерминированным образом, и в последую- щем использовать только эти величины. Задача 1. Укажите правильный ответ: Случайный процесс может быть: 1) гауссовским, но не обязательно марковским; 2) марковским, но не обязательно гауссовским; 3) стационарным, но не обязательно гауссовским; 4) гауссовским марковским, но тогда обязательно нестацио- нарным. Возможные ответы: а) все утверждения верны; б) правильны 1, 2 и 3, а 4 неверно; в) правильны 1 и 2, а 3 и 4 неверны; г) все утверждения ложны; д) правильно только утверждение 1. Задача 2. Укажите правильный ответ. Рассматривается система х = Fx + w, где Е [ш («)] = 0, E{w (i) w? (т)1 = Q6 (t - т) и w (t) — гауссовский процесс. Пусть Тогда при t -> оо матрица ковариаций процесса х (г) 1) бесконечна; 2) нулевая; 3) конечна и положительно определена; 4) конечна и полуопределена.
398 Глаза 11 Задача 3. Укажите правильный ответ. Рассматриваются две динамические системы, изображенные на фиг. 11.6.1, где w — белый гауссовский шум с нулевым математическим ожиданием. Тогда уравнения для матрицы ковариаций процесса х (t) Фиг. 11.6.1. Гауссовские марковские процессы, различающиеся знаками при одинаковых случайных возмущающих функциях. 1) идентичны для обеих систем; 2) отличаются знаком; 3) различаются только внедиагональными членами; 4) совершенно различны. Задача 4. Укажите правильный ответ. Рассматривается та же задача 3 [т. е. задача о матрице ковариаций для х (f)], только теперь w является коррелированным гауссовским марковским процессом с известной корреляционной матрицей. Вначале Е [и> (0) х (0)г] = 0. Выберите ответ из указанных в задаче 3. Задача 5. Рассматривается скалярный марковский процесс хг; покажите, что 1) р (xt | xt+2, xt+l, xt_i, xt_2) = p (xt \ xt+i, Xt^y, 2) в общем случае P I • • •> ^ + 1> • • ч ^t-м) P (.^t I ^t-l) - Задача 6. Рассматривается уравнение x = Fx + gw и z = = hTx, где w есть белый шум с Е [ш] = 0 и Е [w2] = 1. Определи- д те i (t + т, t) = Е [z (t + т) w (£)]. Что такое i (t + т, i)? Задача 7. Пусть в задаче 6 F = £ J . g = [ * ] ; определите установившееся состояние С (т) корреляционной функ-' ции процесса х (t). Задача 8. Пусть дано xt+i = &xt + wt, wt — белый шум, но не гауссовский. Напишите уравнения для среднего и матри- цы ковариаций процесса xt.
Введение в теорию случайных процессов 399 11.7. Процессы с независимыми приращениями Проведенное обсуждение естественно подводит к предположе- нию, что более общий класс стохастических процессов можно представить выходными сигналами нелинейной динамической системы, возбуждаемой каким-либо шумом. Для описания таких процессов удобно ввести понятие процесса с независимыми при- ращениями. Процесс т] (i) называется процессом с независимыми приращениями, если Р h (t2) — т] (i4), т] (i4) — г] (is), т] (te) — т] (i5), . . .] = = Р h .(*2) — Т] (*1)] Р In (i4) — П О Р h (<e) — п (^ • • • (11.7.1> для всех i6 > i5 > i4 > i3 > t2 > ij. Двумя основными процессами с независимыми приращениями являются: а) Винеровский процесс (или процесс броуновского движения) - Он определяется как гауссовский процесс ц (i), у которого Е [ц (i + dt) — ц (i)l = Е [dr] (i)l = О, Е Wt]2 (>)] = Q (t) dt. С помощью обозначений, используемых в этой главе ранее, ц (i) можно представить как Т] = w, где w — б^лый гауссовский шум с нулевым средним и корреля- ционной функцией Q (i) б (i — т). б) Пуассоновский процесс. Он определяется условием, что вероятность того, что произойдет одно событие за время dt, равна adtu не зависит от любого предшествующего события. Если событие произошло, то значение, принимаемое процессом, опре- деляется плотностью распределения р (ц). Сложные стохастические процессы можно представить в виде dx = / (х) dt + g (х) dr\, (11.7.2) где ц (i) есть процесс с независимыми приращениями, опреде- ленный либо в п. «а», либо в п. «б» х). К счастью, можно получить еще одно дифференциальное соотношение (аналогичное уравнению для среднего и вторых моментов), которое является детермини- рованным и описывает эволюцию плотности вероятности процесса. При определенных условиях это оказывается практически выпол- нимым. х) Если требовать, чтобы (11.7.2) имело вид х = / (х, t) + g (х, «) (dr\!dt), то необходимо было бы определить много разных белых шумов, соответствую- щих различным процессам с независимыми приращениями.
400 Глава 11 Например, если определить р (х, t | х0, t0) как плотность вероятности пребывания в состоянии х в момент t, когда известно, что в момент t0 система находится в состоянии х0, то при опре- деленных условиях х) для винеровского процесса получаем урав- нение "дГ= 2 dxi дх} 1 (11.7.3) P (x, to I x0, t0) = 6 (x—x0), известное под названием прямого уравнения Колмогорова или уравнения Фоккера — Планка. В принципе дифференциальные уравнения в частных произ- водных для плотности вероятности р (х, t | х0, t0) можно построить и ддя других процессов ц (i) вида (11.7.2). Когда число ком- понент вектора х превышает два или три, то получить какие- либо числовые результаты трудно. х) См. W. М. Wonh am, Stochastic Problems in Optimal Control, IEEE Convention Records (1963).
Глава 12 Оптимальные фильтрация и прогнозирование 12.1. Введение В предшествующих главах было установлено, что для опти- мального управления динамической системой необходимо знать состояние этой системы. На практике часто с помощью непосред- ственных измерений отдельные переменные состояния точно опре- делить нельзя; обычно оказывается, что измерения, которые можно осуществлять, представляют собой функции переменных состояния и содержат случайные ошибки. Сама система может быть также подвержена действию случайных возмущений. Во мно- гих случаях для того, чтобы сделать заключение о значениях переменных состояния, соответствующих данному моменту вре- мени, число измерений в этот момент оказывается недостаточным, если даже измерения выполняются совершенно точно. Иногда измерений бывает больше, чем необходимо, так что переменные состояния получаются переопределенными. Таким образом, учиты- вая, что на саму систему действуют случайные возмущения, возникает проблема получения хороших оценок переменных состоя- ния либо по слишком малому, либо по слишком большому числу измерений, которые сами являются неточными и представляют собой только функции переменных состояния. Если динамика идеальной системы (с точными и полными измерениями и без случайных возмущений) известна, а также имеется некоторая информация о степени, неточности измерений и интенсивности случайных воздействий на систему, то можно, основываясь на измерениях, которые имеются к данному моменту времени, определить наиболее правдоподобные значения пере- менных состояния. Процесс определения этих наиболее правдо- подобных значений в зависимости от того, ищутся ли прошлые, настоящие иди будущие значения переменных 'бббтбЖМИГТМ5Й- вается^оответстве^но'"Стадж^вТнйём7~'фильт'рацйей или прогно- зированием^ В этой главе рассматриваются вопросы фильтраций и прогнозирования. Ее результаты непосредственно приложимы к стохастическим задачам управления. Проблема сглаживания рассматривается в гл. 13. 26—0102
402 Глава 12 12.2. Оценивание параметров методом взвешенных наименьших квадратов Пусть требуется оценить вектор состояния статической систе- мы х, состоящий из п компонент, используя измерение вектора z из р компонент, содержащее случайные ошибки и, которые не зависят от состояния х: z = Нх + V, (12.2.1) Н — известная матрица размерности (р X п), Е Ы = 0, (12.2.2) Е [vvTl = R — известная положительно определенная матрица размерности (р> X р). (12.2.3) Допустим, что до измерения мы имели оценку вектора состоя- ния, которую обозначим через х, Е [(z — х) (х — х)Т~ — М, где М — известная положительно определенная матрица размерности (п X п). (12.2.4) Оценка по методу наименьших квадратов, которую будем обозначать как х, является одной из весьма оправданных оценок случайного вектора х, использующих измерения вектора z; в этом методе х выбирается таким образом, чтобы минимизировать вели- чину квадратичной формы ]) J = ^-[(х — х)Т М~г (х — х) -j- (z — Нх)т ЕЕ1 (z — Нх)]. (12.2.5) Заметим, что весовые матрицы М-1 и R"1 — это матрицы, обрат- ные априорным математическим ожиданиям матриц (х — х) X X {х — х)т и (z — Hx)(z — Нх)т соответственно. При таком выборе весовых матриц оценка, полученная методом наименьших квадратов, в случае гауссовских распределений для х и v совпа- дает с оценкой, равной условному математическому ожиданию, т. е. х = Е [х j z], что в свою очередь совпадает с оценкой, получаемой методами максимума правдоподобия или минимума дисперсии (см. задачи 1—6 в конце этого раздела). Чтобы определить х, рассмотрим дифференциал выраже-- ния (12.2.5) 2) dJ = dxT [M~l(x — х)—HTR~1 (z — Нх)]. (12.2.6) *) Если v — объективно существующие, не зависящие от нас ошибки измерения, то минимизация разности х — х при наличии в (12.2.5) слагаемого vTR-Yv носит такой же условный характер, как и минимизация функционала в любой задаче теории приближения функций.— Прим. ред. 2) Выражение для х можно также получить, если раскрыть скобки в (12.2.5); см. задачу 3.
Оптимальные фильтрация и прогнозирование 403 Для того чтобы dJ = 0 при произвольном dxT, коэффициент при dxT в (12.2.6) должен равняться нулю: (М-1 + ^R^H) i = М~гх + IP'R^z = = (М-1 + HTR~lH) x + HTR-1 (z — Нх), . т. е. i = x + PHTR-'(z-Hx), (12.2.7) где р-1 = М-1 + Я1’7г~1Я. (12.2.8) В уравнении (12.2.8) величина Р есть матрица ковариаций ошибки оценки х Р = Е[(х—х)(х~х)т]. (12.2.9) Чтобы показать это, положим ошибку оценки х — х = е. Тогда е = х — х^-х — х—х — х-4- К [у — Я (х — ж)], или е = (Я — КН) (х — х) + Kv, (12.2.10} где К = PHTR~l. Поскольку х — х и v независимы, то из (12.2.10) следует, что, Е [ееЛ = (Я — КН) М (Е — КН)Т + KRKT. (12.2.11) Умножая (12.2.8) слева на Р и справа на М, получаем М = Р + РН^-'НМ или (Я — КН) М = Р. (12.2.12) Подстановка (12.2.12) в (12.2.11) дает Я [еег] = р _ рнткт + KRKT = = Р — PHTR~1HP + PHTR~lHP, т. е. Я [еет] = Р. (12.2.13) Так как М есть матрица ковариаций ошибки, имевшейся до измерения, то из (12.2.8) следует, что Р, матрица ковариаций ошибки после измерения, никогда не больше М г), поскольку х) Говорят, что матрица Р меньше, чем матрица М, если для всех ненулевых векторов х скалярная величина хтРх < хтМх. 26*
404 Глава 12 матрица №7?-1Н по крайней мере положительно полуопределена. Таким образом, проведение измерения уменьшает (более точно, никогда не увеличивает) в среднем неточность наших знаний о состоянии х. Другое важное свойство оценки состоит в том, что Е [ехт] = Е {[(ZJ — КН) (х— х) Д- Ко] [х — КН (х— х) Д- Ки]7'} = = — {Е — КН) МНТКТ + KRKT = - РНТКТ + KRK7 = 0, (12.2.14) т. е. оценка и ошибка оценки не коррелированы. В том случае, когда х и v гауссовы, это означает, что х и е независимы (см. гл. 10). Равенство (12.2.14) можно рассматривать как определение оценки, оптимальной в том смысле, что в ней содержится вся информация из z, так что знание х или z не улучшает ошибку е. Из (12.2.5) следует, что априорное математическое ожидание J равно р/2. Это легко показать, если записать (12.2.5) в виде J = ~ Тг [М~7 (а; — х) (х— z)T] Д- — Тг [7?-1 (z — Нх) (z — Нх)т], где Тг обозначает «след матрицы», т. е. сумму элементов ее глав- ной диагонали. Далее [/] = у Тг {М^Е [(х — х) (х — z)T]} + + 4 Тг {R'E [(z - Нх) (z - Нх)т]} = 1 Тг {М~7М} + ± Тг {R~7R}. Но М~7М есть единичная матрица размерности (n X п), R~7R — единичная матрица размерности (р X р), поэтому Тг (М~гМ) = п, Тг (R~7R) = р- Отсюда 1 E[J} = ^P. Иногда априорное знание матриц М и R является неточным. Чтобы проверить это, следовало бы после получения оценки вычислить по уравнению (12.2.5) при х = х фактическое значе- ние J; обозначим его через J0. Априорное математическое ожи- дание величины Jo может быть вычислено; найдено, что^ Е (То) = р/2. Если фактическое Jo намного отличается от р/2, то элементы матриц М и R следует умножить на J0/(p/2). Тогда среднее значение J станет равным р/2. Отметим, что при этом матрица Р также умножается на ту же величину [см. форму- лу (12.2.8)], однако это не изменит х [в равенстве (12.2.7) указан- ная величина входит как в Р, так и в R и поэтому сокращается]. По этой причине необходимо устанавливать только относитель- ную величину элементов в М и R', множитель J0/(p/2) затем можно
Оптимальные фильтрация и прогнозирование 405 учесть, с тем чтобы получить значения Р, М и R, согласующиеся с разбросом данных. Многие задачи получения оценок часто являются нелинейными, другими словами, вместо соотношения (12.2.1) имеется z = h (х) + v, где h (х) — известная нелинейная функция х. В этом случае изложенное выше можно применить к линеаризованному вариан- ту выражения z = h (х) + v , A - dh I . —. , A dh , . dz=z— z — (x — x) -4- v = -3- dx + v- dx ix=x' ' dx ' Как это сделать, показано в двух нижеследующих примерах. В некоторых задачах оценивания известна только неявная зависимость между оцениваемыми параметрами и имеющимися измерениями, т. е. явно записать выражение z (t) = h (х, v, t) нельзя. Однако здесь все же можно непосредственно установить дифференциальное соотношение dz = (dh/dx) dx -'- v и решить линеаризованную задачу оценивания. Отметим также, что некоторые динамические задачи оценива- ния при соответствующей их постановке можно свести к задачам оценивания параметров (см. пример 2). Пример 1. Определение местоположения по угловым измерениям. Требуется оценить положение (х, у) точки Л, лежащей в плоско- сти, по измерениям углов z,, производимым из нескольких точек Фиг. 12.2.1. Оценка положения с помощью измерения углов от ли- нии отсчета. (i — 1, 2, . . ., п), которые расположены на линии отсчета (фиг. 12.2.1). С положением точек А и Вг- угловые измерения гг связаны нелинейными уравнениями zi =arctg-^-^ + i?/, (12.2.15) где vt — случайная ошибка, сделанная при измерении угла. Пред- положим, что Е [rd = 0, Е [vtVj] = | (12.2.16)
406 Глава 12 Далее линеаризуем выражение (12.2.15) в окрестности априорной оценки положения (х, у), которую обозначим как (х, у) где H2i] х — х -У —У + vt, zt = arctg-т^— , X — lj Zj Полагая матрицу ковариаций ошибки бесконечной, М -> оо или Af-1 = O, будем считать оценку (х, у) независящей от априор- ных данных. Пусть Z1 Zj Zn ryi 1 Тогда dz = Н dx~T~v', при этом P={HTR^H)~\ Если dx значительно отличается от нуля, процедуру следует повторить, проведя линеаризацию относительно (х, у) = (х Д- dx, у Д- dy). В принципе эту процедуру следует повторять до тех пор, пока dx 0. Собственные значения и собственные векторы матрицы Р определяют эллипс 39% правдоподобия с центром В & у). Численный пример. Пусть п = 3 и заданы следующие данные: г 1 2 3 Единица измерения h 0 152,5 305 метр zi 30,1 45,0 73,6 градус ri 0,01 0,01 0,04 градус2.
Оптимальные фильтрация и прогнозирование 407 По приближенному чертежу (фиг. 12.2.2) оценки z = 369 м, у — 213,5 м. Отсюда г —0,067 -0,132 .-0,246 , 0,9671 1,183j ’ > — 4,66' ! 3,69. ~х~ '370,5 = L214,l_ г0,05 -1 dz — 0,40 .0,29. град, Н = dx = К dz = Г4,08 ' — 1,525" 0,576. ‘1,045 .0,967 -0,95 3,23 м, выбираем в качестве следует, что 0,115-1 0,134 град 1м, 0,077. м/град, м. Находим следующие собственные значения и собственные векторы матрицы Р: Собственное Направление собственного значение вектора 2,106 .и2 47,0° 0,154 м2 -43,0° Взяв в качестве полуосей эллипса (отложенных вдоль собствен- ных векторов) квадратный корень из собственных значений (1,493 и 0,393 м), пдлучим эллипс 39% правдоподобия с центром в (х, у) (фиг. 12.2.2). Линейные размеры эллипса 99% правдо- подобия в три раза больше соответствующих размеров эллипса 39% правдоподобия. На фиг. 12.2.2 показаны также линии визи- рования из точек Бг, В2 и В3. Заметим, что (Zi -Z1)2 = (30,22 - 30,1)2 = (0,12)2 = 0,0144, (z2 - z2)2 = (44,88 - 45,0)2 = (0,12)2 = 0,0144, (z3 - z3)2 = (73,73 - 73,6)2 = (0,13)2 = 0,0169. Поэтому 3 1 VI Oi-Zi)2 _ 1,44+1,444-0,42 _ 3,30 2 21 ri 2 — 2 i=l Априорное математическое ожидание этой величины равно 3,00/2, поэтому, основываясь на ограниченной выборке из трех
408 Глава 12 измерений, дисперсии углов следовало бы увеличить в 3,30/3 = = 1,10 раза. Это привело бы к увеличению линейных размеров эллипса 39% правдоподобия в ]/1,10 = 1,05 раза. Линия визирования из точки В, S 213 § § § h. 210 •3 £ 207 Qj Наилучшая оценка положения A (x.v) Линия визирования из точки Вг 357 360 363 X, м Фиг. 12.2.2. Численный пример оценки положения с помощью угловых измерений. / Линия визирования из точки В, Эллипс 39 °/ правдо- подобия, полученный по априорным оцен- кам дисперсий узлов Эллипс 99% правдоподобия Пример 2. Определение параметров орбиты по измерениям датчика горизонта. Эллиптическая орбита в своей плоскости задается следующими четырьмя параметрами (фиг. 12.2.3): а — главная полуось эллипса, е — эксцентриситет эллипса, То — время прохождения через перигей, 0О — угол между перигеем и линией отсчета. На спутнике установлена измерительная система, которая состоит из: а) цилиндра, вращающегося относительно оси, пер- пендикулярной к плоскости орбиты, с постоянной угловой ско- ростью со, величина которой поддерживается как можно более близкой к 2л/Т, где Т — период обращения по орбите; б) установ- ленного на цилиндре датчика горизонта, измеряющего угол a (t) между линией визирования центра Земли и линией отсчета на вращающемся цилиндре. Эта линия отсчета выбрана так, чтобы а (Го) — 0, т. е. а о; 0 в перигее. При отсутствии ошибок изме- рения a (t) является периодической функцией, полностью опре- деляемой параметрами е, а, То, и и а (То)', так, если орбита кру-
Оптимальные фильтрация и прогнозирование 409 говая, то a (t) = 0 при со, в точности равной 2л/Т. Любое откло- нение орбиты от круговой приведет к периодическим колебаниям вращающейся линии отсчета относительно линии визирования. Задача состоит в том, чтобы, основываясь на засоренных шумами Фиг. 12.2.3. Определение параметров орбиты по измерениям датчиков горизонта. измерениях угла а (0, улучшить оценки параметров е, а, Т 0, со и а (Го)- Соотношение между величиной а в момент t и параметрами а, е, Го, со и a (t0) неявно задается следующим образом х): » « COS Е----в цг а =ф — т, cos<b=-z---------=г, М—Е — esmE, м = m = Го) — а0, а0 = а(Г0), Г = -Ц=-а3/2. R Vg Здесь углы </>, М и Е известны соответственно под названиями истинной, средней и эксцентрической аномалий, g — ускорение силы тяжести на поверхности Земли, R — радиус Земли. Отме- тим, что если со = 2л Г и а0 = 0, то т — М. Дифференцируя вышеупомянутые соотношения и исключая da, dM, dE, dm и dT, можно получить следующее выражение: = da + de cZ7’0'- 7’0 cZw- da0, где Зл7’о(1 — e2)sin2? da __ (1 — e2) sin2 £ da aT sin ф (1 — e cos 2?)3 ' de ~ sin ф (1 — e cos Ey- ’ da ____________ 2л (1 — e2) sin E dTg Ю T sin ф (1—ecos/?)3’ x) См., например, J. M. A. D a n b у, Fundamental of Celestial Mechanics. Macmillan, N. Y., 1962.
410 Глава 12 Эти частные производные вычислены по наилучшим для момента измерения текущим оценкам параметров а, е, То, со, а0. Предполагается, что измерение величины z (t) содержит слу- чайную ошибку v z (t) = a (t) + и, где Е [у] = 0, Е [у2] = R и R известно. Пусть a (t) — результат измерения, предсказанный на момент t с использованием наи- .лучших текущих оценок а, е, То, со, а0. Тогда z (t) — a (t) da (t) + v, или da ... _ ~ Г да да z(t) — a (Г) ——, —— , ' ’ ' ' L да де de dT0 d(i> >.-т- *] da0 Далее это линейное выражение можно использовать для оценки величин da, de, dT0, da и da0 по измерению z (t) — a (t). Задача 1. Пусть x и v из уравнения (12.2.1) являются незави- симыми случайными векторами с гауссовскими плотностями рас- пределения. Покажите, что совместная плотность распределения р (х, v) пропорциональна ехр (—J), где величина J определяется уравнением (12.2.5). Таким образом, величины х = х и v = — z — Нх доставляют максимум функции р (х, v), оправдывая название «оценка по методу максимального правдоподобия». Задача 2. Выведите уравнения Р = М — МНТ (НМР + Я)’1 НМ, (а) К = PHTR~l = МНТ (НМНТ + R)-1. (б) 'Отметим, что если размерность R меньше размерности Р, т. е. если р < п, то в данных соотношениях, определяющих Р и К, содер- жатся обратные матрицы меньшей, чем в уравнении (12.2.8), размерности. Правые части уравнений (а) и (12.2.8) образуют пару обратных матриц, удовлетворяющих лемме об обращении матриц ]) [см. задачу 4 разд. 1.3 и уравнения (12.7.20), (12.7.21)]. х) Другой вариант леммы об обращении матриц состоит в утвержде- нии, что (Еп + ХУ)-1 = Еп - X (Ет + УХ)-1У, где Еп, Ет — единичные матрицы размерности п и т соответственно; X — матрица размерности п X гаг; У — матрица размерности т X га.— Прим, .перев.
Оптимальные фильтрация и прознозирование 411 Задача 3. Раскрывая скобки в формуле (12.2.5), покажите, что J = ^-[x—^ — PHTR~1 (z — Hx)]T p-i [х-х- и — PHTR~l (z —Я£)] + + * (z-Hx)T R'1 (R-HPHT) R-1 (z—Hx). и Отсюда уже видно, что минимум J соответствует выбору х — х, где i^x + PR^R'1 (z-Hx), что совпадает с выражением (12.2.7). Задача 4. Пусть заданы два коррелированных гауссовских случайных вектора х и z со средними х и z, матрицами ковариа- ций Рхх и Pzz соответственно и корреляционной матрицей Pxz = = Е [(х — х) (z — z)r], Покажите, что условная плотность рас- пределения р(х |z) является гауссовской с Я [х | z] = X -|- РXZPzz (z- z) = X, E [((z — X) (x — X)T)/z] = Pxx — PxzPzzPxz- Задача 5. Пусть в задаче 4 z = Нх ф- v, Н — известная матри- ца, v не зависит от х, математическое ожидание х равно 0, матрица ковариаций R, Рхх == М. Покажите, что Pzz = R + НМНТ, Рхг = МНТ, z = Нх. Используя эти соотношения в задаче 4, проверьте равенства (12.2.7) и (12.2.8). (Воспользуйтесь результатами задачи 2.) Заметьте, что наиболее разумный ответ: К — РхгР~£1 Задача 6. Покажите, что в задаче 4 гауссовские случайные векторы е = Е [х | z] и z — z независимы, т. е. Е [е (z — z)] = 0. Задача 7. Предположим, что число соотношений между изме- ряемыми переменными z и фазовыми переменными х меньше числа измеряемых переменных. Пусть, например, Az = Нх ф- Av; А — матрица размерности (q X р), q < р, Н — матрица раз- мерности (q X п), Е [у] = 0, Е [vvT] = R — матрица размерно- сти (р X р). Покажите, что здесь применима развитая в этом разделе процедура оценивания, где z заменено на Az, a R — на ARAT.
412 Глава 12 Задача 8. Рассмотрите обычную задачу аппроксимации методом наименьших квадратов, т. е. задачу отыскания х, минимизи- рующего /==|||2_Яа;||2. Покажите, что ошибка аппроксимации е = z — Нх ортогональна аппроксимирующей величине z = Нх в том смысле, что eTz = 0. Задача 9. Пусть в задаче 2 начальные оценки элементов орбиты равны: а — 9650 кл{, е = 1/6, То = 0, со = 2п/Т, а0 = 0. Пола- гая R = 6565 км и g = 9,62 м/сек2, с помощью одного измере- ния z (Г) — 16,7° в момент t = 1357 сек получите улучшенные оценки величины а, е, То, со и а0. Здесь Е [и2] = 10-2 град2, Е_[(а - а)2] = 2,59-Ю"4 км2, Е[(е - е)2] = ICC4, Е [(Г - Т0)21 = 102 сек\ Е [(со - со)21 = 10“10 сек’2, Е [(а0 — осо)2] = 10-2 град2, а все смешанные моменты второго порядка равны нулю. [Ука- зание. Для нахождения Р пользуйтесь соотношением задачи 2, а не формулой (12.2.8).] 12.3. Оптимальная фильтрация для линей- ных однотаговых переходов Рассмотрим систему, дискретный переход которой из состоя- ния 0 в состояние 1 происходит согласно линейному уравнению а?! = Фохо + Го«/’о, (12.3.1) где Фо — известная переходная матрица размерности (п X п), Го — известная матрица размерности (и X г); Е [И7О] = w0, Е [(И7О — w0) (w0 — «;0)3'] = Qo. (12.3.2) Таким образом, вектор возмущений «?0 есть случайный вектор со средним ю0 и матрицей ковариаций Qo. Состояние х0 также является случайным вектором со средним х0 и матрицей ковариа- ций Ро, т. е. Е [жД = х0, Е [(ж0 — х0) (х0 — х0)Т] = Ро. (12.3.3) Кроме того, х0 и №0 независимы. Из этих данных следует, что Xi есть также случайный вектор, и, согласно соотношениям
Оптимальные фильтрация и прогнозирование 413 (11.2.7) — (11.2.9), его математическое ожидание Xi и матрица ковариаций Mt таковы: Xi — Фо^о 4" 1>0, (12.3.4) ^ФЖ+ВД. (12.3.5) Поскольку в силу (12.3.2) матрица Го<2оГ^ является неотрица- тельной, то из (12.3.5) следует, что в среднем в процессе перехода типа (12.3.1) неопределенность в величине w0 приводит к увеличе- нию неопределенности наших знаний о состоянии Zj ]). Это должно противоречить результату (12.2.8), из которого видно, что в сред- нем измерения уменьшают неопределенность наших знаний о состоянии системы 2). Предположим, что после перехода в состояние 1 проводятся измерения, аналогичные рассмотренным в разд. 12.2. Тогда из формул (12.2.7) и (12.2.8) получаем, что наилучшая оценка вектора Xi есть где а?! = Xi + (z,— ffiXt), = M.Hl (HiMtHf + Ri)-1 HiMi. (12.3.6) (12.3.7) Здесь Xi и Mi задаются выражениями (12.3.4) и (12.3.5). Отме- тим, что Xi есть оценка вектора перед измерением, тогда как Xi есть оценка Xi после измерения. Аналогично есть матрица ковариаций ошибки до измерения, a Pi — матрица ковариаций ошибки после измерения. Символически этот процесс можно описать следующим образом: Z1 - I - I среднее: х0------>- х}-----> a?i, Qo R I I матрица ковариации: Рй------>- Mi----> г) Точнее, неопределенность либо увеличивается, либо остается неиз- менной. Увеличение матрицы Р, конечно, также зависит от множителя Фо. 2) Здесь неопределенность также либо увеличивается, либо остается неизменной.
414 Глава 12 12.4. Оптимальные фильтрация и прогнозирование линейных многошаго- вых процессов Рассмотрим линейный стохастический многошаговый процесс, описываемый уравнениями Z;+i = Ф;Я;' + Ггшг, I = 0, . . N — 1; (12.4.1) Е к0] = х0, (12.4.2) Е [ш,] = wt, (12.4.3) Е [(z0 —_х0) (х0 — z0)T] = Мо, (12.4.4) Е ](щг — — w}y\ = Qfitj, (12.4.5) Е ](wf — шг) (х0 — z0)T] = 0. (12.4.6) Когда система находится в состоянии г, проводятся измерения гг-. Они линейно связаны с состоянием xt Zi = HiXi + vt, i = 0, . . ., N, (12.4.7) E [vt] = 0, (12.4.8) E [Vivp = Rfiij, (12.4.9) E [(wt — Wt) vp = 0 ]) и E [(z0 — x0) vp = 0. (12.4.10) Естественно ожидать (см. вывод в разд. 12.7 или в гл. 13), что оценку состояния xh по методу наименьших взвешенных квадратов или по методу максимума правдоподобия, исполь- зующую только измерения z0, . . Zk, можно получить после- довательно, применяя одношаговую процедуру оценки пред- шествующего раздела xt ~ xt + (zi — HtXt), i — 0, . . ., к, к <1 N, (12.4.11) где _ _ _ xi+i = xo задано, (12.4.12) 1 2) Ki = PtHlRi\ (12.4.13) Pi = (M?1 + H?R?Hi)-i = Mi - MiHj (HtMiHl + Rt)-i Н(М,, , (12.4.14) Мг+1 = ФгРгФГ + Гг(?гГГ (12.4.15) Это и есть фильтр Налмана для линейных многошаговых про- цессов [12.2]. Отметим, что фильтр (12.4.11) и (12.4.12) является 1) В гл. 13 рассматривается случай, когда wt и vt коррелированы. 2) Конечно, в (12.4.12) член- xi+i следует понимать как Е [ж;+1 | zi, . . . . . ., zj, а не как Е [ж;+1].
Оптимальные фильтрация и прогнозирование 415- моделью системы (12.4.1), содержащей поправочный член, про- порциональный разности между действительным измерением z; и его предсказанным значением HiXt. В выражении (12.4.13)- матрица пропорциональности Кг фактически характеризует соот- ношение между неопределенностью состояния и неопределен- ностью в измерениях 7?г; в (12.4.7) матрица является просто- матрицей преобразования вектора состояния в вектор измерения. Отметим, что: а) Эволюция матрицы ковариаций ошибки оценки [форму- лы (12.4.14) и (12.4.15)] не зависит от измерений zt. Таким образом,, если заданы параметры уравнений системы и процесса наблюде- ний, то матрицу ковариаций можно вычислить заранее и запомнить. б) Вычисление улучшенной оценки [уравнения (12.4.11)- и (12.4.12)] производится только по текущим измерениям и матри- це ковариаций ошибки. Поэтому оценку можно легко получить, в реальном времени. Прогнозирование состояния на этапе, следующем за тем, для которого имеется текущее измерение, например на этапе т, можно сделать только путем повторного применения выражения (12.4.12), т. е. =: -Гг'-i-l == Ф^г —, I = т, т —j— 1, ..., (12.4.16). где оценка хт получена из уравнений фильтра (12.4.11) — (12.4.15). Другими словами, для наилучшего прогнозирования пользуются уравнениями перехода (12.4.1) с математическим ожиданием wt, а именно wt, начиная с оценки хт, полученной с помощью фильтрации. Другой способ получения соответствую- щих уравнений состоит в том, что для г = т, т Д- 1, ... пола- гают Rt = оо. В этом случае (12.4.11), (12.4.12), (12.4.14), (12.4.15)- сводятся к соотношениям Рм = ФгРгфГ + rz(?zrF, (12.4.17) хм = Фх; + Г11щ, (12.4.18)- которые уже были получены в разд. 11.2 [см. формулы (11.2.9)- и (11.2.7)]. ' Ошибка оценки состояния многошагового процесса е, = = — xt удовлетворяет уравнению, которое можно получить из (12.4.1) и (12.4.11). Имеем et+i — (Ф К^НФ) et + (Л(+1ЛГ — Г) wt 4- Л;+1г?г+1, е0 = х0 — х0. (12.4.19а)- Для _УДобства здесь опущены индексы у Ф, Г, Q и Н и считается, что wt = 0. Поскольку Е [a;oe^] = 0, то непосредственное вычис-
416 Глава 12 ление индукцией по i показывает, что для всех i Е Й+1еГ+1] = Е {(Ф^ - К^НФе, + Ki+iHYwi + J- KMVM) [(Ф —К1+1НФ)Т ei4 (Kl+1HT— Г) wi + Ki+1vi+1]T} = = -К^Н [ФРг [Ф-К^НФУ] + YQ (K^Hr-r)T+Ki+lRKl+l = = Ki+1HMi+1(HTKl+l-E) + Ki+iRKl+i = = -Ki^HPt+i + Ki^RK^ = 0. (12.4.196) Этот результат аналогичен соотношению (12.2.14). Статистически стационарные процессы. Если все матрицы Фг, Г,, Rt, Hi, Qi постоянны, то процесс фильтрации может стре- миться к установившемуся состоянию в том смысле, что Mt и Pt становятся постоянными матрицами М и Р при t —>- оо. Матри- цы М и Р определяются из уравнений Р-1 = М1 + IPR-HI или Р = М — МН1 (R + НМН^'1 НМ, (12.4.20а) М = ФРФГ + Г(?ГС (12.4.206) Уменьшение информации Г(?Г2' уравновешивается поступле- нием информации НтЕ~гН в условиях демпфирования, которое может иметь система (последнее определяется матрицей Ф). Простой процесс первого порядка. Стационарная многошаговая система первого порядка возбуждается белой случайной последо- вательностью, и на каждом шаге производится одно измерение, содержащее ошибку. Эти ошибки образуют другую (независимую от первой) белую случайную последовательность xi+1 = 4- шг, Е [щ] = 0, Е \wiWj\ = q6tj, (12.4.21) zi = Xi + vt, E kJ = 0, E [vivj] = г6г}, i = l,2,..., (12.4.22) E [x0] = x0, E [(x0 — z0)2] = p0. Фильтр, работающий по методу максимума правдоподобия, опи- сывается уравнениями zz+1= ^^+-^-(2,41— фхг), х0 задано, (12.4.23) + ро 3адаН°- (12А24) В статистически установившемся состоянии имеем pi+1=p; = p. Из (12.4.24) при i -> оо получаем 4 - /("Г + 1-^)2+4^ -(-г+'-^Ь (12.4.25) . + (12.4.26)
Оптимальные фильтрация и прогнозирование 417 Закон больших чисел. Интересный частный случай систе- мы (12.4.21) получается при ф = 1 и q = 0: xi+l = xt, (12.4.27) z; = xt + Vi, (12.4.28) т. e. с помощью последовательных измерений нужно определить некоторую постоянную величину х. В этом случае уравне- ния (12.4.23) и (12.4.24) принимают следующий простой вид: жг+1= xt-Y^- (zI+1— xt), х0 задано, (12.4.29) ~~ + > Ро задано. (12.4.30) Pi+1 r Pi Последнее рекуррентное соотношение легко решается: — == — + —» или pt = р<> . (12.4.31) Pi г 1 р0 l + [s (p0/r)] v ’ Подставляя (12.4.31) в (12.4.29), можно выразить xt через х0, Ро и измерения Х1 = Хо+[^-}[ (1 Ч~)] (zi — Хо)= (xo + y-z^ Д1 +-у-) , ^2 = ^1+[(?) I (j+2 (?))] (Z2”^) = [^+~ (Z1 + Z2)]/ [1 + 2 (^) ] . (12.4.32) х, — i _L Ч—ГТ" U ~ X zi ] • l + i (ро/г) L ° 1 г XJ з=1 При i -> оо уравнения (12.4.31) и (12.4.32) принимают следую- щий вид: pt -> 0, (12.4.33) 'xt -> -^-2 ZP (12.4.34) 3=1 т. е. наилучшая оценка стремится к среднему арифметическому всех измерений, а дисперсия стремится к нулю; в этом и заклю- чается закон больших чисел. Для любого конечного i начальная оценка Xq влияет, согласно (12.4.32), на наилучшую текущую оценку Х[. Другой интересный частный случай (12.4.21) соответствует q оо; при этом величина х( от одного шага к другому изме- няется непредсказуемым образом. Не удивительно, что из урав- 27—0102
4 8 1 лава 12 нения (12.4.24) следует, что для всех i при оо Pi^r. (12.4.35). Подставляя это в уравнение (12.4.23), получаем Xi = zt, т. е. наилучшей оценкой является последнее измерение. Задача. Матрица ковариаций Pt определяется либо как Pi = Mi - MiHl {HiMiHTi + Ri)-1 HiMi, либо как Pi = (E - KtHi) Mt (E - KiHy + KiRiKb Почему с вычислительной точки зрения следует предпочесть последнее соотношение [Указание. Рассмотрите случай, когда разность М — Р мала по сравнению с Р.] 12.5. Оптимальная фильтрация непрерывных линейных динамических систем с непрерывными измерениями Результаты предыдущего раздела, относящиеся к много- шаговым процессам, можно формально распространить на непре- рывные динамические процессы, если положить интервал времени между ступенями стремящимся к нулю. Заменим x-L на х (ti) и введем обозначение А = ti + 1 — ti- Разностные уравнения (12.4.1) можно записать в виде ж(*г + А1—= Ф^ + А’. ^-'Е.а:(^.) + 11ц,^.). (12.5.1) При А->0 эти уравнения становятся дифференциальными х = F (t) х + G (t) w (t); (12.5.2) здесь F (0 = ti]~E, (12.5.3) A-»0 A r. * G(£)=lim-^-. (12.5.4) A->i) A Разностные уравнения (12.4.11) — (12.4.15) можно представить как Xi — xt — PtHi (RiA)-1 (zi — Их,) A, (12.5.5) = Xi + Wi 4- Pi+lHi+l (Ri^r1 (zi+1 - Hi+1xl+l), (12.5.6)
Оптимальные фильтрация и прогнозирование 41У Mi-Pt = MtHl (Rib + HiMiHlby1 (12.5.7) Рм-Pi p Ф*~~Е i ф1~Е P- + ---A “ --Pi A ‘A ' + Pi Ф?д— -ь (Qi A) - М^н1+1 (Ri+1b + + Яг+1М;+Х+1А)-1Яг+1Мг+1. (12.5.8) Если положить, что при А -> О Ri\~^R(t), (12.5.9) -> Q (t), (12.5.10) то из (12.5.5) и (12.5.7) получаем, что при А -> 0 Xt -> Xi -> х (t), (12.5.11) Pi^Mi-^P (t). (12.5.12) От уравнений (12.5.6) и (12.5.8) при А 0 с учетом (12.5.9) и (12.5.10) приходим к x = Fi + Gw+PHTR-l(z-H£), z(0) = 0; (12.5.13) P=FP-\-PFTArGQGT— PHTR~lHP, Р(О) = Ро, (12.5.14) Сравнивая (12.5.9) и (12.5.10) с (11.5.13), получаем, что w(t) и v (t) являются процессами типа белого шума, Е {[ш (0 - ш (01 1и> (Р) — w (f)]} = Q (t) б (t - Р), (12.5.15) Е (v (t) vT (f)] = R (t) 6 (t - P). (12.5.16) Непрерывный фильтр (12.5.13) и (12.5.14) был описан Калманом и Бьюси в 1961 г. В связи с тем что Rt и Q( из (12.5.9) и (12.5.10)’’зависят от величины временного шага А, при использовании цифровой вычислительной машины следует внимательно отнестись к аппро- ксимации непрерывного фицьтра дискретным многошаговым. Более подробное обсуждение этого вопроса содержится в разд. 11.5. Для прогнозирования состояния на время t, более позднее по отношению к G, когда производится измерение, пользуются уравнениями (12.5.13) и (12.5.14), где R -> оо при t > x — Fx-\-Gw. х(у) задано, (12.5.17) Р — FP PFT4- GQGT, Р задано. (12.5.18) 27*
420 Глава 12 По аналогии с уравнениями (12.4.19а) и (12.4.126) и уравне- нием (12.2.14) можно записать е (t) — х (t) — х (t) и получить в = (F - КН) е + Kv — Gw, (12.5.19а) Е [е (Z) х (г)1"] = 0 для всех t. (12.5.196) Статистически стационарные процессы и фильтр Винера для установившихся состояний. Если все матрицы F, G, Н, Q и R постоянны, то процесс фильтрации может достичь устано- вившегося состояния в том. смысле, что становится постоянной матрица Р (Р = 0). В принципе эту постоянную матрицу можно получить, решая совместно [п (п + 1)1/2 уравнений второго порядка, получаемых из уравнения (12.5.14) при Р = 0: FP + PFT + GQGT - PHTR~1HP = 0. (12.5.20) В этом установившемся состоянии скорость убывания информации в системе GQGT уравновешивается скоростью поступления инфор- мации PHTR-^HP и тем демпфированием, которое может иметь система (последнее определяется матрицей F). На практике решение уравнения (12.5.20) относительно Р при п > 2 затруднительно; вместо этого интегрируют уравне- ние (12.5.14), например с Р (0) = 0 до Р = 0. Этот фильтр для установившихся состояний рассматривался ' Винером в его знаменитой книге [12.1J 2). При исследовании задачи Винер использовал спектральный анализ и получил инте- гральное уравнение (уравнение Винера — Хопфа) для определе- ния импульсной переходной матрицы фильтра. Отметим, что уравнение (12.5.13) можно переписать в виде х = (F - PHTR~lH) i + Gw + PHTR~1z. Тогда импульсная переходная матрица фильтра Винера, пред- назначенного для оценки вектора х по измерению z, определяется (при w = 0) выражением h (t _Т) = PHTRr\ Простой процесс первого порядка с одним измерением. На ста- ционарную динамическую систему первого порядка действует процесс типа белого шума и непрерывно производится одно изме- рение, содержащее ошибки, которые образуют другой (незави- J-) Метод Винера не требует предположения о марковости [12.1].
Оптималъные фильтрация и прогнозирование 421 симый от первого) процесс типа белого шума х = —ах + w (t), Е [w (1)] = 0, E\w (t) w (!')] = q8 (t — t'), (12.5.21) z = x + V (t), E [v (1)] = 0, E \v (t) V (t')] = r8 (t — t"), (12.5.22) где E [x (0)] = 0, E [x2 (0)]-= p0 и все величины являются скалярами; a, q, г, р0 — постоянные. В этом случае уравнение для дисперсии (12.5.14) прини- мает вид р = — 2ар + q.— (i/r) р2, р (0) = р0. (12.5.23) Это скалярное уравнение Риккати легко решается Р (0 = Pi +----------1+Р2~-2ю-------- (12.5.24) l(Po+P2)/(Po-Pi)]e2pi-l где ₽ = Vа2 + (q/r) , Pi = r@ — a), р2=г@ + а). Заметим, что р (1) -> р4 при t -> оо. Выражения для фильтра Калмана — Бьюси сводятся просто к уравнению х = —ах + [р (l)/r] [z (t) — j], х (О) = 0, (12.5.25) из которого при (к -> оо получается выражение для стационар- ного [р (1) -> pj фильтра. Простой процесс второго порядка с одним измерением. Рас- смотрим ту же, что и в разд. 11.4, динамическую систему второ- го порядка с постоянными коэффициентами и с возмущающим воздействием типа белого шума х + 2£coz + со2а: = со2ш (1), Е [w (1)] = 0, Е [т (t) w (Р)] = q8 (t — Р). (12.5.26) Это уравнение в векторных обозначениях (х — xt, х = х2) имеет вид 'хЯ Г 0, 1 1 Гxtl Г 0" = 2 +9 №(<). (12.5.27) J — со2, — 2cwJ х2 со2 v v ’ Предполагается,1 что случайные начальные условия таковы: Е [х! (0)] = Е [х2 (0)] = 0, (12.5.28) xl, XiX2l ГРц(0), ^12(0)1 А Е 2 = D а о п (12.5.29) lXiX2, xf J(=o 1А2(0), Р22(0)] v v
422 Глава 12 Производится непрерывное измерение переменной х2- соот- ветствующей скорости; это измерение содержит ошибки, которые образует другой [независимый от w (£)] процесс белого шума z (t) = х2 (t) + v (i), Е [v (Z)] =0, Е lv (t) и (/')1 = (t — t'). (12.5.30) Матричному уравнению (12.5.14) соответствуют два уравнения для дисперсий и одно уравнение для смешанного момента второго порядка Рц = 2Р12—у Р212, Рц (0) задано, (12.5.31) 2£®Лг —7Л2Л2, Лг(0) задано, (12.5.32) Р22=_2®2Р12-4^®Р22-уР^ + ®43, ^(О) задано, (12.5.33) здесь (12.5.34) Получить решение системы уравнений Риккати (12.5.31) — (12.5.33) в замкнутой форме достаточно сложно. Однако довольно просто получается решение, соответствующее установившемуся состоянию; полагая Ри = Р12 = Р22 = 0, находим, что при (Sit -> 00 Pi2 (t) 0, (12.5.35) Л1(^)->^[1/ 1+ZF7—<12-5-36) P22(0-*2g®r[j/l +~^~ 1]. (12.5.37) В том случае, когда г < оо, величины Ри и Р22 меньше, чем соответствующие им в разд. 11.4, где измерения отсутствуют (г = оо). Согласно (12.5.13), оптимальный фильтр имеет вид Xi = x2 + [P12(t)/r][z(t) — х2], а:1(0) = 0, (12.5.38) •*-2— (£>2Х{ 2Есо;е24“ [7*22(0/П [^ (0 — ^г(0) — (12.5.39)
Оптимальные фильтрации и прогнозирование 423 На фиг. 12.5.1 представлены результаты численного реше- ния 1) системы (12.5.31) — (12.5.33) для случая £ = 0,2, ?/г = 0,5, (0) = Р12 (0) = Р22 (0) = 0. Отметим, что фактически решение (12.5.35) — (12.5.37), соот- ветствующее установившемуся состоянию, достигается уже при [/1 — £2 a>t 2л. Отличие фиг. 12.5.2 от фиг. 12.5.1 состоит только в более точном измерении, здесь uPq/r = 2,0; отметим, что Фиг. 12.5.1. Пример системы второго порядка. Изменение во времени эле- ментов матрицы условных ковариаций, w2qlr = 0,5. , г = х2 + v (t), ж, = х2, х2 ~ — 2^ах2 — asxt 4- <n2w (t). при этом асимптотические значения Рв и Р22 получаются мень- шими, чем аналогичные значения на фиг. 12.5.1. Наблюдаемость. Если в уравнении (12.5.2) положить w (t) = 0, т. е. считать, что шум отсутствует, то уравнение (12.5.14) упро- стится: р = ЕР + PFT - PHTR~^HP, Р (0) = Ро, (12.5.40а) или р-1 = ~FTP-1 _ р-1р + HTR-HI, Р-1 (0) = Р-1. (12.5.406) Если матрица Р^1 вырождена и ранг ее равен п — г, то это означает, что отсутствует какая-либо априорная информация относительно г линейных комбинаций фазовых координат (иными словами, г собственных значений матрицы Ро равны бесконеч- ности). С другой стороны, в общем случае решение (12.5.406) х) Решение получено с помощью программы автоматического синтеза; см. работу [5.4].
424 Глава 12 можно записать [см. приложение А.4, уравнение (А.4.23)] как t P~l (t) = Фт (t0, t) Р~ГФ (t0, t) + j Фг (т, t0) НТВ-1НФ (т, t0) dr, (12.5.41) где Ф (t, t0) — переходная матрица, соответствующая матрице системы F. Если в (12.5.41) для некоторого t > t0 интеграл является положительно определенной матрицей, то Р~г (t) > 0 и поэтому оо > Р (t) > 0. Это значит, что с помощью измере- ний z (t) можно получить информацию о состоянии системы, Ф п г. 12.5.2. Пример системы второго порядка. Изменение во времени элементов матрицы условных ковариаций, uPq/r = 2,0. £=0,2; z = х2 + v (t); хх = х2; х2 = — 2|сох2 — (о2х1 4- co2w (t). которое вначале было полностью неопределенным. Заметим, что возможность этого зависит исключительно от свойств матриц F и Н (матрица R предполагается положительно определенной, и ее влияние сводится только к изменению масштабов). Говорят, что система наблюдаема, когда интеграл в (12.5.41) является положительно определенным. Это определение полностью соот- ветствует аналогичному определению для детерминированных систем, приведенному в приложении Б. В детерминированном случае вектор состояния ненаблюдаемой системы с помощью операции над измерением z (t) определить нельзя. В стохастиче- ском случае с помощью операции над z (t) нельзя уменьшить дисперсию ошибки оценки состояния ненаблюдаемой системы. Двойственность. Понятие наблюдаемости (приведенное выше и содержащееся в приложении Б.З) сильно связано с понятием
Оптимальные фильтрация и прогнозирование 425 управляемости (см. задачу 2 разд. 5.3 и приложение Б.2). Оба понятия связаны с упрощенным вариантом уравнения Риккати; для первого — это уравнение (12.5.14) для Р, для второго — уравнение (5.3.34) для S. Действительно, если рассматривать задачу с квадратичным критерием J = (tf)T S (tf) x (tt) +1 j [|| Hx + || и ||Ы dt (12.5.42) <0 и линейной системой уравнений х = Fx 4- Gu (12.5.43) и если считать входной сигнал выходным, а также заменить матрицу весовых коэффициентов матрицей ковариаций, эти матрицы транспонировать и обратить время, то характеристическое уравнение Риккати (5.3.34) для матрицы S по форме будет совпадать с уравнением (12.5.14) для Р (см. таблицу) Задача управления Задача оценивания GT Н НТ G В В А Q S(tf) ₽(М F FT tf— t t—t0 Это означает, что оптимальный фильтр можно рассматривать как решение линейной задачи оптимизации квадратичного функцио- нала. Подробное обсуждение этого факта содержится в гл. 13. Полезно использовать математическую двойственность этих i двух задач. Например, утверждения, относящиеся к одной задаче, можно трансформировать в результаты для другой. Иллюстра- цией полезности свойства двойственности служат следующие первые четыре задачи: Задача 1. Определите условия, гарантирующие существование установившегося решения уравнения (12.5.14). [Указание. См. задачу 1 разд. 5.4.] ЯЗ Задача 2. Объясните, почему в задаче фильтрации наблю- даемой системы отсутствует аналог сопряженной точки. [Указа-
426 Глава 12 ние. Может ли быть сопряженная тонка в задаче управления при L (х, и, t) > О?] Задача 3. Покажите, что при отсутствии шума в системе и устойчивой матрице F матрица Р (t) наблюдаемой системы при t —>- оо стремится к нулевой. Задача 4. Рассмотрите обычную задачу фильтрации, но лишь с тем усложнением, что Е [w (t) v (т)П = Т (t) 6 (t — т). Покажи- те, что свойство двойственности подсказывает следующие соот- ношения для оценки состояния х (t)'. х := Fx-\-(PHT-\-GT) R'1 (z — Hx), x\t0) = x0, (12.5.44) Р = ЕР+ PFT- (PHT + GT) R1 (TtGt + HP) + GQGT, P (t0) = Po. (12.5.45) Рассмотрев эквивалентную задачу оценивания, когда iv° и и° 1) не коррелированы, проверьте правильность выражений (12.5.44) и (12.5.45). [Указание. Аналогом матрицы GT в задаче управ- ления гл. 5 является матрица весовых коэффициентов N при произведениях фазовых координат и координат управления в критерии качества (0 А АГ1 Г х N В и dt. Эквивалентной задачей является следующая: х = (F - GTR-'H) х + G[w - E[w \v\\ + GTR^z. z = Нх 4- и.] Задача 5. Простейшая из нетривиальных линейных задач фильтрации описывается системой первого порядка х = w, Е [w (£)] = 0, Е\х (0)] = 0, Е [w (t) w (t + т)1 = g6 (т), Е [xz (0)1 = р0. Имеется единственное непрерывное измерение z (Z), причем z = х 4- и, Е [и (г)] =• 0, Е [и (t) v (t 4- т)] — г8 (т), q, р0 и г — постоянные числа. Покажите, что оптимальным фильтром для оценивания х (t) будет х = [р (t)/r] (z — х), х) и>° и v° — центрированные процессы w и V.— Прим, перев
Оптимальные фильтрация и прогнозирование 427 где _ 1+&<Г2“' т/-— , РО — Уг7 «=Г9/г, 4=-^^- Отметим, что при t 1/2а фильтр является стационарным; другими словами, р —> rq = const. Задача 6. Другая достаточно простая задача фильтрации описывается системой второго порядка х2 = W (t), Е [w (£)] =0, Е [ш (£) w (t 4- т)] = ?6(т), Xi = х2, E[Xl (0)] = Е[х2 (0)1 = 0, Е [xl (0)1 = Рв (0), Е [х1 (0)1 = Р22 (0), £[^(0)22(0)1=0, которую можно рассматривать как систему, описывающую броу- новское движение при отсутствии силы сопротивления (с = 0) или возмущения в скорости и положении ракеты при случайных изменениях тяги. Предположим, что производятся измерения как скорости х2, так и положения х17 причем эти измерения засорены независимыми аддитивными белыми шумами: Zi = 21 + ^i, Е [iz?i (£)] = 0, Е [iPi (t) Wi (Z + т)1 = ?i6 (т), zz = 22 + ш2, Е [ш2 (£)] =0, Е [u?2 (t) w2 (t + т)1 = q2& (т). Постройте фильтр для установившегося состояния этой системы. Заметим, что для получения решения даже этой простой задачи в замкнутой форме уравнения для дисперсий установившегося состояния ЯВЛЯЮТСЯ СЛИШКОМ СЛОЖНЫМИ. Задача 7. Если матрица ковариаций ошибок начальной оценки слишком велика, т. е. Р (0) -> оо, то уравнением (12.5.4) для Р пользоваться затруднительно. Покажите, что уравнение (12.5.14) можно переписать в виде (d/dt) (Р-1) = -P-ip _ ртр-i + HTR~lH — P~rGQGTP~\ Если Р (0) —>- оо, то проще использовать это уравнение Риккати с [Р (О)]-1 = 0, а не уравнение (12.5.14). Заметим, что при Q = 0 (при отсутствии шума в системе) это уравнение является линейным. Задача 8. Рассмотрите критерий качества J = E{\\x(tf)-x{tf) ||2} = Тг [Р (/»] и систему х = Fx 4 К (z — Нх).
428 Глава 12 Определите матрицу К (t) так, чтобы на решениях системы х = Fx -f- Gw критерий J достигал минимума. В этом состоит другой вывод уравнений фильтрации по Калману. [Указание. Определите д Р (0 = Е [(z — х) (х — z)T] и рассмотрите дифференциальное уравнение для Р как фазовой переменной, в котором К (t) являет- ся матрицей управляющих переменных.] 12.6. Оптимальная фильтрация нелинейных динамических систем Большая часть из встречающихся на практике динамических систем и систем измерений являются нелинейными. Уравнениями оптимальных фильтров, полученными в разд. 12.4. и 12.5 для линейных систем, можно пользоваться в случае нелинейных систем с белыми шумами, если провести линеаризацию относи- тельно номинальной траектории или если непрерывно (или от случая к случаю) проводить линеаризацию относительно теку- щих оценок начиная с априорной. Применение линеаризации было довольно успешным2). Однако если начальная оценка является плохой или если возмущения велики настолько, что линеаризация дает неадекватное описание системы, то можно не получить сходимости к приемлемой оценке (см. также разд. 12.2). Оценивание параметров для случая, когда измерения и пара- метры связаны нелинейными соотношениями, исследовалось в двух примерах разд. 12.2. Один из возможных фильтров для нелинейного многошагового процесса. Рассмотрим нелинейный многошаговый процесс с адди- 1) G. L. Smith, S. Schmidt, L. A. McGee, Aplication of Statis- tical Filtering to the Optimal Estimation of Position and Velocity on Board a Circumlunar Vehicle, NASA Ames Research Center Report, NASA-TND-1205, 1962; русский перевод: Г. Смит, С. Шмидт, Л. М а к г и, Приложение ста- тистической теории фильтров к задаче получения оптимальных оценок поло- жения и скорости на борту корабля, облетающего Луну, Механика, № 6 (1963). Н. Rauch, Optimum Estimation of Satellite Trajectories Including Random Fluctuations in Drag. AIAA Journal, 3, pp. 717—722 (1965); русский перевод: Г. P а у x, Оптимальное оценивание траектории спутника прп слу- чайных изменениях лобового сопротивления, Ракетная техника и космонав- тика, т. 3, № 5 (1965). Н. Rauch, F. Т u n g, С. S t г i е b е 1, Maximum Likelihood Estimates of Linear Dynamic Systems, AIAA Journal, № 8, pp. 1445—1450 (1965); русский перевод: Г. P а у x, Ф. T а н г, К. Стран- бел, Оценки в линейных динамических системах с помощью метода макси- мума правдоподобия, Ракетная техника и космонавтика, т. 3, № 8 (1965). J. L. Far ell, Simulation of a Minimum Variance Orbital Navigation, J. Spasecraft and Rockets, 3, pp. 91—98 (1966). W. E. Wagner, Re-entry Filtering, Prediction and Smoothing, AIAA Preprint, 65—319, July 1965.
Оптимальные фильтрация и прогнозирование 429 тивным чисто случайным шумом: zf+1 = ft (*;) + Ггш;, i = 0, . . ., N - 1, (12.6.1) Е [шг] = wt, (12.6.2) Е [(wt — wt) (Wj — Wj)T} = Qfiij, (12.6.3) T?]^] = x0, (12.6.4) E [(z0 — x0) (x0 — Zo)5"] = Po, (12.6.5) E [(z0 -^z0) (wi' — и,г)т1 = °- (12.6.6) Предполагается, что система измерений также является нели- нейной с аддитивным чисто случайным шумом: z; = hi (х^ 4- Vi, i = 0, . . ., N, (12.6.7) E [рг] = 0, (12.6.8) E [Vi»?] = Rfiij, (12.6.9) E [(z0 — z0) v{] = 0 и E [(шг — Wi) vjl =0- (12.6.10) Уравнения (12.6.1) — (12.6.10) очень похожи на соответ- ствующие уравнения в разд. 12.4; отличаются они лишь тем, что в уравнениях (12.6.1) и (12.6.7) функции (zf) и ht (xt) нелинейны. Одним из возможных фильтров для нелинейной систе- мы (12.6.1) — (12.6.10) является следующая очевидная модифи- кация линейного фильтра из разд. 12.4 [формулы (12.4.11) — (12.4.15)]: ^i = -]-Ki [Zi — ht (xt)], г = 0, ..., к, k^.N, (12.6.11) xi+1 = fi(xi') + riiVi, (12.6.12) K,-P, (12.6.13) P, = M, - Mt (i) T [Ji- M, (40 r + д,у1 M„ (12.6.14) Здесь частные производные dft/dXi и dhi/dXi можно вычислять либо относительно номинальной траектории, либо dfг/dxt можно вычислять при xt = xt, a dhildxt — при xt = xt. В последнем случае непрерывной релинеаризации в отличие от случая номи- нальной траектории матрицы Pt и Mt (и, следовательно, К,) заранее вычислить нельзя. Эти матрицы, поскольку они, согласно процедуре релинеаризации, зависят от текущих оценок xt, должны вычисляться в реальном, времени.
‘iOV глава iz Один из возможных фильтров для нелинейного непрерывного процесса. Нелинейной системой, соответствующей линейной систе- ме, описанной в разд. 12.5, является i = / (a;, t) 4- G (t) w (t), (12.6.16) E [m (t)l = w (t), (12.6.17} E {[u? (t) — w (t)l (f) - w (t’)]T} = Q(t)& (t — t'), (12.6.18) E [x (t0)l = x0, (12.6.19) E {[x (t0) — x0] [x (t0) — гг0]т} = Po, (12.6.20) E {[a: (t0) - Го] [w (t) — w (£)]T) = 0. (12.6.21) Аналогично непрерывной нелинейной системой измерения, соответствующей линейной системе из разд. 12.5, является z (t) = h (х, t) + v (t), (12.6.22) Е [v (f)] = 0, (12.6.23) E [и (t) vT (t')] = R(t)S (t — t'), (12.6.24) E {b (t0) — [v (£)]T} = 0, (12 6.25) E {[w (t) - w (OHp (f)]r} = 0. (12.6,26) Нелинейности через функции / (x, t) и h (x, t) входят соот- ветственно только в уравнения (12.6.16) и (12.6.22). Одним из возможных фильтров для нелинейной системы (12.6.16) — (12.6.26) является следующая очевидная модификация линейного фильтра из разд. 12.5 [формулы (12.5.13) и (12.5.14)]: x = f(x, t)^-G (t)w(t)-\-Р R'1 [z(t)—h(x, /)], х (to) = xo, (12.6.27) ^^р+р&У+^-р^У^Р’ p^-Po- (12.6.28) Здесь частные производные di/dx и dh/dx могут вычисляться вдоль номинальной траектории или для большей точности их можно вычислять при х = х. В последнем случае непрерывной релинеаризации в отличие от случая номинальной траектории матрицу Р (t) заранее вычислить нельзя. Эту матрицу, поскольку она, согласно процедуре релинеаризации, зависит от текущей оценки х (t), следует вычислять в реальном времени. Задача 1. В разд. 12.2 был описан пример двумерной оценки положения с помощью триангуляции. Здесь эта задача будет распространена на случай, содержащий динамику. Схема задачи показана на фиг. 12.6.1.
Оптимальные фильтрация и прогнозирование 31 Данную задачу можно рассматривать как задачу о самолете или спутнике, находящемся на круговой орбите относительно Земли и следящем за фиксированной земной целью. Измерение Фиг. 12.6.1. Геометрия непрерывного оценивания положения с использо- ванием непрерывного измерения углов. угла 0 засорено белым шумом. Требуется с помощью измерений угла 0 получить улучшенные оценки высоты h и положения х х). Сформулируйте нелинейную задачу оценивания х, h и V и полу- чите соответствующие линеаризованные уравнения для оценки. Покажите, что в том случае, когда производится измерение 0 с шумом и требуется оценить только V и h, задача сводится к оце- ниванию параметров. Задача 2. Землемерная бригада измеряет подъем шоссе как функцию расстояния х вдоль шоссе. Пусть это измерение рав- няется Z! (х) = h (х) -|- ivt (х), где h (z) — истинный подъем, a w, (х) — ошибка измерения. Предположим, что ошибка Wj (ж) гауссовская и Е [Wf (z)] = 0, Е (х) (а:')] = Tj exp (— | х — х' |/Zj). Годом позже другая землемерная бригада также проводит изме- рения той же дороги и у нее получается z2 (х) = h (х) -|- w2 (х), где w;2 (%) — гауссовский стационарный процесс с нулевым сред- ним и дисперсией г2, которая намного превышает Можно ли использовать z2 (х) для улучшения результата первоначального обмера, т. е. Zi (х)? В случае положительного ответа укажите алгоритм улучшения. Если ответ отрицательный, укажите его причину. Задача 3. Самолет летит прямолинейным курсом с постоянной скоростью на постоянной высоте над штатом Колорадо. Пред- *) Отметим, что это эквивалентно двумерной задаче триангуляции разд. 12.2, когда вместо проведения наблюдений в дискретных точках наблю- датель, перемещаясь по траектории, проводит непрерывные измерения.
432 Глава 12 положим, что высота поверхности штата над уровнем моря точно известна как функция координат х и у, т. е. h (х, у) задан. Про- летая над штатом, самолет через равные промежутки времени проводит совокупность измерений z (0), z (71), z (271), . . ., z (кТ) вертикального расстояния до поверхности. Эти измерения засо- рены шумом. Пусть начальное положение самолета z (0), у (0) задается средними а: (0), у (0) и матрицей ковариаций Мхх (0), Мху (0) и предположим, что шум в измерениях является стационарным, белым и с нулевым средним. 1. По результатам измерения z (0), . . ., z (кТ) определите оценку х (кТ), у (кТ) и матрицу ковариаций ошибок оценки. 2. Что будет, если шум в измерениях имеет постоянную, но неизвестную составляющую. Как при этом следует модифициро- вать формулы? [Указание. Это нелинейная, но статическая задача оцени- вания.] Задача 4. Существует ли связь между задачами 2 и 3? Сфор- мулируйте задачу, включающую вопросы задач 2 и 3. [Указа- ние. Рассмотрите случай, когда подъем h (х) известен также с ошибкой.] 12.7. Оценивание параметров с использованием бейесова подхода Методы оценивания, приведенные в предыдущих разделах, можно включить в более общую схему, в которой оценивание рассматривается как принятие решения при наличии неопреде- ленности. Имеется в виду бейесов подход принятия решений. Задача оценивания параметров. Предполагается заданной следующая информация: а) Физическое соотношение, описывающее наблюдение, вели- чины, подлежащие оцениванию, и шум z =h (х, и), (12.7.1) где z — результат наблюдения, или вектор измерений, размерно- сти (Zcxl), х — подлежащий оцениванию фазовый вектор раз- мерности (их 1), и — вектор шума размерности (q X 1). б) Плотность совместного распределения х и v, р (a:, и). С ее помощью, по крайней мере в принципе, можно получить соот-
Оптимальные фильтрация и прогнозирование 433 ветствующие безусловные распределения р (х) и р (у). Предпола- гается, что информация в п. «б» имеется в аналитической форме или может быть представлена в такой форме. Пункт «а» может быть представлен либо соотношением в замкнутой форме, либо сотношением, для которого задан алгоритм вычисления. Требуется получить оценку х вектора х, которая является «наилучшей» в том смысле, который будет определен ниже. Решение по Бейесу осуществляется в четыре этапа: а) Вычисление р (z). В силу того что выражения z = h (х, и) и р (ж, и) заданы, это вычисление, по крайней мере в принципе, может быть проведено либо аналитически, либо экспериментально методами Монте-Карло. В последнем случае предполагается, что распределение результатов наблюдения можно аппроксимировать с помощью какого-либо распределения из некоторого семейства. б) На этом этапе можно воспользоваться двумя различными подходами. 1. Вычисление р {х, z). Если размерности v и z одинаковы и можно цолучить функциональную связь v (х, z), то это вычисление может быть аналитическим. В этом случае по пра- вилу (10.4.5) замены переменных при интегрировании получаем р (х, z) = р (х, и) | JJT\r^, (12.7.2) где v — h 1 (x, z), J =--. (12.7.3) 2. Вычисление p (z|a:). Эту плотность условного распределе- ния по z = h (х, v) и р (х, V) можно получить либо аналитически, либо экспериментально. в) Вычисление р (х | z) по нижеследующим выражениям: 1. Следуя п. б, 1, имеем р (х | z) = [р (х, z)]/p (z). (12.7.4) 2. Следуя п. б, 2, используем формулу Бейеса (9.3.3) и ^(а;|2) = -ЕкМ£М. (12.7.5) В зависимости от вида распределений, выбранных или получен- ных для р (х, и) та. р (и), выполнение этого основного этапа вычис- лений может быть либо простым, либо сложным. Некоторые распределения, которые с этой точки зрения имеют хорошие .f,; свойства, можно найти в книге [10.5]. Плотность распределения Р (z I z) называют апостериорной плотностью распределения век- 128—0102
434 Глава 12 тора х. Она характеризует степень наших знаний вектора х после измерений z. По определению эта плотность содержит всю инфор- мацию, необходимую для оценки. г) В зависимости от критерия оценивания, пользуясь р (х | z), можно вычислить оценку £ Ниже приведены некоторые типичные примеры: 1. Критерий: максимизировать вероятность того, что х = х. Решение х = Мода р (х | z) (12.7.6) можно назвать наиболее вероятной оценкой или безусловной оценкой по методу максимума правдоподобия. 2. Критерий: минимизировать || х — х | [2 (х | z) dx. Решение х = Е [х | z] (12.7.7) является оценкой по минимуму дисперсии. 3. Критерий? минимизировать максимум | х — х f. Решение х = Медиана р (х | z) (12.7.8) можно назвать оценкой по минимуму ошибки. На фиг. 12.7.1 показаны три оценки для произвольной плот- ности р (х | z). Ясно, что можно представить и другие оценки, Фиг. 12.7.1. Различные оценки, использующие р (х | г). ха — наиболее вероятная оценка; х^ — оценка по минимуму дисперсии; хс — оценка -по минимуму ошибки. такие, как доверительные интервалы. Основная идея здесь состоит в том, что независимо от используемого критерия центральное место в задаче оценивания занимает апостериорная плотность вероятности р (х | z). Частный случай линейного уравнения измерений и гауссовского шума. В этом случае задается следующая информация:
Оптимальные фильтрация и прогнозирование 435 а) физическое уравнение z = Нх 4- и; (12.7.9) б) совместная плотность распределения, которая является гауссовской, а х и v независимы: р ,(х, v) = р (х) р (п), (12.7.10) Е [х] = х, М — матрица ковариаций х, (12.7.11) Е [п] = 0, R — матрица ковариаций V. (12.7.12) Решение по Бейесу. а) Вычисление р (z). Так как z = Нх + v и х, v гауссовские и независимы, то сразу получаем (см. гл. 10), что р (z) — гауссовская плотность, Е [z] = Нх, НМНТ 4-7? — матрица ковариаций z. (12.7.13) б) Вычисление р (z, х). dh~4dz равна единичной матрице, поэтому р (х, z) = р (х, v) = р (х) р (z — Нх). (12.7.14) в) Вычисление p(z | z)1). Непосредственно получаем P(z\x) = = р (z — Нх). (12.7.15) г) Вычисление р (х | z). Имеем P(x\z)= . (12.7.16) Подставляя (12.7.11) —(12.7.13) в (12.7.16), получаем р ।г) = е*Р [ -1 (*- х)т М- (х -я)] х X (2л)₽/2 | р |х/2 ехР [ Т R1^ — Нх) J X X (2л)₽/2|77МЯг4-7?|1/2ехр[4-1 (z—Hx)T (HMHT+R)~^ (z-Яж)] = \HMHT + R р/2 г 1 r/ ~т т = (2л)^|М|1/2|Д|1/2 ехр { - у [(z - z) (М-i 4- HTR-41) {х-х)]^ 4- zT [7?-1 -(НМНТ+ /?)-i] z - zTR^H (х -~х) - (Х_-х)т HTR-'z]}. (12.7.17) 1) В данном случае этот пункт является лишним. 28*
436 Глава 12 Раскрывая скобки в показателе экспоненты (12.7.17), оконча- тельно получаем , , . |НМНТ + Я|1/2 Г 1, \To-i/ о (х I z) = —I—775-J-7—!—п- ехр — (х— х) Р Чх — х) , 1 ' (2л)"/2|М|1/2| Д|1/2 L 2 v v > J (12.7.18) где _ ~x = x + PHTR-1(z — Нх) (12.7.19) и р = (М-1 + HTR~1H)^1. (12.7.20) С помощью леммы об обращении матрицы находим P = М - МНТ (НМНТ + У?)-1 НМ. (12.7.21) д) Далее, поскольку плотность р (х | z) гауссовская, то все оценки по методу максимума правдоподобия, минимуму диспер- сии и минимуму ошибки совпадают и равняются условному сред- нему х. Таким образом получаются соотношения для оценивания пара- метров (см. разд. 12.2). В данной задаче пара (Р, х) называется достаточной статистикой в том смысле, что р (х fz)=p (х | Р, х). Непосредственно проверяется, что х и Р совпадают с резуль- татами задачи 4 разд. 12.2. Пример. Оценивание дискретных значений сигнала при нали- чии гауссовского шума. Величина х имеет только два возможных равновероятных значения хЛ и х2. Измерение величины х содержит аддитивный гауссовский шум v z = х + и, (12.7.22) где (--£) <12-7-23) Требуется определить условные вероятности р (xt | z) и р (х2 | z). Для этого определим сначала плотность распределения z р (z) = р (z | х^ р (х^ + р (z \х2) р (хг), (12.7.24) но p(*i) = p(*2) = y (12.7.25) и ' ?Н*0-7^ехр[--^^]. 1 = 1,2. (12.7.26)
Оптимальные фильтрация и прогнозирование 437 Используем правило Бейеса р(аД2) = р(г|^р(Я (12.7.27) Подставляя (12.7.24) — (12.7.26) в (12.7.27), получаем п/г.|„х_____________ехр[-(г-^)а/2г]________ . 1 2 /12 7 28} Р ' 1' ' exp [ — (z — ii)a/2r] 4-exp [ — (z— z3)2/2r] ’ ’ Если z задано, то можно вычислить величины р (х^ | z) и р (х2 | г) и в зависимости от того, какая из них больше, оценить значение измеряемой величины, т. е. xt или х2. Дополнительные свойства условного среднего. Условное среднее Е [х | г] обладает многими интересными свойствами. Если рас- смотреть общий критерий качества в виде выпуклой симметричной функции С (х — х), возрастающей при увеличении | х — х |, то можно показать, что выбор х = Е [х | г] будет минимизировать средний риск, который определяется как j j С (х — х) р (х | z) X X р (z) dx dz [12.4, гл. 2]. Кроме того, как было показано ранее, Е [х | z] независимо от распределения р (х | z) является оценкой по минимуму дисперсии. Если р (х | z) гауссовское, то для любого критерия качества оптимальная оценка должна быть функцией х = Е [х | z] и Р = cov {х | z), поскольку эти две величины образуют достаточную статистику. Для большого числа критериев качества основная характери- стика распределения р (х | z) — условное среднее х — играет такую же центральную роль, как апостериорная плотность рас- пределения р (х | z) в оценивании. J2.8. Бейесов подход к оптимальным фильтрации и прогнозированию в многошаговых системах Основная идея бейесова подхода состоит в использовании результатов измерения для улучшения знаний о состоянии системы, т. е. в переходе от распределения р (х) к распределению р (х | z). В многошаговом случае процедуру улучшения можно повторять всякий раз, когда делается измерение. Апостериорная плотность распределения из предыдущего этапа становится для текущего этапа априорной плотностью. Пусть Z (/с) представляет собой совокупность измерений z (1), z (2), . . ., z (к); требуется найти рекуррентное соотношение вида р [х (k + 1) | Z (к J- 1)] = ? р [х (k)\Z (к)]. (12.8.1)
438 Глава 12 Предполагая, что х (к) есть марковская последовательность и что z (к) зависит только от х (&), вместо (12.8.1) приходим к р \х (/с 4-1) \Z (* +1)] = р [х (k + l)\z(k + l),Z(k)] = p[z(k + l)\X(k + l), Z (к)] p[z + p k (&+1) |Z(/c)] = P [z (Ar-t-l) I x (k +1)] p[z (k + l)\Z(k)] p[x (k + i)\Z(k)], (12.8.2) здесь в третьем равенстве использовано марковское свойство. Если обозначить р [х (к + 1) | Z (к)] через р (х), априорную плотность распределения, а р [х (к 4- 1) I Z (к-+ 1)] через р (х | z), апостериорную плотность, то уравнение (12.8.2) совпадает с урав- нением (12.7.5). Если, в частности, р [х (к + 1) | Z (к)] есть гаус- совское распределение со средним х (к 4- 1) и матрицей ковариа- ций М (к + 1) и z (к + 1) = Нх (к + 1) + v (к + 1), (12.8.3) Л [и (к + 1)1 = О, Е к (к) v (l)T] = ,R8kh то так же, как при выводе выражения (12.7.5), легко проверяет- ся, что и распределение р [х (к -j- 1) | Z (к + 1)] является гаус- совским со средним х (к + 1) и матрицей ковариаций Р (к + 1), где х (к + 1) = х (к + 1) + 4- Р (к 4- 1) if ll-1 [z (к 4- 1) - Нх (к 4- 1)1, (12.8.4) P(k+l) = M(k+i) — — М (к i) Нт [НМ (к 4- 1) Нт 4- ЯГ1 НМ (к 4- 1). Соотношение между р [х (к 4- 1) I Z (к)] и р [х (к) | Z (к)] опреде- ляется (см. разд. 11.6) как р [х (к + 1) | Z (&)] = = j р [х (к 4- 1) \ х (&), Z (к)] р [х (к) | Z (к)] dx (к) = = J р [х (к + 1) I X (к)] р [х (к) I Z (к)] dx (к), (12.8.5) где во втором равенстве учитывается марковское свойство. Если, кроме того, х (к) является гауссовской марковской последова- тельностью, описываемой уравнением х (к 4- 1) = Фх (к) 4- Гш (&), (12.8.6) где Е [ш (к)] — w (к), Е {[ш (/с) — w (к)] [w (Z) — w (Z)]г} = ^Sfez,
Оптимальные фильтрация и прогнозирование 439 р [х (к) Z (&)] есть гауссовская плотность со средним х (к) и матри- цей ковариаций Р (к), то (12.8.5) можно легко проинтегрировать. Действительно, известно, что р [х (к + 1) | Z (к)] является гаус- совской плотностью со средним х (к 4- 1) и матрицей ковариаций М (к 4- 1) х (к 4- 1) = Ф£ (к) 4- Гш (*), М (к 4- 1) = ФР (*) Фт + 1\Гг- (12.8.7) Итак, для гауссовских марковских последовательностей с исполь- зованием бейесова подхода получены уравнения многошагового оптимального линейного фильтра, ранее выведенные в разд. 12.3. Теперь, объединив уравнения (12.8.2) и (12.8.5), можно отве- тить на поставленный в (12.8.1) более общий вопрос: р[х (/c4-l)|Z(/c4-l)] = J р [z (/с-f-1) | х 1)] Р I* х (А:4-1) | х (к)] р [х (к) | Z (Л)] dxk = p[z(/c+1)12(A)] = J р [z (к 4-1) | х (А:4-1)] р [х (А: 4-1) | х(к)] р [х (к) | Z (A)] dx (к) J Р [2 (Al-)-1) | х (Ас 4-1)] Р Iх (^4-1) I х (^)1 Р Iх РО I (^)] &х W dx (к-1^ 1) (12.8.8) Уравнение (12.8.8) является рекуррентным соотношением, описы- вающим эволюцию условной плотности распределения состояния от одного шага к другому для марковской последовательности с измерениями, зависящими только от состояния; например, х(к) и z (Ji) могут удовлетворять уравнениям х (к 4- 1) = / [z (к), w (к)], (12.8.9) z (к) = Н [х (к), v (к)], (12.8.10) w (к) и v (к) — чисто случайные последовательности. Если изме- рения отсутствуют, то (12.8.8) просто сводится к (12.8.5), к слу- чаю чистого прогнозирования (см. разд. 11.6). Уравнения (12.8.4) и (12.8.7) являются обобщениями на случай с измерениями урав- нений (11.2.7) и (11.2.9), уравнение (12.8.8) есть обобщение урав- нения (12.8.5). Эволюция плотности распределения вероятности марковского процесса без измерений описывается уравнением в частных про- изводных. Можно также обобщить это дифференциальное урав- нение на случай с измерениями. Данное уравнение является непрерывным аналогом соотношения (12.8.8) и обобщает на непре- рывное время уравнение для оценки и уравнение Риккати разд. 12.4. Все эти соотношения представлены в табл. 12.8.1. Для иллюстрации использования формулы (12.8.8) в негаус- совском случае рассмотрим пример.
е з- 3 'о е Уравнения, описывающие эволюцию плотностей распределения для марковских процессов и последовательностей
Оптимальные фильтрация и прогнозирование 441 Пример 1. Фильтрация негауссовских сигналов. Для обнаруже- ния нагретых участков земной поверхности на спутнике исполь- зуется инфракрасный датчик совместно с пороговым детектором. Измерения содержат посторонние сигналы, в частности отражение от облаков. Задача заключается в построении многошагового фильтра, использующего выходной сигнал порогового детектора для того, чтобы оценить наличие нагретых участков на поверхно- сти Земли. Пусть sk — сигнал на /с-м шаге, т. е. это либо единица, либо нуль. Предполагается, что последовательность значений сигнала является скалярным процессом Бернулли, где по определению р (sh) = (1 - q) б (хй) + q8 (1 - sh). (12.8.11) *) Пусть nh — скалярная марковская последовательность, кото- рая также имеет только два возможных значения, нуль или единица, с р (nt) = (1 — а) б (nt) + аб (1 — nt), (12.8.12} р (nh+11 nh) = (1— а — -~) б (ий+1) -+- (а +-у-) 6(1 —nft+1) (12.8.13) и со скалярным измерением zh = sh@nh, (12.8.14} где символом @ обозначена логическая операция «или» * 2). Из уравнений (12.8.11) — (12.8.14) видно, что при просма- тривании датчиком своей зоны видимости отражения от облаков образуют группу сигналов, а полезная информация появляется в виде отдельных сигналов. Из соотношений (12.8.11) и (12.8.12) следует, что вероятность того, что st = 1, есть q, а того, что щ = 1, есть а. После одного измерения вычисляем рШ = , (12.8.15) 7>(S1|Zi)= P(21'g-^; (12.8.16). Г \zl) вероятность p(Z1) подсчитана в табл. 12.8.2 Для краткости использовано обозначение . г 1, х = 0, { 0, х ф 0. 2) ДРУГОЙ интерпретацией соотношений (12.8.11) — (12.8.14) служит передача кода Морзе по каналу связи с ограниченной полосой пропускания в присутствии импульсных ошибок. В этом случае 6Й — сигналы кода Морзе,, a nh — импульсный шум.
442 Глава 12 Таблица 12.8.2 Вычисление р (ж,) Значения raj 0 0 i 1 Значения sj 0 1 0 1 Результирующее значе- 0 1 1 1 ние Вероятность zj (1 —а) (1 — q) g (i—“) а(1 —g) ад С помощью формул (12.8.15) и (12.8.16) получаем, что р(в1==1| z() становится равной а' (z\ =_______________Is fa-1)___________________________= ? л П 4 *• 4' (1 — а).(1 — д) б (zi) + (a+g — aq) 6 (zi — 1) a^q—aq 11 a p (пг = 11 zt) есть f / \ aS (z| a X / i \ a 'Z1* (1 — a) (1 — q) 6 (zi) + (a + g — aq) 6 (zj — 1) a~\-q — aq 'Z1 )’ или P (Si I Zi) = 11 — q' (Zi)] 6 (st) + q' (zj) 6 (1 — Sj), (12.8.17) p (nt | Zi) = [1 — a' (zt)] 6 (st) + a' (zj 6 (1 — s^. (12.8.18) Здесь важно отметить, что вид выражений, для р (s^ | zt) и р (zjj |zt) тот же, что и у р (sj) и р (nj). Изменены только соот- ветствующие вероятности q и а. Следующий шаг состоит в вычис- лении эволюции плотностей к р (s2 |z2) и р (м2 IzJ. По опреде- лению полезного сигнала процесса р (s3 | z ±) = р («i), т. е. сигнал и измерение независимы. С другой стороны, имеем ОО р (п21 zj = р (п2[п±) р dn^ (12.8.19) — ОО После некоторых выкладок с учетом (12.8.13) и (12.8.18) нахо- дим, что р (п2 Izi) = [1 — a (zj)] 6 (п2) + a (z 4) 6 (и2 — 1), (12.8.20) где a(zt) = a + -^. (12.8.21) Теперь исходные априорные плотности р (п^ и р (st) заменяются выражениями (12.8.19) и (12.8.20) и затем аналогичным путем
(12.8.22) (12.8.23) (12.8.24) Оптимальные фильтрация и прогнозирование 443 вычисляется z2. В итоге получаются следующие общие рекур- рентные уравнения: А Р (рк | ^ft) = Р (рк | Zfe, Zft-j, . . . ) = = [1 — a' (zft)] 6 (nk) + a' (zh) 6 (nh — 1), A Л (^ft) = Zb-t, . . . ) = __ ____________________a (Zfe-1) 6 (Zfe-1)_____________ ~~ [1 —a (Zft_i)] (1 — g) 6 (zft) + [a (Z^) + q — a (Zk^) g] 6 (zft — 1) ’ a (Zh-i) = a (z^, zk_z, • •) = a H-, p (sh \Zh) = p («й \zk, Zk-r, • • •) = [1 — q' (Zk)] 8 (Sk) + qf (Zh) 6(sfe — 1), (12.8.25) q (Zh) q (zfe, Zft_j, .. .) = _______________________________________________________ /^2 я of:a -[l-a(Zft_1)](l-g)6(zft) + [a(Zft_1) + g-a(Zft_1)g]6(Zfe-l)’ > p (nh I Zh) = 11 — a (zfe)] 6 (nft+1) + a (zh) 8 (nh+1 — 1), (12.8.27) p (sk+1 \Zk) = p (sft+1). (12.8.28) Для проверки рассматривались два возможных результата наблю- дения последовательностей Z, а именно (0, 1) и (1, 1). Для а = V4 и q = V4 было обнаружено, что р (s2 | Z2) равно соответственно 0,571 и 0,337. Это совпадает с интуитивными предпосылками, так как более вероятно то, что последовательность (1, 1) соответ- ствует отражению от облаков. Резюме. Основой решения общей задачи многошагового оце- нивания является условная плотность распределения р (состоя- ние | измерение). Трудности решения этой задачи обусловлены трудностями вычисления р (х | z). Этими трудностями являются: а) Вычисление р (z | х). Сложность данной задачи состоит в нелинейности функциональной зависимости между z и х. За исключением тех случаев, когда z и х линейно связаны или когда z и х — скаляры, мало надежды получить какие-либо общие результаты, как аналитические, так и экспериментальные. В теории принятия решений этой трудности обычно нет, так как предполагается, что р (z | х) задана. б) Требование того, чтобы р (х j z) можно было представить в аналитической форме. Это требование является очевидным, если необходимо, чтобы решение использовалось в задачах с реальным временем. На проведение вычислений для определе- ния р (х ] z) после измерения z не хватит времени.
444 Глава 12 в) Требование о том, чтобы р (х), р (z), р (х | z) были сопря- женными или «воспроизводимыми» плотностями распределений [10.4, гл. III]. Это требование заключается в том, что р (х) и р (х | z) должны быть плотностями распределений из одного семейства или что должны существовать конечномерные достаточ- ные статистики. Отметим, что таким свойством обладают все задачи, рассмотренные в этом разделе. В этом как раз и состоит причина возможности осуществления многошаговых вычислений. Перечисленные выше трудности являются существенными. Нет оснований считать, что, кроме специальных классов задач, подобных рассмотренным выше, эти трудности можно легко преодолеть. Этим и объясняется то, что в стохастическом управ- лении, за исключением случая линейной системы с квадратичным критерием качества, получение практических результатов весьма затруднительно. Однако в бейесовом подходе содержится единая и интуитивная точка зрения, применимая при решении современ- ных задач управления, для которых справедливы понятия «состоя- ние системы» и/или «марковость». 12.9. Выделение гауссовских сигналов из шума Одной из целей при проведении оценивания является выра- ботка решений. Например, предположйм, что последовательность измерений {zt, . . ., zj = Zt была выполнена на одной из двух многошаговых систем и нужно решить, на какой именно. Изве- стно, что две последовательности имеют следующую структуру: z] = Нгх\v\, Ж(+1 = Фгх1 + Гг1щ, i = 0, 1. (12.9.1) Обозначим гипотезу zt = z“ через ff0, а гипотезу zt = z| через Правило принятия решения о том, которая из гипотез истинна, заключается в сравнении отношения правдоподобия L (Zt) = (12.9.2) V £' р(ц, .. ., zt |H0) v > с некоторым фиксированным значением. Это правило является оптимальным для большого числа критериев, зависящих от выбранного фиксированного числа 1). Основная трудность применения этого правила принятия решения заключается в необходимости построения в реальном времени совместных плотностей распределения р (Zt | Однако если воспользоваться результатами, полученными в этой главе, то для гауссовских марковских последовательностей такое х х) См. I. Selin, Detection Theory, Princeton Univ. Press, Princeton, New Jersey, 1965.
Оптимальные фильтрация и прогнозирование 445 построение можно выполнить достаточно быстро. По правилу Бейеса имеем р (Zt I Я{) = р (zt I Zt_b Hi) р I Hi). (12.9.3) Положим ql (Z) Ajn [p (Zt ]Нг)]. Тогда q* (t) = ql (t - 1) + In [p (zf | Zt.lt Hi)]. (12.9.4) Но так как Xt-t, P]-i являются достаточными статистиками для Zt-i, то последний член в (12.9.4) можно вычислить как функцию In [р (zt) | Р)_1)]. Действительно, ln[p(zt\Zt~i, Н()] = -|ln2 {[det (ОкЛ#)]}- Li (Н1М\^Н1Т (Zt-H^^t^i). Итак, используя фильтры разд. 12.3, дг (i) можно вычислять рекуррентным образом. Таким образом, для довольно общего класса задач выделения сигналов правило принятия решения на основе отношения правдоподобия может быть реализовано в рекуррентном виде х). х х) Более подробно с этими вопросами можно познакомиться в работе: F. Schweppe, Evaluation of Likelihood Function for Gaussian Signals, Trans, of IEEE on Information Theory, Vol. IT-11, № 1, pp. 61—70 (1965).
Глава 13 Оптимальные сглаживание и интерполяция 13.1. Оптимальное сглаживание для одногиаговых переходов В рассмотренной в разд. 12.3 задаче оценивания с помощыо измерения zt можно улучшить оценки х0 и ш0. Другими словами, измерения, относящиеся к состоянию 1, дают информацию о состоянии Ойо переходе из состояния 0 в состояние 1, т. е. о векторе возмущений w0. Назовем эти оценки сглаживаю- щими и, чтобы отличить от оценок х0 и iv0, обозначим их как x0/i и w0/l. Чтобы получить оценки по методу наименьших квадра- тов, в качестве x0/i и iv0/l нужно выбрать значения х0 и iv0, мини- мизирующие квадратичную форму J = у (жо — хо)Т Ро 1 (х0 — ж0) + у (“’о — Wo)T <?(Г 1 (»0 — »о) + +|(21-яЖ1)гя71(г1-яЛ) (13.1.1} при ограничении Xi - Фожо + Гошо. (13.1.2} Если х0, iv0, Vi являются независимыми гауссовскими случайными векторами, то совместная плотность распределения вектора (х0, w0, Vi) пропорциональна exp (—J), поэтому минимизация J соответствует также максимизации совместной плотности рас- пределения. Бесконечно малые изменения J и хг, соответствующие беско- нечно малым изменениям х0 и ш0, таковы: dJ = dxoPol (xo — x^ + dwoQo* (w0 — iv0) — — dxiH^Ri1 (Zi — HiXi), (13.1.3} dx\Фд dx^ Го dwg. (13.1.4) Подставляя в (13.1.3) вместо dxi выражение (13.1.4), получаем dJ = dxo [ЛГ1 («0 — х0) — ФоЯГ/Д-1 (zi — HiXi)] -|- + 1<?0-1 (и>0 - w0) - ГОГЯГЯГ1 (zf -ЯЛ)]. (13.1.5} В точке минимума dJ = 0 для произвольных dx0 и dw0. Это озна- чает, что оптимальные оценки должны быть такими, чтобы
Оптимальные сглаживание и интерполяция 447 в (13.1.5) коэффициенты при dx? и dwl равнялись нулю: %о — хо Ч" Я0Ф0 1 (zj — = #0/1, (13.1.6) «;о = »о + <?оГоЯ1Я1 (zj—- 1) = W(i/i, (13.1.7) где в соответствии с ограничением (13.1.2) Ж1/1 = Фо^о/i 4" Го»о/1- (13.1.8) Далее, подставляя (13.1.6) и (13.1.7) в (13.1.8) и разрешая отно- сительно Ж1/1, получаем 1^ = ^+ PJIIrV (Zi-Ял), (13.1.9) где xt и Pi определяются выражениями (12.3.4), (12.3.5) и (12.3.7). Не удивительно, что из (13.1.9) следует, что xi/t = Xi. (13.1.10) С помощью простых, но громоздких преобразований преды- дущих соотношений и используя формулы (12.3.4) — (12.3.7), в жо/i и ivq/i можно записать в виде х0/1 = x0 — C0(xi — Xi), (13.1.11) »o/i = w0— Ro {xi — х$, (13.1.12) где С0 = Р0Ф?’М71, (13.1.13) 5о = (?оГоГМ71. (13.1.14) Обозначим матрицы ковариаций ошибок оценок х$ц и и?Од •через 1 Ръц==Е [(ж0/1 — ж0) (ж0/1 — х0)г], (?o/i = 7? [(м?о/1 — и>о) (wo/i — wo) ]• (13.1.15) Пользуясь (13.1.11) и (13.1.12), просто (но утомительно) пока- зывается, что Ро/1 = Ро- со (Ml - Pi) СТ0, (13.1.16) <?o/i = Qo - Bo (Ml - Pl) Яог. (13.1.17) В уравнениях (13.1.11) и ИЗ.1.12) член Mi1 (xi — Xi) является источником потенциальных вычислительных трудностей, посколь- ку в некоторых случаях элементы матрицы М^1 могут быть Y Довольно большими а компоненты вектора Xi — Xi достаточно
448 Глава 13 малыми. В этом случае лучше воспользоваться тождеством Л/Г1 (^-^) = —Hl (HiMiH? + RJ-1 (13.1.18) с учетом которого (13.1.11) и (13.1.12) можно переписать в виде ^0/1 = ж0-Р0ФоТХ0, (13.1.19) ^о/1 = ^о-№% (13.1.20) Другой источник потенциальных вычислительных затруднений и осложнений связан с членом Л/Д (Л/i — Pi) Л/Д соотноше- ний (13.1.16) и (13.1.17), поскольку элементы Л/Д получаются обращением матрицы Mi и в некоторых случаях они могут быть довольно большими, а элементы матрицы Л/j — Pi достаточно малыми. В этом случае (13.1.16) и (13.1.17) можно переписать следующим образом: /3о/1 = /,о-С0(Л/1-Л)Со = = ро - сол/Ат+СоЛ/А" - СоЛ/iCo + С0Р1С% = = Ро - РоФоСоТ + С0М^ - С0Ф0Р0 + СОР1СТО = — Рц(Е — СдФо) —С0Ф0Р0 (Z?— С0Ф0) + Ро (Р1 + Го(?оГо ) Со > р0/1 = (Я-С'офо) Ро (Е-Софо)т + Со (Л + ГоСоГоТ) Со, (13.1.21) *) и аналогично Со/1 = (Я-В0Г0) Qo (Е-ВОГО)Т + ВО (Р1 + ФОРОФТО) В0Т. (13.1.22) В силу того что Ро/i и Q0/i здесь вычисляются как сумма двух положительных полуопределенных матриц (см. задачу 1 в разд. 12.4), то с вычислительной-точки зрения равенства (13.1.21) и (13.1.22) являются более предпочтительными. С другой стороны, в (13.1.21) и (13.1.22) все еще нужно вычислять матрицу Л/Д, входящую в Со. Этого можно избежать, но опять только за счет перехода к разности матриц. Рассмотрим тождество МГ1 (Л/j- Pi) МТ^Н^ (HiMjTi + R,)-1Я1 = Ло. (13.1.23) Тогда (13.1.21) и (13.1.22) или (13.1.16) и (13.1.17) можно переписать следующим образом: Ро/1 = Ро-РоФоЛ0ФоРо, (13.1.24) <?o/i = <?o — ^оГоЛоГо^о- (13.1.25) *) Данные выкладки заимствованы из диссертации Д. Фрезера (D. F г а - s е г, М. I. Т., 1967).
Оптимальные сглаживание U интерполяция 449 Равенства (13.1.24) и (13.1.25) полезны для многошагового случая следующего раздела, так как Л можно вычислять рекуррентным образом без обращения матриц. Задача 1. С помощью формул (13.1.6), (13.1.7) и (12.3.4) — (12.3.7) докажите соотношение (13.1.9). Задача 2. С помощью формул (13.1.6) — (13.1.9) и (12.3.4) — (12.3.7) докажите соотношения (13.1.11) — (13.1.14). Задача 3. С помощью формул (12.3.5) и (12.3.14) докажите соотношения (13.1.16) и (13.1.17). 13.2. Оптимальное сглаживание для многошаговым процессов Снова рассмотрим описанную в разд. 12.4 гауссовскую марков- скую последовательность. Требуется, используя все измерения z4, . . ., zN, найти оценку состояния жг, где i < N, по методу наименьших квадратов. Назовем эту оценку сглаживающей и обо- значим через Xt/N, чтобы отличить от оценки жг, получаемой фильтрацией, которая использует только измерения zt, . . ., zt. Уравнения для сглаживающей оценки получаются с помощью интуиции и последовательного применения результатов преды- дущей главы х). Предположим, что Xi±i/N и соответствующая вероятность P;+i/n уже найдены. Они представляют собой наи- лучшие оценки состояния процесса, которые имеются в момент i + 1. Рассмотрим теперь задачу сглаживания для одношагового перехода между моментами i и i + 1. Здесь х^цх и Pi+l/N соот- ветствуют xt и Pi из разд. 13.1, a xi/N и Pi/N соответствуют ж0/1 и Ро/i- Поэтому *Гг/Х ” ('г (*Ti+l ‘*Гг+1/х), ^Х/Х-(13.2.1) M’i/X== Wi Bi (%i+l ^г+ l/Ат), (13.2.2) PilN=Pi — Ci(Mi+1 — Pi+i/N)Ci , Pn/n=Pn, (13.2.3) Qi/N =Qi-Bi (Mi+i - Pi+1/N) Bl, (13.2.4) где Bi = QitfM^i, (13.2.5) Ci = PiOj’W+i- (13.2.6) Чтобы с помощью соотношений (13.2.1) — (13.2.6) найти сглаживающие оценки, необходимо сначала определить оценки *) Более строгую постановку проблемы см. в конце этого раздела в зада- че 3 и в разд. 13.3. 29—0102
450 Глава 13 Xt, Pt и промежуточные величины xt, Mt- Для этого нужно при имеющихся измерениях гг просчитать слева направо урав- нения фильтра. Затем, поскольку xN/N = xN и Pn/n ~ Pn, иДя справа налево, с помощью рекуррентных соотношений (13.2.1) — (13.2.6) можно определить xi/N, wt/N, Pt/N и Qi/n- Схематически все это показано ниже. Прямой ход a i^’g — а — ^ZN Л Xq — > X} Х\ . Xjy — > Xjy 4-Qn '1'^1 I-R/y Ро-Л _Л . мя-Л PN Обратный ход A A A Л x0/N^-----Xi/N ••• XN-1/N <-----XN/N Po/N -----Pl/N •••-<- Pn- i/N 4--Pn/N Как и в задаче одношагового перехода разд. 13.1, при полу- чении величин М^1 (xt — xi/N) и Mi1 (Mt — Pt) Mt1 возможны вычислительные трудности и осложнения х). Их можно избежать, если пользоваться методами, аналогичными приведенным в разд. 13.1. Сглаживающие оценки можно вычислять с помощью следующих рекуррентных соотношений: ii/N='xt-Pi(DlU, (13.2.7) Wi/N — ivt —QtVi Kt, (13.2.8) ^^(E^PiStfidihi-HlR-1 (zt-H^t)], Zw = 0, (13.2.9) Pi/N = (E — Ct®t) Pt (E -Ct(Dt)T+Ci (Pi+1/N + Г#гГГ) CT, (13.2.10) ^/х = (^-ВгГг)^(^-ВгГ1)г+Вг(А+1/х + ФгРгФгг)ВГ, (13.2.11) Лг_, = (E - PtStf ФгГЛгФг (£ - PtSt) + St(E- PtSt), An = 0, (13.2.12) где St = HlRllHt. (13.2.13) Аналогом соотношений (13.1.24) и (13.1.25) являются Р(/я = Рг-ЛФ?ЛгФгЛ, (13.2.14) QiIN = Qi-Qi^Ti^iQi. (13.2.15) Сглаживающая оценка для заданного i и возрастающего N. Другой вид сглаживающей оценки можно получить, если рас- *) Здесь матрицу нужно .обращать для всех i, что очень обремени- тельно.
Оптимальные сглаживание и интерполяция 451 сматривать жг при фиксированном i, но возрастающем N. Оказы- вается, что для этой оценки имеется следующее рекуррентное соотношение (см. задачу 4 этого раздела): Xi/N = xi!N— 1 “Ь РцяНяЕк (ZN— Н Nxn\ = Xi, (13.2.16) Pi/N^Pi/N-dE-P^R^Hxf, Pin = Pi. (13.2.17) Заметим, что здесь требуется одновременное вычисление жг и Р^. Задача 1. Выведите рекуррентные соотношения (13.2.9) и (13.2.12). Задача 2. Покажите, что Е [ХДгП = Лг. Задача 3. Рассмотрите задачу определения таких значений ж0 и wt, i = 0, . . ., N — 1, которые минимизируют критерий качества: ^ = -^(хо — хо)ТРо1(хо — хо) + N-1 + 2 У (Wi~ ™i)T Qi(Wi — lVi) + 2 ^(Zi — HiXif RT1 (Zi — HiXt) г=0 i~l при ограничении xi+1 = + Ггшг. Покажите, что решением этой задачи является рассмотренная в этом разделе сглаживаю- щая оценка [Указание. Воспользуйтесь методом прогонки из гл. 5 и работой [13.1].] Задача 4. Выведите соотношения (13.2.16) и (13.2.17). Один из возможных способов связан с бейесовым подходом, который обсуждался в разд. 12.8: 13.3. Оптимальные сглаживание и интерполяция для непрерывных, процессов Соотношения для сглаживания при непрерывном времени можно получить так же, как в разд. 12.5, формальным переходом к пределу в уравнениях с дискретным временем. Однако из педа- гогических соображений лучше, рассмотрев аналог задачи 3 разд. 13.2, дать непосредственный вывод. Определим значения х (t^ и w (t), которые минимизируют критерий качества [ж (^о) х О Р (М Iх (*о) х (Ml + 29*
452 Глава 13 +4 J {[“’ (0 - (O]T Q~1 (О к (О - (0] + to + [z (t)~H(t) х (t)]T R~' (t) [z (t) — H (t) x (01} dt (13.3.1) при ограничении x = F (f) x + G (0 w. (13.3.2) Это детерминированная задача оптимизации, к которой приме- нимы стандартные методы гл. 2. Соотношения w(t) = w — QGT%, (13.3.3) x(t0) = x(t0)-P(t0)K(t0), b(tf) = O (13.3.5) являются условиями экстремума (уравнениями Эйлера). Обозна- чим решение двухточечной краевой задачи (13.3.3) — (13.3.5), которым являются сглаживающие оценки в непрерывном случае, через х (/ | tf) и w (t \ tf). Так как двухточечная краевая задача линейна, то решение можно получить либо методами, исполь- зующими переходные матрицы, либо методом прогонки из гл. 5. Останавливаясь на последнем, положим, что решение х (/) Л. Л. х (t | tf) может быть представлено в виде х (t) = х (t) — Р (t) Л (t), (13.3.6) где х (I) и Р (t) подлежат определению. Дифференцируя (13.3.6) и учитывая (13.3.4), получаем Fx - GQGTk + Gw = x-PK-P(-HTR-lHx~FT'K + HTR~ lz) или - X + Fi - PHTR~lHx + Gw + PHTR~1z = = (^P + FP + PFt+ GQGt-PHTR~lHP) X. Таким образом, если потребовать, чтобы х, Р удовлетворяли уравнениям фильтрации из гл. 12 х= Fx±Gw+Р/ГРГ1 (z — Нх), x(t0) = x0, цз 3 Р = FP + PFт 4- GQGT — РНТR-^HP, Р (t0) = Ро,
Оптимальные сглаживание и интерполяция 453 то тогда (13.3.6) становится тождеством. При t = /у мы имеем х ((/ I tf) — х (tf) = х (tj). Функцию X (t) можно вычислить, интегрируя назад (начиная с t = tf) уравнение %= -(F~PHTR-lH)Tk-YHTR-1 (z-Hx), k(tf) = O, (13.3.8) тогда как уравнения (13.3.7) интегрируются вперед. Эта ситуация прямо противоположна той, которая встречалась в гл. 5 (см. часть разд. 12.4, где говорится о принципе двойственности). Зна- X (t), из формулы (13.3.3) можно найти w (t | tf), а из (13.3.6) — х (t | tf). Задача. Пусть ошибка сглаженной оценки равна е (t) = х (t | tf) — x (t) P (t | tf) = E [e (t) e (t)T\. Покажите, что P(t\tf) = P (t) - P(t) Л (t) P (t), (13.3.9) где *) A (t) = - (F- PHTR~lH)T Л - A (F-PI^R-'H) + + #Г/Г1Я, Л(//) = 0. (13.3.10) Покажите также, что 4 Р (t | tf) = (F+GQGTP~l) P(t\tf) + P(t\ tf) (F + GQGT Р~*)Т— — GQGT — PHTR~lHP, P(tf\tf) = P(tf), (13.3.11) 4 x (d tf) = Fi (t I tf) +• Gw (t) + -}-GQGTP~l [л? (Z| tj) — #(()], x (tf ] tf) = x (tf). (13.3.12) Соотношения (13.3.9) и (13.3.10) для случая непрерывного времени являются аналогом (13.2.10) и (13.2.12). Задачи с непрерывным временем и дискретными измерениями: интерполяция. Частным случаем задачи сглаживания является задача интерполяции, где рассматривается процесс с непрерывным временем и дискретными измерениями. Здесь необходимо записать уравнения фильтрации для случая дискретных измерений. Такими уравнениями будут x — Fx-\-Ki [z^) — Hix (if)] 8(t — ti), x(t0) = x0, (13.3.13) Kt —P (ti) HfRT1, (13.3.14) О В уравнениях (13.3.10) — (13.3.12) P = P (t), а не P (t | tf).
454 Глава 13 Р — FPPFTGQGT — - [Р (Я) Я? (HP (tV) НТ + Ъ)-1 HtP (Я)] б (t-ti). (13.3.15) Оценка х и матрица ковариаций Р, полученные из уравнений фильтрации, являются разрывными функциями, а интерполя- ционная оценка х (t | </), вычисленная по уравнению (13.3.12), будет непрерывной. Пример 1. Процесс х = w, w (t) = 0, х (0) = 0, z = х + v, Ро ~ Ро, Q = 1» R — г (все постоянные). Фильтр Р (t) . ~ . д/— l-|-6e~2ai я=^-(2-я), . а = Vq/r, Ъ = ——rJ. . Po+~Vrq Сглаживающий фильтр x(t\tf) = x (t) — Р (t) к (t), w (tf) — — q/. (t), L 2(1—fe f) J Если at, atf^>i, то P (t | tf) -> у ]frq. Если atf > 1, то P (0 | tf) -+ • 1 + WVrq) Оценка состояния для t = 0, использующая последующие измерения-. (o-i(O], 4 _h P(°^ = Po~^e~at- Уравнения фильтра Винера. Представленные в этом разделе различные соотношения для фильтрации и сглаживания можно записать не в виде дифференциальных уравнений, а через инте- гралы от результатов измерения z(t). Последние можно получить, используя метод переходных матриц гл. 5. Пусть Фхх (t, т) (t, т)~ Ф(Л т)= *х ’ ' (13.3.16) |_Ф*х (С т) Фи (t, т)J
Оптимальные сглаживание и интерполяция 455 есть переходная матрица для уравнения (13.3.4). Тогда (см. при- ложение А.4) X (fy) = (tf, tg) Хо ч _ -АЛ(*о)+J [ФхД*/, x)Gw+®xK(tf, x)HTR~'z\dx, (13.3.17) to (tf) = 0 = Ф%х (tf, tg)Xg Ц- Ф%Х (tf, to) A. (tg) Pgk (to) ' i ' 4 _ + j (tf, T) G^ + Фхх (tf, t) HTR-lz\ dx. (13.3.18) to Определив из (13.3.18) k(t0) и подставив его в (13.3.17), получим x(tf)~x(tf\tf) = = [Фхх (tf, t0) — ФдД (tf, tg) Фд (tf, tg) Фхх (tf, Ml XO + 4 "t~ J {[Фхх (tf, т) ФхХ (tf, tg) Ф^Х (tf, t0) Ф&Х (tf, t) ] Gw -(- to + [ФхХ (tf, x) — ФжХ (tf, t0)^^,(tf, t0)<bKi.(tf, x)]HTR~lz} dx^ *f _ = фж(О, £o)^o+j №i(0, x) Gw + ^(tf, x) HTR~iz] dx, (13.3.19) to где Фх (tf, Г) Фхх (tf, T) ФхХ (tf, tg) Фд (tf, tg) Ф%х (tf, Г), Ф1 (tf, х)=ФхК (tf, T) — ФжХ (tf, tg) Фц (tf, tg) Фи (tf, X). В случае когда жо = О, ш = О, tf z (tf | tf) = j Нфх (tf, t) HTR~lz (x) dx, (13.3.20) /0 A ядро HtybJtf, t) HtR~1 = к (tf, т) представляет импульсную пере- ходную функцию нестационарного фильтра Винера. В устано- вившемся состоянии (т. е. при t0 = —оо) к (tf, х) = к (tf — т). Конечно, ядро фильтра Винера обычно получают из решения интегрального уравнения, и тогда уже допущение о конечно- мерности вектора состояния не является необходимым. В этом смысле винеровский подход можно назвать более общим. Однако с вычислительной и методической точек зрения описанный ранее подход является гораздо более практическим и привлекательным.
456 Глава 13 Точно так же с помощью формулы (13.3.5) можно вывести соотношение для ядра сглаживающего фильтра ж (A) | fy) = хо Р (М (Л)) — [Е + Ро^кк (tf, to) Фхх (tf, Zo)] Xq -ф- */ _ + J РоФй1 (tf, t0) ФКх (tf, t) Gw (t) + io + Л)ФГх (tf, to) Фкк (tf, t) HTR~lz (T)J dx. (13.3.21) Пример 2. Процесс x — w, w (t) = 0, x (0) = 0, z = x + v, Po = Po, Qo = Qo, R = г (все постоянные). Ядро для оценки состояния в момент tf, 0 < t <Z tf, Ч х (tf | tf) = у j фх (tf 1t) z (t) dt, 0 W<,. t) = VTr^P^^n- Ядро для оценки состояния в момент t — 0, O^t^tf, 1 ? ж (0 | tf) = — J cpx (tf 11) z (() dt, ФХ (tf I t) = -2~ Po \_be-2dt е~^ 13.4. Оптимальное сглаживание для нелинейных динамических процессов Точка зрения на задачу сглаживания как на детерминиро- ванную задачу аппроксимации по методу наименьших квадратов может быть распространена на нелинейные динамические системы. Рассмотрим нелинейную систему х = / (х, t) + g (х, t) w (13.4.1) с измерениями z = h (х, t) + v, (13.4.2) где w и v — гауссовские процессы белого шума с нулевыми сред- ними и матрицами ковариаций Q и R соответственно. Сглаженные
Оптимальные сглаживание и интерполяция 457 оценки для х0, v и w, которые будем обозначать через х0, v (f) и w (rt, дает решение следующей задачи. Определить х0, v (rt и w (t) (t0 t tf) так, чтобы они мини- мизировали ^ = -у[(^о — XofPo1 (х0— жо)]го+ у j lvTR-1v+wTQ~1w]dt (13.4.3) to при наличии ограничений (13.4.1) и (13.4.2). Сглаженная оценка х (t | tf) удовлетворяет дифференциаль- ному уравнению (13.4.1) при w (t) = w (t), x (t0) = x0. Сформулированная задача сглаживания является обычной задачей оптимизации, которую можно решать итеративными мето- дами гл. 7, в частности методом прогонки [13.1]. 13.5. Последовательно коррелированный шум в измерениях. [13.4] До сих пор мы ограничивались такими задачами оценивания, в которых неопределенность в измерениях представлялась либо в виде аддитивной чисто случайной последовательности для последовательных дискретных измерений, либо в случае непре- рывных измерений как аддитивный белый шум. Ясно, что в неко- торых задачах оценивания более точной моделью неопределенно- сти в измерениях будет или аддитивная марковская последова- тельность (последовательно коррелированный шум) или в случае непрерывных измерений аддитивный марковский процесс (корре- лированный по времени или окрашенный шум). Если для полу- чения последовательно коррелированного шума ввести много- шаговые формирующие фильтры, на которые действует чисто случайная последовательность, то в принципе последовательно коррелированный шум в измерениях можно изучать методами разд. 12.4 и 13.2 (См. разд. 11.4, где такой фильтр используется для получения процесса типа окрашенного шума.) Однако в случае непрерывных измерений с коррелированным по времени шумом этот фильтр не пригоден. Более того, даже в случае последовательных измерений необходимо увеличивать- размерность оцениваемого вектора состояния, что неудобно для фильтра, работающего в реальном времени, и, что еще хуже, оказывается, что процесс вычисления коэффициентов фильтра является плохо обусловленным. Поэтому в задачах оценивания с последовательно коррелированными шумами в измерениях желательно найти лучший способ их обработки. Для простоты рассмотрим сначала довольно частную задачу многошагового оценивания: жг+1 == Фжг + Гшг, i = 0, 1, . . N — 1, (13.5.1)
•458 Глава 13 где xt — вектор размерности п, wt — гауссовская чисто слу- чайная последовательность с нулевыми средними и матрицей ковариаций Q. Измерения описываются уравнением zt = Hxt + vt, i = 0, 1, . . N, (13.5.2) где гг — вектор размерности р, vt — гауссовская марковская последовательность, которую можно получить с помощью много- шагового формирующего фильтра Vi+1 = 4vt + li. (13.5.3) Здесь — гауссовская чисто случайная последовательность с нулевыми средними и матрицей ковариаций Q*. Требуется по измерениям zt оценить В калмановском подходе [12.2] с расширенным вектором состояния векторы xt и рассматриваются как один вектор состояния yi большей размерности А Г Х{ ' У1= .... Vi (13.5.4) Уравнения /13.5.1) и (13.5.3) также можно объединить в одну динамическую систему большей размерности: У1^ = ФаУг + Га^, (13.5.5) где фа = [- Ф; 0 ра Гг 0 1 , 1Ъ = * Wi - _ о _ 0 Е L h J Ло отношению к вектору измерения (13.5.2) являются «точны- ми», т. е. они не содержат чисто случайного шума: Zi = Hayt, (13.5.6) тде На = [Н ; Е]. Из уравнений (12.4.11) — (12.4.15), если учесть, что Rt = О, сразу следуют уравнения многошагового фильтра для расши- ренной системы (13.5.5) и (13.5.6) ^ = Фау^ + К^-НаФау^), (13.5.7) Я? = М?(Яа)г [ЯаЖ(Яа)г]~1, (13.5.8) М?+1 = ФаР? (Фа)т + raQa (Га)т, (13.5.9) Р? = М? - М? (На)т [НаМЧ(На)т]-1НаМа1, (13.5.10) где
Оптимальные сглаживание и интерполяция 459 Оказывается, что в дополнение к удручающей размерности расширенного вектора yt вычисления в (13.5.8) и (13.5.10) являют- ся плохо обусловленными. Матрица ковариаций положительно полуопределена, поскольку с помощью (13.5.10) легко показы- вается, что Я“Р?(Яа)т = 0. (13.5.11) Последнее утверждение эквивалентно тому, что после р точ- ных измерений zt становятся известными (т. е. имеют равную нулю дисперсию) р линейных комбинаций координат (п ^-мер- ного вектора yt. С вычислительной точки зрения вырожден- ность матрицы Pf совсем нежелательна, поскольку из-за машин- ных ошибок матрица Pf, вычисляемая по (13.5.10), легко может оказаться неопределенной или, что хуже, вычисление матрицы, обратной к HaMi (На)Т, в случаях, когда Pf приблизительно равняется Mf, может быть очень неточным. Этих трудностей можно избежать, если попытаться вычис- лять взвешенную разность векторов двух последовательных измерений ti = z£+1 - 4%. (13.5.12) С помощью уравнений (13.5.1) — (13.5.3) можно представить как ti = Я (Фжг + I» + Wvi + h - Т [Hxi + vj, или ti = H*xt + е/, (13.5.13) где Я* = НФ - XVII и ег == ЯГшг + |г. Заметим, что разность (13.5.12) подобрана так, чтобы исключить явную зависимость от vt. Уравнения (13.5.1) и (13.5.13) описывают теперь задачу оце- нивания системы и-го (а не л 4 р-го) порядка по измерениям, которые содержат гауссовскую чисто случайную последова- тельность ег. Однако в этой задаче имеются две особенности: а) выбранное измерение по отношению к действительному измерению zt запаздывает на один шаг и б) шумы в системе и изме- рениях коррелированы, т. е. (13.5.14) где S = QrTHT. Матрица ковариаций шума в измерениях Я [e^ef] = Ябо-, (13.5.15)
460 Глава 13 где R = HrQrTHT + Q*. Для системы с шумом, коррелированным с шумом измерения, соотношения для фильтра, дающего оценку по методу максимума правдоподобия, записываются легко (см. задачу 4 в разд. 12.5, непрерывный случай). Вывод получается особенно простым, если к (13.5.1) с помощью пока неопределенной матрицы D добавить (13.5.13): xi+1 = Фх1 + IX + D [£г — H*xt — ег] = = (Ф - DH*) xt + Dlt + IX - Det. (13.5.16) Содержащийся в выражении (13.5.16) шум — 7)е; есть чисто гауссовская случайная последовательность, и, согласно (13.5.14) и (13.5.15), ее взаимная корреляция с шумом в измерениях равна Е [(IX - Dzt) ef] = (Г5 - DR) 8tj. (13.5.17) Если выбрать D так, чтобы D = Г5Я-1, (13.5.18) то матрица вторых моментов (13.5.17) будет нулевой. При таком выборе D задача оценивания (13.5.16) и (13.5.13) становится похожей на ту, которая изучалась в разд. 12.4 и 13.2. Таким образом, получается следующее решение задачи филь- трации: _ = xt + Kt (Ц - H*xt), (13.5.19) xi+1 = ®it + D (Ц - H*xt), (13.5.20) Ki = Pt (H*)T R-1, (13.5.21) Pt = Mt - Mt (H*)T (H*Mt (H*)T + R)-1 H*Mt, (13.5.22) Mi+1 = (Ф - DH*) Pt (Ф - DH*)r + Г(?Гг - DRDT, (13.5.23) где S, R и D определяются уравнениями (13.5.14), (13.5.15) и (13.5.18). Для системы, описанной уравнениями (13.5.1) — (13.5.3), соот- ношения (13.5.19) — (13.5.23) определяют фильтр, дающий оценку по методу максимума правдоподобия. Отметим некоторые особен- ности фильтра, использующего разность измерений зг: а) Размерность этого фильтра п, тогда как размерность филь- тра (13.5.7) — (13.5.10) для расширенного вектора состояния равна (п + р). Интуитивно понятно, что так и должно быть, поскольку измерения можно рассматривать как р точных измерений, содержащих (п Д- р) переменных xt и vt.
Оптимальные сглаживание и интерполяция 461 б) В связи с тем что матрица П=НГ()ГТНТ + Q* невырож- денная, процесс вычисления компонент и Dt не является плохо обусловленным. Если R оказывается вырожденной, то это означает, что выбранное измерение 'Qi все еще содержит одно или больше точных измерений и возможно ввести дополнительные разности векторов измерений, что в свою очередь еще больше уменьшает размерность фильтра. С другой стороны, в случае вырожденной R можно воспользоваться еще одним выражением для фильтра (см. задачу 2). в) По отношению к измерению оценка состояния запаздывает на один шаг. Фактически эта оценка является одношаговой сгла- живающей оценкой, так что в уравнении (13.5.19) xt следовало бы рассматривать как а в (13.5.20) как хщ. г) Вначале, когда имеется только z0, вычислить £0 нельзя. На первом шаге приходится использовать фильтр (13.5.7) — (13.3.10) для расширенного вектора состояния. Это не создает трудностей, так как в общем случае матрица НаМ^ (На)т не является плохо обусловленной. После первого шага можно при- менять укороченный фильтр (13.5.9) — (13.5.23). д) В случае необходимости оценки получаются легко: Vi = zt — Hxt и Е l(yi — vt) (yt — щ)г] = HPtHT. е) Более общие случаи рассматривались в работах Хенриксо- на [13.4], а также Брайсона и Хенриксона 1). Задача 1. Покажите, что сглаживающие оценки для систе- мы (13.5.1) — (13.5.3) с последовательно коррелированными шума- ми в измерениях, полученные методом максимума правдоподобия, равны = %i Ci (^-г'+1 -Ti + 1/n), где Ci = Pi (Ф - DH*) MQQ+t, Pi/N = Pi-Ct (Mi+i - Pi+i/N) CTi. Задача 2. Покажите, что в том случае, когда матрица д R — HVQVTH Q* вырожденная, другими вариантами укорочен- ного фильтра типа (13.5.19) — (13.5.23) и сглаживающего филь- тра из задачи 1 являются: х) А. Е. Bryson, L. J. Н е n г i k s о n, Estimation Using Sampled Data Containing Sequentially Correlated Noise, J. Spacecraft and Rockets, Vol. 5, № 6, pp. 662—666 (1968)1
462 Глава 13 Фильтр Xi = xt Ki (& — H*Xi), xM = ФЯ- + Г5 [H*Mi (H*)T + /?]-! & - H*xt), Ki = Mi (H*)T [H*Mt (Я*)г + J?]-1, Pi = (E — KiH*) Mi (E - KtH*) + KiRKl, Мм = ФРгфТ + Г<2Гг — Г5 [H*Mi (H*)T + Д]-1 STrT — Сглаживающий фильтр Xi/N = Xi — Ci (Xf+1—жг+1/N), Ci = (Л'ФГ — KiSTrT) M^+i, Рг/N = Pi Ci (Mm Pi+ 1/jy) Ci . 13.6. Коррелированный no времени шум в измерениях В случае непрерывных измерений, когда математической моделью неопределенности в измерениях является аддитивный марковский процесс (коррелированный по времени, или окра- шенный, шум), подход к решению с помощью формирующих фильтров, основанный на расширении вектора состояния, оказы- вается непригодным. Здесь нужно перейти к укороченным фильтру и сглаживающему фильтру, которые являются предельными слу- чаями введенных в предыдущем разделе фильтра и сглаживаю- щего фильтра. * Опять для простоты рассмотрим довольно частную задачу х). Пусть х = F (t) х + G (t) w, t0 t tf (х — га-мерный вектор), (13.6.1) Е [w (t)] =0, Е [w (t) wT (т)] = Q (t) 6 (t — т), E [x (t0)] = 0, E[x (to) xT (t0)] = P (to). Измерениями являются z (f) = H(t)x(t) +v(t), (13.6.2) x) Более общие задачи фильтрации исследовались в работе [13.3]. Задача сглаживания с коррелированным по времени шумом рассмотрена в статье: R. К. М е h г а, А. Е. В г у s о n, Linear Smoothing Using Measurements Con- taining Correlated Noise with an Application to Inertial Navigation, IEEE Trans, on Automatic Control, 13, № 4 (1968).
Оптимальные сглаживание и интерполяция 46$ где v (t) — гауссовский марковский процесс, который можно получить с помощью формирующего фильтра v = A (t) v + В (t) (13.6.3> Здесь Е[|(0]=0, E[l(t) Г(т)] = <2* (*) б (* — т), Е [к (г0)] = 0, E[v (t0) v? (i0)] = V (t0). v (t) можно исключить, если выбрать в качестве измерения £ (О’ такое, что £ (t) = z — A (t) z. (13.6.4) С помощью формул (13.6.1) — (13.6.4) легко показывается, что I (t) = Н* (t) х + е (t), (13.6.5) где Я* (t) = Я + НЕ - АН, е (t) = HGw + Bl. Формулы (13.6.1) и (13.6.5) уже соответствуют задаче оценивания с измерениями, содержащими белый шум. Однако этот шум в измерениях коррелирован с шумом процесса, описываемого- уравнением (13.6.1): Е [w (t) еТ (т)1 = S (t) 6 (t — т), (13.6.6) где S (t) = QGTHT. Корреляция по времени шума в измерениях равна Е [е (t) (т)] = Я (t) 6 (t - т), (13.6.7)> где R(t) = HGQGTHT + BQ*BT. Для системы (13.6.1) и (13.6.5) с помощью результатов реше- ния задачи 4 из разд. 12.5 получаются следующие уравнения фильтра, дающего оценку по методу максимума правдоподобия:. x = FxA- К (z — Az — Н*х), (13.6.8) K(t) = [P(H*)T+GS]R~i, (13.6.9). P = FP + PFT-KRKT + GQGT. (13.6.10) Дифференцируя измерения, в принципе можно получить z. Однако в данном случае этого можно избежать, если ввести про- межуточный вектор состояния х* (t), определяемый как х (t) = х* (t) + К (t) z (t). (13.6.11);
464 Глава 13 Дифференцируя (13.6.11) и подставляя полученное выражение для х в (13.6.8), получаем ’x* = (F-KH*)x-(K + KA)z(t). (13.6.12) Затем вместо (13.6.81 используют уравнения (13.6.11) и (13.6.12). Начальные условия для фильтра и для уравнения (13.6.10) довольно необычны. Вследствие гладкости z (/) в момент начала измерений z (t0) дает хорошую информацию о состоянии систе- мы. Пользуясь результатами решения задачи 2 из разд. 12.2, можно записать, что i (ф = Р (t0) Нт (t0) [Н (t0) Р (t0) Нт (t0) + V 0-1 z (t0), (13.6.13) P Ю = P (Q - P (t0) HT (t0) [H (t0) P (t0) HT (t0) + V (Zo)]-1 H (t0) p (t0). (13.6.14) Итак, в начальный момент времени у оценки и матрицы кова- риаций ошибки оценки имеется разрыв. В случае необходимости легко получить оценки v (f): v(t) = z(f) — Н (t) х, (13.6.15) Е [(о (t) - v (t)) (v (t) - v (t))T] = H(t)P (t) HT (t). (13.6.16)
Глава 14 Оптимальное управление с обратной связью при наличии неопределенности 14.1.Введение После изучения в предыдущих главах детерминированного оптимального управления, случайных процессов и оптимальной фильтрации можно перейти к рассмотрению стохастического оптимального управления и, в частности, к синтезу регуляторов с обратной связью, которые при наличии случайных возмущений и неопределенности в измерениях и начальных условиях являют- ся оптимальными в смысле среднего по ансамблю. Основное внимание будет уделено линейным системам с гаус- совским шумом по двум причинам: а) линейная система с гаус- совскими шумами является адекватной математической моделью многих технически важных систем; б) теория нелинейных систем с шумом (и линейных с негауссовским шумом) еще не разработана настолько, чтобы ее можно было применять при решении при- кладных задач проектирования. 14.2. Непрерывные линейные системы с процессами типа белого шума; состояние системы точно известно Простой задачей стохастического управления является задача выбора оптимального регулятора для линейной системы, воз- мущаемой гауссовским белым шумом, когда критерий качества является квадратичной формой, начальные условия случайны, но точно известно состояние системы. Представим управляемую систему следующей линейной моделью: х = F (t) х + G (i) и + w (i), (14.2.1) где х — n-мерный вектор состояния, и — m-мерный вектор управления, (14.2.2) w — n-мерный вектор шума; Е [w (i)] =0, Е [w (t) wT (т)] = Q (t) 6 (t — т), E [x (iG)] =0, E[x (i0) xT (t0)] = Xo. (14.2.3) 30—0102
466 Глава 14 Пусть критерий качества есть среднее по ансамблю от квадратич- ной формы, аналогичной той, которая рассматривалась в разд. 5.2: О J = E[±(xTSfX)t=if + ± J (хтАх-)-итВи) dt^. (14.2.4) *0 Здесь матрицы S; и А (/) положительно полуопределены, а матри- ца В (£) положительно определена. Они могут задаваться про- извольно или же получаться из рассмотрения второй вариации нелинейной задачи (см. гл. 6). Требуется минимизировать данное среднее значение. Далее, w (t) представляет собой случайные возмущения с нуле- вым средним немалыми по сравнению с характеристическими постоянными времени системы временами корреляции (белый шум). Таким образом, предсказать w (т) при т > t, даже точно зная состояние для т < t, не представляется возможным. Поэтому понятно, что оптимальный регулятор эквивалентен детермини- рованному регулятору разд. 5.2 (см. задачу 2 этого раздела) и (t) = —С (£) х (£), (14.2.5) где С = В-ЧРВ, (14.2.6) 5 = —SF - FTS + SGB-WS - А, (14.2.7) 5 (tf) = Sf. (14.2.8) Поведение оптимальной управляемой системы в среднем. Часто бывает интересно узнать, как будет себя вести управляемая система в среднем. Чтобы это сделать, подставим сначала (14.2.5) в (14.2.1): х = (F - GC) х + w. (14.2.9) Полученное уравнение есть уравнение для гауссовского марков- ского случайного процесса, похожее на те, что изучались в разд. 11.4. Положив X (t) == Е [х (t) xT(t)], (14.2.10) с учетом результатов разд. 11.4 получим X = (F - GC) X + X (F - GC)T + Q, (14.2.11) ( X (t0) = Хо. (14.2.12) Линейное матричное уравнение (14.2.11) с начальным усло- вием (14.2.12) позволяет предсказать изменение во времени диспер- сий компонент вектора состояния и их вторых смешанных момен- тов. С помощью (14.2.10) и (14.2.5) можно получить изменение
У правление при наличии неопределенности 467 во времени дисперсии и вторых смешанных моментов координат вектора управления Е [и (Z) ит (0] = СХСТ. (14.2.13) Также можно определить среднее значение критерия каче- ства. С помощью оператора «след матрицы» Тг соотношение (14.2.41 можно записать как ч J = Tr[|5/X(Z/)+4 j (AX + BCXCT)dt\. (14.2.14) to Используя уравнения (14.2.7) и (14.2.11), это выражение можно преобразовать к более интересному виду. Сначала к подын- тегральному выражению в (14.2.14) прибавим полный дифферен- циал (d/dt) (SX) и компенсируем это слагаемым 5 (Zo) X (t0) — — SfX (tf) вне интеграла Ч J = Tr[y5(Z0)X(Z0) + y ( (AX^BCXCT + SX + SX)dt\ t'o (14.2.15) Далее подставим в соотношение (14.2.15) выражения для 5 и X из (14.2.7) и (14.2.11) соответственно. В подынтегральном выражении все члены, за исключением одного, уничтожаются; в результате имеем 9 J — Тг S (t0) X (t0) Ч-"2 j (SQ) dt J • (14.2.16) to При <2 = 0 (шум отсутствует) критерий J = (1/2) X X Тг [5 (tg) X (Z0)l совпадает с оптимальной функцией выигрыша из разд. 5.2. Таким образом, поскольку при неотрицательно опре- деленных матрицах S и Q величина Тг (SQ) не отрицательна, наличие шума в системе (Q 0) увеличивает в среднем числен- ное значение критерия качества. Статистически стационарный случай (регулятор). Если управляемая система и шум в ней стационарны (матрицы F, G и Q постоянны), а матрицы Л и В в критерии качества не зависят от времени, то регулятор также может быть стационарным, т. е. может быть постоянной матрица S и, следовательно, С (см. разд. 5.4). Матрица ковариаций состояния X становится постоян- ной, и ее можно найти из решения системы линейных алгебраи- ческих уравнений, получаемых из (14.2.11) при X = 0: (F - GC) X + X(F- GC)T = -Q. (14.2.17) 30*
468 Глава 14 Матрица ковариаций управления также становится постоян- ной, и она находится из равенства (14.2.13), где X берется из (14.2.17). Пример. В примере 2 разд. 5.4 рассмотрим случайные моменты крена п (i), оказывающие возмущающее воздействие на ракету, движение которой описывается уравнением а>ж = —(НТ) их + + (NJT) бэ + п (t). Пусть п (t) — белый шум с Е [п (i)] = О и Е [п (t) п (т)1 = 7V6 (t — т). Если положить, что величина среднеквадратического отклонения (с. к. о.) шума п (t) соответ- ствует 5 градусам отклонения элеронов, а время корреляции 0,23 сек, тогда в связи с тем, что 0,23 сек много меньше постоян- ной времени системы, равной 1 сек, получаем N^2 (4^б^)27,корр = 2[(у) 5]2-0,23 = 1150 градНсекЕ В примере 2 разд. 5.4 ’ 0 0 0~ 10 —1 0 0 0 0 С =[27, 29, 180], поэтому Г—27 —29 F-GC = Ю -1 -180" 0 0 0 1 С помощью уравнения (14.2.17), где ГО 0 О'] 0 1150 0 0 0 0 находим, что ' 109 -50 - 8,51 Х = -50 85 грелЕ/сек2-. 0 1 -8,5 0 Из формулы (14.2.13) получаем Г 271 Е [и2] = [27, 29, 180] X 29 180 = 25 500 граТЕ/сек?.
Управление при наличии неопределенности 469 Итак, среднеквадратические отклонения переменных состояния и управления равны УЕ (61) = 10 град, |/Е (у2) = 1,0 град, У Е (со2) = 9,2 град/сек, У Е (и2) = 160 град /сек. Задача 1. Добавим в задачу 6 разд. 5.4 случайные порывы ветра, являющиеся для самолета возмущениями. Их влияние можно учесть, если в уравнении движения заменить 0 на fJ + fJiv, где fJjy — белый шум с Е [fJjvl = 0 и Е [p,v (t) Pv (т)] = N8 (t — т). При N = 0,01 рад2/секх) и точном знании состояния системы определите установившиеся значения математических ожиданий Ж₽-ф)2, Е(у2), Я(62), Е(62). Ответ. Численные результаты (которые получил Мехра) таковы: УЕ ф-ф)2 = 0,60 град, /Ё(у2)=2,87 град, УЕ (61) =3,3 град, УЕ (6н) = 2,48 град. Они получены с помощью программы авто- матического синтеза RIAS [5.4]. Задача 2. Рассмотрите задачу минимизации ч J = Е {$\х (tf)] f L [х (t), и (t), Z] dt} to для системы х = / (х, и, t) + G (х, t) w, E[w(t)]=0, Е [w (t) wT (т)] =<?(/) 6 (/-т). Пусть J° (х, t) есть оптимальное значение критерия J, когда в момент t начальным является состояние х и используется опти- мальное управление. а) Получите функциональное уравнение - J? -1 Тг [ J°xXGQGT] = min {L /»/}, 4 и которому удовлетворяет J° (х, t). Отметим, что оно очень похоже (за исключением члена на изученное в гл. 4 уравнение Гамильтона — Якоби — Веллмана и сводится к нему при Q = 0. б) Рассмотрите поставленную задачу для (14.2.1) и (14.2.4) и непосредственно получите те результаты, которые содержатся в формулах (14.2.5) — (14.2.8) и (14.2.16). [Указание. Исполь- х) Это значение N соответствует с. к. о. порывов ветра, равному 30,5 м/сек, масштабу турбулентности 75,25 м и крейсерской скорости самоле- та 244 м/сек. Отсюда N яа 2 (30.5/244)2 (75,25/244) s 0,01 рад2-сек.
470 Глава 14 зуйте обычное для метода динамического программирования доказательство и при этом сохраните в разложении J° (х, t) члены второго порядка малости.] Задача 3. Рассмотрите представленную на фиг. 14.2.1 обычную задачу динамического программирования. В каждой точке при выборе определенного решения (идти вверх или вниз) существует Фиг. 14.2.1. Траекторная сеть в задаче 3. вероятность, равная только 3/4, что будет выполнено именно это решение (т. е. вероятность движения по другому пути рав- на 1/4). Вычислите минимальную среднюю стоимость перехода из точки А на прямую 3. Задача 4. Рассмотрите систему ^i+l -р Pjt^i ~Р Wi, здесь распределение Р (wt | ь;) есть N [wt, Qi(ufrTrUi)l, Р Wj | ut, Uj) = Р (W; | ut) P (wj | Uj),' т. e. шум зависит от управления, но когда управление задано, он является незави- симым и гауссовским. В предположении, что ut = Ktxi, получите выражения для среднего и матрицы ковариаций управляемой системы как функций от Kt. Ответ жг + 1 — (Ф + Xi -р Wt, Pi+l = (Ф + ГЯг) Pi (Ф + rKi)T + + Qi Тг [KlTTTKi (Pi + Xix[)l. Заметим, что если выбран критерий J = F (xN, PN), то можно сформулировать детерминированную задачу оптимизации, в кото- рой xi и Pt являются фазовыми переменными, a Kt — управ- ляющими.
Управление при наличии неопределенности 471 14.3. Непрерывные линейные системы, содержащие аддитивные белые шумы в уравнении системы и измерениях.; принцип стохастической эквивалентности В гл. 5 было установлено, что оптимальное управление линей- ной системой с квадратичным критерием качества сводится к линейной обратной связи по фазовым переменным. В гл. 12 было обнаружено, что оценки фазовых переменных можно полу- чить, пользуясь результатами • измерений засоренных шумом линейных комбинаций фазовых переменных и применяя фильтр, состоящий из «модели» исходной системы и сигнала обратной связи, пропорционального разности между действительным изме- рением и его оценкой. Поэтому не удивительно, что комбинация оптимального филь- тра и оптимального детерминированного регулятора является регулятором с обратной связью, оптимальным в смысле сред- него по ансамблю для линейной задачи с квадратичным функ- ционалом и аддитивным гауссовским белым шумом. Ниже при- ведены условия, при которых справедлив этот принцип стохасти- ческой эквивалентности, или теорема разделимости. Пусть для t0 т t задана совокупность измерений z (т), где z (т) = Я (т) х (т) 4- v (т), (14.3.1) а также математическая модель управляемой системы х = F (t) х + G (t) и ф- w (t), (14.3.2) где w (t), v (t) — гауссовские процессы типа белого шума, Е [т (Z)] = Е [v (7)] = Е [х (Zo)] = 0, (14.3.4) а х (£0) — гауссовский случайный вектор, независимый от w (t) И V (t), Е [х (£0) лТ (*о)1 = Ро, Е [х (t0) vT (7)] = Е [х (t0) wT 't)\ = 0. (14.3.5) Требуется найти такое управление и, являющееся функционалом от z (т), tQ т t, которое минимизирует
472 Глава 14 Решением этой задачи (оптимальным регулятором с обратной связью) является и = —С (t) х (t), (14.3.7) х = Fx + Gu + К (t) [z (t) — Hx\, x (i0) = 0, (14.3.8) где С = B-1 (GTS + NT), (14.3.9) К = (PHT + T) B-1, (14.3.10) S = —SF - FTS + CTBC - A, S (tf) = Sf, (14.3.11) P = FP + PFT - KBKT + Q, P (t0) = Po. (14.3.12) Отметим, что x (t) есть оценка x (t) по методу максимума правдоподобия, т. е. это математическое ожидание х (t) при условии, что имеются измерения до момента t. В оптимальном Фиг. 14.3.1. Блок-схема оптимального регулятора с обратной связью для линейной системы с квадратичным критерием качества и с гауссовским шумом. детерминированном регуляторе эти оценки используются так, как если бы они были точными значениями. Принцип стохастической эквивалентности для задач эконо- метрики был сформулирован Симоном [14.1], многошаговый вариант дан Джозефом и Тау [14.2], а для задач автоматического управления — Ганкелом и Франклином [14.3]. Чтобы лучше понять принцип стохастической эквивалентно- сти, определим е (t) = х (t) — х (t). Из разд. 12.4 известно, что Е [е (t) х (£)] = 0 для всех t. Поэтому критерий (14.3.6) можно переписать так: J = Е {4 хТ (tf) Sfx (tf) +1 J k, u]T [^r ”} [*] dt} + io
Управление при наличии неопределенности 473 Н-£{±ег(//)^е(гу) + 4 J eTAedty (14.3.13) А) Далее, записав поправочный член в фильтре Калмана в виде z (Z) - Нх (7) = -Не (t) + v (0 =s л (i), (14.3.14) Е In (t) л (т)Г] = Е [(—Не (t) + v (t))(-He (т) + v (т))Г] = = НЕ [е (t) е (т)Г] НТ - НЕ [е (t) v (т)Г] - - E[v (t) е (т)Г] Нт + E[v (t) и (т)Г]. (14.3.15) Так как е (t) удовлетворяет уравнению е = (F — КН) е + Kv—w, Е [е (£0)1 = 0, (14.3.16) получаем Е [е (t) е (т)Г] = Т (t, т) Р (т), t > т, (14.3.17) Е [е (t) v (т)Г] = Е j Т (t, £) [Kv (£) - w (§)] v (т)Г di-, to E [e (t) v (т)т] — t>T’ (14.3.18) где T — переходная матрица для (14.3.16). Итак, формула (14.3.15) принимает вид Е h (t) Л Wr] = ЯТ (t, т) Р (т) Нт - ЯТ (t, г) (KR - Т) + + Я6 (t - т) = НУРНТ — ЯТ (РНТ + Т - Т) + Я6 (t - т) = = Я6 (t - т), (14.3.19) т. е. в уравнении x = Fx-[-Gu^K(z — Нх), х (t0) = х (t0) = 0, (14.3.20) поправочный член К (z — Нх) можно рассматривать как экви- валентный белый шум с нулевым средним и корреляционной матрицей KRKT§ (t — т). Так как на второй член в критерии (14.3.13) не влияет ни х, ни управление и, то эквивалентная задача оптимизации сводится к минимизации первого члена (14.3.13) при условии (14.3.20). Но эта задача уже изучалась в разд. 14.2 (см. задачу 2 разд. 14.2). Из полученных результатов непосредственно получаются соотно- шения (14.3.7) — (14.3.11) х). { -1) Это не является доказательством Принципа стохастической эквива- лентности. Представление критерия в виде (14.3.13) приведено без доказа- тельств. Более полный и непосредственный вывод см. в разд. 14.7.
474 Глава 14 Задача. Покажите, что в многошаговом случае (zi+1 — НФх^) образуют чисто случайную последовательность. J4.4. Поведение оптимальной управляемой системы в среднем Имеется возможность предсказать поведение оптимальной управляемой системы в среднем. Очевидно, что это весьма важно при проектировании систем управлений. Состояние регулируемой системы и оценка взаимосвязаны. Как следует из разд. 14.3, х = Fx — GCx-w. (14.4.1) х = Fx — GCx -K\H (x — ж)-|-к]. (14.4.2) Если, как и ранее, ввести ошибку оценки е = ж — х, то е = (F - КН) е + Kv — w, (14.4.3) х = (F - GC) х — КНе + Kv. (14.4.4) С помощью уравнений (14.3.14) и (14.3.19) матрицы ковариаций е и х получаются соответственно равными Р = FP^PF'T-KRKT YQ, P(t0)=P0, (14.4.5) k = (F-GC)X + X(F-GC)T + KRKT, X(i„) = 0. (14.4.6) Так как Е [хег] = 0, то Е [х (г) х (£)г] = X (t) = Е [(i - е) (i - е)Т} = X (t) + Р (t). (14.4.7) Линейное матричное дифференциальное уравнение (14.4.6) позволяет предсказать изменение во времени дисперсий фазовых переменных и их смешанных моментов второго порядка. Изменение во времени дисперсий управляющих переменных и их смешанных моментов второго порядка можно получить из вышеупомянутого уравнения (14.3.7) Е [u(t)\u\t)} = СХСТ. (14.4.8) Можно также определить среднее значение критерия каче- ства. С помощью оператора «след матрицы» Тг выражение (14.3.6) переписывается в виде г Г Л 7V1 г X _______ХСТ1 1 bJL-cx, схсТТ (14'4'9) *0
Управление при наличии неопределенности 475 Здесь учитывалось, что Е [х (/) er(i)] = 0. Если к подынтеграль- ному выражению в (14.4.9) прибавить полный дифференциал (d/dt) (SX) и компенсировать это слагаемым 5 (t0) X (t0) — SfX (tf) вне интеграла, то получим Ч J = Tr {15 (z0) X (t0) +1 j [АХ - NCX - XCTNT + (0 + ВСХСТ+ SX + SX\dt} . (14.4.10) Подставим теперь в (14.4.10) выражение (14.3.11) для S, а также выражения (14.3.12) и (14.4.6) для X = Р + X. Большинство членов уничтожается и остается ч J = Tr{ls(Z0)X(z0)+y j + . (14.4.11) ta В детерминированном случае Q = 0, Р = 0 и поэтому X — X, a J — Тг [5 (£0) X (t0)] и совпадает с оптимальной функ- цией выигрыша из разд. 5.2. Поскольку в общем случае Tr (SQ) и Тг (СТВСР) положительны, то наличие шума (Q 0, Р =^= 0) приводит к увеличению значения критерия качества. 14.5. Синтез регуляторов для стационарные линейные систем со стационарным аддитивным белым шумом Если матрицы F, G, Q, Т, R, Н, A, N, В в разд. 14.3 являются постоянными, то при t i0, t <С tf управляемая система может достичь статистически стационарного состояния; иными словами, Р —> 0, S —» 0, откуда Р и S постоянны, а поэтому постоянны К и С. В этом важном для техники случае из решения нижеследую- щих алгебраических уравнений в принципе можно получить матрицы коэффициентов усиления К и С, матрицы ковариаций вектора состояния X и вектора управления х). Из уравнения -SF - FTS - А + (SG + N) В-1 (NT + GTS) = 0 (14.5.1) находится S и затем С = В~г (NT + GTS), из уравнения FP + PFT + Q - (РНТ + Т) В-1 (Тт + НР) = 0 (14.5.2) х) На практике обычно проще и быстрее интегрировать матричные диф- ференциальные уравнения до тех пор, пока решение не станет установив- шимся.
476 Глава 14 находится Р и затем К = (РНТ -J- Т) R~\ из уравнения (F-GC)X^X(F-GC)T ^KRKT = Q (14.5.3) находится X, а затем X = X -|- Р и Е(гшт) = СХСт. (14.5.4) Далее, если R -> 0, то С -> оо, X -> О, Е (иит) —> оо, X -> Р, т. е. матрица ковариаций вектора состояния никогда не может быть меньше, чем матрица ковариаций ошибки оценки вектора состояния. Итак, Х>7>. (14.5.5) Отметим, что устойчивость общей системы имеет место, если выполняются условия устойчивости состояния равновесия 5 = 0, Р = 0. Ими являются следующие: а) система (F, G) управляема, система (F,H) наблюдаема; б) R > 0, R > 0, А > 0, <2 > 0. Пример. Система первого порядка (см. разд. 5.4, пример 1 и разд. 11.4). Имеем х =—E[w(t)w(t')\=q§(t—t'), (14.5.6) z = x-]-v, E[v(t)v(t')]=r6(t— t’), (14.5.7) 1 ? J = E'[Iim-^— I (ax2-i-bu2) dt], (14.5.8) J — а + -|-52 = 0, откуда S = —^ + ]/'-^- + аЬ _Ap + g—1р2 = о, откуда P==— и = + (14.5.10) 2 /i+^+' [/ откуда X= r (Vl+(g/r)T2-l)2 2т Д/l (a/b) t2 (14.5.11)
Управление при наличии неопределенности 477 Е (х2) = Х + Р = ~[1/' 1_|_±Т2_1’1Г Vl-H<?/r)'tiL=l _|_ Л v т ! г J L 2 У1 + (а/6)т2 J’ (14.5.12) Е (u2) = С2Х = ^ (l/^l 4- 4 т2 -1)2 (У1 + (<?/г)т2^у;_ (14.5.13) v ’ 2т® \ V 1 b f У1 + (а/b) т2 Уравнение регулятора *--рУ+т*+У4-+т—4) <2-^- <14-5Л4> Отметим, что X -> О, С -> оо, Е (и2) -> оо, Е (г2) -> Р при (Ъ/а) -> 0. Если было бы задано предельное значение Е (и2), то с по- мощью уравнения (14.5.13) можно было бы найти величину Ыа\ соответствующий регулятор обеспечивает минимум Е (ж2) при заданном значении Е (и2). Задача 1. В примере 2 разд. 5.4 в уравнении <ох = —(I/?1) <ох У У (Na/T) бэ У п (t) величина п (t) рассматривается как белый шум с Е [п (£)] = 0, Е [п (0 п (т)] = 7V6 (t — т), a z = у У v является измерением угла крена с Е [к] = 0 и Е [v (t) v (т)] = = 7?6 (t — т). Пользуясь изложенным методом синтеза, полу- чите и проанализируйте в этой задаче с ракетой выражения для средних характеристик оптимального регулятора угла крена. Задачи 2 и 3. В задачах 3 и 4 разд. 5.4 введите случайные возмущающие воздействия и рассмотрите различные измерения с аддитивным белым шумом. Для этих самолетов получите и про- анализируйте статистические характеристики оптимальных регу- ляторов (автопилотов). Задача 4. Автопилот для стабилизации высоты. В задаче 5 разд. 5.4 рассматривались уравнения продольного возмущенного движения самолета на горизонтальном крейсерском участке полета. Ставилась задача поддержания постоянной высоты h. В данном случае уравнениями возмущенного движения будут • 1 а = а>21 — у-(а у ccjv), й = а>21, ы21~<уЛ46в — <o2(ayajv), А = Е(й —а), где V — крейсерская скорость полета. Влияние вертикальных порывов ветра приводит к изменению угла атаки относительно потока воздуха на величину aN, которую будем считать белым шумом.
478 Глава 14 В качестве датчиков могут быть использованы: 1) акселерометр, измеряющий изменения подъемной силы l/Ti (а + ««•); 2) ско- ростной гироскоп для измерения угловой скорости тангажа <oz; 3) свободный гироскоп для измерения угла тангажа # и 4) высо- томер, определяющий h. а) Какие из этих датчиков и величин являются существенными для приемлемого регулирования высоты h и как можно улучшить показатели системы управления, если использовать и «несуще- ственные» датчики. б) Постройте систему управления, в которой применяется только высотомер, и рассмотрите как можно полнее поведение этой системы в среднем. Задача 5. Электромотор приводит во вращение механическое устройство со средней угловой скоростью /?0; средний момент нагрузки Т0. Однако действительный момент Т (t) изменяется со временем случайным образом, причем Е {[Г (t) - То] [Т (Г) - Го1} = 'W* ехр [-а | t - t' |]. Скорость вращения р измеряется тахометром вместе с аддитивным белым шумом V, т. е. z = р + v, Е [v (£)] = 0, Е [v (t) v (£')] = гб (t — t'). Движение электромотора (постоянного тока) приближенно описы- вается уравнением Jp = Ni — Т (t), где i = (е — Np) R — ток, протекающий в обмотке якоря; N — момент, приходящийся на ток в 1 а, равный противо-э. д. с., отнесенной к 1 рад!сек\ е — приложенная э. д. с. (управляющая переменная); R — сопротивление обмотки якоря; J — момент инерции вращающихся частей. Используя методы синтеза для линейных систем с квадратич- ным критерием качества, покажите, как построить регулятор, который при изменении момента нагрузки поддерживает скорость вращения приблизительно равной р0 с минимальным в среднем расходом энергии. Замечание. Критерий качества содержит произведение пере- менной управления и одной из координат состояния. Для полу- чения момента нагрузки, имеющего экспоненциальную корре- ляционную функцию, здесь также потребуется формирующий фильтр первого порядка. Задача 6. Некоторые весьма точные элементы цифровой маши- ны нужно выдерживать при постоянной температуре в электро- печи. Температуру в печи достаточно точно можно описать урав-
У правление при наличии неопределенности 479 нением сТ = -h(T - Те) + и (Z), где Т — температура печи, с — теплоемкость печи и элементов машины, h — коэффициент теплопередачи, Те — температура вне печи, и — тепловой поток в единицу времени. Желаемая тем- пература печи То выбирается значительно выше средней наруж- ной температуры, поэтому и (t) может быть только положитель- ным. Колебания наружной температуры достаточно хорошо опи- сываются дисперсией Е {[Те (t) - Те\ [Те (f) - т е]} = & ехр [, где о^Т0-Те, Предполагая, что термометр измеряет температуру печи точно, и взяв регулятор и = и0 — к (Т — То), где и0 = h — Те), с линейной обратной связью, имеющий постоянный коэффициент усиления к, найдите установившиеся значения Е (Т — T0)z и Е (и — и0)2. 14.6. Синтез терминальных регуляторов для линейных систем с аддитивным белым шумом При наличии неопределенности в общем случае не представ- ляется возможным, как это было в разд. 5.3, выполнить терми- нальные условия с нулевой ошибкой. Вместо этого, применяя критерий качества типа рассмотренного в разд. 4.3, следует задавать допустимые значения дисперсий конечных ошибок. Интуитивно понятно, что большим значениям дисперсии управ- ления будут соответствовать меньшие дисперсии конечных оши- бок. Поэтому методом итераций можно так выбрать весовые матри- цы Sf и В (t) в (14.3.6), чтобы дисперсии конечных ошибок соот- ветствовали заданным (см. пример 2). Однако эта процедура имеет важные ограничения. В частно- сти, в силу уравнения (14.4.7) и того, что матрица X является положительно определенной, дисперсии терминальных ошибок никогда не могут быть сделаны меньше дисперсий ошибок их оценок, получаемых с помощью оптимального фильтра. Послед- ние можно определить с помощью уравнения Риккати (14.3.12) после выбора схемы измерения, их значения не зависят от выбран- ного закона управления. Этот факт может быть очень полезным при предварительном проектировании схем измерений.
480 Глава 14 Пример 1. Простая система первого порядка с квадратичным критерием (см. пример 1 из разд. 5.2 и задачу 5 из разд. 12.5). Фиг. 14.6.1. Изменение по времени дисперсий координат состояния и управ- ления в примере системы первого порядка. „ „ R В 1 Случаи _ (о) _ и) 10 . Пусть х = и, где х ти и — скаляры, <0 Е [<(#о)1 = 0, Е[х (*0)]2 = Ро- Непрерывное измерение Z = X + V, где Е [и (01 = 0, Е [v (t) v (t + т)1 = В8 (т). Требуется найти такое управление и (t) которое минимизи- рует J. Решение и = — C(t)x (t), х = и + К (t) (z — x),
У правление при наличии неопределенности 481 = = откуда 5= 14.^/В) (jz—t) ’ • Р2 г. Ро Р=-^Г' р (М = р0’ 0ТКУ«а р = 1 + (Р0/Д)((-ад-’ i=_2^-X + -f-, X(io) = O. Последнее уравнение можно проинтегрировать, что дает X(i) _а(₽-0)2 f Г 1 1 1 । OlnA+Wl “Р7“ (а + ₽)3 1(а + Р)й 1а(а+0) + ₽(₽-6) _Г 2 1П 1-(0/₽) J ’ где д *—*о „ _ д к =--------------&------1_ 1. На фиг. 14.6.1 представлен типичный случай при а = 0,1, 0 = = 1,1. Обратите внимание на то, что дисперсия координаты состояния X — Е (ж2) монотонно уменьшается, тогда как дис- персия управления Е (и2) монотонно возрастает и в конце интер- вала управления имеет резкий подъем. Пример 2. Наведение при перехвате, когда цель имеет случай- ное ускорение (см. пример 2 в разд. 5.2 с с, = 0, с2 = 1/5). Линия визирования Начальное направление линии визирования R-V(tf-t) Цель Фиг. 14.6.2. Схема наведения при перехвате. Динамическая система описывается уравнениями у = v, и — ар — аТ, где у — относительное боковое смещение, перпендикулярное к начальной линии визирования, v — относительная боковая скорость, ар — боковое ускорение перехватчика (управление) и ат — боковое ускорение цели (фиг. 14.6.2). Здесь ат есть случайное возмущающее воздействие, имеющее экспоненциальную корреляционную функцию E'[aT(i)] = 0, Е [ат (t) ат (t')] = ар ехр (—') * Начальное боковое смещение у (t0) равно по определению нулю, а начальная боковая скорость v (f0) в силу ошибок запуска являет- 31-0102
482 Глава 14 ся случайной: Е \у О = 0, E[v (t0)] = 0, Е [у (£0)]2 = 0, Е [у (t0) v (£0)] = 0, Е [v (i0)]2 задано. Критерием качества является дисперсия промаха Е [у (tf)]2, и на интеграл от дисперсии управления наложено ограничение. Поэтому J = E {±-[y(tf)]* + ~ j [ар(/)]2сй} , to где b — константа, которая выбирается так, чтобы выполнялось ограничение на управление. Измерением является угол о между текущей и начальной линиями визирования. При | о | <^ 1 (У — y/W (tf — £)], где V — относительная скорость вдоль начального направления линии визирования (скорость сближения). Предполагается, что измерения засорены шумом (типа фединга и искровых разрядов), так что z= у(^_г) +У’ Е [v (t)] = 0, Е [v (t) v (t')\ = [/?!+ 6 (t - tf). На фиг. 14.6.3 показана схема оптимального регулятора, где для получения коррелированного ускорения цели использован формирующий фильтр первого порядка с постоянной времени т. Засоренное шумом измерение Фиг. 14.6.3. Оптимальный регулятор в примере наведения при перехвате. На фиг. 14.6.4 представлены численные результаты (пред- ставленные У. С. Видн^лом, Приборная лаборатория Масса-
Управление при наличии неопределенности 483 чусетского технологического института), приблизительно соот- ветствующие параметрам управляемых снарядов типа «воздух — воздух» Фалкон или Спэрроу (V — 915 м/сек, tj — 10 сек, = Фиг. 14.6.4. Численные результаты в примере наведения при перехвате = 15 -10"6 рад2 • сек, R2 = 1,67-10~3 рад2 •сек3'). Предполагалось, что с. к. о. ошибки пуска достаточно велико (~4°), с. к. о. ускоре- ния цели бралось равным 30 м/сек2, а время корреляции — 2 сек. С. к. о. промаха получилось равным только 9,3 м (дальность 9000 м), причем в критерии качества весовой множитель Ъ выби- рался так, чтобы максимальное с. к. о. управляющего ускорения равнялось 120 м/сек?1 (Ь = 1,51 -10~2 сек3). Заметим, что дисперсия координаты состояния равна сумме дисперсий оценки и ошибки оценки. Конечное с. к. о. ошибки оценки промаха равно 3,6 м, а с. к. о. промаха 9,3 м. Каким бы большим ни было выбрано 31*
484 Глава 14 управление, с. к. о. промаха никогда нельзя получить мень- ше^3,6 м. Задача 1. Рассмотрите систему х = и + w, Е [w (if)] = 0, Е [w (if) w (if')] = Q6 (t — *'), z = x + v, E \v (£)] = 0, E \v (if) v (if')] — R8't ~ t'), где все величины — скаляры. Здесь w и v — независимые слу- чайные процессы, х (0) — независимая случайная величина, у которой Е_[х (0)] = 0, Е [я (О)]2 = Ро. Постройте (т. е. получи- те аналитическое выражение) оптимальный стохастический регу- лятор, который минимизирует критерий ч J = ЕSfX2 (tf) + ~B^u2(t) dz]. to Нарисуйте блок-схему управляемой системы. Задача 2. Терминальный регулятор для стационарной системы первого порядка (см. разд. 5.2, задача 2, и разд. 11.4). В стацио- нарной системе первого порядка ", 1 X — X = и W управлением является и (if), ю — случайное возмущающее воз- действие, х (0) — случайные начальные условия; Е [w (if)] = 0, Е [w (t) w (if')] = (26 (if — if'), E [x (0)] = 0, E lx (0)]2 = Po. Проводится также одно измерение, содержащее погрешности: z — х + и, Е [v (if)] = 0, Е [v (if) v (if')] = RS (t — t')- Покажите, что терминальный регулятор, минимизирующий ч J — Е [х (if/)]2"ЗГ j (Ах2-\-Ви2) dt J , о определяется уравнениями и=—C(t)x(t), х (1 /т) х — и К (t) (z— х), х(0)=0, где к (t)=4 Г л н-----------—гм— 1 ’ R L [(Ро + ^/^о--Pl)] 1 J С (t) = ± Г S, +----------51 + 52 о-------1 в L [{Sf + SMSf-51)]е f >-1 J
Управление при наличии неопределенности 485 и Отметим, что для Pi 1 и a (tf — i) Э> 1 функции К и С приблизительно постоянны, так что по существу управляющая Фиг. 14.6.5. Поведение терминального регулятора для системы первого порядка. система является регулятором на • этом среднем участке (фиг. 14.6.5). Задача 3. Пусть в задаче разд. 14.3 А = О, N = 0и S (tf) — = diag . . ., dq', 0, . . ., 0). Пользуясь понятием прогнози- руемого терминального состояния [см. формулу (5.3.53)], упро- стите уравнения разд. 14.3. Ответ. и= — 5"1СТФТ (tf, t)Sx(tf, t),
486 Глава 14 где У=5Ф(^, t) вВ-ЮтФт (tf, t)S, S (tf) = diag(dl, ..., dq; 0, 0). При . i, j>q Sij(t) = 0 для всех t. 14.7. Многошаговые линейные системы с аддитивным чисто случайным шумом; принцип стохастической эквивалентности в дискретном случае Принцип стохастической эквивалентности для многошаговых систем очень похож на сформулированный в разд. 14.3 соответ- ствующий принцип для непрерывных систем. В данном разделе дискретный вариант принципа рассматривается в иллюстратив- ных целях, поскольку цифровые вычислительные машины, по-ви- димому, будут находить все большее применение как в непрерыв- ных, так и в дискретных задачах управления. Пусть даны совокупность измерений zt, I = 0, . . ., N — 1, Zi = HiXt + vt, (14.7.1) и многошаговая модель управляемой динамической системы xl+i = Фл- + Ггиг + wit (14.7.2) где Е [уг] = Е [шг] = Е [х0] = 0, (14.7.3 ЧК'М ‘ПН о!*,]*"' <14-7-4> Е[ХохТ] = Р0, Е [xovT] —Е [xowT]—0. (14.7.5) Требуется найти такое управление и,- как функцию z0, ..., zt, которое минимизирует величину i=0 1 ’ 1 Решение. Имеем — CtXi, (14.7.7) xt = Xt + Ki (Zi — HiXi), (14.7.8) xM = Фгяг + ViUt. (14.7.9)
Управление при наличии неопределенности 487 Ct = (Г?5г-+1Г,- + В^ + Nl), (14.7.10) Kt (HiMiHl + Ri)-1 PiH'iR~\ (14.7.11) Si = Ф[5г+1Фг- - tf (Bl + ГГ5г+1Гг) Ci + Al, SN задано, (14.7.12) ЛЛ+1 = Ф;ЛФ1т-|-<2;, Mo задано, Pi = Mi - Ki (HiMiHl + Ri) tf S г (E-KiHi) Mi (E-KiHif + KiRiKt (14.7.13) Блок-схема управляющего устройства приведена на фиг. 14.7.1. Фиг. 14.7.1. Блок-схема оптимального стохастического регулятора для многошаговой системы. Для интересующихся читателей наметим доказательство нри- реденных результатов для случая N — 0 (без потери общности), используя метод динамического программирования. Пусть Vi (ZN-i) есть оптимальное значение математического ожидания J для одношагового управляемого процесса, начи- нающегося в момент i = N — 1, когда известны измерения {z0, . . ., Zjy-j} = ZN~i и используется оптимальное управление uN-l V 1 (^У-1) = т*п 4* агЛг—4* иХ-1 'VUN-i^N~luN-l\• (14.7.14) С учетом уравнения системы (14.7.2) получаем V1 (Zjy-1) = min Е [жу-i (Ф2у_15,уФЛ7_1 иЛг-1 + 1®T — 1SnWn-.i 4- irjv-liSj/Djv-trrjy-j -j-
488 Глава 14 ~irwN-\SNivN_i-il- u-n—i (r^i-iSN-rN_l--- BN_^ ii.N_t IZjv-i]. (14.7.15) Так как wN_t не зависит от uN-t и xN^t, а Е (w^iSNwN-i) можно вычислить заранее, то в результате минимизации имеем uw-i = (Гу-^Г^ BN^ (Г.у_ 15ЛгФЛг_1) xN~i =— (14.7.16) где . xN-1 = Е f^y-i [ Zk-i] . (14.7.17) Подставив (14.7.17) в (14.7.15) и проведя ряд преобразований с учетом того, что Е [exT] = Q, получим Vi (ZN-i) = Е [x’^_iSN^lxN_i | ZN_i] + Постоянное слагаемое, (14.7.18) где ^Н-1 — Фд'- — Сjf—1 (-Вд'-l + r.V-lS^r^-i)-1 CN~i -j- j4jv-1. (14.7.19) Далее, используя принцип оптимальности, найдем ^2 (Z^-i) = min Е [Vi (Zy-i) + x^_2AN-2xN_2 + uH-2 + п^_2ВЛ-_2иЛ--21 ^-2!- (14.7.20) Однако из определения условного среднего следует, что Е {VifZ^i^Z^z} Е {Е [xJl_1SN^iXif-i | z0, ..., z^j] | z0, ..., zw_2} = = Е {.Xtf-iSN-lxN-l I Z0> •••, ZN-z}- (14.7.21) С помощью (14.7.21) V2 (ZN~2) приводится к форме, повторяю- щей, за исключением индексов, выражение (14.7.14). Далее цикл минимизации повторяется. Итак, получен основной результат: (14.7.16) или (14.7.7). В формуле (14.7.7) переменная Е [xt | Z;] вычисляется с помощью выражений для фильтра гл. 12. Поведение оптимальной управляемой многошаговой системы в среднем. Состояние управляемой системы xt и состояние управ- ляющего устройства xt взаимосвязаны х). Из (14.7.2) и (14.7.7) — (14.7.9) имеем Жж = фгхг + Ггнг + и>1, (14.7.22) xi+1 = Ф< [X; + Ki (zt - HiXi)] + rfut. (14.7.23) С помощью (14.7.7) и (14.7.8) и соотношения ег == xt — xt равен- ства (14.7.22) и (14.7.23) можно заменить эквивалентными: eJ+1 = Фг (Е - KiHi) et + ФгКгнг - ш2, (14.7.24) *г+1 = (Фг - ГгСг) (xi - KiHiei + KiV). (14.7.25) -1) Через xt об означено Е [х; | zt, . . ., z^J; см. (12.4.12).
Управление при наличии неопределенности 489 Пусть (14.7.26) Mi^Ele^}, Xi = Е [хга:Г1, (14.7.27) Xt — E\xixT\. (14.7.28) Напомним, что ранее уже определили Pi = Е [(гсг — xi) (xt — xz)T]. (14.7.29) Из того факта, что Е (eiX?) — 0 для всех i [см. разд, мула (12.4.19)], следует 12.4, фор- Xi Xi + Mi. (14.7.30) Умножая (14.7.24) на результат его транспонирования, беря математическое ожидание произведения и учитывая, что E[xiVT] = 0, (14.7.31) £[^[1=0, (14.7.32) приходим к уравнению (14.7.13). Умножая (14.7.25) на результат его транспонирования, беря математическое ожидание произведения и учитывая (14.7.31) и (14.7.32), получаем Хг+1 = (Фг - ВД {Xi + Mi- Pi) (Фг - ГгСг)*, (14.7.33) причем из (14.7.3) следует, что Хо = 0. (14.7.34) Линейное матричное уравнение (14.7.33) с начальным усло- вием (14.7.34) позволяет предсказать изменение во времени вторых моментов фазовых переменных [с использованием форму- лы (14.7.30)1. Так как (14.7.7) и (14.7.8) можно представить как Щ = -Ci {^ - K^ei + KlVi), (14.7.35) то из (14.7.13) следует, что E [им] = Ct [X -j- Mt - Pt\ Ci. (14.7.36) Можно также определить и среднее значение критерия каче- ства. Эта процедура аналогична той, которая встречалась в разд. 14.4, и ее повторение предлагается читателю в виде упраж нения. В результате N-1 J = Тг ± [50Х0 -Ь 2 Si+1 {Qt + Г^ЛФГ)]. (14.7.37) i=o
490 Глава 14 14.8. Оптимальное управление с обратной связью для нелинейных систем с аддитивным белым шумом Управление с обратной связью возмущенным движением с детер- минированной номинальной траекторией. В разд. 6.4 и 6.8 рас- сматривалось управление с обратной связью возмущенным движе- нием для нелинейной системы в предположении знания состояния и всех возмущающих воздействий. В разд. 12.6 рассматривалась проблема оптимальной фильтрации для нелинейной системы с аддитивным белым шумом в измерениях v (t) и возмущающими воздействиями в виде белого шума w (t). Ясно, что эти два резуль- тата можно объединить и для нелинейной системы с аддитивным шумом в измерениях и возмущающими воздействиями в виде белого шума получить схему квазиоптимального управления с обратной связью для возмущенного движения. Обычно синтез проводится следующими этапами: а) В предположении, что шум в системе отсутствует [ю (£) = 0], точно известны номинальное начальное состояние х (£0) и терми- нальные условия ф [х (tf), tf\ = 0, определяется номинальное оптимальное управление и (t), соответствующие ему траектории фазовых переменных х (t) и результаты измерений h [х (t), £]. б) Интегрированием (12.6.28) определяется матрица ковариа- ций ошибок оценки фазовых переменных Р (t). Для линеаризо- ванного фильтра [формула (12.6.27)1, оптимизирующего оценку по методу максимума правдоподобия, вычисляются элементы матрицы Р (dh/dx)TR~l. в) Используя методы разд. 6.4 или 6.8 и квадратичную аппро- ксимацию критерия качества, аналогичную (6.1.16), для линеари- зованной системы определяют матрицу С (t) управления с обрат- ной связью. Однако здесь имеется одно важное отличие! При наличии шума невозможно точно выполнить терминальные условия ф [х (tf), tf] = 0! Поэтому вместо требования бф == фжбж |f=f = 0 в квадратичный критерий качества следует добавить слагаемое бф - фжба;: . &/ = Е {1-[б^(фжж + ^фжж + ф^фж)б^(=</ф- £] [£>}• <14-8Л> to Матрицу весовых коэффициентов N следует выбрать положи- тельно определенной; ее элементы подбираются так, чтобы зна- чения Е [diag (бфбфт)](=; были приемлемыми для конкретной
Управление при наличии неопределенности 491 системы. В процессе подбора в связи с тем, что Е = = фж £,[6z6zT] ф^, нужно использовать результаты разд. 14.4. Совместная оптимизация номинальной траектории и управ- ления с обратной связью возмущенным движением. Предложенная выше процедура предполагает, что min [Е (JH0M 6V)] = (min /ном)шум=о + min [Е (6V)]. (14.8.2) В общем случае это соотношение неверно и оптимизацию номи- нальной траектории и управления с обратной связью возму- щенным движением следует проводить совместно. Этот факт иллю- стрируется на простой задаче: найти и = Е (и), минимизирующее Е [L (и)], (14.8.3) где и — гауссовская случайная величина с заданной дисперсией Е [и — и]2 = о2 (14.8.4) и функция L (и) имеет минимум, но не является симметричной в окрестности этого минимума. С точностью до величин второго порядка можно записать Е [Е (и)1 = Е {L (и) 4- (и — и) Lu (и) + (и —и)2 Luu (и) + ... | = — гу2 — = Z(u)-b — Luu(u)+... , (14.8.5) где член (и — и) равняется нулю не потому, что Lu (и) = О, а потому, что Е (и — и) = 0. Пусть и0 есть число, доставляющее минимум L (и)-, ясно, что, когда L (и) несимметрична относительно и — и0, из формулы (14.8.5) следует, что и = и0 не минимизирует Е [L (ы)1 (см. конкретный пример в задаче 1). Характерная особенность этого примера состоит в том, что коэффициент Лцц (и) задачи с возмущениями зависит от выбора номинала и не является симметричным относительно детермини- рованного минимума. Это может встретиться и в нашей задаче совместного определения номинального и возмущенного управле- ний. В уравнении (14.8.1) коэффициенты фхх, фжж, ffxx, Нхи, . . . и т. д. подсчитываются на номинальной траектории, и если они не симметричны в окрестности траектории детерминированного минимума, то почти наверняка выбор номинальной траектории по сравнению с той, что дает детерминированный минимум, может быть улучшен. Задача совместной оптимизации, известная также под назва- нием «задача дуального управления», является сравнительно
492 Глава 14 простой, однако она требует привлечения довольно сложного анализа х). Оптимальное управление с обратной связью нелинейными систе- мами с точным знанием состояния. Рассмотрим задачу определе- ния управления и (х, t), минимизирующего величину J = Е [х (/у)] -f- j L (х, и, t) dt^ (14.8.6) to при ограничении х = / (х, и, t) -j- G (х, t) w (f), (14.8.7) Е [т (/)] =0, Е [го (£) шг(т)] = Q (i) б (i — т), и предполагается, что х (t) и t известны точно. Пусть 7° (х, t) есть оптимальное значение J, когда движение начинается в момент t в точке х и используется оптимальное управление. (14.8.8) С помощью методов динамического программирования, услож- ненных добавлением членов второго порядка в разложении в ряды Тэйлора, непосредственно можно показать* 2), что - Т - Т t /]. <*. < «Л (14.8.9) При (?=0 уравнение (14.8.9) становится уравнением в частных производных Гамильтона — Якоби — Веллмана [см. форму- лу (4.2.11)]; когда L = 0 и / = / (х, t), уравнение (14.8.9) назы- вают уравнением Колмогорова. Уравнение (14.8.9) в силу его параболичности решать еще труднее, чем уравнение Гамильтона — Якоби — Веллмана, поскольку метод характеристик более неприменим (иными слова- ми, отсутствует естественный аналог уравнений Эйлера — Лагран- жа). До сих пор решено еще очень мало действительно нелиней- ных примеров. В частном случае, когда уравнение (14.8.7) линей- но, а (14.8.6) квадратично, уравнение (14.8.9) сводится к урав- нению Риккати для обратной матрицы (14.2.7) (см. задачу 2 в разд. 14.2). Оптимальное управление с обратной связью для линейной системы, нелинейного критерия и засоренных шумами измерений г) См. R. Fitzgerald, A Gradient Method for Optimizing Stochastic Systems, Ph. D. Thesis, M. I. T., May 1964; W. D e n h a m, Choosing the Nomi- nal Path for a Dynamic System with Random Forcing Function to Optimize Statistical Performance Tr. 449, Division of Eng. and Appi. Physics, Harvard Univ., 1964. [См. также [14.6*—14.8*].— Перев.\ 2) См. задачу 2 разд 14.2. Уравнение (14.8.9) после выполнения опера- ции минимизации по и называется обратным уравнением Колмогорова.
Управление при наличии неопределенности 493 фазового вектора. Здесь рассматривается случай, в котором урав- нение (14.8.7) линейно: х = F (t) х + G (if) и + w (t), (14.8.10) и измеряются линейные комбинации фазовых координат z (£) = H(t) х + v (t), (14.8.11) где Е [v (if)] = 0, E[v (if) vT (т)] = R (if) 6 (if - т). В то же время критерий (14.8.6) остается нелинейным. В этом случае величины х (if) и Р (if), определяемые уравне- ниями линейного фильтра Калмана (14.3.8) и (14.3.12), все еще образуют совокупность достаточных ч статистик. Поэтому опти- мальное управление может определяться в виде функции от х и Р, а не функционала от z (т), t0 т СТ I. Пусть 7° (х, if) есть оптимальное значение J, когда движение начинается в момент t из состояния, оценка которого х, и используется оптимальное управление. (14.8.12) Снова применяя методы динамического программирования, можно показать, что dJO 1 „ Г d*J° DrrT u-irrnl dJ° .Гт, 5/0 Г 1 2 I- dx2 j dx u I- dx j (14.8.13) где 7° (x, tf) = ^(x), (14.8.14) co co 7(z) = £ [ф I z] == j ... J ... din, (14.8.15) — co —co co oo L (x, u, t) = E [L\x, u, if] = j . .. j L (I, u, t) p(l\x)dh ... c$jn, — OO —CO (14.8.16) H — (2n)«/2|P(i)|1/2 exp { 2 &~ X>>T (ЭД"* } ’ (14.8.17) т. e. является гауссовской плотностью распределения. Если ф и L — квадратичные функции, то равенство (14.8.13) можно преобразовать к соотношениям, полученным в разд. 14.3
4У4 Глава 14 и 14.4. Для неквадратичных ф и L интегродифференциальное уравнение (14.8.13) решать чрезвычайно трудно х). Плотность распределения для стохастических нелинейных динамических систем. Даже после решения обратного уравнения Колмогорова (14.8.9) для оптимальной функции стохастического выигрыша /° (х, t) и в процессе определения и (х, t) нельзя описать поведение получающейся динамической системы в сред- нем. Для этого следует определить эволюцию в прямом времени плотности распределения вероятностей вектора состояния р (х, t). Если подставить закон управления и = и (х, t) н уравне- ние (14.8.7), положить для него / 'х, и, t) Л. /° (х, t) и считать iu (t) скаляром (G-вектором), то можно показать, что р (х, t) удо- влетворяет прямому уравнению Колмогорова ->+ S -k = I 2 2 (Gfi.py, (14.8.18) г i j где p (x, t0) задано. В частном случае, когда /° линейно, G = G (/) и плотность р (х, t0) гауссовская, система сводится к гауссовскому марков- скому процессу и полностью определяется математическим ожида- нием х (t) и матрицей ковариаций X (if), задаваемыми уравнения- ми (11.4.6) и (11.4.17). Дополнительные осложнения появляются, если состояние системы в момент t0 известно неточно и при функционировании системы допускается лишь частичное измерение ее состояния. В этом случае плотность распределения есть условная плотность распределения при заданных измерениях и начальном распреде- лении х0. В дискретном случае уравнением, которое описывает эволюцию плотности р [х, t I z (т), t0 г t, р (гг0)], является полученное в разд. 12.8 интегродифференциальное уравне- ние (12.8.8). Для непрерывного случая подобное уравнение пред- ставляет обобщение уравнения Колмогорова на случай с изме- рениями * 2). Если, с другой стороны, система и измерения линейны, задача допускает полное решение. Конечно, это решение совпа- дает с решением для фильтрации, полученным в разд. 12.5. Задача 1. Найти и, минимизирующее Е [и (е“ — 1)1, где Е {и — и)2 = о2. Задача 2. Для случая /° (х, t) = F (t) х, G (х, t) = G (0, гаус- совской плотности р (х, t0) с нулевым средним покажите, что уравнение (14.8.18) можно свести к уравнению (11.4.17) для матрицы ковариаций X (t). г) Несколько интересных примеров решения такого уравнения даны в диссертации: J. D е у s t, Optimal Control in the Presence of Measurement Uncertainties, Ph. D. Thesis, M. I. T., February 1967. 2) См. Г. Кушнер, Стохастическая устойчивость и управление, 1969.
Приложение А Некоторые основные математические сведения А.1. Введение Как отмечалось в предисловии, в целом эта книга доступна студентам старших курсов. Авторы считали, что читатель уже знаком с основами высшей математики, теории обыкновенных дифференциальных уравнений и теоретической механики. Цель данного приложения состоит в том, чтобы собрать в одном месте и в едином обозначении ряд основных математических сведений, используемых в настоящее время в теории управления и опти- мизации. Читателю нет необходимости быть хорошо знакомым со всем материалом этого приложения, однако знание разд. А.З и А.4 необходимо для понимания книги. Доказательства или детальные объяснения приводятся только тогда, когда они обра- зуют неотъемлемую часть излагаемой в книге теории управления и оптимизации. А.2, Обозначения Поскольку требуется анализировать системы с фазовыми век- торами произвольной размерности, очень удобно использовать векторное или матричное обозначение. а) Векторы. Строчные буквы латинского и греческого алфа- витов обозначают векторы. Таким образом, Компоненты векторов обозначаются индексами, например хг, х%, • • ., хп, где Xt — вещественная переменная. Сами эти ком- поненты могут быть векторами. б) Матрицы. Прописные буквы латинского и греческого алфавитов обозначают матрицы. Таким образом, Нц «12 • • • ат аИ а22 • а2п ЙЛ1 .. . а^п
496 Приложение А где ац — вещественные переменные. Вектор можно рассматри- вать как матрицу размерности (к X 1). в) Скаляры. В этой книге, за исключением примеров и упраж- нений, скалярные величины встречаются редко. Наличие ска- лярных величин либо видно из текста, либо в конкретных случаях оговаривается. Для обозначения скалярных величин исполь- зуются как прописные, так и строчные буквы. г) Для обозначения независимой переменной времени, которая может изменяться непрерывно или дискретно, используется ска- лярная величина t. Векторы и матрицы, элементы которых меняются со временем, обозначаются как х (t) и A (t) соответ- ственно. Иногда в книге (и довольно часто в современной литера- туре) зависящие от времени вектор и матрица обозначаются через xt и А Для упрощения записи некоторых уравнений явное указание на зависимость от времени t просто опускается. д) Если специально не оговорено, скаляры i, j, к, I исполь- зуются в качестве индексов, т. е. они принимают значения 1, 2, 3, ... . Таким образом, говоря, например, о векторе xt, факти- чески имеют в виду последовательность векторов xt, х2, • если Xi — скаляр, то имеется в виду вектор с компонентами xt, х2, ••• (во избежание недоразумений эти различия обычно оговариваются или ясны из текста). е) Транспонирование вектора или матрицы обозначается пока- зателем (верхним индексом) Т [в современной литературе наряду с Т принят также символ (')]. Таким образом, скалярное произ- ведение двух векторов можно записать следующими эквивалент- ными способами: п г=1 У1 хту = х'у = х-у = (х-у)^(х,у) = [х1, ...,Хп] : Векторное, или внешнее, произведение двух векторов можно записать как хут = ху' = ху х у = Xiyt . .. Xtfn А*пУ1 • • • ^пУп В частности, хтх = || х ||2 есть квадрат длины вектора х, ||о:||— длина, или норма (см. А.З). вектора х. X2 Х{Х2 . . . XiXn ххт = XtX2 Х‘ ... ^2^71 — матрица рассеивания вектора х. ХпХ1 . .. хп
Приложение А 497 Отметим, что вектор-строка всегда записывается как hT = = \ht, . . hn], тогда как матрица Н размерности (1 X п) пишет- ся без знака транспонирования. Непосредственно проверяется правило транспонирования: (АВ)Т = ВТАТ. ж) Когда математический символ стоит при векторе или з) Символ д!дх, стоящий при скалярной величине, например J, обозначает вектор-строку [(dJ/dXi), (dJ/dx2), . . ., (dJ/dxn)] — градиент функции Jх). Используется также обозначение Jx или VXJ. А 1и) Символ = означает «равно по определению» (например, . А х = dx/dt). к) Квадратичная форма п переменных х^ х2, . ., хп, задан- ная матрицей коэффициентов А = в векторной записи имеет вид Q = хтАх. В тексте используется также и более краткая запись Q = || х || А = хтАх.] 1 2) А.З. Матричная алгебра и некоторые геометрические понятия а) Определитель матрицы А обозначается det (Л) или иногда | А | и может быть определен только для квадратных матриц det (А) = а^Си + «12^12 + • • • 4" где ^11 • • • А = . • dnn Здесь величина С и, называемая алгебраическим дополнением, есть умноженный на (^1)1+г определитель матрицы, полученной 1) Иногда вектор Jх (или VXJ) считается вектором-столбцом. Из контек- ста пли принятых правил обычно бывает ясно, какое из этих двух определе- ний используется. 2) Текст, заключенный в квадратные скобки, добавлен при переводе.— Прим, перее. 32—0102
498 Приложение А из А вычеркиванием первой строки и i-ro столбца. Отметим, что det (ЛВ) — det (A) det (В), det (Л) = det (Ат). След квадратной матрицы А определяется как А Д Тг (Л) = 3 ап. i=i Из предыдущего следует, что Тг (ЛВ) = Тг (ВЛ). Симметричной матрицей называется такая, для которой АТ = А. Единичной матрицей называется О ... Л б) Обратная матрица Л-1 определяется так: Л = det (А) еСЛИ det И) °- где С л — алгебраическое дополнение элемента ji матрицы Л. Матрица, обратная матрице Л, если она существует, является единственной. Имеем Л-U = ЛЛ-1 = Е и правило обращения (лв)-1 = в-ы-1. Ортогональная матрица определяется условием Л-1 = АТ; например, такой будет матрица Л = cosQ sin0’ — sin 0 cos 0 Кососимметричная матрица определяется условием АТ = —А. в) Линейная независимость. Совокупность п векторов . . . . . ., ап одинаковой размерности называется линейно независимой, если любой вектор из этой совокупности нельзя представить в виде линейной комбинации остальных. Другими словами, из векторного уравнения Zifli + .. . + хпап — («1; «2 ; • • • ; ап] следует, что скаляры Zj, . . ., хп равны нулю.
Приложение А 499 Рангом матрицы называется максимальное число линейно неза- висимых столбцов или строк (эти два числа равны). Квадратная матрица размерности (и X и), ранг которой меньше п, назы- вается особой (вырожденной). г) Для квадратной матрицы А и уравнения Ах — у следующие шесть утверждений эквивалентны: 1) det (Л) Ф 0; 2) существует Л-1; 3) уравнение Ах = у при у 0 имеет единственное решение; 4) столбцы матрицы Л линейно независимы; 5) строки Л линейно независимы; уравнение Ах — 0 не имеет нетривиальных решений; 6) (Л) Ф 0, i = l,2, . . ., п, где (Л) — i-e собственное значение матрицы Л. Отсюда следует, что любая матрица, две строки или два столбца которой одинаковы, как и любая матрица с нулевой строкой или столбцом, имеет равный нулю определитель. Задача 1. Проверьте утверждения 1—6. Если рассматривать столбцы матрицы Л как отдельные век- торы, то равенство Ах = у означает, что произвольный вектор у Фиг. А.3.1. Линейное преобразование векторов двумерного пространства. можно представить в виде линейной комбинации п линейно неза- висимых векторов . . ., ап, называемых базовыми. Компо- ненты вектора решений х характеризуют конкретную линейную комбинацию. В этом случае говорят, что и-мерное пространство натянуто на базовые векторы в том смысле, что любой вектор этого пространства может быть представлен в виде соответствую- щей векторной суммы базовых векторов. Обычно, задавая ком- поненты вектора х числовыми значениями, неявно предполагают, 32*
500 Приложение А что базовыми являются единичные векторы ef = (0, . . 0, 1, 0, . . 0). Умножение вектора х на матрицу А дает другой вектор у, который можно рассматривать как: 1) вектор, имею- щий те же числовые компоненты, но в другой системе координат, где базовыми являются векторы-столбцы матрицы А; 2) вектор, который был получен из первоначального поворотом и изменением масштаба в той же системе координат. Например, пусть вектор х = ] и у = Ах = [ * ] = ] • Это преобразование представлено на фиг. А.3.1. д) Собственные значения и собственные векторы. Если рассмо- треть специальный случай уравнения Ах = у, когда у = hx, К — скаляр, то уравнение будет иметь ненулевые решения только при определенных значениях X, которые являются корнями много- члена det (А — hE) = 0. Эти величины X, и соответствующие им решения х* называются собственными значениями и собствен- ными векторами матрицы А. Для всех практических целей [А.1] можно утверждать, что всякая квадратная матрица имеет (или может быть аппроксимирована такой, которая имеет) п линейно независимых собственных векторов ж1, х2, . . ., хп. Следователь- но, совокупность решений для п собственных значений можно записать в матричной форме А [х1; . . . ; хп] = [х1; Lo ... xnJ или AS = SA. Это соотношение называют преобразованием подо- бия. Говорят, что матрица А подобна диагональной матрице Л х). Преобразование подобия обладает тем свойством, что если А и В связаны соотношением А = SBS-1, то ht (А) = (В) и из Рп (А) = 0 следует Рп (В) = 0, где Рп (А) = апАпА~ ®n-iAn-1 + ... + «1А 4- а0Е и at — постоянные величины; таким образом, собственные значе- ния и матричные полиномиальные уравнения сохраняются при лреобразовании подобия. Более того, можно показать, что Тг (А) = 3 аи = 3 (А), г=1 г=1 г) Более правильным утверждением было бы следующее: матрица А всегда подобна некоторой жордановой матрице [А.1].
Приложение А 501 Если, кроме того, матрица А симметричная, то преобразование подобия сводится к ортогональному преобразованию, т. е. «S'-1 = — ST. И наконец, отметим теорему Кэлли — Гамильтона, соглас- но которой любая квадратная матрица А удовлетворяет своему характеристическому многочлену, т. е. если Рп (X) = det (А —ХЕ), то Рп (Л) = 0. е) Норма вектора определяется как IIх II2 = КхТх — аксиомам нормы (длины): когда х = 0; 2) || ах | = а; 3) II х + у || sC |l х I + Это выражение удовлетворяет трем 1) || х || = 0 тогда и только тогда, = |а кЦ ж || для всех скаляров + || у ||. Далее рассмотрим любую невырожденную матрицу А и вектор у = Ах. Тогда, согласно рассмотренному в и. «г», век- тор у есть результат преобразования и его норма равна нулю только тогда, когда х = 0. Имеем ||i/|P = ^ArAz = ||z||^A. Величина || х ||АтА называется обобщенной нормой вектора х (это норма х в другой системе координат). Говорят, что матрица А А является положительно определенной, если || х ||АтА > 0 для всех х 0. Для краткости пишут АТА >0. Аналогично этому говорят, что матрица В является положительной полуопределенной, |если || z||b^>0 для всех (С^-0). Для любой прямоугольной матрицы А матрица АТА =[5 является положительно полуопределенной. Она будет положи- тельно определенной, если А имеет максимальный ранг; АТА есть матрица размерности (га X п), где га — наименьшая раз- мерность матрицы А. Для всякой кососимметричной матрицы Ак имеем хтАкх = 0. Поскольку любую квадратную матрицу можно записать в виде А = Ак + Ас, тдр Ак = (А — Ат)/2 и Ас = (А + Ат)/2, то хтАх = хтАсх. Задачи 2 и 3. -Докажите вышеприведенные утверждения. Скалярную функцию J = хтВх = II х ||д называют также квадра- тичной формой, имеющей матрицу В; здесь без потери общности предполагается (см. выше), что В — симметричная матрица. Если В = STS, где 5 — ортогональная матрица, то уту = xTSTSx = — хтх. Отсюда следует, что ортогональное преобразование не изменяет длины вектора. Другими словами, преобразование у = Sx представляет собой простой поворот и/или отражение осей системы координат. Так как обычно В = STAS, то можно
502 Приложение А ввести z = A'-^Sx = Л1/2у, где 0 при условии, что X; больше или равны нулю. Линейное преобра- зование с матрицей Л1/2 соответствует растяжению или сжатию координатных осей. Суперпозиция линейных преобразовании Л1/2^ есть произведение вращения, отражения и изменения масштаба; этот вывод был получен ранее в п. «г». Если квадра- тичная форма является также обобщенной нормой вектора х, то ясно, что Z, >0. Поэтому еще одним определением положитель- ной определенности матрицы может быть положительность соответствующих собственных значений. Практический критерий положительной определенности — условие положительности всех главных миноров матрицы х). ж) С помощью векторов и матриц можно получить алгебраи- ческие выражения простых геометрических многообразий в про- странстве п измерений. Скалярное уравнение (пг)г х — yt = 0 при данном скаляре и заданном векторе аг определяет в п-мер- ном пространстве (п—1)-мерное плоское пространство, называемое гиперплоскостью. Вектор аг есть нормаль к гиперплоскости. Пересечение п таких гиперплоскостей, I = 1, . . ., п, вообще говоря, определяет точку, которая является просто решением системы Ах = у. Следующими по порядку сложности являются квадратичные поверхности п измерений, задаваемые уравнением хТВх — с = 0, где В — симметричная матрица и с — заданное положительное число. Если В >0, то поверхность можно рассматривать как геометрическое место концов векторов, обобщенная длина которых равна с. Согласно и. «е», чистое вращение и, быть может, еще отражение осей системы координат приведут матрицу В к диаго- нальной форме. Это свидетельствует о том, что замкнутые поверх- ности являются гиперэллипсоидами п измерений, главные оси которых равны (Xj/c)-1/2. Например, для с — 1 и Г 3 11 2 2 1 3 2 2- cosQ —sin б! Г1 01 Г cos0 sin0 sin 0 cos 0 0 2 — sin 0 cos 0 где 0 = 45°, 0 Главные миноры матрицы — это определители матриц меньшей раз- мерности, получаемые вычеркиванием первых строки и столбца, первых и вторых строк и столбцов, первых, вторых и третьих строк и столбцов и т. д. Это правило в данном случае можно интерпретировать как применение крите- рия Раусса — Гурвица к характеристическому многочлену матрицы.
Приложение А 503 кривая есть эллипс с полуосями, равными 1 и 1/^2, составляю- щими 45° с координатными осями (фиг. А.3.2). Общее выражение Фиг. А.3.2. Геометрическое место точек двумерного пространства, для которых квадратичная функция хтАх = 1. для приведения двумерной квадратичной формы к диагональному виду таково: 1 ^11 + ^22 ± — ^22)2 + 4^12 Л2 J ~ 2 9 = varctg д— Эти соотношения легко получить из выражений Вц = cos2 07ч + sin2 0Х2, В22 = sin2 07ч + cos2 0Х2, Bi2 = cos 0 sin 0 (Xt — X2). . В общем случае скалярная функция от п переменных / (ж) = 0 также определяет поверхность в пространстве п измерений. В окрестности любой точки х0 на этой поверхности саму поверх- ность можно аппроксимировать гиперплоскостью, касательной к поверхности в точке ха. Это эквивалентно разложению функции в окрестности точки х0 в ряд Тэйлора до членов первого порядка f(x) ж / (ж0)+-^-| _ (х — жо) = О. Таким образом, нормаль к поверхности f (х) = 0 в точке х0 есть просто градиент функции / (х), вычисленный для этой точки. Он определяет направление скорейшего возрастания функции / (х). Касательная гиперплоскость также разделяет окрестность точки ха на две половины, в одной из которых f (х) < 0, а в дру- гой f (х) >0. Продолжая выкладки, можно попытаться улуч- шить аппроксимацию f (х) = 0 в окрестности точки ха, включив в разложение члены второго порядка, т. е. взять f(x) /(жо) + -£|Хо(^ — ж0) + у (х—х0)т-^|^(х-жо) = О,
504 Приложение А где ( d* 2f \ W \ дх2 / ц дх[ dxj Z J есть симметричная матрица вторых частных производных. Дру- гими словами, поверхность f {х) = 0 [или функция / (я)] аппро- ксимируется квадратичной поверхностью [функцией], задаваемой приведенным выше выражением. Если, в частности, матрица В > 0 (>0), то исходная функция / называется локально выпуклой (строго локально выпуклой) в окрестности точки х0. Если послед- нее выполняется для всех х0, то функция называется выпуклой (строго выпуклой) х). Выпуклые функции такого типа обладают очевидным свойством f(x)>f{x0)+^ |Хо(^ — х0), которое в свою очередь означает, что либо {dfldx) = 0, и тогда по определению хп есть точка минимума, либо {dfldx) Ф 0, и тогда, выбрав произвольную точку х, можно найти такую точку хй, где величина {dfldx) {х — х0) положительна. Отсюда следует, что значение функции / {хп) меньше, чем /ж. Данную процедуру можно повторять до тех пор, пока либо {dfldx) станет равным нулю, либо / {х) — бесконечно большой. з) Ниже приводятся некоторые полезные соотношения. Если f {х) = у хтАх, то {dfldx) = хтА, {d2fldx2) = А (когда А = Ат). Если / (х) = ПтАх, то {dfldx) = ЛТА, {d2fidx2) = 0. Если f (Ф) = = 1 || z - НФх 11% то {df/оФ) ^ -IH {z ~ рфХ) хХ Если f (X) =~Тг {ХА) = Тг {АХ), то {dfldX) = А. А.4. Элементы теории обыкновенных du$$epeHu/uaHbHbix уравнений2) В этой книге рассматривается класс обыкновенных дифферен- циальных уравнений вида х — f {х, и, I), х {t0) = х0, (А.4.1) где х — фазовый вектор, и — вектор управления, задано выраже- ние для функции /. В тех случаях, когда / не зависит явно от 1) Понятие выпуклости, состоящее в том, что (1 — 0) / {х0) + 0/ (я) > >/[(1-0) + 0х| для всех 0 ^0 1 и х, хо, т. е. в том, что величина линейной интерполяции всегда превышает значения такой функции, может быть распространено и на функции, пе имеющие частных производных. 2) Относительно теории обыкновенных дифференциальных уравнений см.: Л. С. Понтрягин, Обыкновенные дифференциальные уравнения, Физматгиз, 1961.— Прим. ред.
Приложение А 505 времени, система (А.4.1) называется стационарной. Когда и = О для всех t t0, говорят о свободной системе. Систему называют автономной, если выполняются оба условия. Основные теоремы. Ниже без доказательства формулируется ряд важных теорем, относящихся к теории обыкновенных диффе- ренциальных уравнений. Теорема 1 (существования). Если и = 0, f непрерывна по х и to t ti, то существует решение ф (t; х0, t0) системы (А.4.1), непрерывно дифференцируемое на to t ti, для которого' </> (t0; х0, t0) = х0. Теорема 2 (единственности). Пусть и = 0, / непрерывна по х и to t ti- Кроме того, f удовлетворяет условию Липшица'. || j (xt, t) — f (x2, t) || k || Xt — x2 II, где k — заданное число (константа). Тогда, если <j>t и ф2 являются какими-либо двумя решениями системы (А.4.1) при to 4] t 4] ti, такими, что ф1 (t0; х0, t0) = ф2 (to’, х0, t0), то <j>t = ф2 пРи есех t. Теорема 3 (непрерывности). Если функция У удовлетворяет условиям теоремы 2, то решение ф также непрерывно по х0 и t0. Поэтому запись решения в виде ф (t; х0, t0) оправдана. Три приведенные теоремы составляют математическую основу при использовании (А.4.1) для описания динамической системы. Все теоремы остаются справедливыми, когда и (t) есть известная непрерывная функция времени. Однако в приложении к задачам управления и (t) часто оказывается разрывной. При этом решение дифференциального уравнения следует рассматривать по частям, каждая из которых удовлетворяет условиям теорем 1—3. На гра- нице в соответствии с типом разрывов и (t) участки х (t) склеи- ваются. У равнения в вариациях. Предположим, что для системы (А.4.1) заданы х (t0) — х0 и и (t) для t > t0; этим определяется един- ственное решение фи (t; х0, t0), и, по крайней мере в принципе, его можно найти. В настоящее время с помощью аналоговых и цифровых вычислительных машин можно всегда численно найти ф (t; Хо, t0). Далее положим, что рассматриваются малые возму- щения бх (t0) и би (t) для х0 и и (t). В силу теоремы 3 следует ожидать малых] возмущений решения фи. Таким образом, получаем х + бх = f (х + бх, и Д- би, t), бх (t0) = 6#о- (А.4.2) Разлагая правую часть уравнения (А.4.2) в ряд Тэйлора и’сохра- няя члены только первого порядка, имеем бх = F (t) бх + G (t) би, бх (t0) = бж0, (А.4.3>
506 Приложение А где Fl3 _ dfi г .. dxj ’ *•' duj (АЛЛ) причем эти частные производные вычисляются вдоль известного решения х (t) = фи (t; х0, t0) и управления и (t). Итак, dft/dxj и dfilduj можно просто считать известными матрицами F (/) и G (<), которые зависят от времени. Тогда, как видно, для малых возмущений движение динамической системы в окрестности изве- стной траектории описывается линейными обыкновенными диффе- ренциальными уравнениями (А.4.3), зависящими от времени. Линейные обыкновенные дифференциальные уравнения. Рассма- триваются главным образом линейные системы, описываемые уравнением х = F (t) х + G (0 и, (АЛЛ) где F и G — зависящие от времени матрицы размерности (п X п) и (п X т) соответственно. Будем предполагать, что F и G непре- Ф и г. А.4.1. Представление од- ного из уравнений системы (А.4.5) с помощью аналоговой схемы. рывны и ограничены. Если уравнение моделируется на аналого- вой вычислительной машине, требуется п интеграторов. Каждый интегратор имеет вид, представленный на фиг. А.4.1. Предпо- ложим, что в момент т на /-й интегратор подается единичный импульс (это эквивалентно установке в момент t = т начального условия на выходе /-го интегратора, равного единице) при нулевых начальных условиях на всех других интеграторах и в момент t — регистрируется выходной сигнал i-ro интегратора. Значе- ние этого выходного сигнала обозначим через (i1; т) и будем рассматривать как реакцию i-ro интегратора на единичный импульс, подаваемый на вход /-го интегратора. Если проделать это для всех возможных значений i и /, то получится п2 чисел, которые образуют матрицу Ф (tt, т). Повторяя всю эту процедуру для всех значений т от t0 до tit можно в принципе получить полное изменение во времени матрицы Ф (i4, т). Предположим далее, что в момент t = t0 динамическая система имеет определенные началь-
Приложение А 507 ные условия Xi (io), i = 1, • п. Тогда, как следует из свой- ства линейности, значение выходного сигнала i-ro интегра-тора в момент i = ij равно п Xi (ti) = 2 Фа (ti, t0) Xj (to) 3=1 или x (ti) = ф (ii, i0) X (to). (A.4.6) Аналогично входные сигналы uh (t), к = 1, . . m, t0 t t\, можно рассматривать как совокупность импульсов для всех значений t, причем площадь импульса в момент t равна uh (t) dt. Тогда из принципа суперпозиции следует, что выходной сигнал i-ro интегратора в момент t = ti, обусловленный входным сигналом иъ (t), есть ti. п Xi Gi) = j 2 $4 (г) Uh dx' (АЛ. 7) to 3=1 а для всех входных сигналов ti п т xi(ti) = ^'2i'^i^ii(ti,x)gjk(x)uh(x)dx, i = l,...,n. (А.4.8) to 3=1 ft=l Наконец, складывая влияние начальных условий и входных сигналов, получаем в векторно-матричной записи ti х (ti) = Ф (ti, t0) х (t0) + j Ф (ii, T) (т)11 (T) dx, (А.4.9) to где ti, t0 — два произвольных момента времени, tt > i0. Итак, общее решение линейного дифференциального уравнения, зави- сящего от времени, выражается через так называемую фундамен- тальную, или переходную, матрицу. Заметим, что по построению * фундаментальная матрица Ф (t, t0) удовлетворяет уравнению |ф(Мо) = ^(0Ф(Мо), Ф(*о, t0) = E, (АЛЛО) которое является просто объединением п систем (А.4.5) (при и = 0). Задача 1. С помощью (АЛЛО) и (АЛ.5) непосредственно полу- чите соотношение (А.4.9). Вычисление описанным выше способом зависящих от времени решений, образующих фундаментальную матрицу, для всех t, т чрезвычайно затруднительно. В то же время возможно значи- тельно упростить расчеты. Оказывается, что Ф (ti, т) для фикси-
508 Приложение А рованного ti и переменного т удовлетворяет дифференциальному уравнению -^Фт(£ь т) = -РТ(%)ФТ(Ц, т), Ф(*15 ti) = E, (А.4.11) которое называется сопряженным с уравнением (А.4.5). Достоин- ство Этого уравнения в том, что оно позволяет вычислять Ф (tt, т) с переменным т за одно интегрирование уравнения (А.4.11). Уравнение (А.4.11) можно получить, если воспользоваться тожде- ством Ф (ti, т) Ф (т, ti)*= Е, (А.4.12) где Ф (т, ti) можно рассматривать как матрицу таких начальных условий для момента т, для которых в момент матрица решений равна Е. Далее, дифференцируя обе части тождества (А.4.12) по т, получаем Ф (ti ,т) Ф (т, ti) Ф (ti, т) Ф (т, ti) = 0. Учитывая (АЛЛО), приходим к ~ ф(ь, т) = — ф,'(*1, т) F (т), что и требовалось доказать. Легко получаются следующие свой- ства Ф (t, т): а) Матрица Ф (t, t0) никогда не является вырожденной и удо- влетворяет уравнению t | Ф (t, t0) | = exp { j Tr [F (t)] dr} • (A.4.13) to б) Из (A.4.12) следует, что Ф (t, tQ) = Ф (t, т) Ф (t, t0), (A.4.14) Ф (t, t0) = Ф-1 (t0, t). (A.4.15) Иногда для удобства Ф (t, t0) записывают как Ф (t) и Ф (t, т) = = Ф (t) Ф (—т). В частности, если матрица F постоянная, то t0 можно взять равным нулю; тогда будем иметь ОО А А Л “ -sn /А , Ф (t to) = Ф (t, 0) = Ф (t) = eFt = 2 -рг t\ (А.4.16) k=0 Ф (t, т) = Ф (t — т). (А.4.17), Задача 2. Непосредственной подстановкой в (А.4.5) проверить тождества (А.4.16). Уравнение (А.4.11) часто оказывается очень полезным при вычислении для момента ti значения конкретной
Приложение А 509 линейной комбинации компонент вектора х при действии входного сигнала и (£), i0 t tt. Из (А.4.9) имеем ti hTx (tt) = j 1гтФ (ti, т) G (т) и (т) dx. t<> Если положить (т) = ктФ (tlt т), то /-(г) будет удовлетворять уравнению ^=_^(Т)Х, X(tly=h. Это уравнение часто встречается в гл. 2—8 под различными назва- ниями: сопряженное уравнение, уравнение для функции влияния и т. д.— или в связи с оптимизацией как правило множителей или уравнение Эйлера. Дискретные линейные системы. Часто в линейной системе не только матрицы F и G постоянны, но и управление и аппрокси- мируется кусочно-постоянным выражением и (t) = и (IT), iT <(i + 1) T, i = 0, 1, . . . . (A.4.18) Величина T обычно называется периодом квантования и при соответствующем изменении масштаба может быть взята равной 1. В этом случае можно положить Ф (Т) = Ф и 1 j Ф (t) G dt = D. о Далее легко проверяется, что для i = l, 2, 3, ...,k, ... соот- ношение (А.4.9) можно записать в виде Ь-1 х (к) = Фх (к— 1) -[-Du (к — 1) = Фкх (0) + У} Фк~1~1Ви (i). (А.4.19) 1=0 Разностное уравнение (А.4.19) точно описывает поведение линейной системы в моменты квантования, и его иногда называют дискретной системой. С другой стороны, если F, G и моменты квартования изменяются со временем, соотношение (А.4.19) при- нимает вид х (ife) = Ф (ift, Zft_i) х (tk_i) + D (tk, tk_i) и (tk-i), (A.4.20) где ‘h D(tk,tk-i)= \ Ф^к, t)G(t)dt. (A.4.21) ffe-i Линейную дискретную систему можно также определить как систему, которая описывается соотношениями (А.4.19)
510 Приложение А и (А.4.20) (см., например, [А.7]). Например, большой класс эле- ментов цифровой вычислительной машины, таких, как регистры сдвига, шифраторы и дешифраторы, могут описываться с по- мощью (А.4.19) и (А.4.20), где элемент х и т. д. определен на поле двоичных чисел. К таким системам непосредственно применимы соответствующие теоремы линейной алгебры. В данном случае, когда дискретная система в действительности получена из непре- рывной линейной системы, имеется дополнительная информация о том, что det (Ф) =0= 0 [см. формулу (А.4.13)]. Матричные линейные системы. Другим типом линейных диф- ференциальных уравнений, часто встречающихся в теории управ- ления и оценивания, является линейное матричное дифферен- циальное уравнение Р = FP + PFT + <?, (А.4.22) где F, Q — известные матрицы, зависящие от времени. Уравне- ние (А.4.22) можно, конечно, записать как векторное линейное дифференциальное уравнение типа (А.4.5). Однако в теоретиче- ском исследовании гораздо удобнее иметь возможность использо- вать общее решение уравнения (А.4.22) в виде t р (0 = ф (t, to) Р (t0) ФТ (t, t0) 4- | Ф (t, r) Q (т) Фг (t, т) dt, to (A.4.23) где Ф (t, т) — переходная матрица, соответствующая системе х ---Fx. Справедливость соотношения (А.4.23) можно проверить непосредственно. Эта формула оказывается очень полезной в гл. 11—14. Замечания по поводу вычислений. Используя цифровые или аналоговые вычислительные машины, довольно просто получить одно решение дифференциального уравнения (А.4.1) даже для систем довольно высокого порядка, например десятого или более, однако интегрировать (А.4.1) сотни или тысячи раз чрезвы- чайно обременительно. Здесь можно воспользоваться преимуще- ствами, которые для линейных систем дает принцип суперпозиции. Из результатов, полученных для линейных систем в разд. А.З, следует, что существует фундаментальное матричное решение линейной системы (А.4.10). Для любых заданных начальных усло- вий и входных сигналов соответствующее решение линейной системы может быть представлено просто как линейная комбина- ция элементов фундаментального матричного решения [между прочим, это является причиной того, что определитель Ф (t, т) никогда не обращается в нуль; в противном случае столбцы матрицы Ф (t, т) будут линейно зависимы и линейная их комбина-
Приложение А 511 ция не сможет образовывать какое-либо произвольное решение системы (А.4.5)]. Итак, если Ф (t, т) известно, то любое другое решение можно получить простым перемножением матриц. Кроме того, в задачах управления часто оказывается интересным знать отклик системы, т. е. Ф (^, т), в один фиксированный момент времени вызванный начальными условиями в предыдущий переменный момент времени. Поэтому, как отмечалось выше, исчерпывающий ответ можно получить с помощью только одно- кратного интегрирования сопряженных уравнений. Если ограни- читься малой окрестностью данного решения нелинейного урав- нения (А.4.1), упомянутые упрощения в первом приближении можно перенести и на нелинейные системы; с этой целью урав- нение (А.4.1) линеаризуют. Так появляется уравнение в вариа- циях (А.4.3), и снова приходят к линейности. Разумеется, нет необходимости все время ограничиваться малой окрестностью. Если известно близкое соседнее решение уравнения (А.4.1), то с помощью процесса, напоминающего аналитическое продолже- ние, можно проводить последовательную линеаризацию и прийти к решению, далеко отстоящему от исходного. Таким образом постепенно можно охватить некоторый объем пространства реше- ний уравнения (А.4.1), внутри которого будет заключена инфор- мация о всех решениях. С другой стороны, для получения той же информации обычным интегрированием (А.4.1) потребовалось бы интегрировать очень много раз. Это особенно обременительно, если в действительности требуется только небольшое число из. многих возможных решений.
Приложение Б Свойства линейных систем Б.1. Линейные алгебраические уравнения В этом приложении приведены используемые в книге важные свойства линейных динамических систем. Многие из свойств линейных систем связаны с решением линейного алгебраического уравнения Аа = р, (Б.1.1) где А — матрица размерности (m X к), а — /с-мерный вектор, Р — m-мерный вектор. Некоторыми хорошо известными фактами, относящимися к (Б. 1.1), являются: Теорема Б.1. Если т = к, то система (Б. 1.1) имеет един- ственное решение, когда det (Л) =f= 0. Теорема Б.2. Если т <Z.k и ранг А равен т, то в общем слу- чае (Б. 1.1) имеет бесконечное число решений. Теорема Б.З. Если т^/с и ранг А равен mi < т, то систе- ма (Б.1.1) имеет решение, если Р принадлежит тгмерному под- пространству т-мерного пространства. Теорема Б.4. Если т к и ранг А = к, то решение систе- мы (Б.1.1), полученное методом наименьших квадратов, един- ственно и равно (ЛТЛ)-1 Лтр. Теорема Б.5. Если т>ки ранг А равен кг < к, то решение системы (Б. 1.1), полученное методом наименьших квадратов, не будет единственным. Оно определяется как совокупность реше- ний уравнения АТАа = Лтр. Покажем, что при соответствующем выборе матрицы А и век- торов аир те.ория управляемости и наблюдаемости является простым следствием теорем Б.1 — Б.5. Б.2. Управляемость Пусть в теореме Б.2 т = п и Фс?; d], (Б.2.1) (Б.2.2)
Приложение Б 513 0 = [х (к) - Ф"х (0)]. (Б.2.3) Тогда уравнение (Б.2.1) описывает динамику линейной системы и-го порядка с одним входом h-1 х (к) = Фкх (0) + Ф^1 du (I). (Б.2.4) 1=0 Нахождение решения (Б.1.1) эквивалентно определению после- довательности скалярных управлений и (i), которые переводят состояние х (0) в момент t = 0 в состояние х (к) при t — к. Для произвольных х (к) их (0) (что соответствует произвольному 0) теоремы Б.2 и Б.З требуют, чтобы ранг матрицы А был макси- мальным или, что эквивалентно, к-1 ААТ = 3 Ф^-1 ddT (Ф'г-;ч)т > 0. (Б.2.5) г—0 Поскольку пара (Ф, d) зависит только от вида линейной системы, условие (Б.2.5) характеризует внутреннее свойство линейной системы, называемое управляемостью, т. е. способность перехо- дить за конечное время из произвольного начального состояния в произвольное конечное. Если выполняется (Б.2.5), то отсюда следует, что управляющая последовательность, соответствующая h—1 минимуму энергии в том смысле, что 2 “2 (0 минимальна, равна 1=0 (см. гл. 5, разд. 5.3) и=(ЛЛт)-1^Т₽- (Б.2.6) Отметим, что, когда ранг А не максимальный, система (Б.2.4) все еще может иметь решения. Другими словами, у неуправляе- мой системы все же могут быть управляемые состояния. Обоб- щение условия (Б.2.5) на случай непрерывных нестационарных систем и систем с несколькими входами не представляет затруд- нений. Так, для системы ж (i) = Ф (th £г_!) х (i — 1) + d (£;_i) u (i — 1) имеем k-i 2 ф (tk-1, ti) d (ti) d (ti)T Ф (tb-i, ti)T > 0. (Б.2.7) i=0 Для системы с несколькими входами и матрицей входных сигна- лов D (ti) получаем k-i 2 Ф(^.-1, ti)T>0. (Б.2.8) i—О 33—0102
514 Приложение В В случае непрерывной системы x = Fx-\-Gu имеем Ф (t, т) G (т) GT (т) Фт (t, т) dx > О, (Б.2.9) k или i Ф (t0, т) G (т) GT (т) Фт (t0, т) dx > 0. <0 Можно [получить и ряд других эквивалентных условий (см. [Б.2]). Если положить Фт (tf, x) — R(x), то dBjdx=—FTR, R(tf) = E и (Б.2.9) можно записать как j RTGGTR dx=-Q (t0) > О, <0 где R= —FTR, Q= —RTGGTR (см. гл, 5, разд. 5.3).- Задача. Проверьте условие (Б.2.9). Б.З. Наблюдаемость Пусть в теореме Б.4 к — п и IX1) 1 z (к — 1) _z (к) (Б.3.3) Тогда уравнение (Б. 1.1) описывает последовательность наблюде- ний для линейной дискретной системы с одним выходом х (i 4- 1) = Фх (i), z (г) = hTx (i). (Б.3.4)
Пр иложение Б 515 Нахождение решения (Б.1.1) эквивалентно определению х (к) по наблюдениям z (1), . . ., z (к). Так как в этом случае в силу самого построения системы (Б.3.4) уравнение (Б.1.1) всегда имеет решения, то их можно найти методом наименьших квадратов (в котором ошибка среднеквадратической аппроксимации равна нулю). Из теорем Б.4 и Б.5 следует, что по наблюдениям последо- вательности z (i) вектор х (к) можно определить единственным образом тогда и только тогда, когда матрица А имеет макси- мальный ранг или, что эквивалентно, Л-1 ЛТЛ = 2 (ФТ)~* ЫгтФ* > О, (Б.3.5) 1=0 Поскольку пара (h, Ф) зависит только от вида линейной системы и матрицы при выходном сигнале, условие (Б.3.5) характеризует внутреннее свойство наблюдаемой системы, называемое наблю- даемостью, а именно свойство однозначного определения состоя- ния свободной линейной динамической системы по наблюдениям линейных комбинаций выходного сигнала этой системы за конеч- ное время. Если условие (Б.3.5) не выполняется, то однозначно определить х (к) нельзя. Оно определяется только внутри под- пространства фазового пространства, натянутого на решения системы АтАа = Лт0. Соотношение (Б.3.5) можно обобщить на нестационарные и непрерывные случаи, а также на случай с несколькими выход- нымй сигналами. В последнем случае с z (j) = Н (tt) х (г) Л-1 2 Фг (tt, tk) Нт (ti) Н (ti) Ф (ti, tk) > 0. (Б.3.6) г=0 Для непрерывных систем x~F(t)x, z~H(t)x получаем t § Фт (т, t) Нт (т) Н (х) Ф (т, (Б.3.7) <0 Более детальное обсуждение можно найти в работе [Б.З]. Б.4, Устойчивость Рассмотрим свободную динамическую, систему х = f (х, t), где f (0, t) — 0 и х — n-мерный вектор. (Б.4.1) Система, описываемая уравнением (Б.4.1), обладает равномерной асимптотической устойчивостью в большом, если (| х (t) ||2 —0 при t -> оо (асимптотичность) независимо от £0 (равномерность) и от направления и величины вектора х (t0) (в большом). Ниже 33*
516 Приложение Б приведены общие теоремы о равномерной асимптотической устой- чивости в большом, относящиеся к системе (Б.4.1). Теорема Б.6. Если для системы (Б.4.1) существует скалярная функция V (х, t) с непрерывными производными dV/dx, dV/dt, такая, что: а) V (х, t) > 0 для всех х =# 0 и всех t, т. е. О < а (|| х |р) < V (х, t), где а (0) = 0; б) V (х, t) < —у (|| х ||2) < 0 для всех х, t; в) V(x, *)<₽((! * II2); г) а (|| х ||2 -> оо при || х ||2-> оо, то система (Б.4.1) равномерно асимптотически устойчива в боль- шом и стремится к х = 0. Доказательство. См., например, [Б.4]. Теорема Б.6 описывает достаточные условия устойчивости. Однако она не всегда дает метод для определения или построения функции Ляпунова V (х, t), если для данной системы такая суще- ствует. Имеется много литературы, касающейся частных решений этой проблемы. Дальнейшие подробности можно найти в рабо- тах [Б.1, Б.4, Б.6]. Более конкретные результаты имеются для линейных стационарных систем. Теорема Б.7. (Теорема Ляпунова.) Линейная стационарная система х = Fx равномерно асимптотически устойчива в большом тогда и только тогда, когда для всякой положительно определен- ной матрицы Q существует положительно определенная матри- ца Р, являющаяся единственным решением алгебраического урав- нения —Q = FTP + PF. (Б.4.2) ’) Теорема Б.7 дает как необходимые, так и достаточные условия устойчивости стационарной линейной системы. Она также утверж- дает, что V (х) = || ж ||р есть функция Ляпунова для системы, равномерно асимптотически устойчивой в большом. Таким обра- зом, в этом случае имеется явный конструктивный метод. Задача 1. Для дискретной системы ^j + l = докажите аналогичное соотношение —Q == фтрф _ р, (Б.4.3) Задача 2. Найдите связь между условием (Б.4.2) и уравне- нием (11.4.47). С ее помощью покажите, что уравнение диспер- *) Уравнение (Б.4.2) называется матричным уравнением Ляпунова.— Прим, перее.
Приложение Б 517 сий (11.4.17) обладает равновесным решением, если у системы матрица F устойчива, т. е. Re [Хг (/7)1 < 0. [Указание. (F) ~ = К (^)J Б.5. Канонические преобразования Для линейной стационарной динамической системы х — Fx + gu, z = hTx (Б.5.1) существует линейное преобразование фазовых переменных, полез- ное при установлении связи между теорией управления, исполь- зующей методы фазового пространства, и классической теорией управления, основанной на применении передаточных функций. Предположим, что система (Б.5.1) управляема и наблюдаема. Тогда справедлива следующая теорема. Теорема Б.8. Преобразование у = Ах переводит систе- му (Б.5.1) в систему y~Fey-\-geU, z = h^y, (Б.5.2) где (Б.5.4) LhTFn-k Если заменить F и g на Ф и d, то аналогичное преобразование получается для соответствующей дискретной линейной системы. Доказательство. Воспользуйтесь непосредственной подстановкой. Согласно теореме Б.8, система (Б.5.1) всегда может быть сделана эквивалентной следующему скалярному дифферен-
518 Приложение Б циальному уравнению: dnz <Zn-1z , dn-lu . . , , /г t: ~1^ + а^=г + • • • + -^=гЛ- • • + М, (Б.5.5) г— 1 где bt = 3 a(-kgck + gc}. (Б.5.6) k=0 ' Часто численное решение (Б.5.5) (или, точнее, его дискретного эквивалента) может быть более удобным, поскольку требует меньшего числа арифметических операций. Задача 1. Покажите, что обобщением формулы (Б.5.6) на нестационарный случай является bi^ = 3 3 CtlT1) + (Б.5.6') fe=0 s==0 ' 1 Задача 2. Покажите, Что пара (Fc, gc) всегда управляема, если gc = [0, . . ., 1]. Какое влияние это оказывает на возмож- ность управлению и в (Б.5.5) регулировать поведение z и ее (п — 1)-й производной по времени? Задача 3. Рассмотрите динамическую систему где xi+1 ~ Ф^< + dut, zt ~ hTxt, Г о, Г L-2, - hT = [1, 1]. Является ли эта система управляемой, наблюдаемой? Задача 4. Рассмотрите автономную дискретную динамическую систему xi+1 = $>xt. В предположении, что х можно измерить, какое условие является необходимым и достаточным для определения Ф? Положим далее, что zt = hTxt, где величина h также неизвестна. В какой степени (если это вообще возможно) можно определить пару (Ф, h), с тем чтобы по измерениям zt нельзя было установить разницы в определе- нии Ф? [Указание. Рассмотрите условие наблюдаемости и кано- ническое преобразование.] Задача 5. Пусть дано, что система х = Fx 4- gu асимптотически устойчива при и = 0. Покажите, что закон управления и = sat [—gTPx] при некотором Р > 0 сохраняет асимптотическую устойчивость.
ЛИТЕРАТУРА Библиографические ссылки в тексте относятся к одной из двух категорий: 1) источники дополнительной информации, с по- мощью которых читатель может познакомиться с дальнейшими подробностями, связанными с обсуждаемым вопросом, и 2) книги справочного характера. Библиография первой категории не обя- зательно содержит оригинальные работы, а библиография второй категории ограничена легкодоступными работами или моногра- фиями либо же классическими работами, которые известны авто- рам. Авторы не претендуют на полноту библиографии или на правильное изложение истории вопроса. Многие из приведен- ных в книге результатов получены авторами во время препода- вания данного предмета в течение последних пяти лет. Однако возможно, что значительная их часть была получена независимо другими авторами и даже уже опубликована в литературе. Авторы заранее извиняются за отсутствие на них ссылок. Допол- нительные библиографические ссылки также встречаются в под- строчных примечаниях к основному тексту книги и здесь не повторяются 3). К главе 1 1. Kuhn Н., Tucker A. W., Second Berkeley Symposium of Mathemati cal Statistics and Probability, Univ. California Press, Berkeley, Calif., 1951. 2. Zoutendijk G., Method of Feasible Directions, Elsevier Publ., Lon- don, 1961; русский перевод: Зойтендейк Г., Методы возможных направлений, ИЛ, 1963. 3. D ant zig G., Linear Programming and Extensions, Ch. 6, Princeton Univ. Press, Princeton, N. J., 1963; русский перевод: Данциг Дж., Линейное программирование, его применение и обобщения, гл. 5—7, изд-во «Прогресс», 1966. 4. Hadley G., Nonlinear and Dynamic Programming, Addison-Wesley, Reading, Mass., 1964; русский перевод: Хедли Дж., Нелинейное и динамическое программирование, изд-во «Мир», 1967. 5. Kunzi Н. Р., et al., Nonlinear Programming, Blaisdell, Waltham, Mass., 1966; русский перевод: К ю н ц и Г. И. и др., Нелинейное программиро- вание, изд-во «Советское радио», 1965. Ч Работы, отмеченные звездочкой,' добавлены при переводе.— Прим, перев.
5 Литература К главам 2 и 3 1. L anczos С., The Variational Principle of Mechanics, Univ. Toronto Press, Toronto, Canada, 1949; русский перевод: Л а в ц о ш К., Вариа- ционные принципы механики, изд-во «Мир», 1965. 2. С i с а 1 а Р., An Engineering Approach to the Calculus of Variations, Levrotto and Bella, Turin, Italy, 1957. 3. Breakwell J. V., SIAM Journal, 7 (1959); русский перевод: Брэк- вел л Дж., Вопросы ракетной техники, № 1, 1961. 4. L awde'n D. F., Optimal Trajectories for Space Navigation, Butter- worths, London, 1963; русский перевод: Лоуден Д., Оптимальные траектории для космической навигации, изд-во «Мир», 1966. 5. Bryson А. Е., Denham W. F., J. Appl. Meeh. (June 1962); русский перевод: Брайсон А., Денхем В., Прикладная механика, № 2 (1962). 6. A t h a n s М., F а 1 b Р. L-, Optimal Control, McGraw-Hill, New York, 1966; русский перевод: А т а в с М., Ф а л б П., Оптимальное управле- ние, изд-во «Машиностроение», 1968. 7. Denham W. F., Steepest Ascent Solution of Optimal Programming Problems, Ph. D. Thesis, Harvard Univ., 1963. 8^ Neustadt L., J. Math. Anal, and Appl., 1, 484 (1960). 9. Bushaw D. W., Contributions to the Theory of Nonlinear Oscillations, Annals of Mathematical Studies, Vol. 41, Princeton Univ. Press, Prince- ton, N. J., 1958. 10. Bryson A. E., D enham W. F., Dr ey i us S. E., AIAA Journal, 1, 2544 (1963); русский перевод: Брайсон А. и др., Ракетная техника и космонавтика, т. 1, № 11 (1963). 11. Chang S. S. L., A utomatica, 1, 55 (1963). 12. Leitmann G., An Introduction to Optimal Control, McGraw-Hill, New York, 1966; русский перевод: Л e й т м а в Дж., Введение в теорию оптимального управления, изд-во «Наука», 1968. 13. Lee Е. В., Markus L., Foundations of Optimal Control Theory, Wiley, New York, 1967. 14. L e i t m a n G. (ed.), Optimization Techniques, Academic Press, New York, 1962; русский перевод: Л e й т м а н Дж., ред., Методы оптими- зации с приложеньями к механике космического полета, изд-во «Наука», 1965. 15. Lei t man G. (ed.), Topics in Optimization, Academic Press, New York, 1966. 16. Понтрягин Л. С. и др., Математическая теория оптимальных процессов, 2-е изд., изд-во «Наука», 1969. 17. Berkovitz L. D., J. Math. A nal. and Appl., 3, 145 (1961). 18* .К ротов В. Ф., Б у к р е'е в В. 3., Гу рм ан В. И., Новые методы вариационного исчисления в динамике полета, изд-во «Машиностроение», 1969. 19* .Т а р а с о в Е. В., Алгоритм оптимального проектирования летатель- ных аппаратов, изд-во «Машиностроение», 1970. 20* .Ц л а ф Л. Я., Вариационное исчисление и интегральные уравнения. Справочное руководство, 2-е изд., изд-во «Наука», 1970. 21* .S р е у е г J. L., М е h г а В. К., Bryson А. Е., в книге: «Advanced Problems and Methods for Space Flight Optimization» (Proc, of Colloquim held at the University of Liegee, Belguium), B. Fraeijs de Veubeke (ed.), Pergamon Press, Oxford, 1969. 22* .D г e у f u s S. E., J. Math. Anal. Appl., 4, 297 (1962). 23* .J acobson D. H., L e 1 e M. M., IEEE Trans, on Automatic Control, 14, № 5 (1969).
Литература 52f К главе 4 1. Bellman R., Dynamic Programming, Princeton Univ. Press, Princeton,. N. J., 1957; русский перевод: Веллман P., Динамическое программи- рование, ИЛ, 1960. 2. Dreyfus S., Berkovitz L., J. Math, and Meeh., 15, 83 (1966). 3. Dreyfus S. E., Dynamic Programming and the Calculus of Variations,. Academic Press, New York, 1965. 4. Kalman R. E., Mathematical Optimization Techniques, Bellman R. (ed.), Univ. California Press, Berkeley, 1963. 5. Larson R., Trans. IEEE-GAC, AC-12, № 6, 767 (1967). 6*.Б о л т я н с к и й В. Г., Математические методы оптимального управ- ления, изд-во «Наука», 1968. 7*.Л е т о в А. М., Оптимальное управление и устойчивость, Труды II Все- союзного съезда по теоретической и прикладной механике, изд-во «Наука», 1965. 8*.Л е т о в А. М., Синтез оптимальных регуляторов, Труды II конгресса ИФАК, изд-во «Наука», 1965. 9*.М о и с е е в Н. Н., Жури, вычислит, математики и матем. физ., т. V, вып 1 (1965); т. VI, вып. 3 (1966). К главе 5 1. К a Im an R. Е., Bol. de Soc. Math. Mexicana, p. 102 (1960). 2. Kalman R.E., Proc, of the First Intern. Cong, on Automatic Control, Vol. 1, Butterworth Scientific Inst., London, 1961, p. 481; русский пере- вод: К а л м а н Р., Об общей теории систем управления, Труды I кон- гресса ИФАК, т. 2, Изд-во АН СССР, 1961. 3. К а 1 m a n R. Е., Trans. ASME, 86D, р. 51 (1964); русский перевода К а л м а н Р., Когда линейная система управления является оптималь- ной? Труды Американского общества инженеров-механиков, т. 86Д, № 1, 1964. 4. К а 1 m a n R. Е., Engl ar Т., NASA Contractor Report CR-475, June 1966. 5. Larson R., Trans. IEEE, Automatic Control, AC-12, А» 6 (1967). 6*. Летов A. M., Автоматика и телемеханика, 21, А» 4, 5, 6 (1960); 22, № 4 (1961); 23, № 1 (1962). 7*.Л e т о в А. М., Динамика полета и управление, изд-во «Наука», 1969. 8*.К р а с о в с к и й А. А., Аналитическое конструирование контуров- управления летательными аппаратами, изд-во «Машиностроение», 1969. 9*.К расовский Н. Н., Теория управления движением, из-во «Наука», 1968. 10*.Р е п и н Ю. М., Третьяков В. Е., Автоматика и телемеханика, 24, № 6 (1963). К главам 6 и 7 1. Kelley Н. J., IRE Trans, on Auto. Control. AC-7, № 5, 75 (1962/. 2. В r e a k w e 1 1 J. V., Speyer J. L., Bryson A. E., SIAM Jour- nal, 1, p. 193 (1963). 3. Break well J. V., H о Y. C., Inti. J. of Engineering Science, 2, p. 565 (1965). 4. McReynolds S. R., Bryson A. E., Joint Auto. ’Control Conf. 1965; Harvard DEAP Report № 465 (1965). 5. Mitter S.,A utomatica, 3, p. 135 (1966).
522 Литература 6. McReynolds S. R., J. Math. Anal, and Appl., 19, p. 565 (1967). 7. D enh am W. F., Bryson A. E., AIAA Journal, 2 (1964); русский перевод: Д e н x а м В., Брайсон А.; Ракетная техника и космо- навтика, 2. (1964). 8. В alakr ishnan А. V., N eust adt L. W. (eds.), Computing Met- hods in Optimization Problems, Academic Press, New York, 1964. 9. К a 1 m a n R. E., Proc. 1964 IBM Symp. on Comp, and Control, 1966. 10. Beckman F. S., Mathematical Methods for Digital Computers, Vol. 1, Raison A., Wilf H. (eds.), Wiley, New York, 1960. 11. Lasdon L., Mitter S., Warren A., IEEE Trans, on Auto. Con- trol, 12, № 2, 132 (1967). 12. J а с о b s’o n D. H., Inti. J. of Control, 7, № 2, 175 (1968). 13. См. также библиографию [5—8] и [14, 15] к главам 2 и 3. 14*.Келли Г., Метод градиентов (гл. 6 в сб. [2.14]). 15*. Л ью о л л е н, Тэпли, Уильямс, Ракетная техника и космо- навтика, № З1 (1968). 16*. Поляк Б. Т., Журн. вычислит, математики и матем. физ. т. IX, № 4 (1969). 17*.С пейер Д., Брайсон А., Ракетная техника и космонавтика, 6, № 5 (1968). 18*.Ш атровский Л. И., Журн. вычислит, математики и матем. физ., т. II, вып. 3 (1962). 19*.Э н е е в Т. М., Космические исследования, т. IV, вып. 5, 1966. 20*.F 1 е t с h е г R., Reeves С., The Computer Journal, 7, № 2 (1964). 21*.Hestenes M., Calculus of Variations and Optimal Control Theory, Wiley, New York, 1967. 22*.К e 11 e у H., IEEE Trans, on Automatic Control, AC-9, p. 375 (1964). 23*.L ewallen J. M., Tapley B. D., AIAA Paper № 67-58, 1967. 24*.M ehra R. K., Bryson A. E., Journal of Aircraft, 6, № 2 (1969). 25*.P о w e 1 1 M. J. D., The Computer Journal, 7, № 2 (1964). 26* .S innott J. F.,Luenberger D. G., 1967 Joint Automatic Control Conference, Preprints, pp. 566—575. 27*.T a p 1 e у В., Lewallen J., J. of Optimization Theory and Applica- tions, 1, № 1 (1967). К главе 8 1. Tait К., Singular Problems in Optimal Control, Ph. D. Thesis, Harvard Univ., 1965. 2. K. e 11 e у H. J., К о p]p R. E., M о у e r A. G., Topics in Optimization, Leitmann G. (ed.). Vol. II, Ch. 3, Academic Press, New York, 1966. 3. R о b b i n s H. M., AIAA Journal, 3, p. 1094 (1965); русский перевод: Роббинс Г., Ракетная техника и космонавтика, 3 (1965). 4,'Johnson С., Wonham W., Trans. ASME, 86D, р. 107 (1964); рус- ский перевод: Джонс о’н К., У о н х э м У., Труды Американского общества инженеров-механиков, 86Д, № 1 (1964). 5. R о b b i n s Н. М., IBM Federal Systems Division Rept. № 66-825 2043, Sept 1966. 6. J о h n s о n C., Advances in Control Systems, Leondes С. T. (ed.), Vol. 2, Academic Press, 1965, p. 209. К главе 9 1. Isaacs R., Differential Games, Wiley, New York, 1965; русский перевод: •Айзекс P., Дифференциальные игры, изд-во «Мир», 1967. 2. Н о Y. С., IEEE Trans, on Automatic Control (Oct. 1965).
Литература 523 3. Berkovitz L. D., Advances in Game Theory, Annals of Math. Studies, № 52, Princeton Univ. Press, Princeton, N. J., 1964, p. 127. 4. В а г о n S., Differential Games and Optimal Pursuit — Evasion Strate- gies, Ph. D. Thesis, Harvard Univ., 1966; IEEE Trans. Auto. Control, p. 385 (Oct. 1965). 5*.К расовский H. H., Игровые задачи о встрече движений, изд-во «Наука», 1970. 6*.3 е л и к и н М. И., Симакова Э. Н., Обзор некоторых результа- тов по теории дифференциальных игр, Приложение к книге Р. Айзекса, изд-во Мир», 1967, К главам 10 и 11 1. Feller W., An Introduction to Probability Theory and Its Applications, 2-nd ed., Vol. I, Wiley, New York, 1957; русский перевод: Феллер В., Введение в теорию вероятностей и ее приложения, т. I, 2-е изд., изд-во Мир», 1964. 2. Parzen Е., Modern Probability Theory and Its Applications, Wiley, New York, 1960. 3. ParzenE., Stochastic Processes, Holden-Day, San Francisco, Calif., 1962. 4. Cramer H., Mathematical Method of Statistics, Princeton Univ. Press, Princeton, N. J., 1946; русский перевод: Крамер Г., Математические методы статистики, ИЛ, 1948. 5. R a i f f а Н., Schlaifer R., Applied Statistical Decision Theory, Harvard Univ. Press, Cambridge, Mass., 1961. 6. Wax N. (ed.), Collected Papers on Noise and Stochastic Processes, Dover, New York, 1954. 7*. В e н т ц e л ь E. С., Теория вероятностей, изд-во «Наука», 1968. 8*.Р о з а н о в Ю. А., Лекции по теории вероятностей, изд-во Наука», 1968. 9*.С в е тп н и к о в А. А., Прикладные методы теории случайных функций, Судпромгиз, Л., 1961. 10* Давенпорт В. Б., Р у т В. Л., Введение в теорию случайных сиг- налов и шумов, ИЛ, 1960. К главе 12 1. Wiener N., The Interpolation and Smoothing of Stationary Time Series, MIT Press, Cambridge, Mass., 1949. 2. Kalman R. E., Trans. ASME, 82D, p. 35 (1960). 3. Kalman R. E.,Bucy R., Trans. A SME, 83D, p. 95 (1961); русский перевод: К а л м а н Р., Б ь ю с и Р., Труды Американского общества инженеров-механиков, 83Д, № 1, 1961. 4. D е u t s с h R., Estimation Theory, Prentice-Hall, Englewood Cliffs, N. J., 1965. 5. Sorensen H., Advance in Control Systems, Vol. 3, Leondes С. T. (ed.), Academic Press, New York, 1966, p. 219. 6*.К олмогоров A. H., Интерполирование и экстраполирование ста- ционарных последовательностей, Бюллетень МГУ, 2, вып. 6, 1961. 7*.Современная теория систем управления, Леондес К. Т. (ред.), изд-во «Наука», 1970. 8*.Х а з е н Э. М., Методы оптимальных статистических решений и задачи оптимального управления, изд-во «Советское радио», 1968.
524 Литература К главе 13 1. Bryson А. Е., Frazier М., Proc. Optimum Sys. Synthesis Conf., U. S. Air Force Techn. Rept. ASD-TDR-63-119 Feb. 1963; 2. Rauch H. E., Tung F., Striebel С. T., AIAA Journal, 3, p. 1445 (1965); русский перевод: P о ч Г. и др., Ракетная техника и космонавти- ка, 3, № 8 (1965). 3. Bryson А. Е., Johansen D. E>.,IEEE Trans. Auto. Control., АС-10, р. 4 (1965). 4. Henrikson L. J., Sequentially Correlated Measurement Noise with Application to Inertial Navigation, Ph. D. Thesis, Harvard Univ. 1967; Journ. Spacecraft and Rockets, 5 (1968). К главе 14 1. S i m о n H. A., Econometrica, 24, pp. 74—81 (1956). 2. Joseph P. D., T о u J. T., Trans. Al EE, Pt. II, Applications and Indu- stry, Sept. 1961. 3. G u n c k e 1 T. F., F r a n k 1 i n G. F., Trans. ASME, 85D, p. 197 (1963); русский перевод: Г а н к e л Т. Ф., Франклин Д. Ф., Общее реше- ние для линейных импульсных систем управления, Труды Американского общества инженеров-механиков, 85Д, № 1 (1963). 4. В г у s о n А. Е., Journ. Spacecraft and Rockets, 4, № 5 (1967); русский перевод: Брайсон А., Применение теории оптимального управления в авиационно-космической технике, ВИНИТИ, Экспресс-информация, Астронавтика и ракетодинамика, № 35, реф. 318, 1967. 5*.Богуславский И. А., О синтезе стохастического оптимального управления, Современные методы проектирования систем автоматиче- ского управления, Петров Б. Н. (ред.) и др., изд-во «Машиностроение», 1967. 6*.Ф е л ь д б а у м А. А., Основы теории оптимальных автоматических систем, изд-во Наука», 1966. 7*.F i t z g e r a 1 d R. J., A Gradient Method for Optimization Stochastic Systems, Recent Advances in Optimization Techniques, Lavi A., Vogl T. (ed.), N. Y., 1966. 8*. Плотников Ю. П., Труды IV Конгресса ИФАК, Варшава, 1969. Библиография к приложению А 1. Bellman R., Introduction to Matrix Analysis, McGraw-Hill, N. Y. 1960; русский перевод: Веллман P., Введение в теорию матриц изд-во Наука», 1969. 2. Coddington S., Levinson N., Theory of Ordinary Differential Equations, McGraw-Hill, N. Y., 1955; русский перевод: Коддингтон, Левинсон, Теория обыкновенных дифференциальных уравнений, ИЛ, 1958. 3. Фаддеева В. Н., Вычислительные методы линейной алгебры, Гос- техиздат, 1950; см. также: Фаддеев Д. К., Фаддеева В. Н., Вычислительные методы линейной алгебры, изд-во Наука», 1963. 4. Г а н т м а х е р Ф. Р., Теория матриц, изд-во «Наука», 1966. 5. Lefschetz S., Differential Equations — Geometric Theory, Interscien- ce, N. Y., 1957; русский перевод: Л e в ш e ц С., Геометрическая теория дифференциальных уравнений, ИЛ, 1961. 6. Somerville D., Introduction to the Geometry of n-Dimensions, Do- ver, N. Y., 1958. 7. Z a d e h L., D e s о e r C. A., Linear System Theory, McGraw-Hill, N. Y., 1963.
Литература 525 Библиография к приложению Б 1. Brockett В. W., Trans, on Automatic Control IEEE, AC-11, № 3 (July 1966). 2. K. a IJm an R. E., H о Y. C., N a r e n d r a K. S., Contributions to Dif- ferential Equations, Vol. 1, 1963, p. 189. 3. Kalman R. E., SIAM, Al (1963). 4. К a 1 m a n R. E., В e r t r a m J. E., Trans. ASME, 82, p. 371 (1960). 5*.К расовский H. H., Теория управления движением, изд-во «Наука», 1968. 6*.Б арбашин Е. А., Введение в теорию устойчивости, изд-во «Наука», 1967. 7*.Б арбашин Е. А., Функции Ляпунова, изд-во «Наука», 1970.
ЭКЗАМЕНАЦИОННЫЕ ЗАДАЧИ С МНОГОВАРИАНТНЫМ ВЫБОРОМ ОТВЕТА Следующие задачи читатель может использовать для само- стоятельной оценки собственных знаний материала, изложенного в данной книге. [Текст задач составлен с привлечением идей программирован- ного обучения. После формулировки задачи приводится несколько вариантов предполагаемых ответов, из которых .экзаменуемый должен выбрать единственный правильный. Вслед за номером задачи стоит число (в скобках), приблизительно оцениваю- щее ее сложность. Это число можно также рассматривать как количество баллов, получаемых за решение задачи1).]2) Задачи соответствуют материалу, изложенному в разд. 1.1 — 1.6, 2.1—2.4, 3.1, 3.2, в гл. 4, 5, 9—12. Экзамен рассчитан на три часа. Номера правильных ответов (из числа предлагаемых в каждой задаче) приведены в конце раздела. Задача"! (12 баллов). Рассмотрите задачу минимизации J = = ф [х (/у)] + L (х, и, t) dt при ограничении х = / (х, и, t) to и g [х (Zo)] = 0 (g — вектор-функция) путем выбора управления uj(£), , и,ж0.Необходимыми условиями экстремума являются: 1) = -Нх, № (tf) = фх № (QI= - v^x((o), х = = / (х, и, t), Ни = 0, g [х (t0)l = О, где Н = №f + L и v — постоянный вектор; 2) то же, что и в п. 1, только X (£0) = v; 3) то же, что и в п. 1, только Л (t0) = 0; 4) то же, что и в п. 1, только (Zo) = gx(.t01- !) Другая система оценок и статистический подход к обоснованию экза- мена, основанного на задачах с многовариантным выбором, изложены в за- даче 24.— Прим, перев. 2) Текст, заключенный в квадратные скобки, добавлен при переводе.— Прим, перев.
Экзаменационные задач и 527 Задача 2 (12 баллов). Рассмотрите вариационную задачу гл. 2 Р/ x = f(x, и, t), ф [х (if)] + | Ldt. Io Добавим скалярное ограничение g (и) = 0 для всех t (и — вектор). Необходимыми условиями экстремума являются: 1) Н = + Hg + L, № = -Нх, x = f, (tf) = <h<if)> Hu = 0, g (u) = 0; 2) то же, что и в и. 1, с дополнением: ц = —Hg, р (tf) =0; 3) то же, что и в п. 1, с дополнением: Н = const; 4) то же, что и в п. 1, только V’ = — Нх — pgu. Задача 3.(12 баллов). Для сети, изображенной на фиг. 3.3, рассмотрите задачу выбора пути, оптимального по стоимости перехода. Перемещения (вверх или вниз) на уровнях I и III контролируются игроком А, а на уровнях II и IV — игроком В. Фиг. 3.3. Схема сети для задачи 3. Игрок А стремится минимизировать общую стоимость перехода, а игрок В — максимизировать ее. Минимаксная стоимости пере- хода из точки а уровня I до уровня V равна: 1) 26, 2) 29, 3) 15, 4) оо. (Замечание. Числа в кружках на уровне V соответ- ствуют ценам пребывания в конечных состояниях.) Задача 4 (12 баллов). Для сети, изображенной на фиг. 3.4, рассмотрите задачу выбора пути (контролируемого одним игро- ком), минимального по стоимости перехода. Дополнительное усложнение задачи состоит в том, что принятое решение (идти вверх или вниз) может быть фактически реализовано лишь с вероятностью 2/3. Математическое ожидание минимальной стои- мости перехода в этой задаче равно:
528 Экзаменационные задачи 1) 10; 2) 10,666666...; 3) случайной величине J, причем Р (J = 10) = 2/3, Р (J = 12) = 1/3; 4) 98/9. Фиг. 3.4. Схема сети для задачи 4. {Замечание. Числа в кружках на последнем уровне соот- ветствуют ценам пребывания в конечных состояниях.) Задача 5 (9 баллов). Укажите правильное утверждение: 1) неустойчивая линейная система неуправляема; 2) устойчивая нелинейная система является как управляемой, так и наблюдаемой; 3) из наблюдаемости линейной системы следует также ее устойчивость; 4) устойчивость, управляемость и наблюдаемость — незави- симые свойства линейной системы. Задача 6 (12 баллов). Пусть для задачи управления систе- мой х = f (х, и, t) с J = ф [a; (tf)] для любых начальных х0 и t0 существует единственное оптимальное управление. Значение J вдоль оптимальной траектории равно: 1) постоянной; 2) величине гамильтониана, вычисленного для конкретной точки траектории; 3) -1; 4) ничему из предыдущего. Задача 7 (9 баллов). Рассмотрите линейную задачу оптимиза- ции квадратичного функционала ОО x = Fx + Gu и / = J (IIuII^ + IIxIIa)^. о Система с оптимальным управлением устойчива, если: 1) F, G, В, А любые; 2) система (F, G) управляема, В > 0, А любая; 3) система (F, G) управляема, А > 0, В любая; 4) система (F, G) управляема, В > 0, А > 0.
Экзаменационные задачи 529 Задача 8 (9 баллов). Рассмотрите последовательность чисел м(, t — О, А, 2А, ЗА, . . ступенчатую функцию и (т) = щ, £ т < £ + А, и две стационарные динамические системы £(+д = х0 = а, х = Fx + Gu, х (0) = а, д где Ф = Ф (А), Ф (t) — переходная матрица второй системы, а Г = Ф (т) G dx. о Тогда 1) х (t) = xt при t = 0, А, 2А, . . 2) х (t) ~ xt при t = А, 2А, ЗА, . . 3) х (0 = xt только при t -> оо; 4) х (t) = xt только тогда, когда А равно целому числу, крат- ному собственным значениям матрицы F. Задача 9 (9 баллов). Пусть в задаче 8 ut является чисто слу- чайной последовательностью с нулевым средним и матрицей ковариаций %, a u (t) — случайный процесс типа белого шума с нулевым средним и спектральной плотностью Q = %/А. Тогда Pt, вычисленная для первой системы, совпадает с Р (t), вычислен- ной для второй при t = А, 2А, ЗА, .... Это утверждение 1) верно; 2) неверно. Задача 10 (9 баллов). Пусть задана динамическая система Xi=a;2, ж2=и-|-1, и критерий качества 7 = 4 J (^i~Tz2)2 + о + 2Ь [хг--(х2 — t) + c(x2 — t)2-)-du2J dt, где а, Ъ, с и d — постоянные. Тогда 1) система не может иметь устойчивого закона управления; 2) система может иметь устойчивый закон управления, если а > 0, с > 0, ас — Ь2 > 0; 3) то же, что и в п. 2, только дополнительно d > 0; 4) закон управления будет устойчив, только и (оо) ¥= 0; 5) закон управления будет нелинейным. Задача 11 (12 баллов). Пусть х = Fx + Gw, где w (t) — ста- ционарный белый шум с нулевым средним. Если Re [Хг (Е)] < 0, т. е. если F асимптотически устойчива, то 34—0102
530 Экзаменационные задачи 1) С (t,x) -*• к ненулевой постоянной матрице, если т фикси- ровано и t —> оо; 2) С (t, т) -> к ненулевой постоянной матрице, если t фикси- ровано и т —> оо; 3) С (t, т) —>- 0 при (t — т) —> оо; 4) С (Z, т) -► 0 при (t — т) -> оо только в случае устойчивой А _ _ системы; здесь С (t, т) = Е [(а; (£) — х (t)) (х (т) — х (т))т]. Задача 12 (12 баллов). Пусть х = Fx + w, матрицы F и G — постоянные, Е [ш (£)] = 0, Е [w (Z) wT (т)] = Q8 (Z — т), Q — постоянная, Е [а; (0)1 = х0, Cov [а; (0)] = Ро = 0, х (0) и w (Z) независимы и нормально распределены. Тогда 1) х (£), 0 t Т < оо, есть стационарный гауссовский мар- ковский. процесс; 2) x\t), 0 t < оо,— нестационарный гауссовский марков- ский процесс; 3) х (Z) — нестационарный немарковский процесс; 4) р [а; (Z + А)/х (Z)] — негауссовское распределение. Задача 13 (12 баллов). Рассмотрите и-мерный многошаговый процесс, описываемый уравнениями xi + i = Фгхг + Ггмг, щ — скаляр; Е [мг] = = 3Z2 — 2i + 5, Е [(мг — мг) (и} — м;)] = 0, если i =£= j, распределение равномерное: {xliai, если — ai -f- щ < ut < at -f- и;, (J в противоположном случае. (Здесь at = 1 + V2 cos i, i = 0, 1, 2, . . ., E [(x0 — ®0) — иг)1 = °-) Пусть, кроме того, заданы следующие величины: _ Л А - - т х0 = Е[х0] и Р0 = Е[(х0—х0)(х0 — х0) ]. Положим _ д д _ _ т Xi = E[xt], Pi = Е [(xi — xi) (xi — xt) ], Qi = E[(ui — Ui)2]. Утверждается, что xi+i = Фгхг + Ггйг, Рг+1 = ФгАФ;1 + Гг(?гГГ.
Экзаменационные задачи 531 Какое из следующих высказываний правильное: 1) утверждение истинное; 2) утверждение ложно, так как и, негауссовское; 3) утверждение ложно, так как ut нестационарное; 4) утверждение ложно, так как и, может принимать значения только в ограниченных пределах; 5) утверждение ложно, но не по причинам, указанным в пп. 2—4. Задача 14 (12 баллов). Уравнение х (?) = Fx (i) + Gu (t) описывает и-мерный случайный процесс. Здесь F и G — постоян- ные матрицы размерности (и X п) и (п X т) соответственно, и (?) — ттг-мерный вектор с нулевым средним и корреляционной функцией Е [и (t) иТ (т)] = Q8 (t — т), где Q — постоянная положительно определенная матрица раз- мерности (ттг X т). Пусть также имеются точные измерения z (t) = НТ [Fx (?) — х (?)], где Н — постоянная, х (0) — начальное среднее, Ро — матрица начальных ковариаций. Положим Какое из нижеследующих утверждений истинно: 1) I = 0; 2) I = Тг (0; 3) I = HTGQGTH‘, 4) 7 = оо; 5) величина I зависит от устойчивости системы с F и/или наблюдаемости пары (F, Н). Задача 15 (12 баллов). Рассмотрите скалярную задачу оцени- вания ^•+1 = xi + = Xt + Vi, где последовательность v-, является белой гауссовской с нулевым математическим ожиданием и дисперсией, равной единице, wi является белой гауссовской с нулевым математическим ожида- нием и дисперсией, равной q, и где не имеется начальной инфор- мации о х0. Если 0 < q < оо, то оптимальная оценка xt равна: i 1) хг — — 2 zj' j=i 34*
532 Экзаменационные задачи 2) xi = zt\ 3) хг+1 = Xi-\-Kt (z,-+1 — xt), -~^<zKi<zl\ 4) Xi^^= xt + Kj (zi^ — xt), i<zKi<t<x>. Задача 16 (9 баллов). По измерению z = Нх -ф- v, где v — гауссовская величина с математическим ожиданием v и диспер- сией R, а х — гауссовская величина с математическим ожида- нием х и дисперсией М, проводится оценка х. Оценка равна х = х + К (z — Нх), где К — некоторая постоянная матрица. Эта оценка 1) несмещенная; 2) смещенная с систематической ошибкой (КНх)- 3) смещенная с систематической ошибкой (Kv)-, 4) смещенная с систематической ошибкой [К (и — Нх)]. Задача 17 (15 баллов). Какое из следующих утверждений, относящихся к проблемам статистических оценок, является невер- ным: 1) оценки по методу взвешенных наименьших квадратов (МВНК) эквивалентны оценкам по методу минимума дисперсии (ММД) тогда и только тогда, когда матрица весовых коэффи- циентов равна обратной матрице ковариаций шума в измерениях; 2) среднеквадратическая ошибка оценки по МВНК средне- квадратической ошибки оценки по ММД; 3) в гауссовском случае условное среднее равно оценке по ММД; 4) в общем негауссовском случае условное среднее всегда равно оценке по методу минимизации бейесовского риска. Задача 18 (9 баллов). Матрица ковариаций состояния много- мерной линейной системы, на которую действует белый шум: 1) зависит от среднего значения начального состояния; 2) не зависит от собственных значений переходной матрицы системы; 3) не зависит от управляемости системы; 4) зависит как от матриц F nG, так и от статистических харак- теристик шума. Задача 19 (12 баллов). Пусть при наличии шума производятся измерения некоторых компонент состояния системы из задачи 18. Тогда среднеквадратическая ошибка оптимальной оценки, полу- ченной методами гл. 12: 1) не зависит от наблюдаемости системы;
Экзаменационные задачи 533 2) не зависит от значений проведенных измерений; 3) не зависит от статистических характеристик шума в изме- рениях; 4) зависит от проведенных измерений. Задача 20 (12 баллов). Пусть по заданному скалярному изме- рению z скалярная оценка берется как условное математическое ожидание х при данном z, т. е. как Е [х | z], где х и z не обяза- тельно гауссовские. Ошибка оценки {а; — Е [х | z]} 1) не зависит от х; 2) не зависит от z; 3) не коррелирована с х; 4) не коррелирована с z. [Замечание. Для любых двух скалярных случайных величин Е (ху) = J J хур (х, у) dx dy.] Задача 21 (12 баллов). Пусть задана наблюдаемая система х = Fx, z = Нх. В систему следующим образом вводятся случайные возмущения: х = Fx + Gw, z = Нх 4- v, где w и v — белые шумы с нулевыми средними значениями и спек- тральными плотностями Q и R соответственно. Тогда 1) система наблюдаема только в том случае, если G = 0; 2) система наблюдаема только в том случае, если G = 0, Q = 0, R = 0; 3) система наблюдаема только в том случае, если Q = R; 4) система остается наблюдаемой для любых конечных G, Q и й>0. Задача 22 (9 баллов). Функция L (iq, п2) задана следующим выражением: Ь(щ, и2) = ~2- [ — и^ + Зма — lOuj — 14w2 + 2u,u2-\- И]. 1) Функция L достигает минимума при 44 j = —2, U2 ~ 3. 2) Функция L достигает максимума при и^ -- —2, и2 == 3. 3) Функция L имеет стационарную точку при = —2, и2 = 3, которая является седловой.
534 Экзаменационные задачи 4) Функция L имеет особую точку с собственными значениями —1 и 0. Задача 23 (9 баллов). Пусть х (i + 1) = Fx (i), det (F) 0. Здесь F — матрица размерности (3 X 3). Применяется такая схема идентификации F, в которой 3 раза наблюдается х (j), а матрица [а; (3) х (2) j х (1)] представляется как [х (3) ! х (2) ! х (1)] = F [х (2) ; х (1) ; х (0)]. Отсюда F = [а; (3) J х (2) ' х (1)] [а; (2) j х (1) х (О)]-1. В этом методе управлением является выбор х (0). Метод работает: 1) при всех х (0), равных собственным векторам F; 2) при всех ненулевых х (0), не являющихся собственными векторами F и F2; 3) только для х (0) вида "1 * 0 0 или ЗУ 0 1 4) при любых х0. Задача 24 (15 баллов). Предположим, что для некоторого экзамена подготовлены задачи с выборочными ответами по четыре для каждой задачи, из которых лишь один является правильным. Все задачи имеют одинаковую сложность (точнее, каждой задаче приписывается одинаковый вес). Оценки за выбранный ответ ставятся согласно следующему правилу: за выбор правильного ответа — полное количество баллов; за выбор неправильного ответа — минус 1/3 полного количества баллов; за отказ от выбо- ра — нуль баллов. Заметим, что математическое ожидание оценки за ответ при совершенно случайном его выборе равно 1 / х \ 3 ^(оценки за один ответ) = х ( —у I • = 0, где х — полное количество баллов. Вероятность того, что человек, не знающий сдаваемого предмета, посредством случайного выбора может получить оценку 35 баллов (из 100) при ответе’на 25 вопро- сов, приблизительно равна: 1) Vio, 2) Viooi 3) Vlooo, 4) V10 000: 5) Ую6-
Экзаменационные задачи 535 Задача 25 (12 баллов). Рассмотрите две следующие задачи: a) xt+1 = Фж( + Fwt, wt — белый гауссовский шум с нуле- вым математическим ожиданием и дисперсией, равной Q, zt — = Hxt + vt, vt — белый гауссовский шум с нулевым математиче- ским ожиданием и дисперсией, равной R, Е [a^vf] = С; б) xt+l = (Ф — ЙЯ) xt + Dzt + Гш( — Гш(, zt = Hxt 4- vt. Задачи «а» и «б» эквивалентны, если: 1) ш(= Е и Г — wt) не коррелировано с vt; 2) то же, что и в п. 1, только дополнительно требуется, чтобы D = ГС7Г1; 3) то же, что и в п. 2, но с D = HVCR-1; 4) эти две задачи никогда не эквивалентны. Задача 26 (9 баллов). Матрица ковариаций оптимальной оценки для задачи «б» предыдущей задачи описывается уравнениями: 1) Pt+l = Mt+i - Mt+lH (Нт Mt+lH + Л)-1 HMt+i, Mt+i= (Ф - DH) Pt (Ф-О1Г)Т + Г(?ГГ - 2) теми же, что и в п. 1, только Мм = (Ф — DH) Pt (Ф - DH)T + Г(?ГГ + DRDt- 3) теми же, что и в п. 2, только DRDT нужно заменить на DR~H)T; 4) уравнением, которое зависит от z(, так как zt входит в урав- нение системы. Задача 27 (9 баллов). Пусть (в соответствии с гл. 12) z = = Нх + Av, где II и А — известные матрицы, х, v — обычные гауссовские случайные величины. Матрица ковариаций ошибки оптимальной оценки после измерения z равна: 1) Р = М - МНТА (НМНТ + Л)-1 АТНМ; 2) Р = М - MIP (НМНТ + А РА?)'1 НМ; 3) Р = АМАТ ~ АМНТ (НМНТ + R)-1 НМАТ; А) матрица А не влияет на матрицу ковариаций ошибки Р. Задача 28 (12 баллов). Имеются две одинаковые урны. В одной содержатся только красные шары, в другой — смесь одинаковых количеств красных и белых шаров. Предположим, что из одной из урн вынут красный шар. Вероятность того, что эта урна содер- жит только красные шары, равна: 1) 1, 2) 73, 3) V2, 4) 3/4.
536 Экзаменационные задачи Ответы Номер Номер Номер Номер задачи ответа задачи ответа 1 1 15 3 2 1 16 3 3 1 17 4 4 2 18 4 5 4 19 2 6 1 20 4 7 4 21 4 8 1 22 - 3 9 2 23 2 10 3 24 3 И 3 25 2 12 2 26 1 13 1 27 2 14 4 28 2
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Алгоритмы использующие переходную матрицу 258, 262, 274, 369, 507 — соседние экстремали 256 метода прогонки 264, 277, 283 минимизации Н (min Н-алгоритмы) 272 Вариационное исчисление 64—110 Вариация первая 65 вторая 67, 214 сильная 245 слабая 245 Векторы случайные гауссовские 363 — — линейная комбинация 363 Выведение на орбиту 103, 105, 176 Интеграл первый 67 Интерполяция оптимальная 451 Квазилинеаризация 254, 255, 281 Ковариация 349 Краевая задача ' . двухточечная линейная, общий случай 211 — — для динамических систем много- шаговых 62, 90 — — — — — непрерывных 67, 110, 253 Критерий качества для системы динамической 65 — — многошаговой 60 Гамильтониан 65 Двойственность 45, 424 Дисперсия 348 Допустимость 74, 109 Задача транспортная 48 Цермело 98, 117 Штурма — Лиувилля 231 Задачи вырожденные (сингулярные) 12 комбинаторные 165 на максимум дальности планирования 25 — — скороподъемности 27 . на минимум, присоединенные 219 — — расхода топлива в крейсерском режиме 43 — — — — при развороте 29 на оптимальное быстродействие 97, 108г 135 — составление смесей 45 о брахистохроне 102, 144, 170 разделимые 327 синтеза автопилотов 203—210 Закон больших чисел 417 дробнолинейного тангенса 79 линейного тангенса 80 Снеллиуса 99, 101 Игры аналогичные задаче релейного управ- ления 341 преследования 331, 333 с полной информацией 321 теория 321 Лагранжиан 68 Линза Люнеберга 230 Матрица корреляционная гауссовского марков- ского процесса 385 переходная 179, 191 симплектическая 189 Метод допустимых направлений 52 сопряженных градиентов 285 Наблюдаемость 423, 514 Наведение в возмущенном движении при выведе- нии на орбиту 232, 244 -----при входе в атмосферу 242 пропорциональной навигации 186, 340 Ограничения во внутренней точке 123 изопериметрические 111 интегральные 111 на параметры в виде неравенств 37, 44 -----— — равенств 14 на переменные управляющие в виде неравенств 131 -----— — равенств 116 —142 — И Фазовые в виДе неравенств — — — — — — равенств 121 ——фазовые в виде неравенств 142,150 -----— — — равенств 121 Оптимизация функции конечного числа пе- ременных, гл. 1 Оценивание параметров 402 — орбиты 408 по Бейесу 432
538 Предметный указатель по методу наименьших взвешенных квадратов 402 положения 405 Оценки сглаживающие 446 Переменные безразмерные 170 управляющие 65 Перехват 105, 126, 175, 184 Переход с максимальной скоростью на прямо- линейную траекторию 78 орбитальный 86 Плотность распределения вероятностей гауссовская 360 переходная 367 Поверхность минимальная 83 особая 302 Поле экстремалей 154 Последовательность случайная 366 гауссовская марковская 371 марковская 366 статистически стационарная 375 Правдоподобие 361 Правило множителей 509 Принцип Гамильтона 68 максимума 132 минимакса 323 минимума 132, 163 стохастической эквивалентности 471, 486 Ферма 101 Прогнозирование оптимальное '414 Прогонки метод 64 Программирование динамическое 157, 160—176 дифференциальное 279 линейное 44, 54 математическое 292 направления тяги 78, 86, 103, 105, 171 нелинейное 38 Процедура итерационная 254 Процесс случайный гауссовский марковский 380 • марковский 379 с независимыми приращениями 399 Разрывы в уравнениях динамических систем 127 по фазовым переменным 128 Распределение вероятностей безусловное 348 совместное 348 условное 351 Регулятор 177, 201—210, 467, 475 стохастический оптимальный, блок- схема 487 угла крена снаряда 203 Решения минимаксные 322 особые 294—320 — в задачах линейных с квадратич- ным функционалом 296 — — — нелинейных 301 — явление скачка 311 Самосопряженность 118, 120 Сглаживание оптимальное 446 Седловая точка в дифференциальном исчислении 326 теоретико-игровая 325 Синтез самолетного автопилота 205—210 Системы линейные с квадратичным критерием качества, динамические 177—212 — — — — — многошаговые 62 — — — — — одношаговые 24 многошаговые 59, 88, 248 одношаговые 59 Состояние процесса случайного 396 Среднее 346 — условное 437 Теорема Куна — Таккера 42 о седловой точке 43 Теория Гамильтона — Якоби 157 Траектории самолета, охватывающие максималь- ную площадь за заданное время при действии ветра 82 соседние экстремальные с нефиксиро- ванным временем 236 — — с фиксированным временем 213 Управление возмущенным движением с обратной связью 231, 241 — — — — —• оптимальное 236 дуальное 492 минимизирующее интеграл от квадра- тичной формы 196 парусной лодкой 24 релейное 135 с минимальным усилием при нефикси- рованном времени 244 — — — — фиксированном времени 236 с обратной связью, дискретное 180' — — — непрерывное 155, 180 — — — возмущенным движением, время фиксированное 231 — — — — — — не фиксировано 241 — — — — — использующее оставшееся время 237, 241 — — — по соседней экстремали 218 Управляемость 77, 96, 198, 512 Ур авнение в вариациях 505 Гамильтона —• Якоби — Веллмана 162 — для линейных задач с квадратич- ным критерием 183 для функций влияния 508 Колмогорова прямое 400 обыкновенное дифференциальное ли- нейное 506 Риккати 182, 201 Фоккера — Планка 400 Эйлера — Лагранжа 66, 164, 509 Условие Вейерштрасса 246, 247 Вейерштрасса — Эрдмана для угловых точек 153 выпуклости 218, 221, 241 — обобщенное для особых решений 307 граничное естественное 74 отсутствия сопряженной точки 219,.241 Лежандра — Клебша 163 нормальности 195, 219, 241 Устойчивость 20, 515
Предметный указатель 539 Фильтр Винера 454 Калмана 419 Фильтрация оптимальная для систем линейных 412, 418 — — — нелинейных 428 по Бейсу 437 Форма капли жидкости на горизонтальной по- верхности 114 носовой части с минимальным сопро- тивлением 70 Формула Бейеса 351 Функция влияния 66 импульсная переходная 66 корреляционная экспоненциальная 383 переключения 136 штрафная 55 — квадратичной ошибки в конеч- ной точке 178 — — __ во внутренней точке 125 — интегральная 289 Численные методы для задач с ограничениями на управ- ляющие переменные 289 — — — — — — — и фазовые 289 — — — — на фазовые переменные 291 Шум белый 384 в измерениях, коррелированный 457
ОГЛАВЛЕНИЕ Предисловие редактора русского издания........................ 5 Предисловие авторов к американскому изданию................... 7 Предисловие авторов к русскому изданию........................ 9 Глава 1. Задачи минимизации функций конечного числа переменных................................................... 11 1.1. Задачи без дополнительных ограничений................ 11 1.2. Задачи с ограничениями в виде равенств; необходимые усло- вия существования стационарной точки...................... 14 1.3. Задачи с ограничениями в виде равенств; достаточные усло- вия локального минимума................................... 21 1.4. Соседние оптимальные решения и интерпретация множителей Лагранжа ................................................. 31 1.5. Численное решение задач оптимизации с ограничениями в виде равенств с помощью градиентного метода первого порядка ................................................. 32 1.6. Численное решение задач оптимизации с ограничениями в виде равенств с помощью градиентного метода второго порядка ................................................. 34 1.7. Задачи с ограничениями в виде неравенств............. 37 1.8. Задачи линейного программирования.................... 44 1.9. Численное решение задач оптимизации с ограничениями в виде неравенств......................................... 52 1.10. Метод штрафных функций.............................. 55 Глава 2. Задачи оптимизации динамических систем ... 58 2.1. Дискретные одношаговые системы....................... 58 2.2. Дискретные многошаговые системы; оптимизация при фикси- рованном числе шагов и отсутствии краевых условий на пра- вом конце................................................. 59 2.3. Непрерывные системы; оптимизация на фиксированном интер- вале времени при отсутствии краевых условий на правом конце .................................................... 64 2.4. Непрерывные системы; оптимизация при фиксированных значениях некоторых переменных состояния в заданный конечный момент времени................................... 74 2.5. Непрерывные системы; оптимизация при заданных в фикси- рованный конечный момент времени значениях функций от фазовых координат...................................... 84
Оглавление 541 2.6. Дискретные многошаговые системы; оптимизация при заданных значениях функций от фазовых координат на тер- минальном шаге........................................... 88 2.7. Непрерывные системы; оптимизация при заданных значе- ниях некоторых фазовых координат в неопределенный момент окончания процесса. Задачи оптимального быстродействия 91 2.8. Непрерывные системы; оптимизация при заданных значе- ниях функций от фазовых координат в неопределенный момент окончания процесса. Задачи оптимального быстродействия 108 Глава 3. Задачи оптимизации динамических систем при наличии ограничений на траекторию......................... Ш 3.1. Интегральные ограничения........................... 111 3.2. Ограничения в виде равенств на управляющие переменные 3.3. Ограничения в виде равенств на функции управления и фа- зовых координат................................... 121 3.4. Ограничения в виде равенств на функции фазовых коор- динат ............................................ 121 3.5; Ограничения, заданные во внутренних точках траектории 123 3.6. Системы уравнений движения с разрывными правыми частями во внутренних точках траектории................. 127 3.7. Задачи с фазовыми координатами, разрывными во внутрен- них точках.............................................. 128 3.8. Ограничения в виде неравенств на управляющие перемен- ные .................................................... 131 3.9. Линейные задачи оптимизации; релейное управление . . . 135 3.10. Ограничения в виде неравенств на функции управления и фазовых координат...................................... 142 3.11. Ограничения в виде неравенств на функции фазовых коор- динат ................................................... 143 3.12. Раздельное определение участков траектории в задачах с ограничениями в виде неравенств на фазовые координаты 150 3.13. Условия в угловых точках.......................... 151 Глава 4. Оптимальное управление с обраткой связью . . . 154 4.1. Понятие о поле экстремалей.......................... 154 4.2. Динамическое программирование; дифференциальное уравне- ние в частных производных для оптимального значения кри- терия качества . .................................... 160 4.3. Уменьшение размерности фазового пространства путем . использования безразмерных переменных................... 170 Глава 5. Линейные системы е квадратичным критерием качества; линейная обратная связь............................ 177 5.1. Терминальные управляющие устройства и регуляторы; вве- дение ................................................... 177 5.2. Терминальные управляющие устройства; квадратичная функ- ция штрафа на величину терминальной ошибки......... 178 5.3. Терминальные управляющие устройства; нулевая терминаль- ная ошибка и управляемость системы..................190 5.4. Регуляторы и устойчивость...........................201
542 Оглавление Глава в. Соседние экстремали и вторая вариация .... 213 6.1. Соседние экстремальные траектории при заданном времени окончания процесса...................................... 213 6.2. Определение соседних экстремальных траекторий при задан- ном времени окончания процесса методом обратной прогонки 215 6.3. Достаточные условия локального минимума при заданном времени окончания процесса ............................. 218 6.4. Оптимальное управление с обратной связью для возму- щенного движения при заданном времени окончания про- цесса .................................................. 231 6.5. Соседние экстремальные траектории при незаданном вре- мени окончания процесса................................. 236 6.6. Определение соседних экстремальных траекторий методом обратной прогонки при незаданном времени окончания про- цесса ;................................................. 238 6.7. Достаточные условия локального минимума при незадан- ном времени окончания процесса.......................... 240 6.8. Оптимальное управление с обратной связью для возмущен- ного движения при незаданном времени окончания процесса 241 6.9. Достаточные условия сильного локального минимума ... 245 6.10. Дискретный многошаговый вариант метода обратной про- гонки ................................................... 248 6.11. Достаточные условия локального минимума для дискрет- ных многошаговых систем................................. 252 Глава 7. Численные методы решения задач оптималь- ного программирования и управления........................... 253 7.1. Введение .......................................... 253 7.2. Методы, использующие поле экстремалей. Динамическое программирование ....................................... 255 7.3. Алгоритмы, использующие соседние экстремали........ 256 7.4. Алгоритмы градиентных методов первого порядка...... 265 7.5. Алгоритмы градиентных методов второго порядка .... 274 7.6. Алгоритм квазилинеаризации......................... 281 7.7. Алгоритм градиентного метода второго порядка для дискрет- ных многошаговых систем................................. 283 7.8. Алгоритм метода сопряженных градиентов............. 285 7.9. Задачи с ограничениями в виде неравенств на фазовые и управляющие переменные.................................. 289 7.10. Задачи с ограничениями в виде неравенств на фазовые переменные .............................................. 291 7.11. Применение методов математического программирования 292 Глава 8. Особые решения в задачах оптимизации управ- ления ....................................................... 295 8.1. Введение .......................................... 295 8.2. Особые решения в задачах оптимизации линейных динами- ческих систем с квадратичным критерием качества .... 296 8.3. Особые решения в задачах оптимизации нелинейных динами- ческих систем........................................... 301 8.4. Обобщенное условие выпуклости для особых участков . . . 307
Оглавление 543 8.5. Условия в точках сопряжения участков................ 311 8.6. Задача распределения ресурсов с ограничениями типа нера- венств и особыми участками............................... 312 Глава 9. Дифференциальные игры............................... 321 9.1. Дискретные игры .................. 321 9.2. Непрерывные игры.................................... 325 9.3. Дифференциальные игры................ 327 9.4. Линейные игры преследования с квадратичным функцио- налом ................................................... 333 9.5. Задача па минимакс времени перехвата с ограничениями на управления............................................ 341 9.6. Общие замечания к теории дифференциальных игр .... 345 Глава 10. Некоторые понятия из теории вероятностей 347 10.1. Дискретные случайные скалярные величины.............347 10.2. Дискретные случайные векторы........................348 10.3. Корреляция, независимость и условные вероятности . . . 350 10.4. Непрерывно распределенные случайные величины........352 10.5. Совместные распределения вероятностей...............355 10.6. Совместные плотности распределения вероятностей .... 357 10.7. Плотность гауссовского распределения случайного вектора 360 Глава 11. Введение в теорию случайных процессов . . . 366 11.1. Случайные последовательности и марковское свойство . . . 366 11.2. Гауссовские марковские случайные последовательности 371 11.3. Случайные процессы и марковское свойство........... 378 11.4. Гауссовские марковские случайные процессы ...... 380 11.5. Аппроксимация гауссовского марковского процесса с помо- щью гауссовской марковской последовательности .... 394 11.6. Координаты состояния системы и марковское свойство . . . 396 11.7. Процессы с независимыми приращениями............... 399 Глава 12. Оптимальные фильтрация и прогнозирование 401 12.1. Введение .......................................... 401 ,12.2. Оценивание параметров методом взвешенных наименьших квадратов ................................................ 402 12.3. Оптимальная фильтрация для линейных одношаговых пере- ходов ................................................... 412 12.4. Оптимальные фильтрация и прогнозирование линейных мно- гошаговых процессов...................................... 414 12.5. Оптимальная фильтрация непрерывных линейных динами- ческих систем с непрерывными измерениями................. 418 12.6. Оптимальная фильтрация нелинейных динамических систем 428 12.7. Оценивание параметров с использованием бейесова подхода 432 12.8. Вейесов подход к оптимальным фильтрации и прогнозиро- ванию в многошаговых системах............................ 437 12.9. Выделение гауссовских сигналов из шума............. 444
544 Оглавление Глава 13. Оптимальные сглаживание и интерполяция 446 13.1. Оптимальное сглаживание для одношаговых переходов . . 446 13.2. Оптимальное сглаживание для многошаговых процессов 449 13.3. Оптимальные сглаживание и интерполяция для непрерывных процессов ................................................451 13.4. Оптимальное сглаживание для нелинейных динамических процессов .............................................. 456 13.5. Последовательно коррелированный шум в измерениях . . 457 13.6. Коррелированный по времени шум в измерениях................... 462 Глава 14. Оптимальное управление с обратной связью при наличии неопределенности................................. 465 14.1. Введение ..................................................... 465 14.2. Непрерывные линейные системы с процессами типа белого шума; состояние системы точно известно.................. 465 14.3. Непрерывные линейные системы, содержащие аддитивные белые шумы в уравнении системы и измерениях; принцип стохастической эквивалентности.......................... 471 14.4. Поведение оптимальной управляемой системы в среднем 474 14.5. Синтез регуляторов для стационарных линейных систем со стационарным аддитивным белым шумом ....... 475 14.6. Синтез терминальных регуляторов для линейных систем с аддитивным белым шумом................................ 479 14.7. . Многошаговые линейные системы с аддитивным чисто слу- чайным шуйом; принцип стохастической эквивалентности в дискретном случае...................................... 486 14.8. Оптимальное управление с обратной связью для нелиней- ных систем с аддитивным белым шумом................. 490 Приложение А. Некоторые основные математические сведения................................................... "495 А.1. Введение....................................................... 495 А.2. Обозначения ................................................. 495 А.З. Матричная алгебра и некоторые геометрические понятия . 497 А.4. Элементы теории обыкновенных дифференциальных урав- нений .............................................. 504 Приложение Б. Свойства линейных систем.................................. 512 Б.1. Линейные алгебраические уравнения.............................. 512 Б.2. Управляемость.................................................. 512 Б.З. Наблюдаемость ................................................ 514 Б.4. Устойчивость ....................................... 515 Б.5. Канонические преобразования................................ 517 Литература............................................................. 519 Экзаменационные задачи с многовариантным выбором ответа .... 526 Предметный указатель.................................................... 537