Текст
                    Эдуард Смолья ков
Глобальная оптимизация
возмущаемых динамических систем
(курс лекций)
LAP LAMBERT Academic Publishing


ПРЕДИСЛОВИЕ Эти лекции в различных вариациях читались автором в 2002-2014 г. в Московском государственном университете им. М.В.Ломоносова в рамках двухсеместрового курса "Обобщенное оптимальное, конфликтное и стоха- стическое управление" для студентов 4-го курса и в Московском государ- ственном техническом университете им. Н.Э.Баумана в рамках курса по теории вероятностей для студентов 2-го и 3-го курсов. Существенное отли- чие их от традиционных курсов по теории случайных процессов в том, что они нацелены на разработку эффективной общей концепции управления оптимизируемыми динамическими системами, работающими в условиях случайных возмущений. Автором еще в начале 60-х годов 20-го века на задачах возвращения из космоса крылатого космического летательного аппарата и посадки его на взлетно-посадочную полосу аэродрома был с большим успехом опробован подход, при котором сначала для упрощенной модели движения без уче- та возмущений был найден синтез оптимального управления летательным аппаратом, а затем на математической модели движения с учетом значи- тельных случайных возмущений проверялось, как этот аппарат, автома- тически управляемый в соответствии с полученным синтезом, ведет себя в условиях сильных случайных атмосферных возмущений. И результат оказался совершенно неожиданным. Автоматическая посадка на взлетно- посадочную полосу на основе найденного синтеза оптимального управле- ния обеспечивалась с желаемой точностью при случайных боковых вет- рах, дующих со скоростями до многих десятков метров в секунду. Это да- ло автору уверенность, что и без построения модели случайного процесса, и без перехода к рассмотрению крайне непрактичных и всегда математи- чески ущербных (вследствие неоднозначности понятия интеграла для слу- чайных процессов) стохастических дифференциальных уравнений можно успешно противодействовать влиянию на динамическую систему любых случайных возмущений благодаря предварительному построению синтеза
обычного и обобщенного оптимального управления, который ищется без учета случайных возмущений. В первой главе излагаются минимально необходимые общие сведения по теории случайных процессов, необходимые разработчикам систем управ- ления, и приводятся традиционные схемы минимизации дисперсии слу- чайно возмущаемых систем [1-6]. Во второй главе излагаются личные результаты исследований автора по теории обобщенной оптимизации и управляемым случайным процес- сам, частично опирающиеся на его предшествующие работы [10, 11]. Ос- новываясь на личном опыте, автор делает вывод о малой эффективности использования традиционных подходов [1-6] для решения проблемы раз- работки оптимизируемых систем управления возмущаемыми динамиче- скими системами и предлагает иной подход к этой проблеме, существенно опирающийся на использование синтеза оптимального управления, про- водимого предварительно в отношении модели разрабатываемой динами- ческой системы в отсутствие ее случайных возмущений. Заметим, что использование обобщенного управления существенно, так как оно гарантирует нахождение глобального максимума в любой задаче, причем, благодаря найденным автором наиболее полным необходимым условиям его существования [10, 11], открывается возможность еще до решения задачи, какой бы сложности она ни была, выразить интервалы времени реализации этого обобщенного управления как функции от фа- зовых координат. Это означает, что всегда в любой задаче, еще до начала ее расчетов, имеется возможность узнать, на каких интервалах време- ни достаточно использовать обычное управление и на каких необходимо обобщенное управление.
ВВЕДЕНИЕ Случайной функцией называется функция, которая при всех (или хотя бы при некоторых) значениях аргумента является случайной величиной. Например, скорость ветра в турбулентной атмосфере является случайной функцией трех координат и времени или, например, поверхность волну- ющегося моря, или же движение молекул воздуха и др. Конкретная же функция, которая может быть зарегистрирована при одном мгновенном наблюдении случайной функции, называется ее реализацией. Подобной реализацией является, например, фотография случайной функции. Фо- тографии, сдаланные в разные моменты времени, дадут разные реализа- ции. Однако следует все же признать, что в природе не существует слу- чайных процессов, а в случайные их превращает лишь неполнота наших знаний о них. Невозможность получить истинное знание о процессах вы- нуждает нас искать метод описания возможных реализаций этих процес- сов. Подобным методом является, например, теория вероятностей. Однако любые попытки обобщения теории вероятностей, более или менее удовле- творительно разработанной для конечномерных пространств, на случай случайных процессов [1-10] наталкиваются по существу на непреодоли- мые трудности, связанные с тем, что это требует формулировки теории вероятностей не на подмножествах конечномерного пространства Еп) а на произвольных функциональных пространствах {x(t)}. И одна из наиболее существенных связанных с этим проблем состоит в том, что множество всех функций имеет мощность больше мощности континуума (т.е. больше мощности пространства Еп). В связи с этим напомним, что даже на Еп вероятность удается определить далеко не на всех подмножествах из Еп, а всего лишь на некоторой их части, например на борелевских множе- ствах (или на множествах, измеримых в том или ином смысле), причем только при подобном исключении из рассмотрения некоторых множеств и удалось построить удовлетворительную непротиворечивую теорию ве-
роятностей на Еп. На пространстве функций {#(£)} едва ли существуют столь же подхо- дящие для построения теории вероятностей подмножества, каковыми, к примеру, оказываются борелевские множества на Еп. А если из простран- ства функций начать исключать какие-либо подмножества, чтобы прием- лемым образом определить на оставшемся семействе множеств понятие вероятности, то совершенно непонятно, какие подмножества допустимо исключать, а какие нет. Один из путей выхода из этого тупика состоит в том, что вследствие указанных трудностей определения вероятности на функциональном про- странстве, приходится прибегать к различным искусственным аппрокси- мациям случайных процессов, которые позволили бы в какой-то мере рас- пространить теорию вероятности, построенную для пространства Еп, на случайные процессы. Эти аппроксимации обычно основываются на той или иной дискретизации случайных процессов, позволяющей в какой- то мере аппроксимировать функциональное пространство пространством Еп. Второй путь — особенно предпочтительный в случае решения задач, в которых оптимизируется некоторый желательный динамический процесс, подверженный непредсказуемым случайным возмущениям, — состоит в следующем. Пусть ищется динамический процесс dx/dt = /(х, и, t) + w(t), x(t0) = ж0, x(ti) = xl, ueU (0.1) (где x(t) = (xi(t),...,xn(t)) — вектор фазовых координат, u(t) = (v>i(t), ...,um(t)) — вектор управляющих переменных, a w(t) = (w\(t), ...,wn(t)) — вектор случайных возмущений), удовлетворяющий критерию максимизации функционала J = J /0(ж, щ t)dt, Т = {t0, ti). (0.2) т В этом случае следует сначала провести оптимизацию этого жела-
тельного динамического процесса в отсутствие случайных возмущений (при w(t) = 0) и найти синтез оптимального управления, т.е. найти и(х) для множества оптимальных траекторий {#(£)}, а не просто оптималь- ное управление гд(£), формирующее какую-то одну траекторию x(t). При- чем желательно поиск управления проводить не в классе управляющих функций и(t) из [7] (в котором в большинстве случаев точное решение не достигается), а в клаесе функций q(u,t) [8-11] (в котором решение всегда существует), где q(u,t) почти при всех t GT представляет собой функцию распределения вероятности на множестве U. Поиск этого обобщенного оп- тимального управления существенно упрощается благодаря найденным автором необходимым условиям оптимальности, позволяющим в задачах любой сложности (еще на этапе подготовки к их решению) определять интервалы времени реализации этого обобщенного управления как функ- ции от фазовых координат. Найденный синтез оптимального управления невозмущенной задачи (0.1), (0.2) позволяет обеспечить движение в ре- альных условиях (т.е. при w(t) ^ 0), удовлетворяющее со сколь угодно большой точностью краевым условиям и оптимизирующее функционал (0.2), если возможности U управления u{t) почти в кажый момент t до- статочно велики по сравнению с величиной \w(t)\,t ЕТ. Второй путь предпочтителен потому, что в этом случае не возника- ет необходимости строить модели случайных процессов, которые в лю- бых случаях всегда оказываются весьма далекими от реальных случай- ных процессов, и решать стохастические дифференциальные уравнения, все известные процедуры интегрирования которых невозможно назвать удовлетворительными. В то же время современная методика оптимиза- ции весьма совершенна. И, как показал опыт автора, второй путь при- водит к желаемым результатам, обеспечивая гораздо более эффективное оптимальное маневрирование в условиях действия случайных возмуще- ний, чем это можно обеспечить в случае использования любых моделей случайных процессов.
Предпочтительность второго пути следует также из того, что любые реализуемые на практике динамические системы и процессы всегда оп- тимизируются в некотором отношении, независимо от того, подвергаются они возмущениям или нет. Если же следовать первому пути, то следует предварительно разрабо- тать какую-то конкретную модель случайного процесса ги(£), учитывая, что, поскольку w(t) входит в уравнение (0.1), то векторы x(t) и dx/dt также оказываются случайными функциями, а уравнение (0.1) оказыва- ется стохастическим дифференциальным уравнением, которое при любых моделях случайных процессов всегда будет приводить не к конкретному числу max J, а к неопределенному случайному числу, существенно за- висящему от используемой модели случайного процесса и используемой в любых случаях несовершенной процедуры интегрирования стохастиче- ских дифференциальных уравнений. Поскольку в любых областях науки, техники, экономики представля- ют интерес не просто какие-то динамические процессы, а исключительно оптимальные процессы (например, выведение летательного аппарата на взлетно-посадочную полосу с любой желаемой точностью при любых слу- чайных возмущениях атмосферы; сохранение устойчивости и долговечно- сти сооружений в условиях торнадо и землетрясений; максимальный эко- номический рост при непредвиденных обстоятельствах, и др.), то имен- но само понятие наиболее целесообразной оптимальности можно сделать наиболее эффективным инструментом в борьбе с произвольными случай- ными возмущениями. Если возможности управления оптимизированной динамической системы достаточно велики, то сама эта система способна обеспечить свою стабилизацию по отношению к внешним возмущениям, если предварительно получен хотя бы численный синтез оптимального управления невозмущенной системой (не являющийся проблемой для со- временных высокоскоростных вычислительных систем). Ниже рассматри- ваются оба подхода, но сначала рассматривается первый, классический.
Глава 1. СЛУЧАЙНЫЕ ПРОЦЕССЫ И МИНИМИЗАЦИЯ ДИСПЕРСИИ 1. Аппроксимация случайных процессов Заметим, что если случайная функция x(t) = (xi(t),...,xn(t)) — век- торная, то ее можно представить в виде скалярной функции x(t, к) двух аргументов к = 1, ...,п и £, так что можно ограничиться рассмотрением только скалярных функций x(t) переменной £, которую можно считать как параметром времени, так и любым набором любых координат. В ос- новном, мы будем рассматривать независимую переменную t как время. При любом фиксированном t значение случайной функции x(t) явля- ется случайной величиной х) характеризующейся распределением вероят- ности Р(х, £), в общем случае зависящим от параметра t. Чтобы получить полное представление о случайной величине x{i), в общем случае, вообще говоря, может оказаться недостаточным знание даже всех законов распре- деления Р, отвечающих всем моментам t. Для полного описания случай- ной функции необходимо знать совместное распределение вероятностей всех величин #(£), а не только распределения вероятностей в каждый мо- мент t. Другими словами, для полного описания случайных процессов x(t) требуется знание распределения вероятности на самом пространстве функций x(t). Однако подобное распределение даже теоретически сфор- мулировать едва ли представляется возможным. В самом деле, множество всех функций имеет мощность больше мощ- ности континуума (т.е. больше мощности конечномерного пространства Еп). А ведь даже на Еп вероятность определяется не на всех подмно- жествах, а всего лишь на некоторой их части, например на борелевских множествах (или на множествах, измеримых в том или ином смысле), причем определения вероятности в Еп всего лишь на борелевских мно- жествах оказывается вполне достаточным для рассмотрения любых слу- чайных величин на Еп. Однако на пространстве функций {x(t)} едва ли
существует столь же универсальное подмножество, каким является боре- левское множество на Еп. А если из пространства функций начать исклю- чать какие-либо подмножества, чтобы приемлемым образом определить на оставшемся семействе множеств понятие вероятности, то совершенно непонятно, какие допустимо исключать, а какие нет. У истоков теории случайных процессов лежат работы А.Н.Колмогорова и А.Я.Хинчина, написанные в начале 30-х годов XX века. Они построили основы теории процессов без последействия (т.е. процессов марковского типа) и стационарных случайных процессов. В большинстве физических задач задание начального состояния системы не определяет однозначно состояние в любой другой момент, а всего лишь определяет вероятность Р того, что система будет находиться в одном из состояний некоторого множества состояний. Если знание состояний системы в моменты £, пред- шествующие моменту to, не влияет на эту вероятность, то такой процесс называют процессом без последействия, или марковским процессом. Слу- чайный процесс можно рассматривать или как совокупность случайных величин x{t), зависящих от параметра £, или как совокупность реализаций процесса x{t). В любом случае для полного описания процесса требуется знание вероятностной меры в функциональном пространстве {x(t)}. Пусть (fi, Е, Р) — вероятностное пространство, где Q — некоторое мно- жество, Е — а-алгебра подмножеств множества Q и Р — вероятностная мера на Е. Случайную функцию можно определить как функцию двух переменных: x(t,u), t е Т, и Е fi. Функцию х(-,и) = x(t) называют реа- лизацией случайного процесса, или траекторией. Если вполне строго под- ходить к проблеме изучения случайных функций, то следует определить вероятность Р на пространстве выборочных функций x(t), что сделать строго, как указывалось выше, по существу не представляется возмож- ным. Однако если выбрано конечное число моментов £&, то вероятностое описание процесса в рамках подобной конечномерной модели распределе- ния становится вполне законным.
Случайная функция x(t) поддается достаточно полному описанию, ес- ли, например, почти все возможные ее реализации являются гладкими (особенно если при любых tk все x(tk) нормально распределены) или если она задана в виде дискретной последовательности #(0),... ,x(N). Прав- да, если число N очень велико, то описать эту последовательность сов- местным распределением вероятности оказывается все равно чрезвычай- но трудно. К счастью, большинство из встречающихся в технике после- довательностей и процессов обладает свойством марковости, состоящим в том, что распределение вероятности величины х(к + 1) зависит только от знания величины х(к) и не зависит от всех предшествующих значений, т.е. Р[х(к + l)|x(fc),..., х(0)} = Р[х(к + 1)\х(к)]. (1.1) Совместное распределение случайной марковской последовательности вполне определяется заданием начального распределения вероятности Р[ж(0)] и условного распределения (распределения перехода) Р[х(к + 1)| #(&)], как это видно из следующих равенств P[x(N),..., х(0)] = P[x(N)\x(N - 1),..., x(0)]P[x(N - 1),..., х(0)] = P[x(N)\x(N-l),...,x(0)]x P[x(N - l)\x(N - 2),..., x(0)]... P[x(l)|x(0)]P[x(0)] = P[x(N)\x(N - l)]P[x(N - l)\x(N - 2)]... P[x(l)|x(0)]P[x(0)], (1.2) показывающих, что совместное распределение вероятностей равно произ- ведению вероятностей перехода и начальной вероятности. Заметим, что наиболее грубой аппроксимацией случайной функции x(t) является описание ее с помощью двумерных вероятностей распре- деления Р(х\, Х2, t\, £2), которые получаются, если рассматривать законы распределения вероятностей ординат функции x(t) в моменты t\ и t<i. По- добное рассмотрение позволяет, вообще говоря, вычислять производную от случайной функции, поскольку при расчете производной рассматрива-
ется пара стремящихся друг к другу точек. Однако для интегрирования случайной функции не только двумерных но и любых п-мерных вероят- ностей распределения, очевидно, недостаточно. В некоторых случаях бесконечная последовательность вероятностей распределения находится весьма просто. Например, в случае нормаль- но распределенной случайной величины вся подобная последовательность полностью определяется, если задана двумерная плотность вероятности. На практике невозможно найти всю бесконечномерную вероятность случайной функции x(t) и стараются обойтись минимальной информа- цией об этой функции. Например, оказывается, что знания только двух первых моментов случайной функции (математического ожидания и кор- реляционной функции или дисперсии) оказывается достаточно для изуче- ния любых линейных операций над случайными функциями. Кроме того, исследование случайной функции значительно упрощается, если учесть, что большинство встречающихся на практике случайных последователь- ностей х(0), ...,x(N) (получающихся, например, при дискретном задании параметра t = 1,..., N) обладает свойством марковости. Последовательность является чисто случайной (независимой), если при всех к: f[x(k + l)\x(k)] = f[x(k + l)]. Такую последовательность образуют результаты вращения уравновешенного равномерно тормозящегося коле- са, положение метки на котором относительно неподвижного простран- ства и определяет измеряемую величину x(t). В этом случае плотность распределения вероятности равномерна и не зависит от предшествую- щих вращений. Если всегда пользоваться только этим одним колесом, то последовательные результаты образуют стационарную чисто случайную последовательность (т.е. все они подчиняются одному и тому же зако- ну распределения). Если же использовать множество различных колес, то результаты измерений образуют нестационарную чисто случайную по- следовательность . Разностное уравнение (первого порядка)
Xl(k + 1) = с(к)хг(к) + w(k) (1.3) задает скалярную марковскую последовательность, где w(k) — скаляр- ная чисто случайная последовательность, а с(к) — известная числовая последовательность (пример с колесом соответствует случаю с=1). Если это уравнение обобщить до следующего разностного уравнения второго порядка xi(k + 1) = ci(k)xi(k) + с2(к)хг(к - 1) + w(k), (1.4) то описываемая им последовательность формально не оказывается мар- ковской. Однако ее можно рассматривать как компоненту векторной мар- I xi(k) 1 /, ковской последовательности с вектором состояния где Х2\к + |_ х2\к) \ 1) = xi(fc), так что получаем следующий аналог уравнения (1.3), обобще- ние которого на любое число шагов позволяет утверждать, что свойство марковости широко распространено и с его помощью можно моделиро- вать подавляющую часть практически встречающихся случайных про- цессов w(k). (1.5) £i(fc+l)l _ Г ci(fc), с2(к) 1 Г xi(k) x2(fc + l) J [ 1, О J [х2(к) Очевидно, получить аналог уравнения (1.5) можно и для случая, когда в уравнении (1.4) используется любое конечное "запаздывание". Так что марковские последовательности можно использовать для описания ши- рокого круга физических задач. Марковскую цепь можно использовать для аппроксимации марковской последовательности непрерывно распре- деленных случайных величин. В теории вероятностей широко используется формула Пуассона, кото- рая по существу без изменений может быть перенесена и на случайные процессы. Эта формула имеет следующий вид
i\(t) = ^W* (1.6) и определяет число к появлений случайного события x(t) за промежуток времени (0,£), где А — некоторая постоянная. При выводе этой форму- лы предполагается, что случайный процесс является стационарным (т.е. одинаковым во времени), отсутствует последействие (т.е. он не зависит от того, появлялось ли событие до рассматриваемого интервала времени (О, t)) и исключается одновременное появление более одного события. Формула (1.6) применима в огромном числе технических процессов. Например, ею можно воспользоваться для оценки числа распавшихся атомов радиоактивного вещества за заданный промежуток времени (0, t) или числа отказавших элементов в техническом устройстве, содержащем большое число элементов. В дифференциальной форме уравнение (1.3), вполне описывающее мар- ковский процесс, можно переписать в виде xi = c(t)xi + w(t), (1.7) где w(t) — белый шум, a c(t) — известная функция времени. Аналогичным образом уравнение (1.4) записывается в виде #i = c\(t)xi + c2(t)xi + w{t), (1.8) где w(t) — скалярный чисто случайный процесс (белый шум), а сД£) — известные функции времени. Из уравнения (1.8) формально следует, что случайный процесс x\{i) не является марковским. В то же время x\(t) можно рассматривать как компоненту векторного марковского процесса [xi(t),X2(t)]T, где Х2 = xi, удовлетворяющего уравнению d Xi dt \_Х2\ О 1 c2(t) a(t) 'xi .X2. + "01 _1J w(t). (1.9)
Обобщая сказанное, можно сказать, что любой случайный процесс, описываемый конечным числом производных, можно с помощью заме- ны переменных превратить в эквивалентный ему марковский процесс. По этой причине можно при изучении случайных процессов ограничить- ся марковскими процессами. Формально для случайного процесса {x(t)} можно в стандартной фор- ме определить математическое ожидание и дисперсию: Mx(t) = [x(t)dF(x,t), Dx(t) = f[x(t) - Mx(t)]2dF(x,t), (1.10) где интегралы берутся на множестве значений х при каждом £, рассмат- риваемом как параметр. Mx(i) и Dx(t) могут быть одинаковыми у двух разных процессов, но сами эти процессы могут резко различаться: реализации x(t) для одного из них могут быть гладкими, медленно меняющимися, а для другого — негладкими резко изменяющимися. Зависимость между x(t\) и х(^) в первом случае оказывается весьма сильной, а во втором — слабой, т.е. корреляционные функции г,(«ь«2) = yWi) - ЩЬ)][х(Ь) - M(<2)]dF(x(^),x(t2)) (1.11) у подобных двух процессов оказываются существенно различными. В случае дискретного времени t = t\ < ... < £&, t G T, наиболее про- стым и поддающимся полному описанию является процесс, для которого случайные векторы x(U) независимы. Это наводит на мысль, что прин- ципиальных трудностей в описании непрерывного процесса можно избе- жать, если ограничиться непрерывными процессами с так называемыми независимыми приращениями. Говорят, что процесс x(t) имеет независимые приращения, если для лю- бых^ < ... < tk случайные векторы x(t{), x(t2) — x(ti)) ..., x(tk) — x(tk-i) независимы. В результате трудно поддающийся исследованию непрерыв-
ный случайный процесс аппроксимируется по существу множеством дис- кретных процессов, каждый из которых состоит из последовательности независимых случайных векторов, представляющих собой вышеуказан- ные разности. Если реальный непрерывный процесс допускает подобную аппроксимацию, то его изучение существенно упрощается. Если же в определении процесса с независимыми приращениями переменные явля- ются не независимыми, а всего лишь некоррелированными, то такой про- цесс называется процессом с некоррелированными или ортогональными приращениями. Следует отметить, что многие реальные случайные про- цессы допускают подобную аппроксимацию. Другим упрощенным типом процессов являются так называемые ста- ционарные случайные процессы, которые характеризуются тем, что при любом т ЕТ вероятностное распределение последовательности x(£i), ..., x(tk) таково же, как и последовательности x(t\ +т), ..., x(tk + r). Если же для этих двух последовательностей оказываются равными лишь первые и вторые моменты случайных величин (т.е. математическое ожидание и ко- вариационная функция), то процесс называют слабо стационарным или стационарным в широком смысле. Заметим, что стационарный процесс называется эргодическим, если почти для всех ш: т Ex(t) = / x(t,w)dP(w) = lim — / x(t,u)dt, (1.12) J т-юо 2T J П -T и процесс называется нормальным (или гауссовым), если совместное рас- пределение случайных величин x(£i), ..., x(tk) является нормальным для каждого к и всех U G Т, г = 1, ...,&. Нормальный процесс вполне опре- деляется своим математическим ожиданием mi — Ex(ti), г = l,...,fc и ковариациями: Пз = rx(U,tj) = cov[x(ti),x(tj)] = E[x(U) - mi][x(tj) - rrij]T. (1.13)
Для стационарного нормального процесса математическое ожидание постоянно, а ковариационная функция зависит только от (s — t). По существу почти во всех задачах теории управления со случайны- ми возмущениями эти случайные возмущения моделируют винеровским процессом, или процессом броуновского движения. Движение "броунов- ской" частицы происходит под влиянием многочисленных частых столк- новений, в связи с чем можно предполагать справедливой центральную предельную теорему, согласно которой движение частицы подчиняется нормальному распределению. Можно также допустить, что статистиче- ские свойства распределения на интервале (£, t + т) такие же, как и на интервале (s, s + г), т.е. что на непересекающихся интервалах распреде- ления независимы и трение при движении отсутствует. В указанном при- ближении подобный процесс w(t) можно определить следующими усло- виями: 1) w(0) = 0, 2) w(t) — нормальный процесс, 3) Ew(t) = 0 для всех t > О, 4) процесс имеет независимые стационарные приращения. Таким образом, винеровский процесс — это стационарный нормальный процесс с независимыми приращениями с нулевым начальным условием w(t) = О и нулевым математическим ожиданием при всех t (E(w(t)) = 0). Однако все же трудно согласиться как с тем, что винеровский процесс является удовлетворительной моделью броуновского движения, так и с тем, что винеровская модель случайного процесса является удовлетвори- тельной моделью случайных возмущений в моделях движения управляе- мых систем. Основанием для подобных сомнений прежде всего является то, что производная dw/dt ("белый шум") от винеровского случайного процесса с вероятностью единица всюду бесконечна, т.е. с вероятностью единица броуновская выборочная функция нигде не дифференцируема, а следовательно, эта функция имеет бесконечную вариацию (в отличие от функций ограниченной вариации, дифференцируемых почти всюду). И хотя броуновские выборочные функции в модели непрерывны, локально ведут они себя далеко не регулярно. Это следует уже из того, что диспер-
сия разности w(t + ft) — w(t) равна с2 ft (а такое приращение, как правило, имеет порядок ft1/2, а не ft, как это бывает в случае гладких выборочных функций). Убедимся, что корреляционная функция r(t,s) и дисперсия r(t,t) для процессов с независимыми приращениями линейно зависят от вре- мени. Для процесса {x(t)} с независимыми или ортогональными (т.е. некоррелированными) приращениями x(t) — x(s) введем в рассмотрение функцию F(t), определяемую через ковариационную функцию: F(t) = cov[x(t),x(t)] = r(t,£). Если процесс имеет стационарные приращения, т.е. если распределение x(t) — x(s) зависит только от t — s, то и разность F(t) — F(s) (которую в этом случае обозначим через F\(t — s)) зависит тоже только от t - s, так что Fx{t -s) = F(t) - F{s) и Fx(t) = F(t) - F(0) или Fi(s) = F(s) — F(0), получаем, используя эти последние равенства: Fx(t + s) = Fi[(t + 25) - s] = F(t + 2s) - F(s) = F(t + s) - F(0) = F(t + s) - [F(t) - F1(t)] = Fi(*) + [F(t + s)- F(t)] = Fi(t) + [F(8) - F(0)] = Fx(t) + ВД, 0 < 8 < t. (1.14) Однако подобное представление в классе непрерывных функций до- пускает лишь линейная функция, а следовательно, F\(t) должна иметь вид Fi(t) = At. Используя свойства ковариационной функции и тот факт, что x(s) — x(t) и x(t) не коррелируют, получаем (при s > t): r(s, t) = cov[x(s), x(t)] = cov[x(t) + x(s) - x(t), x(t)] = c4 (1.15J cov[x(t),x(t)] + cov[x(s) — x(t),x(t)] = cov[x(t),x(t)], где учтено, что дисперсия суммы двух независимых случайных величин x(s) — x(t) и x(t) равна сумме их дисперсий. Отсюда следует, что ковариационная функция процесса с ортогональ- ными (т.е. независимыми) приращениями имеет следующие свойства:
r(s,t) = \ ГМ' 6СЛИ 8-г\ = \ r(t,t), если t< s J (1.16) cov[x(min(s, t)),x{min{s, t))]. Таким образом, поскольку винеровский процесс имеет независимые стационарные приращения и w(0) = 0, то для него получаем varw(t) = ct и r(s,£) = cov[w(s),w(t)] = cmin(s,t), (1-17) т.е. r(s,t) = ct или cs. Величина с называется параметром дисперсии. Если с = 1, то процесс называется стандартным броуновским движением. 2. Свойства корреляционных функций Уже из определения двойного интеграла следует, что корреляционная функция симметрична, т.е. rx(t,t') = rx(t',t), Это означает, что если на плоскости (£, t') построить биссектрису первого координатного угла t'Ot, то в точках, зеркально отражающихся относительно этой биссектрисы значения корреляционной функции одинаковы. Далее, абсолютная величина |r(M')l < \/r(t,t)r(t't') = ^/Dx(t)Dx(t'). Это означает, что значение корреляционной функции в любой точке А не превосходит среднего геометрического из ее значений в точках пересече- ния биссектрисы с прямыми t = const и if = const, проходящими через эту точку. Для рассмотренных в предыдущем разделе процессов корреляционная функция оказывается положительно определенной в том смысле, что для любой неслучайной вещественной функции f(t) выполняется неравенство J = J J rS, t')f(t)f(t')dtdt' > 0. (2.1)
Это свойство является следствием коммутативности операции (Е) взя- тия математического ожидания и операций интегрирования по времени, что позволяет представить интеграл J также и в виде J = E J J [х- Mx(t)][xf - Mx\t')]f(t)f(t')dtdt'. (2.2) А этот последний интеграл распадается на произведение совершенно одинаковых интегралов J = Е{ [J> - Mx(t)]f(t)dt] Е [/[*' - M*(f )]/(f )df]} = (2 3) E[J[x(t)-Mx(t)}f(t)dt]2>0. Любая корреляционная функция не изменяется от прибавления к слу- чайной функции любой неслучайной функции, а при умножении слу- чайной функции на любую неслучайную функцию f(t) корреляционная функция умножается на произведение f(t)f(tf). Можно строить корреляционную функцию не обязательно в отношении рассматриваемой случайной функции I(t), айв отношении к другому случайному процессу Y(t), так что возникает корреляционная функция, которую называют взаимной, имеющая вид rxy(t,t') = J j[x - Mx(t)][y ~ My(t')]dF(x,t,y,t'). (2.4) Подобная взаимная корреляционная функция не изменяется при од- новременной перестановке в ней аргументов и индексов, т.е. rxy(t,tf) = Если задана сумма двух случайных функций Z(t) = X(t) + l^(t), то, очевидно, математическое ожидание этой суммы равно сумме математи- ческих ожиданий слагаемых. Что же касается корреляционной функции суммы двух случайных функ- ций z = х+у, то операция E[z(t) — Mz(t)][z(tf) — Mz(t')] после выполнения перемножения, очевидно, приведет к четырем интегралам, определяю- щим две взаимные и две обычные корреляционные функции:
rz(t,if) = E{[(x(t) + y(t)) - (Mx(t) + Mv(t))][(*V) + y(*0) - (Mx{t') + My(f))]} = E{[(x(t) - Mx) + (y(t) - My)][(x(f) - Mx.) + (y(f) - My)] = E[(x(t) - Mx)(x(t') - Mx,)] + E[(y(t) - My)(y(t') - My,)]+ E[(x(t) - Mx)(y(t) - My)} + E[(y(t) - My)(x(t') - Mx,)) = rx(t, t') + ry(t, t') + rxy(t, t') + ryx(t, t'). (2.5) Аналогичным образом можно построить взаимную корреляционную функцию любого числа слагаемых. Широкий класс практически важных случайных функций можно диф- ференцировать. Рассмотрим случайную функцию X(t), любые реализа- ции которой являются гладкими дифференцируемыми функциями. Обо- значим Y (t) = dX(t)/dt и вычислим математическое ожидание случайной величины Y(t). Если при At —► 0 законна операция [X(t + At) — X(t)]/At, то можно выполнить и операцию [Mx(t + At) — Mx(t)]/At. А это приводит нас к операции дифференцирования математического ожидания Mx(t). И мы можем сказать , что математическое ожидание производной от случайной функции равно производной от ее математического ожидания, т.е. эти операции можно менять местами. Вычислим теперь корреляционную функцию от производной от слу- чайной функции Y = dX(t)/dt: r«(t, t') = Е [(£[x(t) - Mx(t)]) (&[*(0 - MS')])} = (2 6) &?E[x{t) - Mx{t)\W) - MS')] = ^W1- Аналогично определяется взаимная корреляционная функция пары — функции X(t) и ее производной У: rxy(t, if) = E [(х - Mx(t))Mx ~ М*Ш = (2 7) &Е[х - Mx(t)][x ~ Mx{t)] = *$£.
Пусть X(t) — случайная функция, a f(s,t) — заданная детерминиро- ванная функция, и пусть известны Mx(t) и rx(t, t'). Нетрудно подсчитать, учитывая коммутативность операций математического ожидания и инте- грирования по времени и учитывая свойства корреляционной функции, ь что случайная величина Y(s) = J f(s, t)X(t)dt имеет следующие матема- а тическое ожидание и корреляционную функцию: ъ Му(з) = f f(s,t)Mx(t)dt, (2.8) ь ъ ry(s,s') = JjE[x(t) - Mx(t)][x(tf) - Mx(t)]f(8,t)f(JJ)dtdtf = E j f(s, t)[x - Mx{t)]dt j /(*', t')[x - Mx(t')]dt' (2.9) f J f(s,t)f(sftf)E[x - Mx(t)][x - Mx(tf)]dtdtf = fff(s,t)f(s',t')rx(t,t')dtdt'. Аналогично можно получить следующую формулу для взаимной кор- реляционной функции rxy(t, s) переменных X и У, где Y — это интеграл отХ: ь rxy(t, s) = j f(s, t')rx(t, t')dt'. (2.10) a Для дисперсии получаем Dy(s) = ry(8, s) = j j f(s, t)f(s, t')rx{t, t')dtdt', (2.11) откуда видно, что для расчета дисперсии интеграла от X(t) требуется знать корреляционную функцию rx(t,tf). 3. Понятие спектральной плотности Рассмотрим понятие спектральной плотности. Пусть x(t) — стационар- ный в широком смысле случайный процесс, в котором Ex(t) = Mx{i) и
ковариационная функция rx(t). Поскольку ковариационная функция яв- ляется неотрицательно определенной, то по теореме Бохнера для процесса с непрерывным временем ее можно представить в виде 00 £>(«) = г(*)= f e^dFiw), (3.1) —ОО а для процесса с дискретным временем — в виде r(t) = f e^dFiw), (3.2) — 7Г где F — неубывающая функция, называемая спектральной функцией рас- пределения случайного процесса, которая может быть разложена на три компоненты: абсолютно непрерывную функцию Fa, дискретную непре- рывную Fd и сингулярную непрерывную Fs. Если Fs = Fd = 0, а функция Fa имеет плотность, т.е. dFa/dw = ip, то для процесса с непрерывным временем ОО ОО r(t) = f e^VHdw, <р(ш) = y I е_<ы*г(*)<Й, (3.3) — ОО —ОО а для процесса с дискретным временем /1 е^М^ Ф) = ^ Е г(п)е-™. (3.4) _ п=—ОО — 7Г Очевидно, D(x) = varx = r(0) = JcfF(a;), где интеграл имеет понят- ные пределы для случая непрерывного и дискретного времени. Отсюда следует, что сумма элементарных дисперсий, распределенных по всему диапазону частот, задает дисперсию случайного процесса. Очевидно, пло- щадь под кривой спектральной плотности равна общей дисперсии процес- са. Стационарный случайный процесс можно разложить на три процес- са — отвечающие абсолютно непрерывной, сингулярной непрерывной и
дискретной составляющей спектральной функции распределения: x(t) = xa(t) + xd(t) + xs(t). (3.5) Если функция Fd имеет конечное число скачков, то процесс х& состоит из конечной суммы гармоник. Следовательно, этот процесс чисто детер- минированный. Но и в случае счетного числа гармоник он тоже является детерминированным. Процесс xs тоже чисто детерминированный. Только процесс ха может быть как детерминированным, так и недерминирован- ным. Стационарный в широком смысле процесс с функцией F(u>) = oj, т.е. с функцией плотности ip{oS) = dF/du = с = const, называется белым шу- мом. Другими словами, белый шум — это производная от винеровского процесса (v = dw/dt)y причем cow = E[v(t+h)v(t)] = J-функция Дирака, а ее преобразование Фурье (т.е. спектральная плотность процесса белого шума) есть константа. Отсюда, между прочим, следует, что средние мощ- ности различных частот колебаний в этом разложении одинаковы, что и породило название"белый шум". (Как показывается ниже, марковские диффузионные процессы оказываются результатом решения стохастиче- ских дифференциальных уравнений, возмущением в которых является белый шум). В случае белого шума F^ и Fs равны нулю и для дискретного времени получаем г(п) = } eiTUjJcdu = £е*П7ГаГ„ = V -* (3.6) ^-[cosna; + ismnu]^ = ^[sinn7r — sin(—nn)] = ^sinnn. Таким образом, для белого шума с дискретным временем имеем: г(п) = 2с7Г при п=0 и г(п) = 0 при остальных значениях п. Отсюда следует, что значения процесса белого шума в различные моменты времени не коррелированы, а для нормального белого шума также и независимы, т.е. это чисто случайный процесс.
Однако в случае непрерывного времени интеграл, определяющий r(t) для случая белого шума при <р(и) = с, обращается в бесконечность. По- скольку преобразование Фурье от постоянной величины означает распре- деление всей массы в начале координат, т.е. является ^-функцией Ди- рака, то формально ковариационная функция белого шума имеет вид r(t) = 2cir5(t). Так что и в случае непрерывного времени белый шум некоррелирован. Несмотря на бесконечность дисперсии во всей полосе частот, белый шум используется для моделирования случайных процессов с постоян- ной спектральной плотностью в ограниченной полосе частот, хотя в этом случае процесс уже не оказывается некоррелированным. 4. Стохастический интеграл Пусть требуется вычислить интеграл от детерминированной функции по стохастическому процессу y(t) с независимыми нормальными прираще- ниями. В частном случае процесс y(t) может быть винеровским процессом ги(£), который, как уже указывалось выше, непрерывен с вероятностью 1, но, однако, имеет неограниченную вариацию. Если функция f(t) — де- терминированная функция ограниченной вариации, то интеграл от нее можно определить следующим образом ь ь j f(t)dy{t) = f{b)y(b) - f(a)y(a) - jy(t)df(t). (4.1) a a Интеграл в правой части существует почти для всех выборочных функ- ций, а следовательно, существует интеграл и слева. Однако подобный ин- теграл не обобщается на случай, когда не только y(t), но и f(t) — слу- чайный процесс. Когда f(t) — детерминированная функция, более есте- ственно определить интеграл стандартным образом: J = J f(t)dy(t) = lim £ f(n)(v(UH) - y(U)). (4-2)
Можно вычислить математическое ожидание и дисперсию этого инте- грала: EJ = lim^2f(n)E\j,(t^i) - у(и)} = J f{t)dmy(t), (4.3) (4.4) D(J) = varJ = varJ2f(jd[y(ti+i) - yfa)] = E f2(Ti)[r(ti+1) - rfo)] = / f2(r)dr(r),i -> oo.) i Пусть w(t)- броуновское движение на интервале Т = (О, Т). Определим интеграл Римана-Стилтьеса в виде суммы / ' f(r)dw(r) = lim V/(t*)Kt,) - Цт^)], (4.5) IIAIHO^ где Tk-i < rl < тк, s0 = r0 < n < ... < rm = t, \\A\\ = max (тк - n-i)- l<k<m Этот интеграл существует, если, например, f(t) — детерминированная функция. Однако этот интеграл перестает существовать, если f(t) —случайная функция, например равная w(t). Чтобы доказать это, построим "нижний"(о/о) и "верхний" (J\) интегралы Римана-Стилтьеса, полагая в (2.1) соответственно т£ = г и т£ = Тк-i и вычисляя разность Н = J\ — Jq между этими двумя интегральными суммами m EH = EJ2 {w(n)[w{Tk) - wfa-i)] ~ w(Tk-i)[w(rk) ~ wfa-i)]} = k=i 77i m E £ [w(Tk) - W{Tk^)f = Я £ r,l(Tk - Tfc-x) = k=l k=\ m E(rfc-rfc_1)E(7?2) = (f-S)C; ife=i (4.6) здесь в последних равенствах использовано свойство независимости при- ращений процесса w(t) и нормальности этих приращений, задаваемых гауссовскими случайными величинами щ, удовлетворяющими условиям
Ещ= О и Erjl = 1 (заметим, что для винеровского процесса E[w(rk) — w(rk_i)]2 = Tk-Tk-i). Для обоснования полученого результата подсчитаем еще и ЕН2, так что окончательно получаем т EH = ^2(rk-Tk.1)=t-s, (4.7) к=1 тп ^2 = E«)(rA-rfc_o2+ к=\ Е Е[гЦг$]{тк - Tk-iXn - ты), (4.8) кфг lim EH2 = (t- s)2. Поскольку varrj = EH2 — (EH)2 —> 0, то H сходится в среднеквадра- тичном при к —> оо к ненулевой постоянной (t — s). Итак, для стохастических интегралов Jo и J\ найдено, что N Я(<Л - Jo) = UmE^2[w(ti+1) - w(U)]2 = t-s, (4.9) г=1 т.е. интегралы зависят от выбора точки т^, а следовательно, стохастиче- ский интеграл не определяется единственным образом. Можно опреде- лить континуум подобных интегралов формулой EH = Ja = (1 - a)J0 + aJb 0 < а < 1. (4.10) Среди этих интегралов нижний интеграл Jo называется интегралом Ито, а средний интеграл Jo,5 — интегралом Стратоновича. Интеграл Ито обладает следующими свойствами: Ejf(t)dy(t) = jE(f(t))dm(t), cav[J f(t)dy(t), J g(t)dy(t)] = J E[f(t)g(t)]dr(t), означающими, что операции математического ожидания и интегрирова- ния перестановочны; в то же время все остальные интегралы Ja при всех остальных а этим свойством не обладают.
Однако у интеграла Стратоновича имеется то преимущество перед остальными определениями интеграла (при а ф 1/2), что только для него справедлива стандартная формула интегрирования по частям. 5. Стохастические дифференциальные уравнения С интуитивной точки зрения случайно возмущенный процесс представ- ляется возможным моделировать, например, дифференциальным уравне- нием dx/dt = х = f(x, t) + v(t), (5.1) в котором f(x,t) — детерминированная функция вектора х переменных состояния (фазовых переменных) и времени £, a v(t) — случайный процесс с нулевым математическим ожиданием (в случае ненулевого математиче- ского ожидания его можно было бы внести в функцию / и тем самым свести задачу к рассматриваемому случаю). Доступной для исследования современными методами стохастической теории управления является модель, в которой следует потребовать: 1) независимости v(t) и v(s) при t ф 5, иначе вероятностное распределение dx/dt зависело бы не только от текущего состояния, но и от его предыс- тории; 2) чтобы случайная величина v(t) (а следовательно, и dx/dt) име- ла конечную дисперсию и была непрерывна в среднеквадратическом при всех t Е Т; 3) £[?;(£)] = 0. При этих условиях можно доказать, что JE[v2(t)] = 0. Но поскольку процесс v(t) равен нулю в среднеквадратическом, то он не влияет на решение уравнения (5.1), т.е. влияние случайной переменной v на процесс (5.1) несущественно. Подобный вывод получился вследствие слишком жестких требований к процессу, в основном, вследствие требо- вания конечности дисперсии процесса v(t). Чтобы получить корректную стохастическую модель, следует несколько ослабить требования.
Пусть v(t) —случайный процесс с независимыми приращениями. Сна- чала вместо дифференциальной рассмотрим конечноразностную аппрок- симацию модели (5.1): x(t + К) - x{t) = /(х, t)h + v(t + К) - v(t) + o(h). (5.2) Если условное распределение приращения v(t + К) — v(t) при заданном x(t) нормально, то это приращение можно представить в виде а(х, t) [w(t+ h) — w(i)], где w(t) — винеровский процесс (с нулевым математическим ожиданием и дисперсией, равной К). Тогда вместо уравнения (5.2) можно рассматривать следующее уравнение x(t + h) - x(t) = f(x, t)h + а(х, t)[w(t + h)- w(t)] + o(/i), (5.3) для которого получаям E[x(t + h)- x{t)] = f(x, t)h + o(/i), var[x(t + h) - x(t)] = a2(x,t)E[w(t + h) - w(t)]2+ o(h) = ha2(x,t) + o(h). Дисперсия приращения винеровского процесса пропорциональна Л, а не h2. Это связано с тем, что производная от винеровского процесса не существует, а следовательно, невозможно разделить уравнение (5.3) на h и устремить затем h к нулю. Однако можно формально допустить, что h —► О в уравнении (5.3), что приводит к следующему дифференциальному уравнению (в дифференциалах) dx = /(#, t)dt + сг(х, t)dw, (5.4) называемому стохастическим дифференциальным уравнением. Поскольку производная dw/dt = e(t) выражает собой непрерывный белый шум, то уравнение (5.4) формально можно переписать также и в виде
dx/dt = /(я, t) + a(x, t)e(t). (5.5) Таким образом, нетривильную стохастическую модель удается полу- чить только в случае, если предположить, что случайная помеха не имеет конечной дисперсии и подобна белому шуму. Однако подобное предполо- жение выглядит очень странно с точки зрения физических приложений. Правда, имеется ряд приложений, особенно в теории связи, где нежела- тельно иметь дело с производными от сигналов и где модель типа (5.3), (5.4) оказывается вполне уместной. Разностное уравнение (3.3) приводит к дифференциальному уравне- нию (3.4). Однако можно получить совсем иной результат, если исходить из следующего разностного уравненния x(t) - x(t -h) = f(x(t),t)h + a(x(t),t)[w(t)- w(t - h)] + 0(h) Пусть функция / непрерывно дифференцируема, а функция а дважды непрерывно дифференцируема. Разность [w(t) — w(t — h)] не зависит от x(t — /i), а зависит от x(t). Раскладывая правую часть равенства (3.6) в ряд в окрестности точки (x(t — h),t — h) = у и оставляя затем только члены порядка не выше h (имея в виду, что разности [x(t) — х(t — h)] и [w(t) — w(t — h)] имеют порядок vft, получаем x(t) - x(t -h) = [f(y) + fx(y)(x(t) - x(t - h)) + fth]h+ [<?(y) + Ox{y){x{t) - x(t - h)) + at{y)h][w{t) - w(t - h)] + o(h) = f{y)h + a(y)[w(t) - w{t - h)} + cx{y)[w{t) - w(t - h)f + o{h). Вычисляя математическое ожидание и дисперсию, получаем
E[x(t) - x(t - h)} = f(y)h + ax(y)a(y)h + о(Л), шг[ж(*) - ж(* - h)] = a2(y)h + о(Л). Таким образом, в зависимости от того, в какой форме берется раз- ностное уравнение, получается различное значение среднего приращения процесса. Если использовать смешанную разность Sx(t) = (1 - a)[x(t + h) - x(t)] + a[x(t) - x(t - Л)], то математическое ожидание от приращения равно E[dx] = /(#, t)dt + аах(х, t)a(x, t)dt, а дисперсия во всех случаях одинакова и равна var(dx) = a2(x,t)dt. Итак, среднее приращение совпадает с интуитивно ожидаемым значе- нием f(x,t)h в случае использования прямых разностей и совпадает со значением (5.7) в случае использования обратных разностей. Интегриро- вание возникающих дифференциальных уравнений приводит к различ- ным понятиям интеграла. Если подходящим образом определить понятие интеграла, то уравне- ние (5.4) можно представить в следующем интегральном виде t t x(t) = x(to) + / f(x(s), s)ds + / <t(x(s), s)dw(s). (5.8) to ^0 В (5.8) интегралы можно рассматривать в виде интегралов Ито, Стра- тоновича или в виде (4.10) при 0 < а < 1. Независимо от используемого понятия интеграла необходимо выяснить условия, при удовлетворении которых уравнение (5.8) имеет единственное решение.
Допущения 5.1. Пусть функции f(x,t) и a(x,t) измеримы по Боре- лю и удовлетворяют в ограниченных областях своего изменения следу- ющим условиям: Существуют постоянные С\ и С2, с которыми имеют место нера- венства |/(М)| < Ci(l + N), \*(x,t)\ < Ci(l + И); \f(x,t)-f(y,t)\<C2\x-y\, \a(x,t)-a(y,t)\<C2\x-y\. Теорема 5.1. Пусть удовлетворяются допущения 3.1 и E\x(t)\2 < оо. Тогда решение уравнения (3.8) существует и единственно в том смысле, что если x(t) и y(t) такие два решения уравнения (3.8), что y(t) = x(t), то с вероятностью 1 выборочные функции процессов х и у совпадают. Доказательство этой теоремы проводится методом последовательных приближений по классической схеме доказательства решения обыкновен- ного дифференциального уравнения. Решение уравнения (5.8) конечно же зависит от используемого поня- тия интеграла. Если используется интеграл Ито, то, вследствие его свой- ства (4.11) перестановочности операций интегрирования и математиче- ского ожидания, а также с учетом нулевого математического ожидания от винеровского процесса, получаем t Ex(t) = Ex(t0) + Е f(x(s),s)ds. to Далее, имеем E[x(t + К) - x(t)\x(t)] = f(x, t)h + o(h). В случае же интеграла Ja, определенного выражением (4.10), получаем
E[x(t + h) - x(t)\x(t)] = [f(x, t) + aax(x, t)a(x, t)] + o(h). Однако в любом случае ковариация приращений равна cov[x(t + h) — x(t)\x{t)} = a(x,t)aT(x,t)h + o(h). Интеграл Ито удобен, разве что, тем, что в нем величина /(#, t)h опре- деляет среднее значение приращения [x(t + К) — #(£)], что в точности со- гласуется с интуитивно ожидаемым представлением об этом приращении. Наиболее простым является случай, когда уравнение (5.4) оказывается линейным: dx = A(t)xdt + dw, (5.9) где х — n-мерный вектор, w — винеровский процесс с ковариацией при- ращений Rdt, А —квадратная матрица п х п, причем матрицы А и R непрерывны по времени. Если уравнение (5.9) рассматривать как сред- неквадратический предел разностного уравнения, то оказывается неваж- ным, какие разности использовать — прямые или обратные. Если допустить, что переменная w в уравнении (5.9) имеет ограничен- ную вариацию, то решение этого уравнения можно представить в виде t dx = Ф(*, to)x(t0) = / </>(t, s)dw(s), (5.10) to где функция Ф удовлетворяет уравнению ^^ = Л(*)Ф(*. «о)6 Ф(«ь, to) = /• (5.11) Заметим, что если для линейных стохастических систем вида (5.9) условные вероятностные распределения будущего состояния x(t) оказы- ваются нормальными, то для нелинейных дифференциальных уравнений вида (5.4) они уже не являются нормальными, а удовлетворяют диффе- ренциальному уравнению в частных производных параболического типа.
Если через р(х, t\ Хо, щ) обозначить плотность вероятности состояния х в момент t при условии, что в момент £q процесс находится в состоянии Xq, то это уравнение, называемое уравнением Фоккера—Планка, или прямым уравнением Колмогорова, имеет вид дР = Lv= V^ WO ■ 1/2 V" d2(paikajk) dt Р 2— дхг 12-*, dXidXj г=1 i,j,k=l J с начальным условием р(х, t\ х0, t0) = S(x — Xq). 6. Стратегии управления, минимизирующие дисперсию Рассмотрим задачу управления простейшей линейной стохастической системой с одним входом г^(£), представляющим собой управляющую пе- ременную, и одним выходом у(£), определяющим состояние системы в мо- мент t. Предположим, что на систему действует нежелательное случайное возмущение е(£), представляющее собой последовательность независимых нормально распределенных случайных переменных с параметром (дис- персии) с, \с\ < 1. Рассматривается дискретный процесс, в котором неза- висимая переменная (время) t принимает целые значения t = 1,2, ...,Т. Состояние системы описывается следующим линейным уравнением в дис- кретном времени: y(t + 1) = -ay(t) + u{t) + e(t + 1) + ce(t). (6.1) Ищется закон управления u(t), минимизирующий дисперсию Ey2(t + 1). В этом уравнении предполагается, что e(t + 1) не зависит от у(£), u(t) и е(£), а управление u(t) является функцией предшествующих измерен- ных переменных состояния у(£), y(t — 1),... и предшествующих значений управления u(t — 1), u(t — 2),.... Как следует из уравнения (6.1), измене- ние u(t) в момент времени £, изменяет состояние y(t + 1) в следующий
момент. Интуитивно ясно, что если в уравнении (6.1) в каждый момент t использовать управление u(t) = ay(t) - ce(t), (6.2) то из этого уравнения следует y(t + l) = e(t + l), (6.3) откуда, в свою очередь, получаем u(t) = (a-c)y(t). (6.2а) Учитывая, что величина e(t+1) не зависит от ?х(£), y(t) и е(£), а следо- вательно, на нее не может явно воздействовать управление г^(£), с учетом управления (6.2) получаем из уравнения (6.1), что дисперсия Ey2(t + \) = Ee2(t+1) оказывается теоретически возможной минимальной дисперсией процесса у в любой момент t. Если подставить предполагаемое оптимальное управление (6.2а) в урав- нение (6.1), получаем y(t + 1) - e(t + 1) = -c[y(t) - e(t)]. (6.4) Полагая в этом уравнении [у(0) — е(0)] = А в момент t = 0, получаем, решая уравнение (6.4) итерационно: у(1) - е(1) = -сЛ, у(2) - е(2) = -ф(1)- е(1)] = а(-с)2, у(£) - е(£) = А(-с)* -^ 0 при t -► оо. Поскольку \с\ < 1, то y(t) = e(t) при t —> оо. Так что в установившемся режиме выходная переменная также имеет минимальную дисперсию. С учетом управления (6.2) величину u(t)+ce(t) — ay(t) можно рассмат- ривать как оптимальную среднеквадратичную оценку состояния y(t + 1),
полученную на основе предшествующей информации в момент t. Так что ошибка управления равна ошибке упреждения e(t + 1) (т.е. оптимальное управление оказывается тесно связанным с упреждением), причем соглас- но (4.3) оптимальная величина выходной переменной оказывается белым шумом. Поскольку стохастическая оптимизация оказалась связанной с задачей оптимального упреждения, то рассмотрим эту последнюю задачу подроб- нее. Устранив управляющую переменную в уравнени (6.1), получаем y(t + 1) = -ay(t) + ce(t) + e(t + 1), (6.5) где e(t) и e(t + 1) — независимые нормально распределенные случайные переменные. Если третий член e(t+1) в уравнении (6.5) не зависит от на- блюдений переменной состояния в предшествующие моменты, то первый член ay(t) непосредственно определяется из наблюдений, а второй ce(t) может быть найден итерационно и выражен через результаты наблюдений переменных состояния у(£), y(t — 1),... непосредственно с помощью урав- нения (6.5), которое можно записать в следующем виде, если добавить и вычесть член cy{t): e(t + 1) = y{t + 1) - c[e(t) - y(t)] + (a - c)y(t). Итерационно решая это уравнение, получаем е(1) = у(1) - с[е(0) - у(0)] + (а - ф(0), е(2) = у(2) - ф(1) - с(е(0) - у(0)) + (а - с)у(О) - у(1)] + (а - с)у(1) = 1/(2) + (-с)2[е(0) - у(0)] + (а - с)(-с)у(0) + (а - с)у(1), e(t) = »(*) + (-с)«[е(*о) - у(*о)] + (а - с) Е(-с)'-(4+1)у(г). Поскольку \с\ < 1, то второй член в правой части последнего уравнения стремится к нулю при to —» — оо. А следовательно e(t) можно выразить через измеряемые предшествующие состояния системы
e(t) = y(t) + (a-c)J2(-c)*-i-1y{i). i=—oo Это позволяет выразить оценку у = y(t+l\i) упреждающего состояния y(t + 1) в момент t через измерения состояния, выполненные в предше- ствующие моменты времени. Проще всего получить подобную оценку не непосредственно, а с использованием оператора L~l сдвига назад во вре- мени, действаующего следующим образом: x(t) = L~lx(t + 1). Применяя этот оператор к уравнению (6.5), получаем (1 + cL-l)e(t) = (1 + aL-l)y(t), (4.5а) а если применить его к уравнению (6.5), переписанному в виде y(t + 1) + ay(t) = [e(t + 1) + ae(t)] + [ce{t) - ae(t)], то имеем [1 + aL~l}y{t + 1) = [1 + aL-l]e{t + 1) + [c - a]e(t). Отсюда следует y(t + 1) = e(t + 1) + (1(C+~2-ie(*)' (6-6) Вычитая из обеих частей этого равенства оценку у упрежденного (на один шаг вперед) состояния и принимая во внимание, что случайная пе- ременная e{t +1) не зависит от всех предшествующих состояний, а следо- вательно, дисперсия суммы в правой части полученного уравнения равна сумме дисперсий, получаем E[y(t + l)-y]2 = E[e(t + l)]2 + E (с — а) , ч Л (6.7) Если y(t+l\t) = M+J*-iyft)) то дисперсия выражения (6.7) минимальна и равна
E[y(t + l)-y]2 = E[e(t + l)f = l. Следовательно, оптимальный одношаговый упредитель задается ра- венством y(t + l\t) = ^=^riy(t), (6.8) которое после перехода от операторной формы к естественной задается равенством y(t + l\t) + cy(t\(t - 1)) = (с- a)y(t). (6.8а) Ошибка построенного одношагового упредителя равна разности между уравнениями (6.6) и (6.8): y(t+l)-y(t+l\t) = e(t+l). Аналогичным образом можно вычислить двухшаговый (и вообще — многошаговый) упредитель. Для этого, предполагая, что наблюдения про- водятся до момента (t + 1), перепишем сначала уравнение (6.5) в опера- торной форме для моментов (t + 2) и (£ + 1): (1 + aL~l)y(t + 2) = (1 + L~l)e(t + 2). (6.9) В этом уравнении переменные e(t + 2) и e(t +1) не зависят от наблюде- ний, а все предшествующие им переменные могут быть выражены через результаты наблюдений состояния у(£), у(£— 1),.... Уравнение (6.9) можно переписать в форме (6.6) и провести над ним следующие элементарные преобразования:
y(t + 2) = e(t + 2) + £=*Le(t+l) = e(t + 2) + ^)Hc-a)aL-^(c-a)aL-^^t + ^ = e(t + 2) + («-«)(i-Hg-M-»(c-»)b-'e^ + x) = (6Л0) e(t + 2) + (c-a)e(t + l)-^e(t) = e(t + 2) + (c-a)e(t + l)-^y(t), где последний член получен в результате применения уравнения (6.5а). Поскольку случайные переменные е(£ + 1)ие(£ + 2)не зависят друг от друга и от предшествующих переменных, то дисперсия суммы в (6.10) равна сумме дисперсий, так что получаем E[y(t + 2) - y(t + 2\t)}2 = E[e(t + 2)]2 + (с - a)2E[e(t + 1)]2+ г / n i2 (6.11) ^[y(* + 2|*) + ^^y»W] • Дисперсия выражения (6.11), очевидно, будет минимальной и равной (1 + (с — а)2), если обратить в нуль последний член в правой части, т.е. если положить y(t + 2\t)+{f^1)y(t), (6.12) а это последнее уравнение, определяющее двухшаговый упредитель, мож- но переписать в следующем виде y(t + 2\t) + cy(t + l\t - 1) 4- a(c - a)y{t) = 0. Ошибка этого двухшагового упредителя, определяемая разностью меж- ду уравнениями (6.10) и (6.12), равна y(t + 2) - y{t + 2\t) = e(t + 2) + (с - a)e(t + 1). Подобным же образом можно найти fc-шаговый упредитель. Фильтр Калмана представляет собой решение задачи минимизации квадратичного функционала при ограничениях в виде линейных диффе-
ренциальных уравнений. Уравнением Эйлера в подобной задаче оказы- вается дифференциальное уравнение Риккати. Это уравнение в фильтре Калмана определяет дисперсию состояния системы. В следующей главе излагается совершенно другой подход к проблеме минимизации нежелательного влияния случайных возмущений на рас- сматриваемую динамическую систему. В основе этого подхода лежит тот факт, что любые динамические системы проектируются с целью выпол- нения тех или иных функций наилучшим образом с точки зрения выбран- ного максимизируемого или минимизируемого критерия качества. Однако эта естественная оптимизация всегда может быть использо- вана также и с целью минимизации влияния на эту систему случайных возмущений, причем выполнение этой полезной функции не требует зна- ния характера этих случайных возмущений, а следовательно, не требует и разработки каких-либо моделей этих случайных возмущений, и уж тем более не требует решения стохастических дифференциальных уравнений, по существу всегда не имеющих однозначного решения вследствие неодно- значности определения понятия интеграла для случайных динамических систем.
Глава 2. ОПТИМАЛЬНОЕ УПРАВЛЕНЕИЕ СЛУЧАЙНЫМИ ПРОЦЕССАМИ Одна из наиболее широко распростаненных традиционных задач, свя- занных с управлением случайными процессами, ставится как задача ми- нимизации дисперсии. Однако подобный подход с точки зрения приложе- ний трудно назвать сколько-нибудь удовлетворительным, поскольку даже само понятие дисперсии в теории случайных процессов оказывается по су- ществу далеко не однозначным, во-первых, потому, что понятие интегра- ла в применении к случайным процессам не представляется возможным определить однозначно без наложения на эти процессы предварительных весьма серьезных и притом совершенно искусственных ограничений. А во- вторых, потому, что само это понятие не характеризует случайный про- цесс с желательной для инженера определенностью. Но тогда как можно ожидать от подобного и аналогичных ему подходов какой-либо опреде- ленности (эффективности) в реализации управления этими процессами с желаемой точностью. Использование любых математическаих моделей случайных процессов неизбежно вносит в задачу минимизации возмущений лишь дополнитель- ные неопределенности, порождаемые самими математическими моделя- ми, а следовательно, превращает уже и сам процесс управления в нечно не более определенное, чем сам исходный неуправляемый случайный про- цесс, влияние которого на желаемую динамику мы пытаемся минимизи- ровать. В свете сказанного мы рекомендуем при изучении динамических си- стем, подверженных случайным возмущениям, не использовать стохасти- ческие дифференциальные уравнения, а, основываясь на невозмущенной модели движения, искать для этой последней (в смысле интересующего нас критерия качества) точный или приближенный синтез оптимального управления, т.е. управляющую функцию как функцию фазовых коорди- нат u(x(t)). А поскольку найти такую функцию в явном виде, как прави-
ло, не представляется возможным, то следует численно конструировать ее на основе предварительно рассчитанного достаточно богатого семей- ства оптимальных траекторий, каждая из которых ищется при разных начальных условиях. А в совокупности подобное семейство оптимальных траекторий позволяет обеспечить оптимальное (в смысле рассматривае- мого критерия качества) движение из разных состояний x(t), в которых динамическая система могла бы оказаться под действием случайных воз- мущений, в заданное постановкой задачи конечное состояние x(t\). На рассмотренном ниже первом примере объясняется как само понятие синтеза оптимального управления, так и оптимальное поведение движу- щегося объекта в условиях его случайных возмущений. Заметим, что теоретически хорошо обоснованная, но, к сожалению, да- леко не в полной (с точки зрения потребностей практики) форме теория оптимальных процессов приводится в книгах [7, 8]. А более полное изло- жение, ориентированное на инженерную практику, содержится в [9-11]. 1. Проблема поиска синтеза оптимального управления Приведем сначала некоторые наиболее элементарные теоретические результаты в отношении решения задач оптимального управления [7], представляемые приведенной ниже теоремой из [7] и примером, демон- стрирующим возможности использования синтеза оптимального управле- ния для управления случайно возмущенными динамическими системами. Пусть требуется найти оптимальную вектор-функцию управления u(t) = (u\(t),..., um(t)) и соответствующую ей вектор функцию фазовых коор- динат x(t) = (#i(£),... ,£п(£)), доставляющие максимум функционалу J = j /o(u, х, t)dt + F(x(to), to, x(ti),t!) (1.1) г при ограничениях
-тг = &i = fi(u,x,t), г = 1,п, и € U, teT=[to,ti], (1.2) at Gk(x(t0),t(hx(t1),t1) = 0, к = 1,8, (1.3) где гл : Т —► Q — измеримая (по Лебегу) вектор-функция, U — компакт в Rm\ отображение / = (/0, /i,..., fn)' Q х i?n х Т —► Rn+1 непрерыв- но по и и непрерывно вместе с частной производной по х\ функция |/| мажорируется на Т функцией Л(£)(|ж| + 1), где h(t) — интегрируемая (по Лебугу) функция; х : Т —► Rn —абсолютно непрерывная вектор-функция; функции F и Gk непрерывны. Теорема 1.1. Если задача (1.1)—(1.3) имеет решение (и, ж), то найдется ненулевая непрерывная на Т вектор-функция p(t) = (po,Pi{t),... ,pn(£)), Ро = const > О, удовлетворяющая почти всюду на Т уравнениям (Эйлера- Лагранжа) Pi = -^~, i = T^n, (1.4) OXi (где п Я = (р,/) = £р*Л (1-4о) к=0 это гамильтониан вариационной задачи (1.1)—(1.3), определяемый ска- лярным произведением вектора множителей Лагранжа р на вектор /), и краевым условиям (называемым условиями трансверсальности): где (I, G) — скалярное произведение (постоянного) вектора множителей Лагранжа I и вектора краевых условий G; гамильтониан Н непрерывен на Т, а в концах этого интервала удовле- творяет условиям
ад=<+¥. ,1б) оптимальное управление u{t) почти всюду на Т удовлетворяет условию (Вейерштрасса): Я = max Я. (1.7) Продемонстрируем, с одной стороны, применение этой теоремы (Прин- ципа максимума Понтрягина) для решения следующей простой вариаци- онной задачи, а с другой стороны, покажем, каким образом целесообраз- но подходить к изучению оптимизируемых динамических систем, подвер- женных случайным возмущениям, с помощью понятия синтеза оптималь- ного управления, получаемого предварительно для изучаемой задачи, в модели которой устранены случайные возмущения. Задача 1.1. Пусть материальная точка движется прямолинейно под действием управляющего ее движением ускорения u{t) (\u(i)\ < 1), возму- щаемого случайным ускорением w(t) (\w(t)\ < 1). Возмущенное движение описывается уравнением ^ = «(«) +«,(«). (1.8) Невозмущенную модель этого движения (т.е. в случае w(t) = 0) запи- шем в виде системы двух уравнений первого порядка: ~ж = Х2' it=u®' to = 0, h= ( ) Требуется перевести точку из произвольного начального состояния Gi = zi(0) - х\ = 0, Gi = ж2(0) - х\ = 0 (1.10) в конечное состояние G3 = x1(T) = 0, G4 = x2(T) = 0 (1.11)
за минимальное время Т, т.е. максимизировать функционал J = —Т. Решение. Уравнения (1.4) принимают вид pi = О, р2 — Р\ и имеют ре- шение р\ = С\ = const, рч = —C\t + Ci. Поскольку в рассматриваемой задаче оба конца траектории полностью фиксированы, то условия транс- версальности (1.5) не содержат полезной информации, а следовательно, не позволяют найти константы С\ и Сг- А так как конечный момент Т не фиксирован, то полезным для нахождения одной из этих констант может быть только второе условие в (1.6). Однако в данном случая в этом нет необходимости. Из условия (1.7) получаем, что оптимальное управление имеет вид u(t) = sign{p2(t)} = sign(C2 - C\t). (1.12) С учетом того, что рг(£) — линейная функция времени, которая может обращаться в нуль не более, чем в одной точке, получаем, что оптималь- ное управление для траекторий, начинающихся в произвольной точке фа- зовой плоскости (#i, хг), есть кусочно-постоянная функция со значениями ±1, меняющая знак не более одного раза. Следовательно, при любых на- чальных условиях все оптимальные траектории состоят из участков, на которых u(t) = 1 и (или) u(t) = -1. Подставляя пару этих оптимальных значений управления в систему уравнений (1.9), деля одно из уравнений этой системы на другое и интегрируя полученное уравнение, получаям, что на фазовой плоскости (хь^г) любая конкретная оптимальная траек- тория состоит не более чем из двух (поскольку возможен не более чем один момент переключения управления) участков парабол: zi = f + C3, х1 = -^ + С4. (1.13) Семейство кривых (1.13) в фазовой плоскости (гг^жг)» на каждой из ко- торых помечается оптимальное управление u(x,t) = ±1, называется син- тезом оптимального управления в задаче (1.9)-(1.11). Если теперь вернуться к исходному дифференциальному уравнению
(1.8), описывающему возмущенную динамическую систему, то нет необ- ходимости, к примеру, изучать это уравнение с позиций изложенной в предыдущей главе теории стохастических дифференциальных уравнений со всеми присущими этой теории огромными неприятностями. Даже если бы задача (1.8) была решена с позиций той или иной модели стохастиче- ской динамики, то практической пользы от нее было бы гораздо меньше, чем от полученного синтеза задачи (1.9), поскольку найденный синтез по- сле каждого возмущения \w(t)\ < 1 реализующегося текущего состояния (x\(t),X2(t)) гарантирует дальнейшее оптимальное движение к заданно- му конечному состоянию (хьЯ^) = (0,0) за минимальное время. Причем эта гарантия оптимального движения после каждого возмущения тра- ектории имеет место на всей фазовой плоскости, а следовательно, если, например, возможности управления U велики по сравнению с амлтитудой возмущений (т.е. если почти всегда U ^> |W(£)|), то имеется возможность наибыстрейшим образом попасть в начало координат с любой желаемой точностью. И при этом минимизация дисперсии в конечный момент Т теряет какой-либо смысл. А следовательно, если синтез оптимального управления найден, то при любых возмущениях траектории объект стремится в дальнейшем отсле- живать именно ту оптимальную траекторию которая ведет из реализо- вавшегося в данный момент t состояния в заданное конечное состояние. Если же поставить задачу оптимизации непосредственно в отношении стохастического уравнения (1.8), то получить "более оптимальное" ре- шение не удалось бы потому, что любые модели самих стохастических дифференциальных уравнений, как это демонстрируется в первой главе, весьма приближенны, а следовательно, неизбежно привносят в реальную динамику (1.8) дополнительные ошибки, связанные с ошибками модели- рования случайного процесса, помимо почти одинаковых возможных оши- бок, связанных лишь с реализацией оптимального решения как в случае использования модели (1.8), так и в случае использования модели (1.9).
Отсюда следует, что применение теории случайных процессов и сто- хастических дифференциальных уравнений едва ли может быть целесо- образным, когда рассматривается процесс, оптизируемый в каком-либо естественном для него смысле. Гораздо более практичной оказывается оптимизация (с получением синтеза оптимального управления) упрощен- ной базовой детерминированной динамической системы (в рассмотренном случае — системы (1.9)), составляющей основу исходной возмущенной динамической системы (1.8). Причем в качестве базовой динамической системы может быть выбрана, к примеру, усредненная математическая модель (т.е. математическое ожидание), в отношении которой и следует проводить синтез оптимального управления (без какого-либо обращения к теории стохастических дифференциальных уравнений). Причем, как демонстрируется в следующем разделе, искать, однако, следует все же не оптимальные управления гг(£), в классе которых мак- симум (или минимум) оптимизируемого функционала зачастую не дости- гается, а гораздо более общие управления q(u,t), гарантирующие дости- жение глобального максимума, причем сами эти обобщенные управления представляют собой по существу некоторые (относительно простые) слу- чайные процессы. 2. Обобщённое оптимальное управление К сожалению, даже в классе измеримых по Лебегу управляющих функ- ций u(t) максимум функционала (1.1) зачастую не достигается. На эту возможность указал и привел соответствующий пример еще Вейерштрасс в конце 19-го века. Гильберт, однако, заметил, что любая задача должна иметь решение, если под решением понимается соответствующий постав- ленной задаче класс функций. И более чем через 50 лет (в 1933 г., [8]) Л.Янг нашел такой класс функций, в котором любая задача вариацион- ного исчисления (оптимального управления) имеет решение. Это решение
обеспечивает управление, которое называют обобщенным или ослаблен- ным управлением, или скользящим режимом. Обобщенные управления важны не только для теории вариационного исчисления, но и для практики: чаще всего они используются в элек- тронике и автоматике. Обобщенные управления и соответствующие им траектории указали именно тот класс кривых, в котором вариационная задача всегда имеет решение (конечно, если совместны связи и ограниче- ния). Обнаружение их подтвердило правоту Гильберта. "Обобщённым" управлением мы будем называть функцию q(u,t), ко- торая почти при каждом фиксированном t £ Т представляет собой функ- цию распределения вероятности (вероятностную меру) q(-jt) на множе- стве С/, а при каждом фиксированном и € U представляет собой обычную измеримую по Лебегу функцию q(u, •) на множестве Т. Так что обобщен- ное управление представляет собой некоторый желательный случайный процесс, обеспечивающий реализацию рассматриваемой оптимизации. Обобщенное управление q(u,t), однако, может быть аппроксимирова- но обычным управлением ?х(£), так как множество обычных управлений образует всюду плотное подмножество в пространстве обобщенных управ- лений [8, 9]. А по существу, обобщенное управление — это хотя и жела- тельный, но все же случайный процесс, в отношении которого, однако, бессмысоенно говорить о его дисперсии. Таким образом, получается, что мы собираемся изучать произвольные случайные процессы с помощью оптимальных желательных случайных процессов. Глубже понять смысл и условия существования обобщенного управле- ния помогает следующая геометрическая трактовка вариационных задач. Заменим дифференциальное уравнение ± = /(ti,M) (2-1) его некоторым усреднением (почти в каждый момент t) по некоторой
функции распределения вероятностей q(u,i), т.е. положим х = jfdq{u,t), (2.2) и где U - это множество допустимых значений управления u(t). Покажем наглядно, что при подобном представлении дифференциального уравне- ния обобщенное управление q(u,t) определяет почти в каждый момент t ЕТ выпуклое множество возможных значений вектора х (которое мож- но назвать множеством "локальной достижимости"). Ради наглядности рассмотрим двумерный случай х = (xi,x2): xi = fi(u,x,t), х2 = f2(u,x,t), ueU. (2.3) Если зафиксировать в этих уравнениях момент £, а следовательно, и состояние x(t) описываемой ими динамической системы, то данные урав- нения определят в момент t двумерный вектор х = (х\, х2) как функцию вектор-параметра и G U. При всех возможных и G U конец вектора х (с началом в точке L на рис. 2.1) принадлежит некоторой, вообще говоря, невыпуклой области A(U) = ЕМНКЕ на рис. 2.1. Чтобы "овыпуклитъ" эту область, введем параметры {(ai, a2):ai + a2 = l, 0 < <*i < 1, 0 < а2 < 1} (2.4) и рассмотрим уравнение £ = ai/(u,z,t) + a2/(S,M), х = (хих2). (2.4) Понятно, что каковы бы ни были точки й{= Е) и й(= Н) из множества [/, можно подобрать такие ai, а2, что конец вектора LF на рис. 2.1: х = axf(u, х, t) + а2/(й, х, t) (2.5) будет лежать внутри или на границе замкнутой выпуклой оболочки coA(U) = ЕРИКЕ множества A(U) = ЕМНКЕ. Соответствующая пара (aba2)
будет определять некоторую конкретную вероятностную меру #(•,£) = c*i • 1(й) + &2 • 1(й), сосредоточенную только в двух точках г£, и € U (т.е. в точках Е и if), вероятности которых соответственно ai и a.<i (здесь l(-u) — это принятый для удобства изображения дискретной вероятностной меры g(-, t) "единичный индикатор" точки и, имеющей ненулевую вероятность). Оптимальный скользящий режим соответствует такому состоянию дина- мической системы, при котором вектор х принадлежит coA(U), но не принадлежит A{U). Следует отметить, что в задачах оптимизации в (п+1)-мерном фазовом пространстве (#о,#ъ • • • ,#п)> где xo(t) удовлетворяет уравнению х = /о, можно ограничиться обобщенными управлениями #(-, •), представляющи- ми собой (почти при каждом t € Т) дискретную вероятностную меру g(-,t), сосредоточенную не более чем в (п + 2) точках из U. Однако в дифференциальных играх возможны оптимальные (в смысле постановки игры) обобщенные управления (называемые смешанными стратегиями), задаваемые распределенными (абсолютно непрерывными или сингуляр- ными непрырывными) мерами q(-,t). На практике исследование возможностей существования скользящих режимов проводят не на основе изучения вида множества A{U), а на основе анализа гамильтониана Н = (pf). Дело в том, что функция Н есть непрерывное линейное отображение множества A(U) на веществен- ную ось, сохраняющее топологические свойства множества A(U). Поэто-
му вместо более трудоемкого построения области A(U) в каждый момент t ЕТ достаточно ограничиться выяснением вида функции Н(и), рассмат- риваемой как функция от и. Если Н(и) не вогнутая функция, то есть основания ожидать, что в задаче максимизации J возможны обобщен- ные управления. Как правило, выпуклость множества A(U) на практике бывает крайне редко. Это означает, что обобщенное управление, как пра- вило, реализуется почти во всех задачах если и не на всей траектории, то хотя бы на ее части. Рассмотрим простую вариационную задачу, демонстрирующую, что класс измеримых управляющих функций u{t), несмотря на его кажущую- ся чрезвычайно большую общность, оказывается все же относительно уз- ким, не позволяющим получать оптимальные решения даже весьма про- стых по своей постановке задач. Заметим, однако, что любое оптимальное решение может быть с любой точностью аппроксимировано функциями «(*). Задача 2.1. Пусть требуется найти максимум функционала 1 J= Jxhdt (2.6) -i при ограничениях х = щ гх G С/ = {-1,1}, *еТ=[-1,1], з(-1)=х(1) = 0. (2.7) В этой задаче управление принимает всего два значения: и=-1 и и=1. Гамильтониан имеет вид Н = рохН + р\и = хН + piu, а уравнение (1.4) -вид р1 = -2xt. (2.8) Очевидно, уравнение (2.8), помимо нетривиального абсолютно непреры- ваного решения, на некоторых интервалах, может иметь также решение Pi(t) = const, x(t) = 0. Из условия (1.7) находим
и = sign{pi} = ±1. (2.9) Глобальный максимум функционала J в классе измеримых управляющих функций u(t) = ±1 в этой задаче недостижим. Однако он достижим, если искать решение в классе обобщённых управлений. В этом случае в данной задаче хотя бы на некоторых подинтервалах интервала Т должны выпол- няться (полученные в следующем разделе) условия (3.9), принимающие вид Pl(t)[ul - й°] = Pl(t)[l - (-1)] = Pl(t) = 0. (2.10) Из уравнений (2.8) и (2.10) получаем, что в случае существования сколь- зящего режима на некоторых подинтервалах интервала Т должно иметь место равенство x(t) = 0, а следовательно, с учётом уравнения движения, — и равенство х= udq(u,t) =0. (2.11) и Параметрическое исследование задачи показывает, что глобальный мак- симум достигается на траектории, на которой скользящий режим имеет место на начальном интервале (—1,1/), где — 1 < t' < 0. Вычисляя по- следний интеграл, определённый всего лишь на паре точек и=-1 и и=1, получаем (-l)g(-l,*) + (l)g(l,*)) = 0. (2.12) Но последнее равенство возможно, только если q(—l,t) = q(l,t)=l/2, т.е. если точки и=-1 и и=1 выбираются с бесконечной частотой с равной вероятностью q=l/2. На интервале (£',£") = (1/, 1 — f/2) оптимальное управление u(t)=l, а на заключительном интервале движения (1 — £'/2,1) оптимальное управление u(t)=-l.
Как правило, решение задач оптимального управления проводят чис- ленно "прямыми" и "непрямыми" методами, в первых из которых необхо- димые условия оптимальности или не используются вовсе, или же исполь- зуются лишь частично, в то время как во вторых с помощью необходимых условий оптимальности исходную вариационную задачу сводят к двухто- чечной краевой задаче для обыкновенных дифференциальных уравнений, которую затем и решают численно. Все известные достаточные условия оптимальности на практике обычно не применяются как вследствие чез- вычайное сложности их проверки, так и потому, что все они указывают всего лишь на относительный (а не абсолютный) максимум. Методы получения необходимых условий оптимальности можно, по- жалуй, разделить на две группы, в одной из которых используются мо- дификации классического подхода в вариационном исчислении. Данный подход характеризуется тем, что сначала проводится детальный анализ вариаций, отображаемых затем подходящим образом в выбранное конеч- номерное пространство, в котором образ множества вариаций образует выпуклый конус, используемый для вывода общих условий оптимально- сти. В другой группе методов сначала изучают свойства конусов в ко- нечномерном пространстве, порождаемых некоторыми функционалами, а затем уже определяют вид функционалов, осуществляющих отображе- ние в это пространство вариаций исходной задачи. Второй подход мож- но назвать более "унифицированным", позволяющим с единых позиций подходить к получению необходимых условий оптимальности для нестан- дартных задач, которые трудно уложить в рамки общей задачи Больца вариационного исчисления [7-11]. Однако трудности получения конечного результата — необходимых условий оптимальности — при обоих подходах приблизительно одинаковы. Поскольку второй подход требует довольно большого объема вспомогательных сведений, обратимся к первому подхо- ду и получим с его помощью необходимые условия оптимальности вариа- ционной задачи без фазовых и смешанных ограничений типа 0Д#, t) > О и
gj(u,x,t) > О, с учетом лишь нефункциональных ограничений и Е С/, но зато рассмотрим эту задачу в классе обобщенных управлений, в котором решение всегда существует, если существует хотя бы одна траектория, удовлетворяющая краевым условиям. 3. Необходимые условия оптимальности обобщённого управления Приступим к поиску необходимых условий оптимальности для вариа- ционной задачи в классе обобщенных кривых (обобщённого управления) с максимизируемым функционалом: : J = j /o(u, х, t)dt + F(x(to), to, x(ti),t!) (3.1) г при ограничениях Ri = ±i- fi(u, x, t) = 0, i = 1, n, ue U, (3.2) Gk(x(t0),t0,x(ti),t1) = 0, fc = M, (3.3) где T = [to,ti] — ограниченный, но не обязательно фиксированный за- мкнутый интервал в й1; [/ - произвольное множество в Rm. Допущения 3.1. Чтобы не усложнять исследование непринципи- альными деталями, мы ограничимся случаем, когда U = £/i,...,(7m, Ui = [и®,и}] С Д1; функции F и G = (С?ь... ,СУв) предполагают- ся непрерывными и непрерывно дифференцируемыми; вектор-функция / = (/о» /ь • • •»/п) такова, что функция /(•, •, t) при всех t Е Т непрерыв- на и непрерывно дифференцируема, а функция /(и, х, •) при всех х Е i?n и и € U измерима по Лебегу; евклидова норма функции / удовлетворяет условию |/| < v(\x\ + 1), где v > 0 — некоторая интегрируемая по Лебе- гу функция; последнее требование обеспечивает существование решения уравнений (3.2) на Т при любых x(to) = х°.
Однако наложенные требования все же не гарантируют удовлетворе- ние двухточечных краевых условий (3.3). Поэтому краевые условия долж- ны быть таковыми, чтобы существовала хотя бы одна траектория, удо- влетворяющая им. Чтобы гарантировать еще и существование максимума функционала J, будем искать не измеримые управляющие функции и(£), а обобщенное управление. Для наших целей будет достаточно следующе- го, несколько упрощенного определения обобщенного управления. Определение 3.1. Обобщенной управляющей функцией назовем та- кую функцию ф(», •) двух аргументов, что функция qi(-,t) почти при всех (в смысле меры Лебега) t Е Т представляет собой вероятностную меру Qi(Uii t), где JJ[ С Uiy а функция qi(U-,-) есть измеримая по Лебегу функ- ция. Поскольку qi(Ul, t) — это вероятностная мера почти в каждый момент £, то обобщенным управлением будет и функция qi(ui, t), такая, что qi(-,t) — функция распределения вероятности на Ui. Примем без доказательства следствие из известных результатов по из- меримым функциям (с учетом принятых в постановке задачи допуще- ний): функции fi(u,x,t)dq, г = 0,n, q = qi,...,qm и интегрируемы на Т. Теперь можем заменить исходную задачу (3.1)-(3.3) более общей зада- чей с обобщенными управляющими функциями q = #i,..., qm. Краевые условия (3.3) останутся прежними, а функционал (3.1) и уравнения (3.2) примут вид J = /dt f /0(ti, x, t)dq + F, (3.4) т и Ri = x— fi(u,x,t)dq = 0, г = l,n. (3.5) и
Обобщенную управляющую функцию q(u, i) назовем допустимой, если она обеспечивает удовлетворение траекторией x(t) краевых условий (3.3). Если же допустить к рассмотрению только такие обобщенные управления д, что мера (функция распределения) q(-,t) почти при каждом t € Т сосредоточена в какой-либо одной из точек и = u(t) Е t/, то получаем обычную задачу оптимального управления. Необходимые условия оптимальности обобщенного управления даются следующей теоремой. Теорема 3.1. Пусть существует оптимальное решение (q,x) задачи (3.3)—(3.5). Тогда найдётся ненулевая непрерывная на Т вектор-функция p(t) = (po,Pi(t),... ,Pn(£)), Ро = const > 0,удовлетворяющая почти всюду на Т уравнениям Эйлера—Лагранжа -/ ——dq, 1,п, ОХ{ (3.6) и краевым условиям д(Ю) -Pj(to) = Рощщ + ЩЩ) (3.7) где (IG) = J2l=i ^Gk — скалярное произведение постоянного вектора I множителей Л агранжа на вектор G краевых условий; обобщённый гамильтониан Н = J Hdq = J(pf)dq непрерывен на Т, а и и в концах этого интервала удовлетворяет условиям (3.8) равенства / Hdj = 0, ululeUi, ЩфЩ, i = l,n (3.9)
гдеU1 = Uix.. .xUi-ixUi+iX.. .xUm, ql = qi •• .ft-ift+i • • -Чт\ функция^ рассматривается в качестве маргинального распределения вероятности на Ui в момент £, а функция дг — в качестве условного распределения (однако на прямом произведени U = U\ х ... х Um все q^ г = 1,га, оказываются независимыми распределениями); равенства (3.9) имеют место при тех £, образующих некоторое подмножество S[t в Т, при которых <^(-,£)-мера каждой из точек й® = u®(t) и й\ = u\{t) — не нуль; равенства / дН —^ = 0, 1,ш, (3.10) w выполняются при тех £, образующих некоторое подмножество Вц в Т, при которых внутри множества Ui имеются точки Ui(t) ненулевой меры </»(-,£), причём эти условия выполняются именно в этих точках; кроме того эти условия выполняются также при тех £, образующих некоторое множество Su С Т, при которых вероятностная мера &(•,£) абсолютно непрерывна на некоторых интервалах (й^й}) С Ui (однако в любых задачах оптималь- ного управления, глобальный максимум функционала (3.4) достигается с помощью даже только дискретных мер q(u, £)); и наконец, оптимальное обобщённое управление q почти всюду на Т удовлетворяет условию (Вейерштрасса): ( Hdq = max f Hdq. (3.11) и и ДОКАЗАТЕЛЬСТВО . Прежде всего, определим подходящее множество вариаций: слабых - для вывода уравнений (3.6)—(ЗЛО) и сильных — для вывода условия Вейерштрасса (3.11). Слабые вариации введем, опираясь на следующее параметрическое семейство, содержащее при b = 0 опти- мальное управление и оптимальную траекторию:
x(t,b), ь>о, te(to(b)Mb))> qi(ui,t,b), to(b) = t0 + b5t0j ti(b) = ti + Ши где x(t, b) можно рассматривать и в частной форме x(t, b) = x(t) + bSx(t). Это семейство выбирается непрерывно дифференцируемым по Ь при 6 = 0 и удовлетворяющим уравнениям (3.5). Этот выбор всегда возможен на ос- новании теоремы о зависимости решений дифференциальных уравнений от параметров. Вариации Sto, St\y Sx° = Sx(to)y Sx1 = Sx(t\) и **(*) = 4^1-0, 5q.{Uht)u?s*«m\b=0 назовем допустимыми слабыми вариациями, если (Sto, St\y Sx°y Sx1) — ко- нечный вектор, удовлетворяющий уравнению вариаций краевых условий Здесь Ах = xSt + Sx — полная вариация в точке t G Т; Sx(t) — абсо- лютно непрерывное решение линейного дифференциального уравнения, являющегося линеаризацией уравнений (3.5): SR = Sx- [ Ц-Sxdq - f fd(Sq) = 0, и и где /° = (/i,..., /n); a Sq(-,t) — почти при каждом t G t — произвольная функция ограниченного изменения того же класса, что и оптимальная функция, в то время как функция Sq(u, •) при каждом и G U — измерима и ограничена на Т. Основное требование к выбору вариаций Sq(u,t) и Sqi(iii,t) — они должны быть почти при каждом t G Т неубывающими функциями, т.е. функциями распределения вероятностей. Сильные вариации определим следующим образом. Пусть t' — произ- вольная точка из Т, не совпадающая с угловыми точками оптимальной
траектории x(t). Элемент (X, x(tf), g, £'), где q — произвольное допустимое управление, назовем допустимым. Этот элемент, задавая сильное возму- щение состояния в точке x(t!) (изменяя направление движения х в момент t'), продуцирует следующее параметрическое семейство абсолютно непре- рывных функций: Г x(t), te [to,?], x(t,b) = I x(t), te [t',t' + b}, 6>o, [ x(t,b), te [t + b,h]. Это семейство вместе с допустимым управлением = Г яСМ), t \ q(u,t), t е [?,? + ъ], 6>o, eT\[t't' + b] удовлетворяет уравнению (2.5) и содержит в своём составе оптимальную пару (x,q). Можно доказать (это доказательство не приводится), что если при про- извольных допустимых вариациях найдено решение Sx(t) уравнения в ва- риациях, проходящее через произвольно заданную точку 5х°у то найдет- ся параметрическое семейство, содержащее функцию x(t) в своем составе при Ъ = О и удовлетворяющее уравнениям (3.5), производная от которого по Ъ при 6=0 совпадает с решением Sx(t) уравнения в вариациях SR=0. Это утверждение обычно называют "леммой о включении" (т.е. о вклю- чении экстремали в параметрическое семейство кривых). Построенное множество допустимых вариаций отобразим в конечно- мерное пространство значений следующих функций от параметра Ь\ <т0(Ь) = J[b] - J[0], <тк(Ь) = Gk[b], b>0, k = T^, где J[b] и Gk[b] — функции от 6, полученные при подстановке в функ- ционал J и в функции краевых условий Gk параметрических семейств слабых и (или) сильных вариаций. Введём в рассмотрение множество
и = da ~db 6, 6>0, ueRs+1, o = (o0,ou...,os), 6=0 очевидно, являющееся лучом, исходящим из начала координат простран- ства {и} = Rs+\ Различным допустимым системам вариаций, как слабых, так и силь- ных, отвечают и различные лучи, линейно зависящие от вариаций. Лемма 3.1. Замыкание лучей и> в Rs+1 образует замкнутый выпуклый конус К. ДОКАЗАТЕЛЬСТВО. Возьмем любые две различные системы вариаций (<fao, Sti,...) и (Ло, St\,...) и соответствующие им лучи ш = do- lb 6, и = 6=0 da ~db 6=0 и рассмотрим линейную комбинацию и = аи + аи = а (Ш-/Ц + ЦЙх + ...) + Здесь а, а > 0, причем можно ограничиться выпуклыми линейными комбинациями: а + а=\. Поскольку до _ да д да да _ да д да Жп~дЦ~дГп дй'дй'дй'"' (так как все частные производные берутся на одной и той же экстремали), получаем и = —(aSto + aSt0) + oto Но система вариаций Sto = aSto + cW£o>- • •— допустимая, следователь- но, лучи uj образуют в ($+1)-мерном пространстве выпуклый конус . Что- бы показать, что замыкание К конуса выпукло, достаточно рассмотреть произвольную пару точек W, W Е К и установить, что (J3W + J3W) Е К при J3 + J3=l.
Так как операция замыкания состоит в присоединении к К всех его предельных точек, то в любой ^-окрестности каждой из произвольно взя- тых точек W, W Е К всегда найдутся соответствующие точки й,и> Е К. Поскольку (аи> + аи) Е К при любых а, а, связанных условием а + й=1, и максимальное расстояние между отрезками (J3W + J3W) и (аа; + аи) не превосходит J, то отсюда, ввиду произвола в выборе 8, следует выпук- лость К. Лемма 3.2. Конус К не содержит внутри себя точек положительной полуоси щ. ДОКАЗАТЕЛЬСТВО. Допустим, вопреки утверждению леммы, что точ- ка о) = (б, 0,0,..., 0), где б — малое положительное число, лежащая на оси щ, содержится внутри конуса К. Тогда она удовлетворяет условиям б = diiQ ~db 6,0 = ь=о d&k db b, b> 0, к = l,s, 6=0 Это значит, что d&o ~db т^О, b = 6=0 dap I db 16=0 >0. Введём некоторый вектор и* и рассмотрим уравнения Ц) = ^о(Ь), ^ = ^*(Ь), * = М Они удовлетворяются, если b = и>* = 0 (при этих условиях имеет место max J и Gfc=0). А так как dao ~db 7^0, 6=0 то из первого из них можно определить b = 6(Ц)), причём Ь(0)=0. Под- ставим это Ь(и1ц) в эти уравнения. Тогда первое из них превращается в следующее тождество и>1 =(70[6Ц)],
Рис. 2.2. которое можно продифференцировать по Ц5 в окрестности cJq=0: _ (дао db \ " V db du*J Wn=0 6 cfcjj Wn=0 отсюда следует db duX >0. ы5=0 Таким образом, Ь(Ц5) > 0 при малых ш$ > 0. Это значит, что найдутся функции из семейства допустимых функций сравнения, удовлетворяющие при и* = ш условиям с = J[6K)] - J[0], G*[6(u;0*)] = 0, fe = l,S, что, однако, невозможно, так как J[0] = max J. Утверждение леммы теперь следует из того, что если бы некоторая точка и = (е, 0,..., 0) являлась внутренней точкой конуса К, то в неко- торой достаточно малой ее окрестности S нашлась бы такая точка ш (\и — й\ < 5, что проходящий через нее луч оказался бы внутри кону- са К. Тем самым доказательство леммы от противного завершается. Лемма 3.3. Существует опорная к конусу К гиперплоскость с норма- лью / = (Zq, h, • • •, ip), причем такая, для которой Iq > 0. ДОКАЗАТЕЛЬСТВО. Первое утверждение леммы есть следствие двух предыдущих лемм, в которых установлено, что конус К выпуклый и не совпадает со всем пространством {и>} = i?s+1, а следовательно, существу- ет опорная к нему гиперплоскость. В отношении второго утверждения
заметим, что если точка й)= (б, 0,..., 0) является граничной точкой кону- са К, то найдется такой вектор /, что (/й>)=0; отсюда следует б/о=0, или Zo=0. А если ш £ К, то I всегда можно выбрать так, чтобы (1и) < 0 для любого uj Е к и чтобы 1й > 0. Отсюда следует, что 1$е > 0, Zo > 0- Теорема.3.2. Если q — обобщенное оптимальное управление, то най- дется ненулевой вектор I = (/о,...,/«), гДе 'о = Ро > 0, нормальный к гиперплоскости, опорной к конусу вариаций К, такой, что (1и) < 0 для всех uj Е К, т.е. d^o I . v^ , dcrk I . п db \ь=о ы db \ь=о Замечение 3.2. Если p0 ¥" 0» то всегда можно взять ро=1. Су- ществуют так называемые "анормальные" задачи вариационного исчис- ления, характеризующиеся тем, что в них ось щ ка€ается конуса К. Критерием анормальности является существование ненулевого решения (ро, к, • • •, la,Pi(t),... ,pn{t)) при ро = 0. Этот критерий, хотя и трудно проверяемый, является, пожалуй, единственным конструктивным кри- терием анормальности. Другие известные критерии определяются через множества вариаций и практически непроверяемы. Анормальность мо- жет быть порядка большего единицы, но этот порядок не может быть больше числа min(n, 5), где п — число дифференциальных уравнений в задаче, a s — число краевых условий. В анормальной задаче порядка q помимо ненулевого вектора (1, к,..., l8Jpi(i),... ,pnW) существует еще q ненулевых решений вида (0, l\,..., lks,P\(t), • • • ,£>£(£)), к = 1, q, удовлетво- ряющих необходимым условиям оптимальности. С помощью теоремы 3.2 получим сначала необходимые условия экстре- мума (3.6)—(3.10). Для этого достаточно ограничиться только произволь- ными слабыми вариациями (сильные вариации используются для вывода условия Вейерштрасса (3.11)). Поскольку выражения
w-t 6=0 яг d(Tk ' Юк=Иь , К — 1, 5, 6=0 линейны относительно вариаций и неравенство (/и;) < 0 выполняется для слабых вариаций любого знака, то из него следует p0SJ + (ISG) = 0, где I = (Zi,... ,/s). Это равенство не изменится, если к его левой части прибавить интеграл Лебега от левой части уравнений в вариациях 5Rj=0, j-e из которых предварительно умножается на некоторую интегрируемую функцию -pj(t), j = l,n: /п Т 3=1 Обозначая F = pqF+(IG) и учитывая, что Ах = x8t+8x, подставляем в полученное равенство развернутые выражения для вариаций <5J, SGk, SRj и выполняем интегрирование по частям тех выражений, в которые входят вариации 8х\ dF; dF dF *6to + £^i + ^уДх(«ь) + elkAxM+ Poffodq*5t\ - J2(Axj - XjSt)pj(t) + / e/(»+(p|J))d9*fei(*) Л+ /A/(p/)d9**d(**) = 0; т и здесь p(*) = (po,Pi(t),... ,pn(*))) Po > 0, / = (/o, /i, •.., /n). Левая часть полученного равенства должна обращаться в нуль при любом выборе допустимых вариаций (5to, St\y 5x(to), Sx(t\)y Sx(t)y Sqi). При независимых вариациях коэффициенты должны равняться нулю, а при зависимых их обращение в нуль обеспечивается соответствующим
выбором множителей p(t) и I. Выполнение этой процедуры приводит к необходимым условиям экстремума (3.6)—(3.8) и к равенству {pf)dqHd{5q^) = О, (3.12) т и левая часть которого в приведенной форме характеризует лишь факт ва- риации функции qi(ui,t, ft), а не конкретный вид вариации, существенно зависящий от конкретного вида оптимальной функции q*. Из уравнения (3.12) в зависимости от вида функции q* можно получить необходимые условия (3.9) и (3.10), вывод которых опирается на тот факт, что всякое вероятностное распределение #*(-,£) при фиксированном t еТ представ- ляет собой объединение непрерывной функции и функции скачков, не равных одновременно нулю, а также на приведенную ниже лемму. Лемма 3.4. Если для заданной измеримой функции L(t) при любой измеримой функции p(t) имеет место равенство / L(t)p(t)dt = 0, г то L(t) = 0 почти всюду на Т. ДОКАЗАТЕЛЬСТВО. Пусть L(t) > 0 на некотором множестве At поло- жительной меры Лебега. Выбрав функцию p{t) положительной на этом множестве и равной нулю на множестве Т \ At, получаем / L(i)p(t)dt = / L{t)p(t)dt > 0, т At что противоречит условию леммы. Из необходимых условий (3.9) и (3.10) докажем только первое, по- скольку второе доказывается аналогично и гораздо проще. Доказатель- ство справедливости условия (3.9) даётся следующим предложением: Предложение 3.1. Уравнение (3.9) удовлетворяется на ненулевом подмножестве Su интервала Т, если оптимальная функция q* такова, что //
на этом подмножестве #*(-, £)-мера какой-либо пары не совпадающих друг с другом точек й!- (t) Gf/j к = 1,2,..., не нуль. Без потери общности из множества точек й\ (t) G U{ положительной #*(-, £)-меры выберем, например, первые две точки v^(t) и u\(i). Посколь- ку мы хотим получить условия, выполняющиеся для выбранной пары то- чек, #*(-, £)-мера которых не нуль, то варьировать меру необходимо толь- ко в этих точках (в противном случая вместо условий оптимальности для этой пары точек будут одновременно выведены необходимые условия и для других точек, что лишь усложнит вывод). При этом, очевидно, недо- пустимо произвольно варьировать меру q*(-,t) в точках u^(t) и u\{i), так как нарушится её нормировка: #*([/*, t) = 1 (конечно, при условии, что од- новременно не производится варьирования каких-либо дополнительных точек из U). При указанном способе варьирования допустимыми произ- вольными вариациями q*(ui,t) при каждом фиксированном t G S[t могут быть только постоянные (по щ) вариации Sqi(t) между точками u®(t) и u\{i). Следовательно, допустимым параметрическим семейством функ- ций, содержащим оптимальную функцию распределения #*(-, t) и удовле- творяющим требованиям, предъявляемым к допустимым вариациям, бу- дет семейство ( q*(uut) при щеии teT\ S'it, qi(uut,b) = I qi(uut) при щ G С/Д [ti?,tij), t G S'it1 { qi(uut) + bSqi(t) при щ G [t#,uj), t G S-t, где, при каждом t G Sfit, Sqi(t) — произвольная постоянная вариация на интервале [й®,й}), тождественно равная нулю вне этого полуинтервала. Подставляя в уравнение (3.12) вариации семейства ф(гг»,£,Ь), получаем
s{ J dtf(pfw + f {T\S'it и S'it / (Arf + Mft)/(p/)+ / dqi(uut,b)x uJ-0 Ul uJ+O x/(p/)dg^+ J* (Aql-bSqJfipfW* U* й}-0 и* J Agfat) {&/)*? + j7A[fiJ,u}] tf* uJ-0 <ft > = 0, где суммарная (^ + &/*)-мера пары точек й? и й* сохраняется при ва- рьировании неизменной, так как в противном случае это привело бы к варьированию и других точек, кроме и® ни}. Поскольку не равными тождественно нулю оказываются лишь вариа- ции 3-го и 5-го слагаемых, то имеем Jljipfw Wi щ Sqi(t)dt = О, Откуда исследует с учётом леммы 3.4 уравнение (3.9). Вывод условия Вейерштрасса (3.11) даётся в следующем предложении: Предложение 3.2. Оптимальное обобщённое управление q* почти всюду на Т удовлетворяет условию (3.11). ДОКАЗАТЕЛЬСТВО. По самому своему построению семейство сильных вариаций x(t, b) не зависит от Ъ на интервале (£о, if + Ь), поэтому 8x(t) = 0 при te (t0,t'), (3.13) а в момент if вариация 8x(i) терпит скачок, который примем за ее на- чальное значение для интервала (t',ti): 6x(t' + 0) = X(t' + 0) - x(t' + 0). (3.14) При подстановке семейства сильных вариаций (x,q) в краевые усло- вия задачи и в оптимизируемый функционал получаем непрерывно диф- ференцируемые (справа) по Ъ при Ь=0 функции J[b] и Gk[b]> вариации
которых SJ и 5Gk подставляем в неравенство (1и) < 0. Это неравенство не изменится, если к его левой части прибавить интеграл от уравнений в вариациях 5Rj=0, предварительно умноженных на интегрируемый век- тор (— p\(t),..., — Pn(t)). Вводя обозначение F = p0F + (IG), с учетом равенств (3.13) и (3.14) получаем дР рА / dtff0dq+ / dtffodq* V U t'+Ь и т и j=i ^уAx(ti) + Ро [/ fodq - J /oAf] + (E P;foi#+o = E (41) " ft-(*i)) Aa?i(*i)+ j=i j=i \ ^ *' / ?a/E fe + (p^)) sx&w + {Ш + ШУ1) **i + Po / /o<^ + E PjXj и j=i C/" .7=1 <0. Отсюда, учитывая необходимые условия (3.6)—(3.8) и возможность представления производных (в силу уравнения движения) в виде х = J fdq* и X = J fdq, получаем, что в момент t' имеет место неравенство и и (3.11). Это завершает доказательство теоремы 3.1. Таким образом, с помощью необходимых условий оптимальности ва- риационные задачи сводятся к двухточечным краевым задачам (т.е. к решению системы дифференциальных уравнений, краевые условия для которых заданы с обоих концов). Для определения 2п функций x(t) и p(t) имеется 2п уравнений (3.5) и (3.6); для определения управления q(u,t) — условие (3.11) или же уравнения (3.9) и (3.10); для определения точек to и t\ — два равенства (3.8), а для нахождения 2п краевых условий для си- стемы (3.5), (3.6) и для определения постоянных (Zi,..., ls) имеется ровно
(2гс + s) уравнений (3.3) и (3.7). 4. Синтез оптимального управления и примеры оптимизации возмущенных динамических систем Поиск структуры обычного и обобщенного управления основывается на необходимых условиях оптимальности (3.6)—(3.11), в которых чрез- вычайно полезные (как это демонстрируется ниже на примерах) для ин- женерной практики уравнения (3.9) и (3.10) впервые были получении автором в работе [11]. На рассмотренных ниже типовых задачах, которые могут возникать в физике и технике, демонстрируется, как выяснять, возможно ли в кон- кретной задаче обобщенное управление, как подготовить задачу для рас- чёта её стандартными численными методами в любом классе стратегий и как получать приближенный синтез оптимального управления, благо- даря которому обеспечивается оптимальное движение при воздействии произвольных случайных возмущений. Задача 4.1. Пусть требуется найти (например, в классе обычных управ- ляющих функций u(t)) максимум следующего функционала (при воздей- ствии на формулируемую ниже динамическую систему также и случай- ных возмущений w(t)) 1 J= (x"' + x'2 + xi+w(t))dt, (4.1) о (где обозначено х'" = ^р1, х'[ = ^г, х'2 = ^г) при следующих ограниче- ниях 1 J(x'; + (x'2)2 + (x2)2)dt = l, (4.2) о ая(0) = xi (1) = х2(0) = а?8(0) = х4(0) = 0 (4.3)
и при условии, что управление динамической системой (4.1)—(4.3) произ- водится ограниченными наивысшими производными от фазовых коорди- нат ii и 12) т.е. вектор управления (u\(t), U2(t)) задается отношениями «1 = *Г, и2 = х'2, |«i(t)|<2, Mt)|<2. (4.4) Поскольку к задаче, поставленной в таком нестандартном виде, невоз- можно применить необходимые условия оптимальности (3.6)—(3.9) из предыдущего раздела, то приведем предварительно эту задачу к стан- дартному виду (1.1.1)—(1.1.3) из главы 1, при котором динамика задается системой уравнений первого порядка, правые части которых зависят от переменных (ж, и, £), а производные от фазовых координат не входят в подынтегральную функцию. С этой целью вводим дополнительные фа- зовые координаты хз(£),Х4(Ь),Хь^), которые с учетом обозначений (4.4) приводят к задаче максимизации функционала (в котором мы в данном случае не учитываем случайное возмущение w(t)) 1 J = (Щ + Щ + Xi)dt, (4.5) о при ограничениях в виде следующей системы из пяти дифференциальных уравнений х[ = я3, Х'2 = U2, А = *4, (4-6) и при ограничениях
Gi = яя(0) = 0, G2 = si(l) = 0, G3 = x2(0) = 0, G4 = s3(0) = 0, G5 = x4(0) = 0, G6 = x5(0) = 0, G7 = x5(l) - 1 = |"i| < 2, |иг| = 0, <2. Заметим, что задача (4.5)—(4.7) может быть приведена также и к сле- дующему эквивалентному виду, при котором введением еще одной фазо- вой переменной хо оптимизация функционала (4.5) заменяется оптимиза- цией значения #о(1) ПРИ дополнительном дифференциальном уравнении х'0 = щ + и2 + xi, £i(0) = 0, (4.8) откуда следует, что включение случайного возмущения w(t) в оптими- зируемый функционал (4.1) означает по существу, что это возмущение включено в одно из дифференциальных уравнений динамической систе- мы. Для поиска решения задачи (4.5)—(4.7) на основе необходимых условий оптимальности, введем в рассмотрение гамильтониан (в классе обычных управлений u(t) без учета случайных возмущений w(t)): Н = ро(щ + и2 + xi) + pixs + P2U2 + Р3Я4 + P*ui + Рь(ха + и\ + х\). (4.9) Сначала попытаемся проинтегрировать те из уравнений (3.7) при кра- евых условиях (3.8), которые поддаются интегрированию. Начнем с наи- более простого и необходимого при интегривании других уравнений урав- нения
A—g-O, (4.10) откуда следует, что р$ = const = р®. Для определения константы р® сле- дует воспользоваться условиями трансверсальности (3.7), из которых по- лучаем -ps(0) = ада= k' Р5(1) = ад!)= 7" Однако, так как множители 1$ и l-j из необходимых условий оптималь- ности не определяются, то, следовательно, и значение константы р\ на данном этапе не может быть найдено (эта константа может быть найдена только инерационно после определения вида оптимального управления, последующего интегрирования всех уравнений задачи и заключительного численного поиска максимума функционала, рассматриваемого как функ- ция всех неопределившихся параметров задачи). Аналогичным образом интегрируем уравнение fkTJ Так как в необходимых условиях оптимальности всегда ро = const = 1, то интеграл легко находится: р\ = —pot + р?. Однако определить неизвест- ную константу р\ не удается по той же причине, по которой не удалось определить константу р\. Действительно, поскольку оба краевых условия #i(0) = 0 и xi(l) = 0 в задаче (4.5)— (4.7) заданы, то условия трансвер- сальности (3.7) приводят к неизвестным множителям 1\ и fa. Следующее уравнение Р2 = ~ = -2Р°5х2 (4.12) не может быть проинтегрировано, так как неизвестна функция X2{t) (а следовательно, неизвестным для этого уравнения оказывается и началь- ное условие Рз) •
Уравнение дН P& = -^ = -Pi=Po*-rf (4-13) легко интегрируется и приводит к функции рз = *% Pit + Рз> условие трансверсальности для которой в момент t = 1 дает рз(1) = Щ = 0' а следовательно, получаем Рг = ^-рЬ + РЧ-Ро/2. (4-14) Также легко интегрируется и уравнение „/_ 9Я_ „ „о приводящее с учетом условия трансверсальности Р4(1) = 0 к решению Л(«) = ^ + ^Г + *fo>/2 - Р?) - Ро/3 + р?/2. (4.16) 6 2 Приступим к определению структуры обычного управления. Используем теперь необходимое условие оптимальности (3.11), соглас- но которому гамильтониан Н должен достигать макимума по щ почти при всех t. Из того, что гамильтониан Н в рассматриваемой задаче ока- зывается линейной функцией от щ (т.е. Н = U\(Pq + р^) + 0, где 0 — это фуекция всех остальных аргументов, не зависящая явно от щ), легко видеть, что этот максимум достигается на функции uf(t) = 2sign(pu + p4(t)). (4.17) Гамильтониан Н по второму управлению представляет собой следую- щую квадратичную функцию от щ: Н(и2) = р\и\ + (ро + Р2)и2 + V, (4.18)
причем эта квадратная паработа существенно зависит от знака неизвест- ного параметра р\: в случае р\ > О она выпукла (вниз), а при р\ < О представляет собой вогнутую функцию. (Заметим, что число р\ наиболее существенно зависит от числа х$(1) и на практике практически невоз- можно значение р\ = О, отвечающее в действительности в данной задаче какому-то вполне конкретному единственному числу из множества всех вещественных чисел). Чтобы в удобном аналитическом виде определить оптимальное обыч- ное управление и^ , необходимо сначала определить положение экстре- мума этой параболы. Вычисляя |^ = 0, находим положение экстремума параболы: < = -*$г- (4Л9) Отсюда следует, что максимум гамильтонтана H(u2) в случае р\ > О достигается не только в одной из следующих двух точек чТ = { 2' 1+2, -2, если uf* > О, если щ < О, но и одновременно в этих двух точках, причем если в последнем случае это имеет место не в отдельных точках оси £, а на множестве положитель- ной меры Лебега (т.е. на некоторых конечных интервалах времени Д£), то это означает, что в задаче существует еще и обобщенное оптимальное управление #2(^2>£)- Рассмотрим теперь случай р\ < 0. Паработа Н(щ) в этом случае вы- пукла вверх и ни в какой момент на траектории невозможен случай су- ществования пары точек, в которых эта парабола достигает максимума. Следовательно, в этом случае обобщенное управление не существует, а обычное оптимальное управление определяется функцией
Г -2, если ue2xt < -2, uf = I +2, если uef > +2, (4.21) I и™*, если Щ^! < 2. Если ограничиться обычным управлением u(t) = (ui(t), v,2(t)), то ре- шение задачи может быть найдено каким-либо численным методом итера- ционно. Сначала произвольно выбираются недостающие начальные усло- вия для системы (4.5)—(4.7), например, р\(0) = pj, Рг(0) = р\ и Ръ- Затем из найденных формул (4.20) и (4.21) определяется оптимальное обычное управление и с найденной парой управлений рассчитывается траектория до момента t=\. Поскольку при произвольно выбранных неизвестных зна- чениях параметров Pi(0) краевые условия #i(l)=0 и #5(1)=1 не удовле- творяются, то каждая следующая итерация проводится с другими значе- ниями р®; и так до тех пор, пока при некоторых значениях $ не будет обеспечено удовлетворение конечных условий с желаемой точностью. В результате определяется оптимальное управление и оптимальная траек- тория, т.е. пара (uopt(t), xopt(t)) в исходной задаче (4.5)-(4.7) в отсутствие случайных возмущений. Однако, во-первых, при использовании обычных управлений u(t) за- частую оптимальная траектория не достигается (не существует), а сле- довательно, в общем случае следует ее искать в более широком классе управлений q(u,t). А во-вторых, случайные возмущения изменяют опти- мальную траекторию. Если амплитуда случайных возмущений относи- тельно невелика по сравнению с возможностями U системы управления, то эта система может эффективно компенсировать воздействие возмуще- ний, если в пространстве фазовых координат (х\,..., х*,) удается построить приближенный синтез оптимального управления, который может быть найден следующим образом. Для получения синтеза потребуется найти достаточно богатое семейство оптимальных траекторий, начинающихся из разных начальных точек в некоторой окрестности номинальной точки (rrj, ...,#5) и оканчивающихся в точке (rrjjrrj) = (0; 1). Это позволит при
любых случайных возмущениях двигаться к желаемой конечной точке (х\, х\) по разным участкам семейства найденных оптимальных траекто- рий, сходящихся к этой точке. Итак, чтобы найти хотя бы одну оптимальную траекторию желатель- но искать не только управление u{t)^ но и обобщенное управление q(u, £), поскольку оптимальной решение всегда существует только в классе обоб- щенных управленитй. А прежде всего необходимо выяснить, реализуют- ся ли обобщённые управления (скользящие режимы) в рассматриваемой задаче. Оценка этой возможности весьма эффективно проводится с помо- щью необходимых условий оптимальности (3.9) и (3.10), причём наиболее эффективно первое из них. Предварительно мы выяснили лишь то, что в случае р\ < 0 второе управление U2{i) в рассматриваемой задаче может быть только обычным. Остается еще выяснить, реализуется ли в действительности q2(u2, t) в слу- чае р® > 0 и возможно ли обобщенное управление qi(ui,i). Для этого нам потребуется переформулировать исходную задачу (4.5)—(4.7) в клас- се обобщенных управлений. В классе обобщённых управлений функционал (4.5) и уравнения (4.6) (в случае w(i) = 0) принимают вид 1 J= / / (u1^u2^x1)dq1dq2dt, (4.22) 0 х\- х2 = х3 = <- А- Ui и2 = яз» = / / u2dqxdq2, и1и2 = ж4, = / / uidqidq2, UxU2 = //(^4 + ^2 + ^1)^1^ U1U2 Если обобщенное оптимальное управление q2{u\,i) существует в рас- сматриваемой задача при р® > 0, то найдется интервал времени Д£, на ко-
тором тождественно удовлетворяется уравнение (3.9), принимающее вид J Hdqi(uut\u2) и, (Ро + Ра) (Ро+Рг) / Uidqx{uut\u\) - J uxdq^uut\v%) Ux Ux I <4 / dqi(uu t\u\) -v%f dqi(ui,t\v%) (POZI + Pl^3 + P3^4 + P5Z4+ + + (4.24) Р°ь4) J dqi(uut\u\) - J dqi(uut\v%) Ux Ux + rf) u\ J dqi(uut\u\) -v%f dqi(uut\v%) Ux Ux = 0, Это равенство существенно упрощается, если учесть следующие свойства вероятности. Во-первых, известно [4], что условные вероятности в любом коорди- натном сечении щ = const любого множества С/ (а не обязательно за- даваемого прямым произведением U = U\ х С/г) ведут себя как полные вероятности, т.е., к примеру: / dqi(ui,t\u\) = 1, / dqi{ui,t\u\) = 1, Ux Ux а следовательно, соответствующие члены в равенстве (4.24) не включают в себя этих интегралов. Во-вторых, если множество С/ представляет собой прямое произведение U\ х С/2 (а в данном случае это даже квадрат), то все его координатные сечения, например, щ = const одинаковы и не зависят от каких-либо других переменных задачи. Отсюда следует, что все условные математи- ческие ожидания J Uidq\(ui,t\u2) одинаковы при любых u<i Е [—2; 2]. Ux В результате этих упрощений равенство (4.24) принимает вид
(«а - «2)[(Pd + ft) + РЫ + «§)] = 0- (4-25) С учетом же того, что макимум гамильтониана может одновременно достигаться только в точках и® = — 2 и и\ = 2, равенство (4.25) суще- ственно упрощается Ро + Р2 = 0. Дифференцируя это равенство по времени t и принимая во внимание уравнение (4.12), получаем 2р%х2 = 0. (4.26) Дифференцирование же этого последнего уравнения с учетом второго уравнения системы (4.23), приводит к равенству [ u2dq2 = 0. (4.27) и2 Поскольку вероятность #2(^2? £) в данной задаче может быть сосредо- точена только в паре точек и® = — 2 и и\ = 2, то, вычисляя интеграл в левой части равенства (4.27), находим ulAq2 + tiiftl - Aq2) = 0, Aq2 = 1/2, откуда следует, что при всех t на каждом сколь угодно малом интервале времени значения управления и2 = — 2 и и2 = 2 должны выбираться рав- новероятно, т.е. в этой задаче возможна реализация скользящего режима на всем интервале движения с равновероятным и сколь угодно частым переключением управления между указанными значениями. Аналогичным образом, допустив существование оптимального обоб- щенного управления gi(^i,t), из необходимого условия оптимальности
/ Hdq2(u2,t\u1) W2 tit = 0 (4.28) получаем равенство p0+P4 = 0. (4.29) Так как функция Ро+Р4> в силу (4.16), является кубической параболой, которая может обратиться в нуль не более, чем в трех точках оси £, то из (4.29) следует, что в данной задаче обобщенное управление qi(u\,t) не реализуется. Возможна только пара обычных управлений {vf^ , и^ ) или пара (u^^q^fait)). Проведенный выше поиск оптимального управления позволил опреде- лить лишь структуру оптимального управления, зависящего от неизвест- ных параметров (р^р^Ръ)) а не найти именно то оптимальное управле- ние, которое обеспечивает максимум функционалу (4.5) при ограничени- ях (4.6), (4,7), поскольку пока еще нами не найдены именно те значения этих неизвестных параметров, которые обеспечивают полное решение за- дачи (4.5)—(4.7). Эти неизвестные параметры, как правило, могут быть найдены только численно в результате решения (с учетом уже найденной структуры оптимального управления) следующей задачи: max J, (4.30) при условиях (4.6), (4.7), в которых предполагаются учтенными уже най- денные выше оптимальные управления и которые как раз и превращают функционал (4.5) в функционал (4.30). Так что только в результате реше- ния задачи (4.30) определяется оптимальное управление и оптимальная траектория. Однако, чтобы обеспечить успешное противодействие случайным воз- мущениям (причем независимо от их природы), необходимо найти богатое
семейство подобных оптимальных решений, варьируя с этой целью на- чальные условия (xi, х%, х%, х±, х$) исходной задачи (4.5)—(4.7) и опреде- ляя по описанной выше методике оптимальное управление и оптимальную траекторию для каждого варьируемого случая начальных условий. В ре- зультате мы получаем богатое семейство оптимальных траекторий (с от- вечающим почти каждой точке из этих траекторий оптимальным управ- лением), что в совокупности и составляет синтез оптимального управле- ния (т.е. нахождение функции uopt(x))) который в случае случайных воз- мущений рассматриваемой динамической системы позволяет определить почти в любой точке фазового пространства х = (х\, ...,#5) оптимальное направление движения в заданное конечное состояние при любых воз- действиях возмущений на динамическую систему, если возможности (U) системы управления достаточны, чтобы привести систему в заданное ко- нечное состояние в условиях действия этих возмущекний. В данной задаче эти возможности с лихвой реализуются, если \w(t)\ -С U\. Задача 4.2. Найти максимум функционала 1 J = (Х\Х2 + U\U2 + u\)dt (4.31) о при ограничениях хх = и\ + #2, х2 = хги2 + w(t), Ui = {щ : \щ\ < 2}, 0 = t0 < t\ = 1, ((4.32) x1(0) = x°u х2(0) = х°, х1(1) = х\, (4.33) где w(t) — произвольный случайный процесс, возмущающий рассматри- ваемую динамическую систему, a u(t) — подлежащее определению обыч- ное управление, т.е. измеримая по Лебегу функция. Прежде всего соста- вим гамильтониан динамической системы (4.31), (4.32) без учета случай- ного процесса:
Н = Po(XiX2 + Щи2 + ^l) + Р\(и\ + X2) + £>2#1^2- Уравнения Эйлера (3.6) и условия трансверсальности (3.7) принимают вид Pi = -Р0%2 -P2U2, Р2 = -Р0Х1 -РЪ (4-34) Легко видеть, что в случае обычного управления (щ{Ь), U2(t)) гамиль- тониан, как функция управления щ, представляет собой квадратичную параболу, которая выпукла (вниз) на тех интервалах времени, на которых Pi(t) > 0, и вогнута, когда p\(t) < 0. Найдём вид обычного оптимального управления на тех участках тра- ектории, на которых p\(t) > 0. Сначала определим экстремальную точку параболы, приравняв нулю производную от гамильтониана: дН ^— = РоЫ + 1) + 2piui = 0, ощ откуда получаем экстремальную точку иГ = -Р°(Ц2 + 1), (4.35) 2pi а из условия (3.11), рассматривая его для случая обычного управления в виде maxiif, находим вид оптимального управления -r-{l -2 если uf1 > 0, , 1 _ (4.36) если Ui < 0. Поскольку гамильтониан линеен по второму управлению, то оптималь- ный вид второго управления находится из условия (3.11) (при любых зна- чениях Pi(t)) непосредственно: и^ = 2sign{p0ui +Р2Х1}. (4.37)
В случае pi(t) < 0 из (3.11) имеем: i/°p* = -2 если ufb < -2, +2, если uf > +2, (4.38) [ uf\ если - 2 < uf* < 2, Если ограничиться обычным управлением u(t) = (ui(t),U2(t)), то ре- шение задачи может быть найдено каким-либо численным методом итера- ционно. Сначала произвольно выбираются недостающие начальные усло- вия для системы (4.32)—(4.34), например, pi(0) = pj, рг(0) = р\- Затем из (4.35)—(4.38) (итерационно) определяется обычное оптимальное управле- ние и^1^). Эта пара управлений используется для расчёта траектории на каждом шаге расчётов. Далее, выбранный численный метод рассчитыва- ет траекторию до момента t=\. Поскольку при произвольно выбранных значениях рДО) краевые условия Х\{1)=\ и Рг(1)=0 не удовлетворяются, то каждая следующая итерация проводится с другими значениями р?, и так до тех пор, пока при некоторых значениях $ не будет обеспече- но удовлетворение конечных условий a?i(l)«l, рг(1)^0с желаемой точностью. Таким путем ищется оптимальное управление и оптимальная траектория, т.е. пара (г^^),^^^)) в исходной задаче (4.31)-(4.33) в от- сутствие случайных возмущений. Однако, во-первых, при использовании управлений u(t) зачастую оп- тимальная траектория не достигается (не существует), а следовательно, в общем случае следует ее искать в более широком классе управлений q(u, t). А во-вторых, случайные возмущения изменяют оптимальную тра- екторию. Если амплитуда случайных возмущений относительно невелика по сравнению с возможностями U системы управления, то эта система мо- жет эффективно компенсировать воздействие этих возмущений, если на плоскости (#i,£2) построить приближенный синтез оптимального управ- ления, который может быть найден по методике, изложенной в примере 4.1. Итак, чтобы найти хотя бы одну оптимальную траекторию необходимо
все же опираться не на управляющие переменные u(t), а на управляющие переменные q(u,t), причем необходимо выяснить, реализуются ли обоб- щённые управления (скользящие режимы) в рассматриваемой задаче. В данной задаче на участках траектории, на которых Pi(t) < О, сколь- зящий режим по управлению щ невозможен, так как гамильтониан Н в этом случае строго вогнут по щ и достигает максимума всего в единствен- ной точке, в то время как скользящий режим возможен лишь тогда, когда гамильтониан имеет максимум более чем в одной точке. Эта последняя возможность реализуется в рассматриваемой задаче только при условии Pi(t) > 0. В классе обобщённых управлений функционал (4.31) и уравнения (4.32) в случае w(i) = 0 принимают вид 1 J = J J J(xiX2 + щи2 + Ui)dqidq2dt = о иги2 1 1 1 / X\x2dt + / / / u\U2dq\dq2 + / / uidqidt, 0 0UiU2 oux (4.39) ±i = J J U\U2dq\dq2 = / u\dqi + x2, ux и2 Ux l x2 = / / / u2X\dq\dq2dt = X\ J u2dq2. 0 Ux U2 U2 (4.40) Одно из необходимых условий (3.9) в данном случае принимает вид /■ = 0, (4.41) Hdq2(u2,t\u{)\ &2 Jfio где (ui(i),u\(t)) — пара точек (из множества СД), в которых Н достигает максимума на некотором ненулевом подмножестве оси t. Отсюда получа- ем следующее равенство р0й\ J u2dq2(u2,t\u\) +р0й\ +pi(u\)2 = и> (4.42) Pqu\ J u2dq2{u2, t\u\) + Pqu\ + Pi(u\)2, u2
где всегда можно взять ро=1- Поскольку согласно (4.32) управления щ и u<i независимы, то условные вероятности q<i(u<i,t\id\) и #2(^2? t\u\) превращаются в безусловную веро- ятность #2(^2>£)=#2(^2j£|ui) =#2(^2>£|ui)> а равенство (4.42) принимает вид (ч\-ч\) РО / М<?2 + РО + Plfai + ^?) = 0, (4.43) и2 откуда следует необходимое условие существования оптимального обоб- щенного управления qi(u\,t) /• ^2^2 = — 1. (4.44) и2 Равенство (4.44) получается из (4.43), если, учесть, во-первых, что по- скольку точки й\ и й\ разные, то (й\ — uj) ф 0; и во-вторых, что с уче- том условия (3.11) гамильтониан может достигать максимума не более чем в двух точках, имеет место равенство й\ + uj=0. Действительно, при Pi(t) > 0 гамильтониан имеет вид выпуклой (вниз) параболы, симметрич- ной относительно начала координат щ = 0 и достигающей максимума в граничных точках интервала [-2,2], а следовательно, uJ=-2, й\=2. Равенство (4.44), выполняющееся, как видно из него самого, в любое время на траектории, показывает, что почти наверняка скользящий ре- жим по первому управлению возможен тогда, когда он реализуется од- новременно и по второму управлению, поскольку само по себе равенство (4.44) указывает на то, что второе управление (по г^) может в этом слу- чае быть только обобщенным, так как обычное оптимальное управление и£ = ±2 этому равенству удовлетворять не может. Рассмотрим возможности существования скользящего режима по вто- рому управлению. Соответствующее уравнение в (3.9) в этом случае при- нимает вид
Ро и\ I uidq\(ui,t\u\) — р$и\ I Uidqi{ui,t\v!2) + P2X\(u2 - Щ) = 0 и вследствие независимости управлений приводится к виду №-*!) = о. / uidqi+p2xi\ Отсюда следует, что если скользящий режим по второму управлению имеет место, то удовлетворяется уравнение / Uidqi = -Р2Х1, Ui из которого следует, что скользящий режим возможен, когда (4.45) |P2*i| < 2. (4.46) Это неравенство является следствием ограничений (4.32) на управля- ющие переменные \щ\ < 2, которые в классе обобщённых управлений принимают вид —2 < j u^dqi < 2. Ui Таким образом, в рассматриваемой задаче возможна пара обобщенных управлений (#i, q2) на интервалах времени, на которых имеют место нера- венства: \р2Х\\ < 2,pi > 0. Остаётся выяснить, возможны ли пары оптимальных управлений (uf(t),flf (u2,t)) и (qf(uut),uf («)). СЛУЧАЙ 1: px(t) > 0, {u^\t),q^\u2,t)). В этом случае u°f\t) = ±2 и должно удовлетворяться равенство (4.45), представляющее собой необхо- димое условие существования обобщенного управнения #2(^2^)- Подста- вив в (4.45) управление (и^ (t) = ±2, получаем ±2 = -p2x1(t). (4.47)
Дифференцируя это равенство по t с учётом уравнений (4.32) и (4.34) (и условия и0^ (t) = ±2), находим Р2Х1+Р2Х1 =Xl(-poXl-Pl)+P2(v>l + X2) = -poX2l-PlXl+4p2+P2X2 = 0. Дифференцируя полученное равенство снова, имеем -2p0xi±i - Xipi - xipi + 4р2 + р2х2 + Р2&2 = 0. (4.48) Подставляя в это равенство правые части уравнений (4.32) и (4.34), приходим к интегральному уравнению относительно обобщенного опти- мального управления q2(u2,t)\ [ u2dq2 ее 12PQ*i+2?o*i*2 + 8Pi + 5pi*2 Д щ 4g) J 2p2£i А это равенство означает, что рассматриваемый случай реализуется на тех участках траектории, на которых правая часть этого равенства удовлетворяет условию \A(t)\ < 2. СЛУЧАЙ 2: px(t) < 0 Пара управлений {u^\t),q^\u2,t)), где uT = ur = -^[ju2dq2 + 1 также должна удовлетворять равенству (4.45), представляющему собой необходимое условие существования обобщенного управнения q2(u2, t). Под- ставив в (4.45) это управление, получаем /• ^2^2 = 2piP2#l — 1. и2 Отсюда следует, что на интервалах времени, на которых выполняется неравенство \2pip2X\ — 1| < 2, рассматриваемая пара управлений допу- стима.
Случай 3. Пара (дПиь*)>«2 (*)) невозможна, так как она обращает равенства (4.44) в невозможные равенства ±2 = — 1. На этом исследование всех возможных режимов управления заверша- ется и задача (4.31)—(4.33) оказывается подготовленной для численных расчеЁтов оптимального управления в любом классе стратегий с помо- щью известных стандартных численных методов решения задач опти- мального управления [12], краткий обзор которых дается в следующем разделе. Синтез оптимального управления, необходимый для компенсации слу- чайных возмущений, в этой задаче строится аналогично тому, как он опи- сан в предыдущей задаче. 5. Численные методы решения задач оптимизации Необходимые условия оптимальности всегда сводят вариационную за- дачу к решению семейства дифференциальных и алгебраических уравне- ний с двухточечными краевыми условиями (т.е. к двухточечной краевой задаче), причём даже в тех случаях, когда в исходной вариационной зада- че краевые условия представляют собой только начальные условия. По- кажем, что краевые условия (3.3) и (3.7) всегда определяют п условий на левом конце траектории (в точке to) и п условий на правом конце (в точ- ке ti). Рассмотрим ради наглядности упрощённый случай, когда функции Gk имеют вид: Gi = Xi(t0) - ж? = 0, Т~п. Из условий (3.7) получаем dF -Pi(to) = Po-q-q + U, где п постоянных множителей Лагранжа ^ неизвестны, а следовательно, для уравнений (3.7) мы располагаем краевыми условиями только на пра-
вом конце траектории (т.е. в момент ti). Таким образом, система 2п взаим- но зависимых дифференциальных уравнений (3.5), (3.6) не может быть непосредственно проинтегрирована, поскольку для неё задано только п начальных условий, а остальные п заданы на правом конце траектории и их удовлетворение возможно только при соответствующем итерационном подборе недостающих начальных условий Pi(to). Этот недостаток ровно п начальных условий для системы (3.5), (3.6) имеет место всегда, в любых вариационных задачах, какой бы вид в исходной задаче (3.3)—(3.5) ни имели краевые условия (3.3). Так что решение любой вариационной за- дачи всегда сводится к подбору недостающих начальных значений, кото- рые обеспечат удовлетворение конечных условий, а следовательно, реше- ние любой вариационной задачи всегда сводится к решению двухточесной краевой задачи для системы дифференциальных уравнений. Численное решение можно искать следующим образом. Обозначим ради удобства неизвестные начальные значения переменных через с^: Pi(^o) = ^ъ • • • iPn(to) = шп. Поскольку управляющая переменная q с помощью необходимых условий оптьимальности всегда может быть вы- ражена через остальные переменные (х,р, £), то уравнения (3.5) и(3.6) легко интегрируются и функционал J оказывается функцией J (и) подле- жащих определению п параметров ш%. Эти параметры ищутся из условий достижения максимума J (и). Таким образом, вариационная задача сво- дится к задаче на безусловный экстремум функции J(uj) в пространстве п параметров. Когда достигается максимум J (о;), то автоматически удовле- творяются и конечные условия для множителей Лагранжа Pk(t\)=О, так как они должны удовлетворятся в точке ti, согласно необходим условиям оптим ал ьности. Подобное частное численное решение задачи сохраняет свою эффек- тивность и тогда, когда на правом конце траектории заданы две-три фа- зовых координаты Xj(t\)y j = 1,а. При расчётах на каждой итерации удовлетворяют только этим а условиям, не заботясь об удовлетворении
конечных условий для множителей Лагранжа (ра+ь ... ,рп). Последние же в точке максимума J(lj) удовлетворяются автоматически, согласно неообходимым условиям оптимальности (3.6)—(3.11) (при условии, конеч- но, что обеспечено точное достижение максимума функционала. Если же учесть, что точное значение максимума J численными методами не может быть найдено, то можно вообще не интересоваться конечными условия- ми на множители Pk(ti)i так как интерес представляет лишь достигнутая точность нахождения максимума J и не играет никакой роли, какова точ- ность удовлетворения краевых условий Pk(ti). Перейдём теперь к рассмотрению общих методов решения вариацион- ных задач, ставших уже почти классическими. Идеи основных методов численной оптимизации в конечномерных и функциональных простран- ствах рассмотрим на примере простейшей задачи минимизации произ- вольной функции f(x) в n-мерном пространстве Rn. В основе большин- ства методов лежит итерационная формула, которую в общем виде можно записать следующим образом: Хк+i = хк + акУк, (5.1) где ак — коэффициент, характеризующий длину шага в направлении век- тора ук. Методы различаются выбором коэффициента ак и вектора ук. Итерационный процесс организуется так, чтобы имела место сходимость хк —> се argmmf(x), (5.2) причём сходимость, по возможности, как можно более быстрая. Вводят несколько определений скорости сходимости. Говорят, что име- ет место сходимость с линейной скоростью, или со скоростью геометри- ческой прогрессии, если \хк+1-с\ < Ь\хк-с\, (5.3) где Ь е (0,1);
если же выполняется отношение Ы+1 ~с\< Ък\хк-с\, (5.4) где Ьк —> О при к —► со, то говорят о сверхлинейной скорости сходимости. Когда же имеет место отношение |s*+i - с\ < М\хк - с|2, (5.5) то говорят о квадратичной скорости сходимости. Легко видеть, что если точки х^ис достаточно близки друг к другу, то, выбирая вектор у к так, чтобы (/£, у) < О, где f'k = Д(х^), можно обес- печить дальнейшее сближение этих точек. Это следует из рассмотрения линейных членов разложения в ряд Тейлора: f(x) « /(#&) + (/^сед*)» где х = хк + акУк> отсюда следует f(x) < f{xk)- В методе наискорейшего спуска вектор ук выбирается в направлении антиградиента, т.е. ук = —fk. При этом, очевидно, (fk,yk) < 0 и итераци- онный процесс задаётся формулой Хк+1 = Хк- OLkfk- (5.6) Подобный итерационный процесс входит в группу так называемых гра- диентных методов. Если параметр а^ на каждой итерации выбирать из условия миними- зации функции / в направлении антиградиента, т.е. из условия /(sfc+i) = f(xk - akfk) = min f(xk - akfk), (5.7) ak>0 то градиентный метод будет сходиться со скоростью геометрической про- грессии. Вследствие хорошей начальной скорости сходимости этого мето- да его чаще всего используют, когда неизвестно удовлетворительное на- чальное приближение. Однако с приближением к минимуму сходимость градиентного метода ухудшается, поскольку изменяется знаменатель гео- метрической прогрессии. В малой окрестности экстремума чаще приме- няют другие методы, например метод Ньютона 1-го и 2-го порядков.
В методе Ньютона 1-ого порядка итерации проводятся по формуле Sjfc+i = Xk- ak(fk)~lfk- (5.8) Однако в подобной простейшей форме метод Ньютона не используется. Применяют различные его модификации, в частности, модификацию, ос- нованную на учёте членов 2-го порядка малости в разложении функции f(x) в ряд Тейлора, если, конечно, эта функция достаточно гладкая. Пусть функция f(x) строго выпуклая и имеет непрерывные вторые производные. Аппроксимируем её в окрестности произвольной точки #0 квадратичной функцией f(x) « ф) = /Ы + (/'Ы,У) + (1/2)(Г(*о)у, V), где у = х - х0. Покажем, что минимум <р(х) достигается при у = х — Xq = — (/"(гго))-1/'^)- В самом деле, рассматривая функцию <р(х) = <р(хо+у) как функцию от у и определяя ее экстремум по у, получаем ^ = (/'Ы + (/"Ы,3/) = 0. (5.9) Отсюда, во первых, имеем (/'(#о)?у) = ~{Г'{хо)У^У) < 0, поскольку f"(xo) > 0 для строго выпуклой функциии, и во-вторых, что вектор у = х—Хо задаёт направление движения к минимуму функции f(x). Умножая равенство (5.9) слева на матрицу (/")-1, находим направление движения к минимуму y = x-x0 = (f)-1f, а подставляя это направление в формулу (5.1), получаем для метода Нью- тона второго аорядка формулу хк+1 = хк- ак{^ухГк. (5.10) Квадратичная аппроксимация <р(х) функции f(x) гораздо точнее, чем линейная аппроксимация, используемая в градиентных методах. Поэтому
можно ожидать, что и скорость приближения к минимуму функции f(x) вдоль вектора у будет быстрее, чем в градиентных методах. Итерационный процесс (5.10) называют обобщённым методом Ньютона с регулируемым шагом а&. Параметр а&, характеризующий шаг в направ- лении минимума функции /(#), обычно выбирают из условия (5.7) или из менее трудоёмкого в вычислительном отношении условия f(xk+1) - f(xk) < eak(fk, ук), е е (0,1/2); (5.11) если это условие удовлетворяется при а* = 1, то это а^ = 1и берётся на следующей итерации; в противном случае берётся меньшее значение а^, при котором удовлетворяется (5.11). Обобщённый метод Ньютона сходится к решению из любого начально- го приближения, причём не менее чем со сверх линейной скоростью. Если же вторая производная удовлетворяет условию Липшица \f\x) - f"(x')\ < с\х - х'\, х,х' € Я", (5.12) то имеет место квадратичная сходимость. Это является сильной сторо- ной данного метода. Однако, он требует расчёта вторых производных от функции /(#), что вызывает большие трудности, если размерность про- странства {х} велика. Кроме того, в приложениях расчёт не только вто- рых, но и первых производных нередко бывает затруднителен по тем или иным причинам. Чтобы снизить объём расчётов на каждой итерации, рас- чёт матрицы f"(x) и её обращение выполняют не на каждой итерации, а то и вообще только в начальный момент. Это снижает скорость сходимо- сти, а следовательно, требует большего числа итераций, но в целом всё же может существенно снизить объём расчётов на ЭВМ. Высокая скорость сходимости метода Ньютона стимулировала разра- ботку его модификаций, в которых в какой-то степени устраняются недо- статки этого метода (в основном связанные со сложностями расчёта мат- рицы вторых производных) без заметных потерь в скорости сходимости.
Такие модификации называют методами двойственных и сопряжённых направлений. В них матрица вторых производных f"{x) аппроксимиру- ется матрицей Л, которая определяется следующим образом. Из разло- жения первой производной f(x) в ряд Тейлора в линейном приближении следует ff(x)-f(x0) = f"(x)(x-x0)+o(\x-x0\) « А(х-х0) + о(\х-х0)\). (5.13) Выбирая близкие друг к другу точки х\,..., жп+ь элементы матрицы Д имеющей порядок (n х п), можно найти из решений f'(xi+i)- f'(xi) = A(xi+i -Xi), i = Y/n, (5.14) где i-e уравнение представляет собой систему п уравнений для п компо- нент вектора х. После этого итерационный процесс строится по формуле хк+1 = хк- aA^fk, ак > О, (5.15) т.е. по виду напоминает градиентный метод. Методы двойственных направлений эффективны для определения ми- нимума гладких выпуклых функций /(ж), обеспечивают сверхлинейную скорость сходимость их любого начального приближения и требуют мень- шего объёма вычислений, чем обобщённый метод Ньютона. Разновидностью метода градиента является метод условного гради- ента, состоящий в следующем. Расчёты ведутся по общей итерационной формуле (5.1), однако направление спуска выбирается не по антигради- енту, как в методе наискорейшего спуска, а иначе. Найдя в точке хк про- изводную fk = f(xk), определяют минимум линейной формы (fk1y) на рассматриваемом множестве X С i?n, на котором задана функция f(x). Если этот минимум достигается в точке хк) то за направление расчёта следующей итерации берётся направление ук = хк — хк. Шаг ак в ите- рационной формуле определяется по одному из указанных выше методов или из других соображений.
Для решения вариационных задач и задач на экстремум функций при наличии ограничений широко применяется так называемый метод штраф- ных функций. Пусть, например, требуется минимизировать функцию /(#) на множестве X = {х : gi(x) < О, г = I~m}, (5.16) где все функции gi(x) непрерывны. Введем в рассмотрение функцию (p(t) > О, удовлетворяющую условиям: tp(t) > О при t > О и ip(t) = О при t < 0. В качестве (p(t) можно взять, например, функцию вида ,«) = {''' **°-—** (47) [0, t < 0, t = д < 0. С помощью этой функции построим функцию 7П т S{x,q) = д^^Р(Ф)) = $>г<7г2(я), (5.18) г=1 г=1 которую называют штрафной функцией, а коэффициент q — коэффици- ентом штрафа. Понятно, что 5 = 0 при х € X и S > 0 при ж ^ X, причём 5 —> оо при g —► со. Исходную задачу минимизации /(ж) на множестве X можно теперь заменить аппроксимирующей её задачей на безусловный экстремум функции 771 F(x, g) = /(х) + S(x, q) = f(x) + ^ адг2, (5.19) г=1 которую решают для различных увеличивающихся значений параметра q ' qi < 42 < • • • < qn -> оо. Доказывается, что если функция (p(t) непрерывна и монотонна по t и множества Хс = {х : F(x,q) < с} при каждом с компактны, то при q —► оо решение задачи минимизации f(x) сходится к решению исходной задачи минимизации f(x) на X. Однако, численная реализация метода штрафных функций на практике нередко приводит к большим трудно- стям, одна из которых состоит в том, что функция S(x,q) при больших q
резко меняется от нуля до больших значений на множестве X, что услож- няет и делает неустойчивыми расчёты. Другая неприятность состоит в том, что на границе множества X, где чаще всего на практике и дости- гается минимум /(#), функция 5, а следовательно, и F не имеют второй производной, что приводит к сложностям применения для вычисления минимума F(-,q) методов второго порядка, основанных на вычислении вторых производных. Кроме того, приходится многократно находить ми- нимум F(-,q) при различных значениях q, что требует большого объёма вычислений. Заметим, что задачи с ограничениями в виде неравенств, например типа gj(x) > 0, можно свести к задаче с ограничениями в виде равенств. В рассматриваемом случае можно, например, ввести в рассмотрение новые координаты xn+i,..., хп+т и положить 9j(x)-x2n+j = 0, j=T~^. (5.20) В связи с этим рассмотрим один из возможных подходов к задаче ми- нимизации функции f(x) на множестве X = {х : gj(x) = 0,j = 1,га}, где все функции предполагаются непрерывно дифференцируемыми, а следо- вательно, множество X есть гладкое (п — т)-мерное многообразие, про- изводное отображение которого обозначим через д'(х). Касательная ги- перплоскость к многообразию X в точке х\~ будет иметь, очевидно, вид д'(хк)(х—#&)=(), где (х—Хк) — вектор, лежащий в карательной гиперплос- кости. В этой гиперплоскости имеется бесконечно много направлений, вдоль которых происходит уменьшение функции /(х), а следовательно, (f(xk)(x — Хк)) < 0. Возьмём одно их этих направлений ук = (х — Хк) и по итерационной формуле (5.1) построим точку Xk+i = Хк + &кУк- Одна- ко, эта точка, оказавшаяся в касательной гиперплоскости, уже не может удовлетворять ограничениям задачи, так как не принадлежит многооб- разию X. Можно различными способами по точке Хк+\ построить точку Xfc+i, удовлетворяющую ограничениям на (fc + 1)-м шаге, например, мож-
но спроектировать её на многообразие X, а в качестве вектора у к выбрать проекцию антиградиента —f'(xk) на касательную плоскость в точке £&. Известно большое число численных методов. Однако основу почти всех из них в большинстве случаев составляют схаметично выше описанные методы.
СПИСОК ЛИТЕРАТУРЫ 1. Острем К.Ю. Введение в стохастическую теорию управления. М.: Мир. 1973. 2. Флеминг У., Ришел Р. Оптимальное управление детерминирован- ными и стохастическими системами. М.: Мир, 1978. 3. Феллер В. Введение в теорию вероятностей и ее приложения М.: Мир, 1984. 4. Гихман И.И., Скороход А.В. Управляемые случайные процессы. Ки- ев: Наукова Думка, 1977. 5. Пугачев B.C., Синицын И.Н. Стохастические дифференциальные системы. М.: Наука, 1990. 6. Пугачев B.C., Синицын И.Н. Теория стохастических систем. М.: Ло- гос. 2000. 7. Понтрягин Л.С, Болтянский В.Г., Гамкрелидзе Р.В., Мищенко Е.Ф. Математическая теория оптимальных процессов. М.: Наука. 1969. 8. Янг Л. Лекции по вариационному исчислению и теории оптималь- ного управления. М.: Мир. 1974. 9. Варга Дою. Оптимальное управление дифференциальными и функ- циональными уравнениями. Пер с англ. М.: Наука. 1977. 10. Смольяков Э.Р. Обобщенное оптимальное управление и динамиче- ские конфликтные задачи. М.: МГУ им. М.В.Ломоносова. 2010. 11. Смольяков Э.Р. Дифференциальные игры в смешанных стратегиях // ДАН СССР. 1970. Т. 191. № 1. С. 39-41. 12. Евтушенко Ю.Г. Методы решения экстремальных задач и их при- менение в системах оптимизации. М.: Наука. 1982.
СОДЕРЖАНИЕ ПРЕДИСЛОВИЕ 3 ВВЕДЕНИЕ 5 Глава 1. СЛУЧАЙНЫЕ ПРОЦЕССЫ И МИНИМИЗАЦИЯ ДИСПЕРСИИ 9 1. Аппроксимация случайного процесса 9 2. Свойства корреляционных функций 19 3. Понятие спектральной плотности 22 4. Стохастический интеграл 25 5. Стохастические дифференциальные уравнения 28 5. Стратегии уравнения, минимизирующие дисперсию 34 Глава 2. ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ СЛУЧАЙНЫМИ ПРОЦЕССАМИ 41 1. Проблема поиска синтеза оптимального управления 42 2. Обобщенное оптимальное управление 47 3. Необходимые условия оптимальности обобщенного управления — 54 4. Синтез оптимального управления и примеры оптимизации возмущенных динамических систем 69 5. Численные методы решения задач оптимизации 87 СПИСОК ЛИТЕРАТУРЫ 97
Эдуард Смолья ков Глобальная оптимизация возмущаемых динамических систем (курс лекций) Impressum / Выходные данные Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. Alle in diesem Buch genannten Marken und Produktnamen unterliegen Warenzeichen-, marken- oder patentrechtlichem Schutz bzw. sind Warenzeichen oder eingetragene Warenzeichen der jeweiligen Inhaber. Die Wiedergabe von Marken, Produktnamen, Gebrauchsnamen, Handelsnamen, Warenbezeichnungen u.s.w. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutzgesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Библиографическая информация, изданная Немецкой Национальной Библиотекой. Немецкая Национальная Библиотека включает данную публикацию в Немецкий Книжный Каталог; с подробными библиографическими данными можно ознакомиться в Интернете по адресу http://dnb.d-nb.de. Любые названия марок и брендов, упомянутые в этой книге, принадлежат торговой марке, бренду или запатентованы и являются брендами соответствующих правообладателей. Использование названий брендов, названий товаров, торговых марок, описаний товаров, общих имён, и т.д. даже без точного упоминания в этой работе не является основанием того, что данные названия можно считать незарегистрированными под каким-либо брендом и не защищены законом о брендах и их можно использовать всем без ограничений. Coverbild / Изображение на обложке предоставлено: www.ingimage.com Verlag/Издатель: LAP LAMBERT Academic Publishing ist ein Imprint der/ является торговой маркой OmniScriptum GmbH & Co. KG Heinrich-Böcking-Str. 6-8, 66121 Saarbrücken, Deutschland / Германия Email/электронная почта: info@lap-publishing.com Herstellung: siehe letzte Seite/ Напечатано: см. последнюю страницу ISBN: 978-3-659-53288-7
Предлагается эффективная концепция управления оптимизируемыми динамическими системами, работающими в условиях случайных возмущений. Приводятся базовые основы теории случайных процессов и, наряду с традиционными схемами минимизации дисперсии, предлагается эффективный нетрадиционный подход к разработке систем управления оптимизируемыми динамическими системами, подверженными случайным возмущениям, опирающийся на использование синтеза обычного и обобщенного оптимального управления, получаемого предварительно в отношении проектируемой модели системы в отсутствие случайных возмущений. Эдуард Смолья ков Эдуард Смольяков Смольяков Эдуард Римович, доктор физ.- мат. наук, профессор Московского государственного университета им. М.В. Ломоносова. Опубликовал более 350 научных работ (почти все без соавторов)и среди них 24 книги по теории игр, оптимизации, теоретической физике и философии. 978-3-659-53288-7