Текст
                    БИБЛИОТЕКА ПО АВТОМАТИКЕ
Выпуск 236
Р. И. СТАХОВСКИЙ
МЕТОД ИЗОХРОН
В РЕШЕНИИ ЗАДАЧ
ОПТИМАЛЬНОГО
УПРАВЛЕНИЯ
«ЭНЕРГИЯ»
МОСКВА 1967


6П2.154 С 78 УДК 62-50 РЕДАКЦИОННАЯ КОЛЛЕГИЯ: И. В. Антик, А. И. Бертинов, С. Н. Вешеневский, А. А. Воронов, Д. А. Жучков, Л. М. Закс, Н. Е. Кобринский, В. С. Малов, В. Э. Низе, О. В. Слежановский, Б. С. Сотсков, Ф. Е. Темников, А. С. Шаталов Стаховский Р. И. С 78 Метод изохрон в решении задач оптималь- ного управления. М., «Энергия», 1967. 112 с. с илл. (Б-ка по автоматике. Вып. 236) 10 ООО экз. 42 к. Описывается метод расчета оптимальных систем автоматиче- ского управления с применением изохрон. Предлагаемый метод отличается от принципа максимума Понтрягина и динамического программирования Беллмана большей простотой методики расчета и применяемой аппаратуры. Приводится описание комплекса аппа- ратуры, а также решение с его помощью типовых задач оптималь- ного управления из области электропривода, проектирования хими- ческих реакторов и управления металлургическими процессами. Книга рассчитана на научных работников, специализирующих- ся в области оптимальных систем автоматического управления, со- трудников вычислительных центров и проектных организаций. Метод изохрон в решении задач оптимального управления 3-3-13 247-67 6П2.154 Стаховский Ростислав Иванович Редактор Ю. С. Попков Техн. редактор В. Н. Малькова Худ. редактор Д. И. Чернышев Корректор Е. X. Горбунова Сдано в набор 21/1 1967 г. Подписано к печати 8/IV 1967 г. Т-01874 Формат 81ХЮ81/8а Бумага типографская мелованная Усл. печ. л. 5,88 Уч.-изд. л. 7,95 Тираж 10 ООО экз. Цена 42 коп. Заказ 32 Издательство .Энергия". Москва, Ж-114. Шлюзовая наб., 10. Московская типография № 10 Главполиграфпрома Комитета по печати при Совете Министров СССР. Шлюзовая наб., 10.
ВВЕДЕНИЕ В последние годы сильно возрос интерес к задачам оптималь- ного управления объектами, т. е. такого управления, при котором объект функционирует наилучшим с какой-либо точки зрения об- разом. Для оценки качества работы объекта или целью оптимального управления обычно служат величины, связанные с экономичностью работы объекта, например прибыль, «себестоимость .продукции и т. д. При этом объектом может считаться любой производственный ком- плекс: агрегат, цех, завод, комбинат, отрасль промышлен- ности. Наиболее общим видом оптимального управления является оптимальное планирование, имеющее дело с разветвленными ком- плексами, выполняющими длительные производственные задания, например задания по объему производства продукции и ее реализа- ции в масштабах пятилетнего плана. При оптимальном планиро- вании должны учитываться многочисленные экономические и хозяй- ственные факторы: эффективность капиталовложений, поступление и износ оборудования, потребность в рабочей силе, спрос на про- дукты производства и т. д. Сложность оптимального планирования, в частности, в том, что количественные соотношения между чис- ленными характеристиками компонентов производственных ком- плексов сложны и учитываются в основном статистическими ме- тодами. В данной работе речь будет идти о более простом случае — оптимальном управлении производственными агрегатами, хотя ме- тоды расчета оптимального управления могут быть применены и в оптимальном планировании. Имеются две основные области применения оптимального управления. Первая из них включает оптимальное управление ра- ботающими агрегатами. Выигрыш от применения оптимального управления часто не получается значительным, поскольку техноло- гический режим работающих агрегатов, как правило, не является гибким, а оптимальное управление требует определенного форсиро- вания режима. Обычно конструктивные данные работающих агре- гатов, рассчитанные на номинальные режимы, сужают возможности улучшения показателей работы агрегата с помощью оптимального управления. Вторым направлением является выбор оптимальных режимов агрегатов, включая и оптимальное управление, при их проектиро- вании. В этом случае имеются гораздо большие возможности улуч- шения показателей функционирования, поскольку применение сов- 3
ременных математических методов при расчете и конструировании позволяет гораздо более полно учесть возможности технологических процессов. Особенно это проявляется при проектировании новых технологических процессов в химической, металлургической и других отраслях промышленности. Необходимым условием проектирования оптимальных техноло- гических режимов является математическое описание производствен- ных процессов в проектируемом агрегате. Как правило, оно может быть сведено к системе обыкновенных дифференциальных уравне- ний, где в качестве неизвестных величин фигурируют характерные для описываемого процесса величины: температура в определенных точках агрегата, давление, концентрация, расход, уровень и т. д. Воздействие на объект, с помощью которого устанавливается тре- буемый режим агрегата ((например, расход пара, величина воздуш- ного дутья, расход сырья, расход твердого и жидкого топлива, ве- личина напряжения питания и т. д.), отражается" обычно правыми частями дифференциальных уравнений. -В некоторых случаях, од- нако, управляющим воздействием является не правая часть диффе- ренциального уравнения, а некоторый параметр, коэффициент диф- ференциального уравнения. Так, например, при оптимальном управ- лении электродуговой сталеплавильной печью одним из управляющих воздействий является изменение длины дуги. При подборе оптимального режима процесса фьюмингования цинка из шлаков управляющим воздействием является соотношение топли- во — воздух в углевоздушной смеси, которое входит в дифферен- циальное уравнение в качестве параметра. Такой способ управления можно назвать параметрическим. Надо сказать, что для сложных нелинейных систем различие обоих методов управления провести весьма трудно. При математическом описании объекта весьма важным являет- ся выбор критерия оптимальности, без которого понятие оптималь- ной системы не имеет смысла, критерием оптимальности может быть любая величина, с помощью которой считают целесообразным оценивать работу объекта. Такими критериями могут служить, на- пример, стоимость реализованной продукции, себестоимость про- дукции, прибыль. Вместе с тем, поскольку агрегаты, как правило, являются частью технологического процесса в масштабе цеха, за- вода или комбината, не всегда удается или бывает целесообразно выделить прямой экономический показатель для данного агрегата, полностью характеризующий эффективность его работы. В частно- сти, это может произойти потому, что оптимальные экономические показатели агрегата не являются, вообще говоря, оптимальными в масштабах цеха или завода. В этих случаях приходится брать в качестве критерия оптимальности производственную характери- стику, косвенно характеризующую экономичность работы агрегата, например, к. п. д., время технологического процесса, производи- тельность, поддержание качественных показателей продукции в пре- делах заданных допусков и т. д. Значения критерия оптимальности, естественно, будут различными для различных режимов агрегата, т. е. для различных управляющих воздействий. Особенностью большинства применяемых критериев оптималь- ности является то, что их значения могут быть получены только с помошью обработки информации о работе агрегата за определен- ный отрезок времени. Так, например, производительность таких агрегатов как сталеплавильные электро- или мартеновская печь, 4
конвертор, химический реактор Циклического действия может быть определена только после окончания цикла. Себестоимость продук- ции, включающая в себя в качестве составной части производитель- ность, зависит как от времени работы агрегатов, так и от времени, затраченного на ремонт. Поэтому, как правило, критерий опти- мальности математически представляет собой результат усреднения (интегрирования по времени) некоторой функции, величина которой в каждый данный момент времени определяется текущим режимом объекта. Сказанное справедливо и для непрерывных производствен- ных процессов, так как прохождение сырья через агрегат требует времени, иногда довольно значительного, и показатели работы агре- гата определяются всеми прошлыми значениями управляющих воз- действий. Следует сказать также, что существенным для математического описания объекта является учет ограничений, под которыми пони- маются некоторые технологические величины, которые в процессе работы агрегата не должны выходить из предписываемых техноло- гией допусков. Так, температура в химическом реакторе по произ- водству окиси этилена не может превышать 250° С во избежание спекания катализатора, т. е. выхода реактора из строя. Аналогично скорость движения привода нажимного устройства валков прокат- ного стана ограничена допустимым током обмотки возбуждения двигателя, центробежными усилиями в роторе двигателя и други- ми факторами. В общем случае ограничениям подлежат не только внутренние координаты объекта, что математически выражает огра- ниченные ресурсы объекта, но и координаты систем управления (например, значения управляющих воздействий), что математиче- ски отображает ограниченные ресурсы управляющих устройств. Например, выходная мощность магнитного усилителя, питающего обмотку возбуждения электропривода валков прокатного стана, не может быть бесконечно большой во избежание нарушения работо- способности самого усилителя. Приведем некоторые конкретные примеры постановки задач, оптимального управления режимом производственных агрегатов. Электропривод постоянного тока применяется в качестве испол- нительного устройства в прокатных станах и других агрегатах, где, подчас, инерционные свойства электропривода не позволяют уве- личить производительность без снижения качественных показателей продукции. Поэтому управлять электроприводом необходимо та- ким образом, чтобы производить отработку команд за наименьшее время при соблюдении ограничений по току якоря двигателя [Л. 1]. При конструировании химического реактора для производства окиси этилена из этилена и воздуха в присутствии катализатора следует получить заданную производительность при наименьшей длине реактора, поскольку в этом случае расход дорогостоящего катализатора является наименьшим '[Л. 2]. Управляющим воздей- ствием в данном случае является распределение температуры хо- лодильника вдоль трубки реактора, а ограничением является тем- пература в любой точке реактора, поскольку реакция окисления этилена ,идет с выделением тепла. Для других типов химических реакторов периодического действия (автоклавов) задача состоит в минимизации времени реакции, т. е. в достижении максимальной производительности агрегата [Л. 3]. Управляющими воздействиями здесь служат температура и давление внутри автоклава. 5
В металлургии перспективным является применение фьюминго* вания для извлечения из шлаков полезных компонентов или, на- оборот, удаления из расплава вредных примесей. Так, например, из шлаков, образующихся при переработке руд цветных металлов, необходимо извлекать цинк, которого может остаться в шлаке до 20%. Через расплавленный шлак продувают углевоздушную смесь [Л. 4], причем углерод восстанавливает цинк, который уносится с газами в виде окиси цинка и затем улавливается фильтрами. Происходит извлечение цинка из шлака. Время извлечения сущест- венно зависит от программы изменения состава углевоздушной смеси. Поэтому возникает необходимость расчета такой программы подачи углевоздушной смеси в ванну со шлаком, чтобы время из- влечения цинка из шлака до заданной малой величины было мини- мальным, что обеспечивает максимальную производительность. Актуальна также задача выработки программы для оптимального управления мощностью, вводимой в печь, для минимизации вре- мени плавки в электродуговой сталеплавильной печи [Л. б]. Задачи оптимального управления имеют существенное значение и в такой области, как управление летательными снарядами [Л. 6]. В данном случае величинами, характеризующими состояние объек- та, являются его пространственные координаты: высота, азимут, дальность. Управление осуществляется заданием программы тяги двигателя и ее направления. В частном случае решения задачи встречи на орбите необходимо не только совместить координаты снарядов, но и векторы их скоростей. Можно потребовать выпол- нить эту задачу с минимальным расходом топлива или за мини- мальное время. С помощью последнего примера станет более понятной матема- тическая постановка задачи оптимального управления. Будем счи- тать, что управляемый объект описывается системой обыкновенных дифференциальных уравнений первого порядка, к которой может быть сведена система дифференциальных уравнений любого по- рядка dxi "dt^fi C*i. • • •> *n. «i. • • «г. 0. (B-0 где *t(i=.l, ..., n)—выходные координаты объекта, Uk (&=1, ..., r)—управляющие воздействия. -Пусть на изменения координат и самих управляющих воздей- ствий наложены ограничения в виде неравенств Hj(xlt xnt аи . . . , ar, 0<0, (В-2) / = 1, .. . , т, В частных случаях выражения (В-2) могут иметь, например, вид: | Uk \ — Um <0, (Um = COnSt), \Xi\ — -Ггмщс <0, (Хгмаьс = CCTlSt), х\—л*?Макс^0 и т* д- Физический смысл ограничений (В-2) заклю- чается о том, чтобы в процессе управления опрэделенные координа- ты или их функции не выходили из заданных допусков. Целью управления является перевод объекта из заданного на- чального состояния х(0), характеризуемого значениями выходных координат Xi(t=0)=Xio(i—\, ..., я), в конечное заданное состоя- ние х(Т), характеризуемое заданными значениями выходных коор- * динат Xi=Xi при /=Г, где Т — интервал управления, заранее не- известный. При этом существует некоторый критерий оптимально- 6
сти процесса управления объектом в виде интегрального выражения т Q = ^G(xlt . . ., хп, и, ur, t)dt, (В-3) где G — заданная функция своих аргументов. Задача определения оптимального управления заключается в том, чтобы подобрать такие функции времени «i(/), ..., ur(t), при которых критерий Q получает экстремальное, например мини- мальное, значение. Геометрическая интерпретация задачи может быть произведена с помощью понятия фазового пространства, под которым пони- мается пространство {х\ ... хп}, полностью описывающее состояние объекта (рис. В-1). Движение системы представляется в фазо- вом пространстве изображающей точкой (вектором) x(t) с координатами Х\...хп. Тогда начальное состояние объекта будет соответствовать некоторой точке в этом пространстве, например началу координат. Аналогично, конечное состояние объекта будет соответствовать некоторой заданной точке в фазовом пространстве. В процессе управления состояние объекта . непрерывно меняется, в связи с чем изображающая точ- ка описывает траекторию, выходящую из точки начального состояния. Вид траекто- рии, а также значение критерия Q зависит от вида управляющих воздействий. Таким образом, задача сводится к определению таких управляющих воздей- ствий, переводящих объект из точки х(0) в точку а;*(Г), при кото- рых величина Q, при соблюдении условий (В-2), является минимальной. Очевидно, что управляющие воздействия должны обеспечивать выполнение заданных концевых условий т. е. попада- ние конца фазовой траектории в заданную точку. Как показано в [Л. 7], требование минимизации критерия мо- жет быть заменено требованием минимизации концевого значения координаты объекта x0(t), которая определяется дополнительным дифференциальным уравнением первого порядка dx0 Рис. В-1. Траектория изображающей точки в фазовом простран- стве. = f0(xu ....*„. а,, ... . ur, t), лго(0) = 0. (В-4) что с учетом (В-3) дает тождество Q=x0(T). При такой интерпре- тации фазовое пространство объекта увеличивает свою размерность на единицу. При этом новая компонента изображающей точки рав- на величине критерия оптимальности. Это представление упрощает теоретическое рассмотрение задачи оптимального управления. Аналогичным путем можно формально устранить зависимость правых частей выражений (В-1), (В-3), (В-4) от времени, введя, 7
координату xn+l = t с помощью дополнительного дифференциаль- ного уравнения dxn + i dt '1 =fn+i(^i, • •хп,аи . . .ur, t)> ^n+i(0) = 0. (B-5) Таким образом, можно ограничиться рассмотрением выражений (В-1) — (В-З) без явной зависимости от времени, а также счи- тать, что целью управления является минимизация значений неко- торой координаты объекта в конечный момент времени, в общем случае заранее не фиксированный. Часто для компактности записи (В-1) записывают в векторной форме §=Г(,- «). (в-6) где х—я-мерный вектор с координатами Х\ ..., хп\ J—/г-мерный вектор с координатами /ь ..., /п; й—r-мерный вектор с координа- тами «ь ..., «г, а принадлежность векторов х и й к определенной области значений Q(x) и Q(u) согласно (В-2) выражают в виде обозначений (В-7) При этом разыскивается оптимальный выбор управления иОпт(0> дающий минимум (В-З) при условии соблюдения х(Т)=х*. Формулированная таким образом задача является граничной вариационной задачей. Существуют варианты граничной вариационной задачи, свя- занные с видом функции G в выражении (В-З). В частности, если т G=\} т. е. Q= J dt=Tt то искомое оптимальное управление назы- о вается оптимальным по быстродействию. В случае, если const, имеет место общая граничная вариационная задача.
ГЛАВА ПЕРВАЯ ОБЗОР МЕТОДОВ РЕШЕНИЯ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ Определение экстремума какого-либо функционала относится к кругу вариационных задач ![Л. 8]. Для решения граничных вариа- ционных задач могут быть применены как аналитические методы, так и методы численного решения с помощью вычислительных машин. Общий аналитический метод решения сводится к решению уравнений Эйлера — Лаграижа для функции G(x, й), лричем в ка- честве ограничений типа равенств служит система уравнений объ- екта (В-1). Ограничения типа неравенств (В-2) более трудны для аналитического решения и в некоторых случаях могут быть преодо- лены путем подходящей замены переменных 1[Л. 9]. Решение систе- мы уравнений, состоящей из п уравнений Эйлера — Лагранжа и п уравнений системы, требует 2п граничных условий, которые полу- чаются из задания £(0) и х(Т). При практическом вычислении оптимальных управлений мето- дами вариационного исчисления встречаются следующие трудности: 1) Ограничения имеют обычно форму неравенств, причем век- тор (управления й может находиться не только внутри, но >и, как правило, на границе допустимой для него области. 2) Решением оптимальной задачи часто являются кусочно-не- прерывные функции Uk(t) с конечным числом разрывов 1-го рода, причем заранее не определены моменты времени, когда происходят скачки uh{t). Как показано в [Л. 9], эти особенности чрезвычайно усложня- ют решение. Аналитические методы представляют собой алгоритмы, с помо- щью которых можно получить решение в виде готовых общих фор- мул. В связи с появлением быстродействующих вычислительных ма- шин были разработаны новые методы решения вариационных за- дач, являющиеся программами вычислений, в результате примене- ния которых решения получаются в виде графиков или таблиц. Эти методы дают возможность решать сложные вариационные задачи, не поддающиеся аналитическому решению. При решении вариационной граничной задачи большие трудно- сти связаны с требованием прохождения решения через две задан- ные точки фазового пространства. Задачи, в которых фиксируется только одна из точек, например начальная (задачи со свободным 9
концом траектории), значительно проще, так как снижается число ограничений типа равенств, которым должно удовлетворять реше- ние. iB самом деле указанное требование может быть записано в виде системы уравнений Xi(uu иГ} T)—x*i=Q; *=1, п, которой должно удовлетворять найденное решение. В задачах со свободным концом траектории этих ограничений не существует. Значительное упрощение получается, если разыскиваемое ре- шение определено на фиксированном интервале времени. Особенно это справедливо при использовании вычислительных машин, когда соответствующие программы вычислений упрощаются. В то же вре- мя граничные задачи, как правило, фиксированного интервала управления не имеют. Существуют методы преобразования исходных граничных за- дач, позволяющие привести их к виду, наиболее удобному для ре- шения. Это метод обобщенного критерия и метод изохрон, приме- нение которых позволяет любую граничную задачу представить как семейство задач со свободным концом траектории и постоянным интервалом Т. Решение самой вариационной задачи как в преобразованном, так и в первоначальном виде, может быть проведено разными ме- тодами. К ним относятся, во-первых, косвенные методы, т. е. клас- сическое вариационное исчисление, динамическое программирование, принцип максимума Л. С. Понтрягина и, во-вторых, прямые вариа- ционные методы. В первом случае во время нахождения решения фактического изменения управления не производится, а использу- ются те или иные выведенные заранее соотношения, которые спра- ведливы для оптимальных управлений. Для классического вариаци- онного исчисления эти 'уравнения Эйлера — Лагранжа, для динами- ческого программирования—уравнение Беллмана или его дискретные формы, для принципа максимума — максимум скалярного про- изведения Я. Применение косвенных признаков оптимального реше- ния для большинства задач сопряжено с громоздкими вычислениями и применением быстродействующих цифровых вычислительных ма- шин, поскольку аналитическое решение связано, как уже говори- лось, со значительными трудностями. Решение, найденное на циф- ровых машинах, является всегда приближенным, причем большая точность всегда увеличивает время решения. В случае применения прямых вариационных методов при по- иске решения происходит фактическое изменение управляющего воздействия с помощью изменения некоторых коэффициентов, от которых оно зависит. Это показывает, что решение, полученное пря- мыми вариационными методами, всегда является приближенным, поскольку оптимальное решение разыскивается не в классе всех возможных управляющих воздействий, а лишь в классе управле- ний, зависящих от конечного числа параметров. Чем больше число настроечных параметров, тем ближе, вообще говоря, найденное ре- шение к оптимальному, могущему быть найденным в классе всех возможных функций. Основным преимуществом прямых методов является превраще- ние минимизируемого функционала в минимизируемую функцию конечного числа параметров. Это позволяет применять для решения вариационных задач те из широко распространенных аналоговых вычислительных машин, которые специально приспособлены для 10
решения систем обыкновенных дифференциальных уравнений. Силь- но сокращается также время решения. В этой главе приведено крат- кое описание и сравнение методов, применяемых при решении гра- ничных задач. Все они могут применяться для решения конкретных задач оптимального управления. Применение того или иного метода зависит от вида конкретной задачи и наличия того или иного типа вычислительных машин. 1-1. Метод обобщенного критерия оптимальности Одной из причин трудностей, возникающих при решении гра- ничных вариационных задач, является большое количество разно- родных условий, которые необходимо выполнить в процессе реше- ния задачи. К ним относятся: а) минимизация критерия оптималь- ности, б) выполнение граничных условий и в) соблюдение всех наложенных ограничений. Поэтому одним из путей усовершенствования методов реше- ния задач является замена перечисленных условий одним эквива- лентным условием. Рассмотрим сначала способ «устранения» граничных условий. При любом методе решения задачи удовлетворение граничных условий Хг(Т) =Хг*, являющихся отличительной особенностью задач оптимального управления, требует принятия специальных мер, по- скольку при произвольных функциях управления нет никакой га- рантии, что конец фазовой траектории обязательно совпадает с заданной точкой. Например, граничные условия удовлетворяются при использовании принципа максимума (см. § 1-4) только при спе- циальном подборе начальных значений вектора, полученного при помощи сопряженной системы уравнений. Метод динамического программирования (см. § 1-3) обеспечивает граничные условия при помощи специальной функции (или семейства функций) начальных условий, вычисляемой ,(и запоминаемой по точкам в блоке памяти вычислительной машины) на каждом этапе расчета. Таким образом, оправданным является стремление избавиться от граничных условий, что можно сделать, если специальным обра- зом преобразовать критерий оптимальности, включив в него требо- вание выполнения граничных условий (Л. 10-5-13]. Если это сделать должным образом, то в процессе минимизации критерия граничные концевые условия будут выполняться автоматически. Введем неко- торую меру невыполнения граничных условий, например [Л. 13] п Qi = 2 \Xi(T) — x*i\vt р = 2\ 1; 0,5, (1-1) i = l где Xi(T) — i-я координата конца фазовой траектории; x*i—i-я координата заданной конечной точки. Очевидно, что критерий Qh является функционалом от вектора управления u(t), поскольку Xi(T) (/=1, 2, ..., п) зависит от управляющего воздействия. Этот функционал имеет минимальное значение в том случае (и только в том случае), если конечная точ- ка траектории совпадает с заданной, причем это минимальное зна- чение равно нулю. При любых отклонениях конца траектории ог заданной точки Qi получает положительное значение. Таким обра- зом, задачу удовлетворения граничных концевых условий можно 11
рассматривать как задачу нахождения равного нулю минимума функционала Qi. При этом изменение функционала достигается с помощью вариации вектора управляющего воздействия u(t). Составим теперь новый критерий оптимальности для исходной задачи (В-1) Q2=x0(T) + $Qx=Q2(uh иг), (1-2) где р — достаточно большой числовой коэффициент. Если теперь минимизировать величину функционала Q2 с по- мощью варьирования вектора управления U)(t), то при достаточно большом р одновременно с получением минимальной величины Q будут удовлетворены и граничные условия (с определенной сте- пенью точности). Точность выполнения граничных условий тем вы- ше, чем больше коэффициент р. В пределе (цри Р—*оо в (предполо- жении ограниченности величины критерия Q минимизация критерия Q2 эквивалентна минимизации критерия pQi, т. е. выполнению гра- ничных условий. Следует отметить, что наличие бесконечно большого значения р необходимо только в непосредственной близости заданной точки х*. В остальных точках коэффициент р нужно делать конечной вели- чиной, такой, чтобы изменение вектора управления вызывало изме- нения Qi, лишь в несколько раз большие, чем изменения критерия Q. В этом случае в процессе минимизации Q2 конец фазовой тра- ектории всегда будет иметь тенденцию «притянуться» к заданной точке, причем по мере увеличения Р скорость «притяжения» будет увеличиваться. По этим соображениям удобно выбирать показатель степени в критерии Q2, равным 0,5, так как производная dQi/dxi в ближайшей окрестности заданной точки стремится к бесконечно большой величине (см. § 2-5). Таким образом, применив критерий Q2 вместо критерия Q, мы преобразовали исходную задачу с граничными условиями к вариа- ционной задаче со свободным концом траектории, что значительно облегчает ее решение. Преобразованная задача может быть реше- на любым из известных методов, описанных в последующих раз- делах. Указанная методика имеет преимущества еще и в том случае, если оптимальность понимается только в смысле выполнения гра- ничных концевых условий. В этом случае решение задачи неодно- значно, поскольку при достаточно больших интервалах управле- ния Т существует бесконечно большое число векторов u(t), дающих решение поставленной задачи. Эта задача не является вариацион- ной в смысле единственности находимого решения и не решается поэтому методами, с помощью которых находится только одно управление, соответствующее экстремуму функционала. В то же время в терминах обобщенного критерия Q2 задача продолжает оставаться экстремальной, но только при произвольном Т допускает множество решений. Назовем векторы управлений u(t), при'кото- рых граничные условия выполняются допустимыми управлениями. Таким образом, задача с фиксированными концевыми условиями имеет в качестве решения любое допустимое управление. Следует отметить, что при уменьшении интервала Т число до- пустимых управлений относительно уменьшается и при некотором интервале управления Гмин сокращается до одного. При Т<Тмпн граничная задача не имеет решения, поскольку не существует допустимых управлений. 12
Указанное обобщение минимизируемого критерия позволяет су- щественно упростить постановку вариационной задачи, поскольку для ее решения теперь требуется только минимизация обобщенного критерия Q2 при учете ограничений типа неравенств (В-2). Даль- нейшее упрощение задачи получается при включении в минимизи- руемый функционал ограничений i(B-2) ;[Л. 14 и 15]. Для этого обобщенный минимизируемый функционал может быть составлен .в виде где т /=1 Y — весовой коэффициент, причем Jjj = Hj при Н^О, 1 H~j = 0 при Я,<0. J Таким образом, ограничения типа (В-2) оказывают влияние на ве- личину минимизируемого функционала Q3 только в том случае, если одно или несколько из них нарушены в процессе поиска. Коэффи- циент у (см. § 2-5) должен быть выбран достаточно большим, что- бы в процессе поиска минимума критерия Q2, любое нарушение ограничения сильно увеличивало величину Q3. Для этого необхо- димо, чтобы всегда соблюдалось неравенство дН dQ2 что всегда может быть получено при достаточно большом у, если функции СЫй) и Н(и) непрерывны. Необходимая величина коэф- фициента у может меняться в процессе поиска, поскольку могут меняться величины частных производных. Поэтому целесообразно в процессе поиска при Я>0 автоматически регулировать величину у с таким расчетом, чтобы ЛЯ— приращение ограничения за неко- торое время после нарушения ограничения — всегда было величи- ной отрицательной и не слишком большой во избежание расходя- щегося процесса поиска [Л. 15]. В указанном виде функционала имеются определенные недо- статки, так как при нарушении ограничения величина частной про- изводной dQ2fduj меняется скачком, в связи с чем процесс вычи- слений может быть колебательно расходящимися, если искомый экстремум находится на границе области дозволенного поиска [Л. 15]. Для устранения этого недостатка можно определить Hj по-иному, например, * Wj = Н) >ри^>0, Wj = 0 при Hj < 0. * Островский Г. М., Об одном методе решения вариацион- ных задач, «Автоматика и телемеханика», т. 23, 1962, № 10. 13
В этом случае величина dHj/ditj равна нулю на границе области и вероятность неустойчивости поиска уменьшается. Однако решение может оказаться за пределами допустимой области. При этом, чем больше у, тем ближе к границе допустимой области будет нахо- диться предельная точка и при у—^оо она будет стремиться к тео- ретической точке решения, находящейся на границе области. Таким образом, решение любой вариационной задачи можно свести к нахождению минимума функционала Q3, достигаемого путем вариации управления Uj(t). Этот метод сведения всех вели- чин, за которыми нужно следить в процессе вычислений, к одной величине минимизируемого критерия удобно назвать методом обоб- щенного критерия. 1-2. Метод изохрон ■in ■ ft Рис. 1-1. Блок-схема системы управ- ления, рассмотренной в Л-16. Описанный в предыдущем разделе метод обобщенного крите- рия существенно упрощает процесс решения задачи при примене- нии любых методов, в том числе и аналитических. Однако при ре- шении задач с нефиксированным интервалом управления Т остает- ся трудность, связанная с неопределенностью момента окончания вычислений. Это усложняет программу вычислений или требует вве- дения дополнительных устройств для контроля величины критерия на каждом этапе расчета. Программа вычислений значительно упрощается, если рассмат- ривать интервал управления как параметр, могущий принимать ко- нечное число фиксирован- ных значений, и для каж- дого из них решать вариа- ционную -задачу с фикси- рованным значением интер- вала, определяя управле- ние, при котором Q = Qmhvr. Решением первоначальной задачи является то реше- ние семейства, у которого Qmhh = Qmhh(mhh). При этом первоначальная задача разбивается на семейство задач, каждая из которых значительно проще первона- чальной. Правда, при дискретизации Т теряется непрерывность интервала и появляется возможность пропустить самое оптимальное решение с наивыгоднейшим значением Т=Т011т. Однако любые методы решения с применением цифровых вычислительных машин страдают этим недостатком, и вопрос лишь в том, чтобы взять доста- точно большое число интервалов. Кроме того, вблизи оптимального значения / опт функция Qmhh(^) в предположении ее непрерывности почти неизменна, в связи с чем неточность в определении Г0пт мало влияет на величину критерия. Что касается времени решения задачи, то с введением семейства решений оно не обязательно увеличивается, так как каждое отдель- ное решение вследствие простоты программы занимает меньше вре- мени. Кроме того, как показано в дальнейшем, может быть предло- жена методика, с помощью которой время нахождения решения для некоторого интервала управления значительно сокращается, если уже известно решение для близкого к нему значения интервала управления. При этом в качестве отправной точки для поиска опти- 14
мального управления используется известное управление, оптималь- ное для соседнего значения интервала. Впервые такое разбиение решения задачи на семейство решений с постоянным значением интервала управления было предложено А. Я. Лернером для определенного класса систем управления [Л. ,16] применительно к определению оптимального по быстродействию управления. Б указанной работе рассматривались такие системы управления, из которых может быть выделена силовая часть, состоящая из на- правленных элементов, воздействующих друг на друга значением своих выходных координат хг (рис. 1-1) и описываемых системой уравнений вида dXi "dT^fi (■*<• + * = 1. . . . , л, (1-3) причем через xn+i обозначается входная координата силовой части (выход объекта управления), а через Х\ — выходная координа- та, т. е. управляющее воздействие, ^подаваемое на объект. При этом все координаты хи •.xn+i ограничены, т. е. принад- лежат некоторой области пространства Х\, ..., .vn+i, называемой в [Л. 16] .S-областью пространства состояний хи ..., xn+i. На вид функций fi наложено условие, что dfi/dxi+i сохраняет знак при любых значениях х\ и Xi+i в пределах 5-области, т. е. fi в пределах 5-области является монотонной функ- цией Xi+i. Таким образом, учитывая, что объект -системы управления тоже описывается уравнением вида (1-3), связывающим хх и хп+и можно сказать, что рассматривается частный случай системы |(В-!1), где правые части си- стемы из /г+11 уравнений зависят толь- ко от двух из возможных п перемен- ных и имеют свойства монотонности. В указанном исследовании в про- странстве состояний, тождественном определенному во введении фазовому пространству, были введены и рассмот- рены специальные области, названные областями изохрон. Области изохрон определялись как геометрическое место всех точек фазового про- странства, из которых можно достичь заданной точки за фиксиро- ванное время Т с соблюдением всех наложенных на систему огра- ничений. Заданная точка х* была 'названа полюсом области 'изохрон. Относительно области изохрон был сформулирован и доказан ряд теорем, из которых для дальнейшего изложения существенны сле- дующие: 1. Область изохрон относительно полюса, расположенного в S-области {область допустимых состояний Q(x)L Для любого поло- жительного Т имеет то же число измерений, что фазовое пространст- во, а длина радиуса-вектора, проведенного из полюса в любую точку границы области изохрон, конечна и больше нуля. Действительно, обозначим через г радиус-вектор, начинаю- щийся в точке а0 и проведенный в точку аг, из которой можно перейти в точку До за время Г*, оставаясь в пределах области допу- Рис. 1-2. К определению модуля радиуса-векто- ра г. 15
стимых состояний £1(х) (рис. 1-2). Модуль этого вектора можно выразить через координаты точек яо(#оь *02 ..*o(n+i) и CL2(Xr\, Xr2, . ..,*г(п + 1)) Как н = l/(xrl—д:01)2+(^г2 —^02)2 + .. • + (*r(n+l) — ^o(n+i)2 • Будем считать, что время движется «назад» и найдем значения координат системы через время 7\ после начала движения системы из состояния, изображенного точкой а0. При этом каждую из коорди- нат системы можно выразить через скорость ее изменения хн = xoi + ^Xi (t)dt, о вследствие чего выражение для модуля радиуса вектора представ- ляется в виде Поскольку рассматриваемые системы являются динамическими, то скорость изменения каждой последующей координаты «не может за конечный промежуток времени достигнуть бесконечно большого значения при конечном значении предыдущей координаты. Поэтому, если хотя бы одна из координат системы (например, координата xn+i) ограничена, то скорость изменения координаты хп за время Т{ не может стать бесконечной, а следовательно интеграл т< J xn(t)dt о будет конечен и координата хп за конечное время 7\ получит конеч- ное приращение. (Продолжая это рассуждение для всех последующих координат системы, можно убедиться в том, что ни одно из слагае- мых подкоренного выражения (1-4) не может стать за конечное время бесконечно большой, а следовательно будет конечной величи- ной и модуль радиуса-вектора г. Переход системы из состояния, изображаемого точкой аг, в со- стояние, изображаемое точкой ао, может происходить при любых значениях координат системы в пределах наложенных на нее ограни- чений. Поэтому ни одна из составляющих подкоренного выражения (1-4) не может тождественно обращаться в нуль. Поскольку каждая из составляющих возводится в четную степень, то подкоренное выражение не может быть неположительным при конечном значении времени Г*. Следовательно, модуль радиуса-вектора г для любого положительного 7\- конечен и отличен от нуля во всех направлениях фазового пространства. Значение доказанного предложения заключается в утверждении того факта, что любая область изохрон содержит заданную точку 16
Рис. 1-3. К доказательству непе- ресекаемости областей изохрон. внутри себя и размерность области изохрон равна размерности фазового пространства. Следующее важное предложение доказывает отсутствие пере- сечений границ областей изохрон. 2. Все точки области изохрон, которая определена для времен- ного интервала управления Гг, принадлежат также области изохрон с интервалом управления Ts, если Tr<Ts. Пусть точка, изображающая заданное состояние системы х*, перемещается по определенной траектории, расположенной 'внутри области Q(x)y предварительно проходя точки a0l аи а2, ... в момен- ты времени соответственно О, U, t2, ... Каждому положению изобра- жающей точки соответствует определенная область изохрон, характеризуемая временем пе- рехода системы из начального состояния £(0) в рассматри- ваемое, равным времени дви- жения до этого состояния точ- ки х* из ее начального со- стояния, а именно: 0 — точ- ке а0, U — точке аь t2 — точке а2 и т. д. Предположим, что суще- ствует такая точка аи область изохрон которой выходит за границы области изохрон не- которой последующей точки а2 (рис. 1-3). Тогда должна суще- ствовать точка ан, из которой можно перейти в точку ах за время t\, iho нельзя перейти <в точк1у а2 за время t2, т. е. (нельзя перейти из точки а\ в точку а2 за время t2—1\. Но время движения 'изображающей точки по заданной тра- ектории, расположенной внутри области Q(x), из точки а\ в точку а2 равно t2—1\. Следовательно, высказанное предположение неспра- ведливо, и точка ан, если она принадлежит Области изохрон предыдущей точки, должна принадлежать также области изохрон любой последующей точки. Изложенное распространяется, разу- меется, на случай фиксированного заданного состояния системы, поскольку он представляет собой частный случай по отношению к рассмотренному. Отметим в заключение, что указанное свойство областей изо- хрон будут сохраняться и для общего случая систем (В-1), так как в любой динамической системе с ограниченными значениями коор- динат изменение положения изображающей точки будет конечным за конечное время. Таким образом, область изохрон находится в фазовом простран- стве системы и является замкнутой и односвязной. Это следует из свойства 2, так как для очень малых Т область изохрон мало отли- чается от ближайшей окрестности полюса и при Г-»0, стягивается к нему. При увеличении Т область изохрон расширяется, охватывая все большие точки фазового пространства, причем каждая после- дующая область изохрон содержит в себе все точки предыдущей области. Естественно, что все точки области изохрон находятся в области допустимых состояний Q(x). 2—32 J7
Границы областей изохрон являются непрерывными поверхно* стями в фазовом пространстве системы, содержащими внутри полюс. Они не пересекаются друг с другом, и граница, соответствующая Гг, всегда содержит внутри себя границу, соответствующую Ts, если Г5<ГГ. Сама граница представляет собой геометрическое место то- чек фазового пространства, откуда фазовая траектория может по- пасть в полюс за наименьшее время. Управление, с помощью кото- рого будет достигнута траектория с наименьшим временем, является оптимальным по быстродействию. Таким образом, начальная точ- ка Xq является точкой границы области изохрон со временем Г=ГМИн, где Гмин — время оптимального по быстродействию про- цесса. Соединим точку х0 и х* прямой линией, которая пересечет все изохроны со значениями времени от 0 до Гмин. В силу свой- ства 2 можно утверждать, что на этой линии расстояние от х* до точки пересечения с изохроной Г есть монотонная функция Г и ме- няется ОТ О ДО I/ ^ (x*i— хг0)2 При ИЗМенеНИИ Г ОТ О ДО Гмин. 1=1 Семейство изохрон может быть построено, например, интегриро- ванием уравнений движения системы «назад» во времени, считая на- чальным состоянием заданное состояние х*. При этом интегрирова- ние должно производиться на предельных режимах, на всех пре- дельных ограничениях (если они достигаются) и за фиксированное время Г. В конце интервала управления будет достигнута точка, являющаяся точкой границы области изохрон. Для получения точки границы области изохрон нужно подбирать вектор управления та- ким образом, чтобы конец траектории максимально удалить от исход- ной точки х*. Максимизация расстояния конца траектории х(Т) от исходной точки с помощью вектора управления в пределе приведет к оптимальному управлению для одной из точек границы области изохрон со временем Г. Для того чтобы конечная точка траектории удалялась в некотором заданном направлении, необходимо нало- жить добавочную связь на составляющие конечной точки траектории, например хг(Т) — х*г xi{T) — x*j хп{Т) — х*п /j i% ln где /ь ..., in — координаты вектора L, характеризующего направле- ние х(Т) от исходной точки х*. Меняя направление вектора l и находя каждый раз оптималь- ное управление, соответствующее максимальному значению Qj = 1/ ^ (х%{Т)—x*i)2, можно найти границы области изохрон. Повторяя эту операцию для разных значений Г, можно построить все семейство границ областей изохрон, в том числе и ту, которая пересекает начальную точку xQ. Ради краткости в дальнейшем изло- жении границу области изохрон будем называть просто изохроной. После того как семейство изохрон построено относительно полю- са ж*, задание любой начальной точки, в том числе и точки хо, по- зволит быстро определить и оптимальный переходный процесс и тре- 18
буемое управление, которые раньше были определены для каждой точки семейства изохрон. Таким образом, определение оптимального процесса методом изохрон предполагает предварительную работу по построению по- верхностей в фазовом пространстве с тем, чтобы при задании лю- бых начальных условий можно было выбрать из заготовленного на- бора тот или иной подходящий оптимальный процесс. Для простей- ших случаев изохроны можно рассчитать теоретически [Л. 17] и за- тем исследовать свойства оптимальных процессов. Однако в общем случае предварительная работа по построению семейства изохрон должна проделываться с помощью вычислительных машин и таким образом может быть гораздо более трудоемкой, чем определение требующегося единственного оптимального процесса управления. В то же время идея разбиения поиска оптимального процесса с неизвестным заранее временем управления на ряд этапов, в каж- дом из которых интервал управления фиксирован, дает возможность предложить алгоритм вычислений, упрощающий общее решение за- дачи. Этот алгоритм заключается в следующем [Л. 13]. За начальную точку интегрирования уравнений системы прини- мается начальная точка xq, которую можно считать началом коор- динат. Интервал управления Т фиксируется и выбирается меньшим, чем 1 мин- Целью подбора оптимального управления является те- перь максимальное удаление конечной точки траектории от началь- ной точки xq, причем это удаление производится от прямой х0, .£*. Максимизация расстояния конца траектории от начала координат, ра управления u(t), заданного на интервале 0—Т. Следует отметить, что общее направление конца траектории на заданную точку можно причем в этом случае не требуется накладывать специальные связи на компоненты х(Т), что упрощает процесс оптимизации. Очевидно, что Q = 0 соответствует решению задачи. Поиск решения можно производить следующим образом. После достижения оптимального значения критерия Qi(r)>0 необходимо увеличить Г, а затем снова найти минимальное значение Qi, кото- рое в конце нового этапа минимизации будет меньше, чем ранее достигнутое, и снова увеличить Т. В пределе с помощью поочередных процессов минимизации Q{ и увеличений Т достигается величина Qi = 0, соответствующая решению задачи. Указанный алгоритм яв- ляется применением идеи метода изохрон к определению единствен- но интересующего нас оптимального процесса по быстродействию. Идея метода изохрон может быть применена и для решения граничных задач общего вида, т. е. при йф\ (В-З). Рассмотрим графическую интерпретацию постановки задачи в общем случае (рис. 1-4). Пусть существует система координат в /х + 2-мерном пространстве. Здесь п — число выходных коордичат объекта, xn+i— координатная ось времени, хо— координатная ось критерия оптимальности. Если /г>1, то координатная ось хп долж- на восприниматься как символ п мерного пространства входных помощью подбора векто- выполчить и при минимизации критерия 2* 19
координат объекта, в связи с чем задание точки х* в л-мерном фа- зовом пространстве символизируется на рис. 1-4 заданием точки на оси хп. Начальной точкой траектории является начало координат, где при /=0 значения всех координат п + 2-мерного пространства равны нулю. Возможным интервалам управления О-г-Гь 0-нГ2, ..., О-т-Ti соответствуют отрезки 0—Гг- (/=1, ..., /) \ш оси времени хп+\. При этом достижение заданной точки в процессе управления соответствует попаданию конца проекции фазовой траек- тории на хп*А. Если интервал времени 0—Гг- недостаточен, чтобы Рис. 1-4. Оптимальные траектории в фа- зовом 'пространстве при использовании метода изохрон. подверженная ограничениям система успела достичь заданной точ- ки х*, то проекция конца фазовой траектории на координатную плоскость хп, хп+1 будет находиться ниже линии х*пА. Для задан- ной системы существует минимальное время Гмин, за которое воз- можно достичь заданной точки. Траектория ОС, характеризующая систему, оптимальную по быстродействию (G = l), имеет проекцию на плоскость хп, xn+i, обозначенную на рис. 1-4 как ОВ. При этом отрезок ВС представляет собой значение критерия оптимальности. Величина критерия, меньшая ВС, можег быть достигнута при уве- личении интервала управления сверх Гмин, например до величины Гг. При этом величина критерия при оптимальном управлении |(для случая йф!), равная DE, будет меньше ВС. При дальнейшем увеличении интервала управления величина критерия не обязатель- но должна уменьшаться. Например, при T=Tt величина критерия AF может быть больше DE. Таким образом, кривая CEF в плоскости, параллельной х0, хп+1 и проходящей через х*п, будет представлять собой зависимость значения критерия оптимальности от интервала управления (при условии оптимального управления для каждого фиксированного значения интервала). После того как данные для точек этой кривой получены, в качестве решения выбирается точка, соответствующая минимуму этой кривой, например Гг-. Построим отдельно проекцию концов оптимальных траекторий на плоскость х0, хп+и заменив обозначения хп+\ на величину интер- вала управления Г, а хо — на оптимальную величину критерия Qmhh, 20
Рис. 1-5. Зависимость QMhh(T). которая достигается при оптимальном управлении за фиксированное время Г (рис. 1-5). Очевидно функция Омин(Г) определена на интервале ГМин-*- + оо. При интервале управления, меньшем, чем время максимального быстродействия Гмин, заданная точка в фазовом пространстве не может быть достигнута, в связи с чем теряется смысл граничной задачи. Однако величина Гопт, при которой полу- Ч^мин чается минимальное значе- ние критерия Qmhh(mhh), за- ранее не известна. Поэтому необходима методика ра- ционального последователь- ного выбора интервалов управления, которая давала бы сходящийся к Гопт ряд величин Г. В качестве та- кой методики рационально принять один из шаговых методов поиска минимума функции одного переменно- го (Л. 18]. Например, вы- брав некоторое начальное значение интервала Г0> >ГМИН и получив оптималь- ное значение критерия <2мин)(Г0), можно дать ему приращение AT и получить значение QMvlh(Ti), где Т{ = = Г04-АГ. Знак приращения AQmhhI = Qmhh^i) — —Qmhh (Го) укажет, в ка- кую сторону надо в даль- нейшем изменять величи- ну Г, а величина AQmuhi может служить мерой вели- чины следующего прираще- ния АГ. На рис. (1-5 вели- чина Qmhh увеличивается при увеличении интервала управления вблизи Г0, следовательно, следующее значение интервала управления Г2 надо брать меньше Г0 на величину, пропорциональ- ную AQmhhi. Получив значение 0мин(Г2), следует получить величину приращения критерия А(2МИн2=Смин(Г2) — <2мин(Г0) и в связи с ее значением выбрать величину Г3, получить AQMHH = Qmhh (Гз) — —фминКГг) и так далее до тех пор, пока очередная величина AQmhhi не станет меньше заранее заданной величины. В этом слу- чае величина Гг- будет близка к Г0Пт. Для системы, оптимальной по быстродействию (G^l), коорди- натная ось х0 отсутствует и фазовое пространство имеет размер- ность ft+1. Полагая п>1 и используя двухмерное представление /г-мерного пространства, будем считать плоскость Х\, хп (рис. 1-6) символически представителем /г-мерного множества. Заданная точ- ка х* будет иметь символически две координаты х*\ и х*п- При этом фазовая траектория начинается в начале координат и должна окан- Рис. 1-6. Траектории в фазовом про- странстве в случае G=\. 21
чиваться на прямой Ах*, параллельной оси времени хп+и Как уже было сказано, это возможно только для достаточно больших интер- валов управления, величина которых больше величины Гмин. Если величина интервала управления равна Гмин, то достижение задан- ной точки возможно только при оптимальном управлении. Такая оптимальная траектория ОВ является предельным положением для траекторий ОН, ОД ОС, которые получаются при больших интер- валах управления и, следовательно, не являются оптимальными и единственно возможными. При приближении интервала управления к минимально возможному для вариаций управляющих функций становится все меньше свободы подбора и при Г=ГМин управляющие функции становятся оптимальными, т. е. единственно возможными. Обычно в фазовом пространстве ось времени хп + \ не рассмат- ривается и фазовой траекторией является проекция траектории ОВ на плоскость (пространство) Х\Хп, т. е. траектория Ох*. При Г<ГМИН допустимых управлений не существует и, следовательно, нулевое значение критерия п Qimhh = ^jjj [Xi (Т) — лг*^]2 i = l не может быть достигнуто. Величина Qimhh (Г) изменяется в пре- делах от п QlMHn(Mabf) ~ -X*2i i = l при Г=0 до Qimhh(mhh) = 0 при Г=ГМин (рис. 1-7), причем величина Qimhh получается при минимизации функционала Qi с помощью под- бора управляющих воздействий. Получаемое таким образом «опти- мальное» управление понимается в том смысле, что при нем конец «оптимальной» траектории приближается к заданной точке на ми- нимальное расстояние. Функция Qimhh (Г) при Г<ГМИН не обяза- тельно должна быть монотонной, но она непрерывна, так как Хц(Т)—результат интегрирования системы (В-1). Минимальное значение этой функции известно, оно должно быть равно нулю, что достигается при Г=ГМиН. Поэтому методика выбора значений Г может быть аналогична уже рассмотренной. Однако в связи с воз- можностью нескольких минимумов целесообразно величину прира- щения АГ брать большей, чтобы «проскочить» ложные минимумы (пунктирная кривая на рис. 1-7), значение Qimhh в которых всегда больше нуля. При решении задач иногда не требуется, чтобы конец траекто- рии оканчивался в точке х*. Может быть поставлено менее жесткое требование окончания траектории на множестве точек, например, на плоскости, параллельной координатной плоскости Х\, хп+\. В этом случае фиксируется только одна координата, а именно хп(Т), а на остальные координаты могут быть наложены ограничения *гмин< <Xi (Г) <*гмакс В частном случае может быть яг-мин =—оо, ломаке = = +оо. Проекция OF (рис. 1-6) оптимальной траектории ОВ на коор- динатную плоскость Х\, хп+\ представляет собой в этом случае за- висимость от времени интересующей нас координаты, а величина FTMVni может рассматриваться как максимально возможное удале- ние конца траектории OF от начала координат по оси хп за время 22
1 мин- Действительно, за время, меньшее Гмин* точка В не будет достигаться при оптимальном управлении, а при ГМИн будет дости- гаться при единственном управлении, равном оптимальному. Важным частным случаем при определении оптимального режи- ма производственных процессов является случай, когда оптималь- ность понимается в смысле максимального увеличения одной из координат процесса, причем другие имеют лишь подсобное значение и на их конечное значение не накладывается никаких требований. При этом ход процесса описывается только одной проекцией фазо- вой траектории, а другие проекции применяются только для контро- ля. Такое положение имеет место, например, при определении опти- мин Рис. 1-7. Зависимость Qnnm(T). Рис. 1-8. Зависимость хМакс(Г). мального режима химического реактора для получения окиси этилена каталитическим способом. В этом случае решение задачи может быть исчерпано построением зависимости лгМакс(Г) (рис. 1-8). Здесь *макс — максимально достижимая величина интересующей коорди- наты за фиксированный интервал управления Т. Тогда величина минимального интервала управления Гмин, не- обходимая для достижения заданной величины *макс*, будет опре- делена, если на рис. 1-8 провести горизонтальную линию через точ- ку *макс* До пересечения с функцией *макс = /(Г). При этом необ- ходимые управляющие функции u(t) будут известны, так как они были определены «попутно» (при нахождении точек графика л."Макс = = f(T). Таким образом, при использовании метода изохрон решение первоначальной задачи с нефиксированным Т находится как наи- лучшее (в смысле поставленного критерия) решение из семейства решений при фиксированных значениях Т. При этом постоянные интервалы применяются не только для задач на максимальное бы- стродействие, но и в общем случае при G^\. Для определения отдельного решения семейства можно вос- пользоваться различными методами: динамическим программирова- нием, принципом максимума и т. д. Возможно также решение с помощью прямых методов, являющихся наиболее простыми и приспособленными к использованию аналоговых вычислительных ма- шин (АВМ). Однако и цифровые вычислительные машины (ЦВМ) при сравнительно небольшом числе управлений могут использовать прямые методы, так как в этом случае требуемый объем памяти сравнительно невелик. 23
Как показано ниже, преимуществом прямых методов при при- менении метода изохрон является возможность сокращения времени решения каждой задачи семейства за счет поиска оптимального ре- шения последующей задачи семейства, отправляясь от оптимального решения для предыдущей задачи, как от начальных условий поиска. Естественным недостатком прямых методов является относительно большое число переменных при поиске решения отдельной задачи семейства. Приближенность решения, присущая прямым методам, не является недостатком, так как она свойственна всем численным ме- тодам. 1-3. Динамическое программирование Динамическое программирование [Л. 19] является математиче- ским методом, разработанным для решения очень общей задачи многоэтапного выбора. При этом под процессами многоэтапного выбора 1[Л. 20] понимаются процессы, состоящие из последователь- ных операций, в которых результат предыдущих операций можно использовать для управления ходом будущих операций. При этом процессы многоэтапного выбора по Р. Беллману имеют следующие отличительные особенности: а) в любой момент времени t состояние процесса описывается набором немногих параметров (координат); б) операция выбора состоит в преобразовании этого набора параметров в такой же набор параметров с другими численными значениями, причем законы преобразования известны; в) прошлая история системы не имеет значения при определе- нии будущих действий, она создает только начальные условия для осуществления процесса. При такой общей формулировке задачами, решаемыми с по- мощью динамического программирования, могут быть задачи опти- мальных капиталовложений в различные отрасли народного хозяй- ства, задачи на узкие места, задачи теории многоэтапных игр и т. д. Как частный случай в сферу действия метода динамического программирования входят задачи оптимального управления объекта- ми, описываемыми системой уравнений (В-1) — (В-3). В этом случае параметрами, характеризующими процесс, являются выходные координаты объекта; преобразование координат происходит путем соответствующего выбора вектора управления, причем преобразо- вание имеет целью получить в результате всего процесса экстре- мальное значение критерия оптимальности. Фундаментальным для всей теории динамического программиро- вания является принцип оптимальности. Поясним содержание прин- ципа оптимальности применительно к задачам оптимального управ- ления. Для этого рассмотрим оптимальную траекторию в я-мерном пространстве (рис. 1-9). Пусть начальные и конечные условия за- даны точками х(0) и х(Т). Отметим какую-либо промежуточную точку траектории для момента времени t=t' (0<*'<Г). Участок траектории от точки £(0) до xr=x(t') назовем участком 1. Участок траектории от точки x(t) до конечной точки х(Т) (участок 2) мож- но рассматривать как в качестве части первоначальной траектории, так и в качестве самостоятельной траектории. Эта самостоятельная 24
траектория, соответствующая участку 2, будет оптимальной если соответствующее ей значение критерия оптимальности т Q=[G(xtu) dt меньше всех других значений, полученных на других траекториях, соединяющих x(t') и х(Т). Принцип оптимальности формулируется следующим образом. Участок 2 оптимальной траектории является в свою очередь оптимальной траекторией. Это означает, что в слу- чае, если новое начальное состояние системы соответствует точке х{¥), то независимо от того, каким образом система пришла к это- му состоянию, ее оптимальным последующим движением будет участок 2 оптимальной траектории, соединяющей точки £(0) и х(Т). Указанное утверждение почти очевидно, так как в противном случае должна существовать другая траектория 2\ соединяющая точки и х(Т), на которой значение критерия оптимальности НА! Рис. 1-9. К выводу прин- ципа оптимальности. I I I U(N-1\U(IH) Рис. 1-10. К расчету оптималь- ного управления методом дина- мического программирования. меньше, чем траектории 2. Но тогда существует траектория /—2\ на которой значение критерия оптимальности меньше, чем на траек- тории /—2, так как участок 1 у обеих траекторий общий, а траекто- рия 2' оптимальна на втором участке траектории. Это означало бы, что траектория 1—2Г — оптимальна, что противоречит исходному до- пущению об оптимальности траекторий 1—2. Указанное противо- речие устраняется только в том случае, если траектория 2 является оптимальной в качестве самостоятельной траектории. Для пояснения метода применим его к простому управляемому объекту, движение которого описывается уравнением первого яо- рядка dx р , где х — координата системы, ограниченная максимальным и мини- мальным значениями; и — управляющее воздействие, также находящееся в допусти- мых пределах. 25
Пусть задано начальное условие a:(0)=.v0. Требуется найти за- кон управления, минимизирующий интеграл Q = Jg,(*. u)dt + ^[x-(T)]. (Ь6) о Значение Т для упрощения .можно считать фиксированным. Функцию У\{х(Т)] тоже можно рассматривать в качестве составляющей ин- теграла (В-3), поскольку х(Т) является результатом интегрирова- ния (1-5). В частности xpi[x(T)] может быть мерой расстояния конца траектории от заданной точки. Разобьем интервал 0 — Т на N равных участков малой длины А и будем рассматривать лишь дискретные значения Хи и Uk (k = 0, 1, ...,#) в моменты времени £=0, А, 2А, ..., kA, ... (N—\)A и NA = T (рис. 1-10). Тогда дифференциальное уравнение (1-5) можно приближенно заменить конечно-разностным уравнением Xk +1 — Xk ел _ч 7 *=и{хк. uk), (1-7) или Xh + i = Xh + bfi{Xh, tik) = xk + f(xh, uh). (1-8) где f(xh, ttk) = bfi(xk, uk) при начальном условии x (0) == xQ. При таком преобразовании интеграл (1-6) приближенно заменяется суммой N—1 Q= £ G(xh, uh)+4[x(N)l (1-9) где G(xk, «ft)==G1(^ft, uk)A; \ Задача теперь состоит в определении последовательности дис- кретных значений управляющего воздействия и, т. е. величин «(0), и(1), ..., u(N—1), минимизирующих сумму (1-9) при условиях (1-5), наложенных на систему. Таким образом, необходимо найти минимум сложной функции (N—1) переменных. Однако метод ди- намического программирования дает возможность свести эту опе- рацию к последовательности минимизации функций одного перемен- ного. Для решения задачи применяется прием, заключающийся в дви- жении от конца процесса (t=T) к его началу. Все значения «а (&=0, 1, ..., N—2), кроме последнего u(N—1), уже каким-то обра- зом* осуществлены, причем получено некоторое значение x(N—1), соответствующее моменту времени t=(N—1)А. Согласно принципу оптимальности воздействие и (N—1) не зависит от пути, которым система пришла в точку (/V—1), и определяется лишь состоянием x(N—1) и критерием оптимальности. Рассмотрим последний участок траектории от t=(N—1)А до t=NA. Величина u(N—1) влияет лишь 26
на те члены суммы (1-9), которые относятся к этому участку. Обо- значая сумму этих членов через Qn-u получим: Qn-i = G[x{N—\), u(N-\)]+y[x(N)l (1-11) где x(N)=x(N—l)+f[x(N— 1), и (N—1)]. Таким образом, величина Qn-u т. е. значение критерия опти- мальности на последнем участке траектории, зависит только от одного переменного — значения управления на предпоследнем участ- ке u(N—1), а правая часть (1-11) представляет собой функцию одного переменного при фиксированном значении x(N—\). Эта функ- ция может быть получена с помощью задания ряда допустимых ве- личин управляющих воздействий и вычисления согласно выражению (1-11) величины Qjv_i. При этом допустимые значения и определя- ются как ограничениями области Q(w), так и в области Q(x). Здесь Q(u) и й(я) представляют собой области допустимых значений й и х, которые определяются с помощью ограничений (В-2). После того как функция Qn-i(un~i) вычислена, нетрудно определить u*n-u дающее минимальное значение функции Qn-u которое обо- значим через SN-\. Эта величина, очевидно, зависит от состояния системы x(N—1). Поэтому, если изменить x(N—1) и снова отыскать минимум функции Qn-u то будет получено новое минимальное зна- чение при другом значении u*(N—Л). Таким образом, минимальное значение критерия оптимальности на последнем участке зависит от состояния системы в предпоследний момент времени Эта величина, следовательно, зависит от начальных условий, суще- ствующих для последнего интервала управления. Каждая точка этой функции есть результат минимизации по управлению величины кри- терия оптимальности S/v-i [* — 1)] = min Q (N — 1) = x(N—l)es(jc) и{М— 1)ея(и) = min [G (xN__x , aN__x )] + y[x (N)] = и(Л7~1)бй(ы) = min {G (xN_} , uN_{) + cp [xN_x + f (xN_x , )]}. (1-12) ы(Л7—1)ей(ы) В выражении (1-12) и в дальнейшем для удобства записи при- няты обозначения xN_\ = x(N—1) и Un~\~u(N—1). Таким образом, для определения каждой точки функции Sn-i необходимо производить минимизацию только по одному переменно- му u(N—1). После вычисления всех ее точек требуется ее запомнить в блоках памяти вычислительной машины путем запоминания ее зна- чений в отдельных точках и учета правил аппроксимации ее значе- ний между ними. Перейдем теперь к предпоследнему участку времени. Рассматри- вая теперь два участка — последний и предпоследний — вместе мож- но заметить, что выбор Wjv_2 и uN-\ повлияет только на те слагае- мые суммы (1-9), которые входят в состав выражения Qn-2=G(xn_2, un_2)+[G(xn_u Un-i)+4>(xn)]. (1-13) Снова будем считать величину xN_2, т. е. начальные условия для двух (последних участков траектории, заданной. Из принципа опти- 27
мальности следует, что лишь значение xN-2 и Цель управления — минимизация Qn-2 — определяют оптимальное управление на рас- сматриваемом участке. Найдем величину SN-2— минимум mo uN-2 и Un-\. но минимум по uN-\ слагаемого (11-13), содержащегося в квадратной скобке, уже был найден раньше для каждого допусти- мого значения Xn-u а это последнее зависит от uN_2. Кроме того, для каждого значения рассматриваемой составляющей было вычи- слено оптимальное управление u*n-\. Таким образом, выражение для функции начальных условий для двух последних участков траектории принимает вид: SN_2 (■%—2 ) =min QN_2 = min [G (xN__2 , xN_2 ) + + %_i с%-1 )] = min {G (xN-<2 ' UN-2 ) + UN—2 + Stf_j [xN__2 + f{xM_2 , uN_2)]}9 (1-14) поскольку Xn-\ —Xn-2~\-f(XнUn-2)- В данном случае оптимизация происходит также всего лишь по одному переменному uN-2. При этом находится и величина u*N_2 — оптимальное значение uN_2 — и величина SN_2— минимум функции qлг—2- Как u*N_2, так и sjv_2 являются функциями хм-2> Теперь можно поместить функцию SN_2(xN-2) в ячейки блока памяти, ко- торые предварительно освобождаются от значений ставшей уже не- нужной функции SN_\(xN_i). Важно отметить, что одно найденное значение u*N_2 минимизирует критерий качества на обоих послед- них участках траектории. Можно продолжить описанную выше процедуру «попятного» движения от конца к началу промежутка (о, Т). Учет третьего от конца участка требует рассмотрения той части суммы q, которая зависит от uN_z. Обозначим эту часть через Qns Qns=G(xn_z, uN_3) + G(xN_2, un-2) + G(xn_u uN-i)+q(xN)f причем XN-2=XN_3 + f{XN-3, uN_3). (1-15) По аналогии с выражением (1-14) можно написать: SN-3 (хм-з ) = min 1° (-%-з > uN-3 ) + + SN_2 {xN_2)] = min {G (xN_3 , uN_3) + + sjv—2 Iх N— 3 Переходя совершенно аналогичным способом к 5^_4, • • SN-k, по- лучаем рекуррентную формулу для определения Sn-h(xn-h) Stf-ft (XN-k ) = min {1° (XN-k • uN-k ) + + + f «*-*)]}. (M?) Параллельно в процессе минимизации правой части этой форму- лы определяется оптимальное значение u*N-h, зависящее от xn-k, 28
минимизирующее выражение (1-17). Кроме того, одновременно с за- поминанием функции SN-k(xN-k) последовательно запоминаются оптимальные значения управления u*n-\, w*jv_2, • •u*N-k. Вы- числяя по формуле (1-17) последовательно SN_k для &=1, 2, .. ., N, приходим, наконец, к определению оптимального значения м*(0), т. е. к значению управляющего воздействия, требуемому в начальный момент времени. Именно это значение и необходимо в конечном итоге узнать, так как рассматриваемый в качестве текущего данный момент времени можно считать за начальный, а последующие мо- менты относятся уже к будущему. Одновременно со значением и*(0) определяется и So, т. е. минимальное значение критерия Q при оптимальном управлении. Выше была описана процедура вычислений в случае, если интер- вал управления Т—фиксирован. При нефиксированном заранее Т величина Л выбирается малой независимо от величины Г, которая неизвестна, при этом на каждом этапе расчета контролируется ве- личина SN-u(xN-k) при xN__k=:x(0) и разыскивается минимум этой величины. Тот этап расчета при котором SN_k*<SN-k для k^k*, дает решение задачи оптимального управления, причем Т= В некоторых простейших случаях удается провести всю описан- ную процедуру аналитически. Однако в общем случае аналитическое выражение результатов минимизации оказывается невозможным: поэтому данную процедуру можно рассматривать лишь как програм- му вычислений, производимых в простых случаях вручную, и в бо- лее сложных случаях — на вычислительной машине дискретного действия, например, универсальной цифровой вычислительной ма- шине. Весь процесс вычисления без затруднений переносится на систе- мы п-то порядка с г управлениями, конечно, с увеличением гро- моздкости вычислений. При этом на каждом этапе расчета для на- хождения функции SN_k требуется находить минимум функции г переменных u\(N—k), ..., ur(N—k), причем функции SN_k являются функциями п переменных xi(N—к), ..., xn(N—k). В этом случае- объем вычислений значительно увеличивается, поскольку увеличи- вается число точек, в которых надо вычислять (и запоминать) зна- чение функций начальных условий. Так, еры для системы первого порядка функция вычисляется, предположим для 10 точек, то для системы третьего порядка ее необходимо вычислить в 1 ООО точках на каждом этапе расчета. В случае непрерывных систем, когда t может принимать любые положительные значения, функция становится непрерывной функцией состояния системы в момент / и выражается с помощью интеграла на втором участке фазовой траек- тории, который минимизируется на множестве всех допустимых управлений U(t) в интервале от t до Т т S [х, t] = min J G(x, a, %)d%. (1-18) 29
Для ее вычисления используется следующее дифференциальное уравнение в частных производных [Л. 20] ^%A=min{G [x(t),u(t), t] + М и (*)€й {и) +<gradS[x, t]J[x(t), /7(0, *]>}. (1-19) Здесь знак угловых скобок означает скалярное произведение векто- ров gradS и /. Уравнение (1-19) называется уравнением Беллмана. 1-4. Принцип максимума Л. С. Понтрягина Принцип максимума, как и динамическое программирование, принадлежит к косвенным методам решения вариационных задач, причем разработан специально для решения задач оптимального управления, сформулированных в выражениях (В-1) —(В-3). Принцип максимума {Л. 21] был разработан независимо от динамического про- граммирования. Однако, как показано в [Л. 7, 22], между этими двумя методами существует связь, позволяющая, в частности для вывода принципа максимума, воспользоваться уравнением Беллмана. Последнее дает возможность не применять специальный аппарат игольчатых вариаций и делает вывод основного выражения более компактным. Поэтому целесообразно при изложении теории прин- ципа максимума воспользоваться ходом рассуждений, приведенным в [Л. 9]. В уравнении (1-19) применена математическая символика, со- ответствующая постановке задачи в терминах (В-1) — (В-3), однако, вводя обозначения (В-4) и (В-5), можно придать уравнению (1-19) более компактный вид. Для этого введем обобщенные векторы коор- динат и их производных по времени в п + 2-мерном пространстве с составляющими ^0» Х\ хп> Хп + \)» i d> f 1> • • •» fn» fn+l)» / x-{x°- " • (lao) f=(f„. а также вектор ф, имеющий составляющие в том же пространстве dS dS OS ' дху '' *' дхп 1 дхп где S определяется выражением (1-18), а величины х0, хп+и /о, fn+u dSldxn+{ выражениями (В-3) — (В-5) и (1-19). / dS dS \ Перенесем f~-^-=—^-^——1 уравнении (1-19) в правую часть, а также учтем, что минимум выражения в правой части означает максимум с отрицательным знаком выражения, обратного ему по знаку, поскольку для любой величины а справедливо соотношение max (— а) = — min а. 30
Тогда О = max|g [*(*). й(0. t](— 1) — ы"(/)<=Я(ы) = max|(— \)f0(x, u, *n+i) — < gradS(x, *n+1) f {x, u, xn+i)> и~У)£Щи) dS(x,xn+1) — — I л on > — щ tn + i(x, u,xn+l)f- В выражении (1-21) / обозначает вектор с составляющими fi (В-1). Очевидно, что в фигурных скобках выражения (1-21) находится ска- лярное произведение векторов if и f, т. е. О = max < Ф Г> и(*)б2(й) (1-22) Введем специальное обозначение для скалярного произведения двух векторов п + \ я = <?7>= S *if<- (1'23) где Фг и fi — i-e координаты векторов и J. Тогда равенство (1 -22) примет вид: 0==тахЯ. (1-24) u (t)eQ{u) Это и есть принцип максимума Л. С. Понтрягина. Из выражения (1-24) следует вывод. Если процесс является оптимальным [условие вывода (1-24)], то в любой момент времени t оптимальное управление u~*(t)—это такое управление, которое максимизирует величину Я. Величина Я зависит от й, поскольку / зависит от гг. В данной точке (п + 2) -мерного пространства х вели- чина Я определена полностью как функция й, если известен вектор г|), а этот вектор определен, если известна функция S(x, хп+\) и, следовательно, известны ее частные производные dS/dxi (t=l, ..., /г + 1). Поэтому рецепт подбора оптимального управления й оказы- вается простым. В каждый момент времени нужно подбирать й так, чтобы обеспечить максимально возможное (с учетом ограничений, наложенных на й и х) значение скалярного произведения Я. Принцип максимума имеет определенный геометрический смысл. Введем вспомогательную функцию ^-функцию точки х в л+2-мер- ном пространстве S=x0+S(xu хп, *пы). (1-25) Рассмотрим в п + 2-мерном пространстве х траекторию изобра- жающей точки, движущейся от начального положения х (0) к ко- нечному положению х (Т). Так как S есть непрерывная функция точки пространства я, то можно найти в этом пространстве некото- 31
оую поверхность — геометрическое место точек 5= const. Эти по- верхности удобно назвать изоповерхностями. Сравнивая (1-25) и (1-20), можно убедиться в том, что OS ♦.—Ей- (Ь26> Следовательно, вектор if> является взятым со знаком минус гра- диентом скаляра S в п+2-мерном пространстве х \j} = —gradS, (1-27) причем, как известно, вектор градиента ортогонален к поверхности S = const. Уравнения объекта управления дают нам еще один вектор Г-ж- с-28> Условие #=тах совпадает с условием максимизации скаляр- ного произведения векторов i|) и f или, так как вектор г|э задан в данной точке х и не зависит о г й, с условием максимума проек- ции вектора f на направление ф. Таким образом, геометрический смысл принципа максимума со- стоит в том, что нужно подбирать такое управление й, чтобы про- екция вектора скорости изображающей точки dx/dt на направление нормали к изоповерхности в данной точке х была максимальной. Рассмотрим приведенный в {Л. 9] частный случай, когда явная зависимость от времени / в уравнениях движения отсутствует и требуется обеспечить минимальное время Т переходного процесса. В этом случае в уравнении (В-З) надо положить G = l, кроме того, dS/dt=0. Для отличия этого частного случая от общего вместо знач- ка «^» будет применяться знак «—». Тогда из (И-21) находим: max < — grad S_(x, t)J(x, a) > = 1, и ей(и) где х и / — n-мерные вектора. Положим _ _ Н=—<grad Sf> = <^/>, где = —grad S. Теперь рассмотрим траекторию изображающей точки в п-мерном пространстве (рис. 1-11). Оптимальное управление в каждый данный момент времени максимизирует скалярное произведение Я, причем его максимальное значение согласно (1-21) при G=l и dS/dt=0 равно единице. Так как в данном случае т S(x, *)= J \dt = T — tt t где / — рассматриваемый момент времени, то величина S уменьшает- ся с увеличением t. Поэтому вектор г|), совпадающий с направле- нием наискорейшего уменьшения S, обращен внутрь поверхности S = T=const, где х — время наискорейшего перехода из точки х в точку х(Т). Таким образом, в данном случае поверхность т=const является изохроной. 32
Требование максимизации проекции вектора / на вектор г|) ясно из интуитивных физических соображений. Чем быстрее происходит движение по нормали к изохроне, тем скорее изображающая точка перейдет на следующую, более близкую к изохрону, тем все меньшее время в дальнейшем затратится на достижение конечной точки. Особенность принципа максимума заключается в том, что век- тор г|) можно найти без построения поверхности S = const с помощью решения так называемых сопряженных уравнений, которые выписы- Рис. 1-11. К определению оптимального управления с помощью принципа ма- ксимума. м0 х(0) Рис. 1-12. Поиск ре- шения с помощью под- бора вектора t|)(0). ваются по заданным уравнениям движения. Они имеют вид ГЛ. 9 и 21]: л + 1 -Tt }, Ф^-^-(* = 1, .... л + 1). (1-29) Эти уравнения линейны относительно координат ф; вектора ф. Таким образом, при применении принципа максимума решаются совместно две системы уравнений—основная и сопряженная. Поскольку ~ 7, ^тг~, то уравнение (1-29) можно переписать в компакт- ной форл.е dt дН dXi *(«'= 1 дН ~ Кроме того, ~~z~'—fi, поскольку f не зависит от фг-. дф» (1-30) 33 3—32
Следовательно, уравнение движения объекта можно переписать в виде dxi ~ дН Уравнения типа (1-30) и (1-31) называются канонически сопря- женными. Таким образом, значения вектора г|) определяются из обыкновенных дифференциальных уравнений (1-30) и (1-31). При стационарном объекте и быстродействии, взятом в качестве критерия оптимальности, в уравнениях (1-30) и (1-31) все величины принад- лежат к «-мерному пространству, в связи с чем значок ~ из обо- значений можно устранить. Пусть требуется для примера решить задачу о максимальном быстродействии с фиксированным концом траектории х(Т) и не фиксированным заранее временем Т. Решение заключается в опре- делении такого управления, чтобы в течение минимального времени перевести точку х из заданного начального положения х(0) в за- данное конечное положение х(Т) (рис. 1-12). Для совместного решения двух систем уравнений (1-30), (1-31)—основной и сопряженной — с параллельным подбором управления й, максимизирующего величину Н в каждой точке опти- мальной траектории, необходимо знать всего 2п начальных условий. Ими являются начальные значения *i(0), ..., хп(0) и начальные зна- чения %(0), . •"фп(О) вектора i])(0). Первые п значений заданы. Начальные значения вектора -ф(0) заранее неизвестны и их необходи- мо подобрать так, чтобы оптимальная траектория прошла через за- данную концевую точку х\(Т), ..., хп(Т). ^Гаким образом получает- ся п условий для п неизвестных координат if>(0). Общих правил для подбора начальных координат вектора а|) не существует {Л. 9]. Допустим, что мы задаемся наудачу вектором if>(0) (рис. 1-12). Пользуясь уравнениями (1-30) и (1-31), построим оптимальную траекторию М0Ми которая, вообще говоря, не пройдет через заданную точку х(Т). Зададимся тогда другим значением век- юра яр (0) и построим другую оптимальную траекторию М0М2 и т. д., до тех пор пока оптимальная траектория !не пройдет через х(Т). Процедуру подбора можно рационализировать, введя меру мини- мального расстояния точек траектории от заданной точки х(Т). При- няв его за критерий правильности решения задачи, нужно подбором начальных значений вектора я|)(0) стремиться свести его к нулю. Таким образом, в процедуру решения задачи быстродействия методом максимума входит серия максимизации Я по и для каж- дого малого интервала времени А^, в результате чего «прочерчивает- ся» траектория M0Mj в фазовом пространстве. Для каждой полу- ченной таким образом траектории вычисляется соответствующее ей значение минимального расстояния до конечной точки гмин. Затем путем подбора %(0), ..., г|)п(0) расстояние гмин сводится к нулю. 1-5. Прямые методы решения оптимальных задач Прямые методы решения вариационных задач [Л. 23] являются приближенными методами, которые сводят задачу минимизации функционала к задаче минимизации функции определенного числа 34
а) б) О 1 I—I I I I 9 Щ к+1 переменных, что упрощает задачу. Число переменных зависит от желаемой точности решения. При этом оптимальные возмущающие воздействия, оптимизирующие выражение В-3, разыскивают не в классе всех возможных функций, а в ограниченном классе функ- ций, варьируемых с по- мощью изменения некото- \uvit) рой совокупности параме- тров, от которых эти функ- ции зависят. Зависимость управляю- • щих воздействий от варьи- руемых параметров может быть любой, однако чем проще зависимость, тем про- ще получается вид мини- мизируемой функции, свя- зывающей величину крите- рия и варьируемые пара- метры. Обычно uk\t) (k—\% ..., г) принимаются линей- но зависимыми от параме- тров аы (/==1, ..т),т. е. последние являются весо- выми коэффициентами, с ко- торыми суммируются неко- торые заданные функции времени tyt(t), заданные на интервале О Выбор (t) определяется усло- виями конкретной задачи и таким образом, чтобы на- сколько возможно умень- шить число варьируемых параметров, не проигрывая при этом значительно в точ- ности. Достаточно гибким и в то же время достаточ- но точным способом изме- нения Uk (t) является, на- пример, задание ординат Рис. 1-13. Кусочно-постоянная аппро- ксимация управляющей функции. а) 6) 1 \ 1 1 \ /1 / м ! » ' 2 \ i 1 94 Т Л 1 J I / . * / ! \ . t > 1 1 X / к-1 к НЧ m Рис. 1-14. Кусочно-линейная аппро- ксимация управляющей функции. функции в m фиксированных точках интервала О-т-Г с кусочно- постоянной (рис. 1-13,а) или кусочно-линейной (рис. 1-14,а) аппроксимацией в промежутках между ними. При кусочно-посто- янной аппроксимации функций tyi(t) задаются на равноотстоящих интервалах соотношениями (рис. 1-13,6) h (t) = если 0 ^ t kT t • m ' kT (k + \)T uQ = const, если — t < - 0, m ^ m (k+\)T m (1-32) 35
При этом параметры aki, с которыми суммируются отдельные стандартные функции являются, по существу, величинами U0 = const. В этом случае результирующая функция в т точках пре- терпевает резкие скачки, а в промежутках между ними остается постоянной. Если число т достаточно велико, то возможности варьи- рования управляющих воздействий в этом классе достаточно близки к возможностям варьирования в классе всех возможных функций. Обычно интервал Т разбивается на 10 равных интервалов, хотя в некоторых случаях желательны неравные интервалы. Недостат- ком кусочно-постоянной аппроксимации является необходимость большого т, если управляющие воздействия имеют участки измене- ния с большими величинами производных. Большие возможности дает кусочно-линейная аппроксимация (рис. 1-14,а), когда ординаты задаются в т точках, а в промежут- ках между ними функция меняется по линейному закону. В этом случае составляющие функции tyi(t) имеют вид треугольника (рис. 1-14,6) с основанием 2Г//П, причем варьируемой величиной является высота треугольника ФК0= о, (/г — \)Т 1 m если 0 ^ / (k-\)T . m m Г' (k-\)T _ jr, если --i m и>[1-[*-иг)г\>если (Ь + \)Т m m m (1-33) Высота каждого треугольника является величиной ординаты аппроксимируемой функции и одновременно весовым коэффициен- том, с которым складываются стандартные треугольники для образо- вания uk(t). Более подробно о выборе кусочно-линейной аппрокси- мации вопрос рассмотрен в [Л. 24]. Могут быть менее универсаль- ные, но более подходящие к конкретной задаче виды функций tyi(t), гю которым ведется разложение управляющих воздействий. Если принять линейную зависимость конструируемых управляю- щих воздействий от функций разложения, то можно написать в об- щем виде m ик (t) = Yi aftA ^' b = \, ... ,r, (1-34) /=1 где tyi(t)—известные выбранные заранее функции времени. Если выражение (1-34) подставить в (В-1) — (В-4) и проинтегри- ровать их каким-либо методом, то при некоторых фиксированных значениях аы получится определенное значение обобщенного крите- рия Q3, которое будет меняться, если будут меняться исходные ве- личины аы. Таким образом, величина Q3 станет функцией перемен- ных аы и для приближенного решения задачи (В-1) необходимо будет отыскать точку минимума функции <2з = С?з(а11, ..., сш, ..., arm). Задача отыскания минимума функции нескольких переменных 36
много проще задачи отыскания минимума функционала, в частности, с точки зрения использования для этого вычислительных машин как цифровых, так и аналоговых. Методика определения экстремума функции нескольких переменных при наличии ограничений типа не- равенств на вычислительных машинах известна [Л. 25 и 26]. Таким образом, решение задачи (В-1) — (В-4) сводится к ряду определений минимума функции нескольких переменных, причем значение минимизируемой функции (В-3) или (1-2) получается в ре- зультате интегрирования системы уравнений (В-1). Минимизируемую функцию можно получить аналитическим пу- тем только в простейших случаях. Полученная при этом алгебраиче- ская зависимость обобщенного критерия Q3 от варьируемых пара- метров и от интервала интегрирования Т может быть исследована на экстремум обычными методами, например, приравниванием нулю первых частных производных по изменяемым переменным. Это дает возможность определить оптимальные значения параметров, т. е. оптимальный вид управляющих воздействий. Однако при сколько-нибудь сложном виде уравнений вида (В-1), а особенно при наличии ограничений типа неравенств интегрирование в замкнутом виде не может быть выполнено и возможно только чис- ленное интегрирование с помощью электронных вычислительных машин. В этом случае формула математической зависимости Q3 от па- раметров неизвестна, однако величину С?з можно измерить для каж- дой комбинации настроечных параметров. Таким образом, много- кратно интелрируя систему уравнений (В-1) на вычислительной машине и получая после каждого интегрирования численное значе- ние Q3, следует подобрать оптимальную комбинацию настроечных параметров, для которой величина Qz — минимальна. Таким образом, становится существенной задача выбора опти- мальной программы работы вычислительной машины, причем весьма рациональным является преобразование исходной вариационной за- дачи по методам обобщенного критерия и изохрон. Это преобразо- вание позволяет упростить программу работы вычислительной маши-' ны и поставить ее в условия фиксированного времени решения. Однако существует ряд теоретических вопросов применения этой методики, которые следует выяснить с целью оценки общего времени решения задачи. Одним из таких вопросов является иссле- дование характера минимизируемой функции Q\ (при заданном ин- тервале Т), так как от ее особенностей (например, наличия несколь- ких минимумов) сильно зависит время решения. Другим вопросом является методика выбора последовательного ряда фиксированных значений Т и выбора начальных значений настраиваемых парамет- ров для каждого Г, так как время поиска в значительной степени зависит от близости начальной точки К точке минимума. 1-6. Теоретические вопросы применения метода изохрон для решения граничных задач прямыми методами а) Исследование особенностей минимизируемой функции Qi При использовании метода изохрон для решения граничных за- дач одной из основных математических операций является миними- зация функции нескольких переменных, причем переменными явля- ются управляющие воздействия и\, ..., иг. При применении прямых 37
методов каждое из управляющих воздействий варьируется измене- нием весовых коэффициентов аки с которыми складываются заранее заданные функции tyi(t). Поэтому функционал Q3 или, как частный случай, Q2 становится функцией, зависящей от а&/. Если взять rm-мерную систему координат и откладывать по каждой из осей коэффициент аии то получается многомерное пространство, в кото- ром определена функция Q2, которую нужно минимизировать для получения оптимального управления. Существенно отметить, что аргументы функции Q2— величины aki — не могут Принимать любые значения вследствие ограничений, наложенных на величину управ- ляющих воздействий. Обычно эти ограничения имеют вид: где Ck — заданные величины. Могут быть ограничения и более общего вида, например (1-35) <рл(0<М0<<Ы0. (1-36) где фь(0 и tyk(t)—миноранта и мажоранта — заданные на интер- вале О-т-Г функции времени. Назовем пространство, связанное с системой координат аы, пространством управлений (рис. 1-15). Тогда около начала коорди- нат будет существовать область 2а, заключающая в себе все зна- чения аы, удовлетворяющие неравенствам (1-36). В силу непрерыв- ной зависимости uh(t) от коэффициента аы (см. выражение 1-34) эта область будет односвязной, т. е. все возможные значения аы могут переходить друг в друга непрерывным образом. Иными сло- вами граница области Qa является замкнутой. В этом же пространстве »а*г определена также функция <22=СЫ«1, «г, Г) =Q2(aii, afti, . .„ arm, Т). Здесь интервал управления Т является параметром семейства функ- ций, каждую из которых необходимо минимизировать, а затем вы- брать Q2mhh(mhh). Поэтому при фиксированном значении Т функ- ция Q2 может быть описана в пространстве аы своими поверхностями равного зна- чения СЫаи, ..., аы, . •., arm)=const, часть из кото- рых будет пересекать область 2а. Очевидно, что решение задачи (т. е. величины а*ы, дающие минимум величине Q2) надо искать на границе области Яа , поскольку в оп- тимальном случае система работает на предельных ре- жимах. Поэтому следует предположить, что значения Q2= const, вообще говоря, увеличиваются при удалении соответствующей поверхности от начала координат, т. е. образом, нахождение оптимального (раекторил поиска Рис. 1-15. К определению опти мального управления в про странстве а. Q42<Q32<Q22<Q12. Таким управления при Т= 38 const геометрически соответствует определению
такой точки М, в которой происходит касание границы области 2а и некоторой поверхности уровня (Q'2 на рис. 1-15). При минимиза- ции функции Q2 с помощью варьирования величин а/* изображающая точка а (т. е. совокупность мгновенных значений а^) стремится достичь точки М. В частности, если начальные значения aki = 0 (т. е. поиск начинается из начала координат) и поиск происходит методом градиента (Л. 18], то траекторией поиска до границы обла- сти Qa является линия, ортогональная поверхностям уровня Q2, а затем по границе изображающая точка добирается до точки М. При оценке любого метода решения граничных задач одним из критериев является время, потребное для решения задачи. При ре- шении граничной задачи методом изохрон общее время состоит из отдельных времен минимизации функции Q2, причем время, необхо- димое для выполнения этой операции, зависит, при одинаковых числах переменных, от вида функции Q2(a), а также от выбора на- чальных значений ао, с которых начинается поиск. При прочих рав- ных условиях время определяется видом функции Q2. Как видно из выражения (1-2), функция Q2 является суммой двух функций: во-первых, функции Хо(Т) (получающейся из крите- рия оптимальности), зависящей от конкретной задачи, и во-вторых, функцией, зависящей от Qi — критерия близости конца траектории к заданной точке х*. Таким образом, в общем случае при достаточ- но сложных формулах для определения критерия оптимальности, а также при нелинейных правых частях уравнения (В-1) поверхно- сти уровня функции Q2 могут иметь сложный вид, в связи с чем функция Q2(a) может иметь различные особенности: наличие част- ных минимумов, «гребней» и т. д. Как известно, наличие таких осо- бенностей сильно увеличивает время 'поиска [Л. 27]. Определяющим для поведения функции Q2 является поведение функции Qi вследствие того, что Р^>1. Однако по достижении Qi = 0 становится важной зависимость Q(a). Очевидно, вид критерия опти- мальности зависит от конкретной задачи. В дальнейшем будут при- т ведены соображения о влиянии некоторых частных видов Q= J G dt о на процесс поиска [Л. 13]. Исследуем более подробно вид функции Qi(a) для случая, когда правые части (В-1) являются линейными относительно своих аргументов. Таким образом пусть dXi dt J] ctijXi + £j bkiUh (t) = J] aijXi + Ui, (1-37) /=1 k=\ /=i где Ui = V bkiuk (t) = ^ bhi ahli>t (t)— управляющее воздействие, сконструированное из заданных функций времени ф/(0» взятых с весовыми коэффициентами аы[Ьы — посто- 39
янные числа; aa(t)—заданные функции времени, непрерывные на интервале O^t^T]. Известно [Л. 28], что общее решение системы линейных дифферен- циальных уравнений является линейным по возмущающим функциям Ui(t), т. е. может быть представлено в виде п ■М0= J] Y*0«fc(O+ V yih(t) j^D Л' (1"38) k=i k=\ где у — произвольные постоянные интегрирования; Угк — фундаментальная система решений для однородной систе- мы уравнений (1-37); D — детерминант фундаментальной системы; Dih — минор детерминанта, соответствующий элементу tjik{t) (i, k=l, п). Частное решение, соответствующее начальным условиям Хг(0)=хм, получим путем подбора постоянных интегрирования yk = Ak. Таким образом, Xi (0 = £ Ahyih (t) +%yih (О П (0 = £ У1К (0 [Ak + П (*)]. (1-39) 6=1 k=\ к=\ п "J £ 0<*(Х**<Хар,ф,(О) *=1 Л. (1 -40) Рассмотрим зависимость выражения фь(0 от коэффициентов aPi. Как видно из выражения (1-40), вследствие линейности опера- ций суммирования и интегрирования выражение для функций Ф&(/) можно записать в виде ?*(0 = £ «pMpi*(0. / = 1 w где Лpzfe (t) — некоторые функции времени, полученные из (1-40) после интегрирования. Подставляя (1-41) в (1-39), получаем: п Xi(t)=Yiyik^[Ah+ X «pA>ik(0] > l= I- • ... п. (1-42) ^1 /7=1, .... г /=1,m 40
ТакИхМ образом, решение системы линейно зависит от весовых коэф- фициентов аР!У что является следствием линейной зависимости ре- шения от возмущающих воздействий, а также линейной зависимости возмущающих воздействий от весовых коэффициентов. В частности, конечная координата при t = T п ■*« (Т) = £ Угн(Т) [Лк + £ aplAplh (Г)] (1-43) k=\ р=\, г 1=1 m также линейно зависит от весовых коэффициентов, т. е. выражение (1-43) представляет собой плоскость в пространстве аки ориентация которой меняется при изменении Т. Можно записать: Xi(T) = Ai(T)+ V Cipl*Pi> Р = \, . . , г 1=\, . . . m п Ai(T)= V Akyih(T). где п k=\ Составим критерий п п N Qi = V [Хг(Т)-х*^ = У [Ai-x*i + Vcijaj ]2. (1-44) i=~\ S / = 1 В выражение (1-44) для удобства введен единый индекс у, при- нимающий значения у=1, ..., rm = N. Выражение (1-44) представ-, ляет собой определенно положительную квадратичную форму от (ij. Рассмотрим вид поверхностей Qi(ab ..., a;v)=const в пространстве uPi = aj. Положив Qi = 0, получим систему уравнений N Ai-x*i + £с<^ = 0 (/=1 п). (1-45) / = 1 Выражение (1-45) представляет собой уравнение гиперплоскости, А$ X*i находящейся на расстоянии * % ■ от начала координат и име- Си ющеи направляющие косинусы . W / = 1 Совокупность уравнений (1-45) описывает линейное уножество, образованное пересечениями п гиперплоскостей и, следовательно, 41
имеющее размерность N— п. Если Qi > 0, то это означает, что имеется совокупность уравнений л/ Лг + X*i + £ d ^ - ±/Q^, / = 1 л, (1-46) /=1 причем п Q<Qu <qi и ^qn =qi. Каждое уравнение (1-46) описывает две гиперплоскости, парал- лельные и симметричные плоскости (1-45) и находящиеся по обеим сторонам от нее. Поэтому при любой комбинации Qn всегда полу- чается два линейных множества, симметричных относительно цен- трального множества (1-45). Таким образом, получается цилиндриче- ская гиперповерхность с центральным множеством симметрии (1-45) (рис. 1-16). Эти поверхности являются везде выпуклыми поверхно- Рис. 1-16. Вид поверхностей уров- Рис. 1-17. Расположение пен- ия Q! = const в пространстве а. трального множества Qi = 0 от- носительно &а в случаях Т ^ умин- Характер функции Qi(an, ..., arm), в частности число миниму- мов, зависит от характера касания поверхностями Q\=const грани- цы области 2а, т. е. от формы области. Не трудно показать, что при принятых допущениях о линейной зависимости возмущающих воз- действий от весовых коэффициентов граница области 2а является выпуклой поверхностью. Действительно, согласно (1-36) можно на- писать: m у \ (1-47) га х ' /=i где ti — некоторый фиксированный момент времени. 42
Выражение (1-47) описывает в пространстве api две гиперплоско- сти, между которыми расположены все допустимые значения avu не приводящие к нарушению ограничений в момент /г-. Если точку ti последовательно совместить с k точками интер- вала 0-^Т, то в пространстве avi будет проведено k пар попарно параллельных гиперплоскостей, которые, взятые совместно, образуют выпуклый многогранник с конечным числом граней, ограничивающий область возможных изменений apt. Устремляя k к бесконечности, т. е. совмещая ti с каждой точкой интервала О—Г, получаем в пре- деле выпуклую область, поскольку каждая новая пара плоскостей может только увеличить число граней, но не изменить свойства вы- пуклости многогранника. Таким образом, область экстремума функции Qi, получаемая в результате касания двух выпуклых поверхностей, является точ- кой. Поэтому функция Qi имеет только один минимум, что суще- ственно облегчает поиск его. При изменении Г центральное ци- линдрическое множество (1-45) меняет свое расположение в про- странстве, но единственность точки минимума функции Qi не нару- шается. В случае, если Г<ГМИН [где Гмин —время переходного процесса в системе, оптимальной по быстродействию, т. е. когда G(xy й)= 1], в выражении (В-3) множество (1-45) не имеет общей точки с Qa. Если Г = ГМин, то имеется только одна общая точка. Если Г>Гмшь то в пределах йа находится односвязная часть линейного множе- ства (1-45). В пределах этого (подмножества <оа критерий оптималь- ности Q — X{}(T) приобретает значения, зависящие от точки подмно- жества, и в этом случае необходимо найти такую точку, в которой х0(Т) имеет минимальное значение (рис. 1-17). В случае наложения ограничений на выходные координаты Xi или на некоторые функции от них, единственность минимума функции Qi(a) остается справед- ливой по крайней мере для случая, когда функции Hj(x, й) пред- ставляют собой линейную форму своих аргументов. В этом случае некоторые части области Qa могут отсекаться гиперплоскостями Hj(a), что, однако, не изменит выпуклости области ga. Следует отметить, что класс уравнений (В-1), для которого справедлив тезис о единственности минимума критерия Qi при Т ^ ГМин, значительно шире класса систем линейных уравнений. Действительно, квадратичная форма является лишь простейшей фор- мулой, обеспечивающей выпуклость гиперобластей уровня Qi(a) = = const. Таким образом, для линейных систем при решении задачи ма- ксимального быстродействия методом изохрон определение каждого оптимального управления достигается только одним этапом минимизации (поиском минимума функции, обладающей заведомо только одной точкой минимума). Этот вывод для линейных систем можно расширить и на некоторые частные случаи общей граничной задачи, т. е. когда G=£\ и Г>ГМИН. Пусть, например, [Л. 13] функ- ция G(x, и) является алгебраической функцией второго порядка своих аргументов с положительными коэффициентами при их квад- ратах, т. е. имеет вид: п G(x, «)= ^djuXjXk + 43
}X,COr=l /=1 jx—1 где djh, bjx<o —непрерывные функции времени, в частном случае j—k, и-=со неотрицательные; Cj, b^t В—непрерывные функции времени. Будем исследовать выражение (1-46) по частям, поскольку G(xy й) является суммой отдельных выражений и о свойствах сум- мы легко судить по свойствам отдельных слагаемых. Подставим в формулу для Q (В-З) первый член правой части (1-46) Т In Q = ^G(x, a)dt= ^ У djkXjXhdt = О 0 Т п N N ^ J S djk ( Aj X Cifaf) ( Ak + X СкН^к ) dt = О /, k=l f-\ h=) n T N N = Ц \d^ (^ + S с^/а/) (л* + £Ckhak)du (M7a) j, *=10 / = 1 Л^=1 Так как регулируемые коэффициенты а/(а^) являются констан- тами, то при интегрировании они выйдут за знак интеграла, причем правая часть (1-47а) после выполнения интегрирования при r = const окажется алгебраическим выражением второго порядка N N Q = )£dfh*fah+Yef*t+b> (1-48) f.h=\ /=1 где djh> h — постоянные коэффициенты, зависящие от Т. При этом коэффициенты квадратичной формы (1-48) при произведе- ниях a/ah в случае f = h равны djf = dhh = djhc2jf > 0. Таким образом, выражение (1-48) представляет собой опреде- ленно положительную квадратичную форму, дающую в простран- стве а везде выпуклые поверхности Q = const. Аналогично проводится доказательство для второго члена фор- мулы (1-46): поскольку и uw линейно зависят от весовых коэффи- циентов &f и oih и Ь^со^О, то в итоге зависимость Q (ос) получается также определенно положительной квадратичной формой, которая в сумме с выражением (1-48) также дает определенно положительную квадратичную форму. Последние три члена формулы (1-46) могут дать только линейные члены зависимости Q(a). Таким образом, выражение (1-48) можно рассматривать как об- щее выражение для зависимости Q(a). При этом поверхности уров- ня Q(a)=const представляют собой поверхности второго порядка, которые являются везде выпуклыми, поскольку все коэффициенты 44
при квадратах а/, при принятых предположениях положительны для любых Г. Как следует из вышеизложенного, множество wa (при Г>ГМин) для линейных систем представляет собой часть гиперплоскости по- рядка N—п, ограниченную везде выпуклым периметром, представ- ляющим собой геометрическое место точек, в которых со пересекает 8а (рис. 1-18). Поскольку <?2=Q + PQi, гдер^>1, то поверхности Q2(a) будут мало отличаться от поверхностей Qi(a) и тем меньше, чем больше величина (3. Поэтому поиск экстремальной точки функции Q2 внача- ле, пока изображающая точка будет находиться вне множества соа, б> дет происходить нормально гиперповерхностям Qi(a)=const. Однако, как только изображающая точка попадет в любую точку области соа, изображающая точка будет двигаться перпендикулярно гиперповерхностям Q(a) — const, направляясь к точке, в которой Q в пределах множества соа имеет минимальное значение. Эта точка является точкой касания между куском гиперплоскости, ограничен- ным выпуклым периметром, и выпуклой же поверхностью Q = const. В силу выпуклости обеих касающихся поверхностей область ка- сания односвязна и, в частности, является единственной точкой. Опираясь на вывод о единственности минимума функции Qi(a) для линейных систем, можно исследовать и более сложные нелиней- ные объекты управления. Исследуем свойства функции Q\(T, а) для нелинейных объектов, описываемых системой уравнений ^ = fi(xl,...,xr})+Ui(t) = .. где fi — непрерывные функции своих аргументов; Ui — заданные функции времени из класса л). (1-49) V< (0 : ih (О- (1-50) 1=1 В выражении (1-50) tyi(t)—заданные функции времени, а ац — варьируемые коэффициенты. Поскольку решение задачи ищется приближенное, то целесообразно, чтобы степень приближения реше- ния не зависела от величины Г. Иными словами, можно форми- ровать управляющие воздействия так, чтобы при любом Г было одинаковое число настроечных коэффициентов. Этого можно достигнуть, если функции из которых конструируются управ- ления, задавались на интервале T=kTQ, где к — п ер ем ени ы й коэф - фициент, Г0 — некоторый базо- вый интервал. Тогда при измене- нии к будет меняться только временной масштаб управляющих функций, а число настраиваемых Рис. 1-18. Вид поверхностей параметров будет оставаться по- уровня Qi = const и Q = const стоянным. в случае 45
В дальнейшем (как и в случае линейных систем) будем считать, что величина критерия Qi выражается формулой Ql =]£ |-**(«. T) — x*i |р, р=\, 2. (1-51) /=1 Покажем, что в случае объекта управления, описываемого си- стемой уравнений типа (1-49), можно утверждать, что почти всегда найдется достаточно малая величина Г, при которой минимум функ- ции Qi(a) заведомо является единственным. Действительно, по- скольку, по предположению, fi — непрерывные функции, имеющие первые частные производные в начальной точке х(0), не все рав- ные нулю, то их можно разложить в ряд Тейлора в этой точке ^ дх, dXj dl ~ fi С*ю» • • • » XnQ) ~\- dfj (Xi — xu>) + . •• + dXn (Хц Xn g) -f* + Ф + ^(0. (1-52) где г|} — остаток ряда Тейлора. Выражение (1-52) является линейным относительно приращений координаты Х{—хго, если можно пренебречь нелинейными членами ряда Тейлора. Это имеет место при достаточно малой величине Г, когда в процессе решения величины Xi—Xi0 не успевают получить достаточно большие значения. Это справедливо в предположении, что не все dfjdxj (£, /=1, ..., п) в точке х(0) равны нулю, т. е. в точке х(0) не все функции fi(x\, ..., хп) имеют экстремум или равны тождественно константе в окрестности точки х(0). Чем меньше берется интервал управления 0—7, тем меньше величины приращения координат и, следовательно, тем меньше не- линейный остаток ряда Тейлора по сравнению с ее линейной частью. Выбирая Т достаточно малым, получаем линейную систему диффе- ренциальных уравнений, относительно которых единственность ми- нимума функции Qi (a, Т) доказана. Указанное утверждение будет несправедливо только для тех функций fi(x), которые имеют экстремум в точке х(,0), когда пер- выми, не равными нулю членами в разложении Тейлора, будут квад- ратичные члены. Однако для этого необходимо, чтобы точка £(0) оказалась точкой экстремума одновременно всех функций fi. Может оказаться также, что имея нулевые первые частные про- изводные, точка х{0) является точкой ложного экстремума («точка перегиба»), когда в разложении Тейлора наиболее существенными являются кубичные члены. Этот случай требует дополнительного исследования, но, по-видимому, в силу монотонности функций fi в окрестности точки £(0), вывод о единственности минимума функ- ции Qi(a) и в этом случае остается в силе. Таким образом, для всего класса линейных систем минимизи- руемых функция Qi при любых значениях Т имеет только один ми иимум, что весьма существенно с точки зрения времени поиска ми- нимальной точки. Что касается нелинейных систем типа (1-49), то единственность точки минимума гарантируется только при малых значениях Г, однако это весьма существенно, так как позволяет 46
выбирать в качестве начального значения Т его достаточно малое значение. Это значительно ухменьшает время определения минимума как потому, что в этом случае единственность минимума гаранти- рована, так и потому, что время интегрирования системы уравнений (В-1) мало. Более подробно методика поиска оптимального значе- ния Т будет освещена в следующем разделе. Исследование общего вида системы уравнений (В-1) при малых значениях 7, когда приращение координат за время интегрирования достаточно мало, также приводит к линейной системе уравнений, но с переменными коэффициентами, когда настроечные параметры влия- ют, в общем случае, на коэффициенты системы линейных уравнений. В самом деле, если dxi ~dt=fi c*i хп,аи. .. tur)(t = \ n), то при условии малых величин xlt. . . ,хп имеем: dxi -#-=t*l(al. ••• .иг)*1 + ... + ¥п(ц1 Ur)Xn. где <Pj : x = x(0) Этот общий случай весьма труден для исследования. Для частно- го вида системы (В-1) dXi -3f =<k(*i. • • • > *т.) + фг(я1. . ... яг) при малом значении Т она становится линейной с постоянными коэф- фициентами, но настраиваемые коэффициенты входят в правую часть выражения (В-1) нелинейно и свойства функции Qi требуют допол- нительного исследования. Однако можно сформулировать практическое правило, при вы- полнении которого функция Qi(a) имеет только один минимум. Именно, величина Х{(Т) (/='1, ..., п) должна монотонно зависеть от любого настраиваемого параметра. Это свойство легко выявляется при пробных интегрированиях системы (В-1) на вычислительной машине. Большое влияние на время решения имеет выбор начальных зна- чений настраиваемых параметров для поиска величины Qimhh (по- дробнее освещенный в разделе «б»). Следует сказать, что существует широкий класс объектов, для которого вид функции q(a) сильно упрощается, а именно может быть представлен в виде q = (pi(iai)+ ... -flcpn(an), (1-53) в связи с чем сильно упрощается и процедура поиска минимума функции (этот вопрос также подробнее освещен в разделе «б»). Все изложенное выше относится к поиску минимума критерия Qi. При решении общей вариационной задачи происходит поиск миниму- ма критерия Q2=Q + pQi, причем в этом случае Г>Гмин (при Т<*Тмпн критерий Q2 не имеет смысла). Так как Р^> 1, то процесс поиска по критерию Q2 будет мало отличаться от поиска по крите- 47
рию Qi до тех пор, пока Qi не станет равным нулю, т. е. конец траек- тории попадет в заданную точку. Когда это произойдет, то даль- нейшее уменьшение настроечных параметров будет происходить только в силу стремления уменьшать величину Q или под влиянием дрейфа в вычислительном устройстве. При этом параметры устанав- ливаются такими чтобы изображающая точка достигла точки обла- сти Qa, где (при заданном Т) Q имеет минимальное значение. б) Методика выбора последовательных значений интервала интегрирования Т При произвольном выборе величины Т для оптимальных по быстродействию систем она может оказаться как меньше, так и боль- ше оптимального времени оптимального процесса по быстродействию Гмин. В первом случае минимальное значение критерия Qi будет больше нуля, во втором равно нулю. Таким образом, поскольку Т>Тиин, то во втором случае необходимо уменьшить Т и снова опре- делить Qimhh. Если она снова окажется равной нулю при уменьшен- ном значении Т, то необходимо снова уменьшить величину Т ,и так до тех пор, пока при некотором значении Т величина Qimhh(Т) станет больше нуля. Таким образом, минимальное значение Г, при котором уже нельзя будет достичь нулевого значения Qimhh, будет оптималь- ным интервалом управления. Описанная методика выбора последовательных значений Т имеет ряд недостатков. Во-первых, даже если Т>ТМин не исключена возможность, что Qimhh(^) будет больше нуля, если функция Qi(a) имеет несколько минимумов. Во-вторых, время решения задачи уве- личивается благодаря большому времени интегрирования уравнений системы. Наконец, при изменении величины Т, величина Q 1мин не изменяется (при 71>ГМИН) и неизвестно, насколько сильно отличается текущее значение Т от Гмин. От этих недостатков свободна методика поиска значения 1 млн начиная с малых значений Г, когда время решения задачи умень- шается вследствие уменьшения времени интегрирования уравнений системы (В-1). При этом приближение величины Т к ■* мин может не- прерывно оцениваться по приближению Qimhh к нулю. К тому же при малых значениях Т вероятность наличия у функции Qi(a) нескольких минимумов значительно уменьшается. Для дальнейшего уточнения методики выбора последовательно- сти значения Т на примере системы (1-49) покажем, что координаты минимума функции Qi(a, Т) непрерывным образом зависят от Г и ац в предположении непрерывности функций fi(x) и наличия первых частных производных. Решение системы (1-49) будет иметь вид t t xi (0 = xi0 + £ fi(xu . . . , xn)dt + J Ui (0 dt = б б / m t = xi0 + ^fi(xlt... ,xn)dt j4/(0<ft; (1-54) 6 i=\ b здесь X\(t), ..., xn(t) —функции времени, являющиеся решением си- стемы уравнений (1-49). Поскольку решение системы зависит от 48
управления, т. е. функций Ui(t), то ..xn(t) зависит от аи. Таким образом, Xi (t) = Xt (0) + t т t + ijfi{x1(t)a),,...Xn(t, a)l dt+^u^ (0 dt- 0"55) 0 l = \ 0 Зафиксируем момент времени t=T и будем искать характер за- висимости Хг(Т) от вектора весовых коэффициентов а. Для этого определим частные производные функции по величинам Т и а и Щр = и[хЛТ) xn(T)] + Ui(T), (1-56) г dxi (Т) д ( С - - , -Йг=3^{р ^^-а) ^.(Г,«)]Л + о Г а Т Т 0 i = l 0 0 Выясним характер зависимости первых частных производных от величин Т и аи. По предположению fi являются непрерывными функциями своих аргументов, а функции Ui — ограниченные функции времени. По условию решения граничной задачи также необходимо, чтобы вы- ходные координаты принадлежали области Qx, что обеспечивает ограниченность всех составляющих координатного вектора x(t). Таким образом, величины fi[x(t)] при любом Т являются ограничен- ными. Следовательно, функции Xi(T) имеют ограниченные производ- ные, т. е. являются непрерывными функциями. Что касается величин dxt (Т)/дац, то в силу ограниченности функций tyi(t), существования величин dfi/dx3 и ограниченности ве- личин Xi(t) в процессе поиска они будут величинами ограниченными. Это означает, что хг(Г, а) будут непрерывными функциями всех своих аргументов. Таким образом, координаты конца фазовой траектории Xi(T) являются непрерывными функциями интервала управления Т и всех весовых коэффициентов. В частности, и координаты конца опти- мальной (в смысле минимума критерия Qi) фазовой траектории также будут .непрерывными функциями величин аи и Т. Так как функция Qi сама является непрерывной функцией *г(Г), то выше- сказанное означает, что линии уровня функции Qi в пространстве a мало меняются при малых изменениях величины Т и вектора а. Сле- довательно, при постоянной конфигурации области допустимых весовых коэффициентов Qa мало меняются и координаты точки, харак- теризующей величину оптимального управления аопт. Из вышеизложенного следует, что даже если функция Qi(a), вообще говоря, может иметь несколько экстремумов, то при изме- нении величины AT малыми ступенями всегда можно выбрать такие начальные условия для поиска, которые гарантируют близость вы- 4—32 49
бранной начальной точки к искомой точке минимума функции Qi(r-fAr). Для этого необходимо только в качестве начальной точки (х0 для интервала Т+АТ выбрать оптимальное управление для интервала Т, т. е. аопт(Г). Таким образом, изменяя Г от 0 до ГМИн при условии минимизации каждый раз функции Qi, мы получим непрерывный ряд оптимальных векторов аопт, сходящийся к реше- нию вариационной задачи. При этом для получения каждого значе- ния <хопт (Г) будет достаточно однократного поиска минимума функ- ции Qi(a), если для начального значения непрерывного ряда а0цт будет гарантировано определение главного минимума в случае, когда функция Qi(a) имеет несколько минимумов. Рассмотрим этот общий подход на примере .нелинейной системы уравнений вида (1-49) Как было показано выше, для системы уравнений (1-49) всегда существует достаточно малое Г, при котором минимум функции Q\(a) является единственным. Поэтому в силу непрерывной зависи- мости координат точки минимума от Т всегда будет существовать такое малое AT (приращение штурвала задания управляющих воз- действий), при котором координаты минимума функции Qi(T, а) останутся в «области притяжения» минимума функции Q\(T+AT, а), если последняя имеет несколько минимумов. Таким образом, изменяя величину Т малыми ступенями и мини- мизируя каждый раз функцию Qi(a) с помощью только одного этапа минимизации, в конце концов можно достигнуть Г=ГМИн, при кото- ром Qimhh = 0. Управление, при котором будет достигнуто Qimhh(Tmhh) =0, будет являться решением задачи оптимального управления по быстродействию в выбранном классе управлений. При этом функция Qimhh(^) при 0 Гмин, вообще говоря, не являет- ся монотонной, она может иметь частные минимумы. Методика выбора последовательности точек изохрон, обеспечи- вающая единственность минимума при каждом процессе поиска величины Qmim(T) для систем, описываемых уравнениями типа (1-49), при решении задач на максимальное быстродействие заклю- чается в следующем. В качестве параметра начальной изохроны выбирается такое малое Г, при котором все функции fi можно счи- тать линейными в окрестности точки х(0). Очевидно, что это всегда можно сделать, поскольку величина интеграла (1-54) есть непрерыв- ная функция верхнего предела, в силу чего изменения координат могут быть сделаны достаточно малыми, если Т достаточно мало. Допустимые изменения координат можно определить с помощью известных функций fi(xu ..., хп), задавшись, например, 10%-ным допустимым изменением производных dfi/dxj. Величину Т можно выбрать с помощью пробного решения системы (1-49) на вычисли- тельной машине, подавая в качестве управления наиболее резкое возмущение системы — единичную функцию времени. Величина Т=Т\ выбирается такой, чтобы изменения координат не превосходили допустимых. При выбранном значении Т\ проводится минимизация функции Qi(a) путем подбора оптимальных значений а0Пт и #опт (Т\) . После того как получено значение Qimhh (Т\), необходимо уве- личить Т\ на величину АГ, выбираемую с помощью линеаризации 50
fi(x) в точке х0пт(Т\) и оценки скорости изменения dxijdt в той же точке. Тогда величина приращения интервала управления А^ может быть получена в виде Ar=J^UCTr= м*.го (/ = 1 п)- i = \ п где AXf — приращение координаты Х{ в окрестности точки х(Т{), в пределах которого можно считать функции fi(x) ли- нейными; dxi/dt — значение функции fi. После установления величины Т2=Т\+АТ необходимо снова про- извести минимизацию функции Q\(T2). При этом в качестве началь- ных условий для поиска а0Пт{Т2) надо взять точку а0т(Т\). При этом поиск потребует только одного процесса минимизации, так как точка a0m(Ti) будет находиться в области притяжения минимума функции Qi(T2), т. е. в окрестности точки а0пт(г2). Этот процесс следует повторять до тех пор, пока не будет достигнуто значение Quvm(Ti) =0. При этом аопт(гг) будет решением задачи, a Ti — вре- менем максимального быстродействия. Использование на каждом i-м этапе минимизации в качестве начальной точки a0nT(7Vi) существенно уменьшает общее время решения задачи. Описанная методика выбора последовательности точек изохрон при решении задачи оптимального быстродействия может рассмат- риваться в качестве общей методики перехода от одного значения Т к другому. В самом деле при ее обосновании требовалась только непрерывность функций fi. Пусть теперь функции fi непрерывно за- висят не от весовых коэффициентов управляющих воздействий, а от любых параметров, с помощью которых производится управление процессом (в этом случае управляющие функции Ui(t) могут и отсутствовать). Очевидно, что вывод о непрерывной зависимости координат точек минимума функции Qi(a), где a — вектор любых настраиваемых параметров, сохраняет свою силу, а следовательно' остается справедливой разработанная методика выбора точек изо- хрон. В этом случае, правда, остается открытым вопрос о выборе начального значения Т, при котором минимум функции Qi(a) был бы единственным. Очевидно, чем ближе вид начального управления к оптимально- му управляющему воздействию, тем больше вероятность того, что начальная точка в пространстве а окажется в области притяжения к точке оптимального управления аопт. При таком расположении начальной точки оптимальное управление будет достигнуто за один этап минимизации Qb Поэтому в случае сложных функций Qi(a) для установки начального управления следует пользоваться интуи- тивными соображениями о форме оптимального управления. Кроме того, можно использовать известные теоремы о структуре управляю- щего воздействия, например теорему об п интервалах [Л. 33]. в) Вариант методики поиска для промышленных объектов с идеальным вытеснением продуктов из зоны реакции Общая методика поиска оптимального управления для разных классов объектов дает разные результаты в смысле времени поиска 4* 51
оптимального управления и точности его определения. Однако для некоторых классов объектов можно предложить, используя их частные особенности и особенности их математического описания, значительно более простые алгоритмы, являющиеся, однако, частными случаями общей методики. Одним из таких классов объектов является класс многочислен- ных химических и металлургических объектов, производственные процессы в которых протекают по схеме идеального вытеснения. Характерным свойством этих объектов является то, что целевые продукты реакции немедленно после образования покидают зону реакции, вследствие чего общая производительность процесса пред- ставляет собой сумму мгновенных производительностей. При этом весь последующий ход процесса никак не влияет на эффект от пре- дыдущих моментов времени. В свою очередь, предыдущий ход про- цесса оказывает влияние на последующий ход процесса лишь в смысле создания начальных условий. Как правило, такие объекты могут быть описаны с достаточной точностью системой нелинейных обыкновенных дифференциальных уравнений. Примерами являются фьюминг-процесс, химический реактор для производства окиси эти- лена с помощью твердого катализатора, конвертор и т. д. При этом целью процесса является накопление полезного продукта реакции или удаление вредных примесей из реактора. К этому же типу принадлежат процессы гидрометаллургии, процессы флотации и т. д. Отличительным математическим признаком является совме- щение х* с Хо(Т), причем *о(^) опт = 0, а х0(0)ф0 — ненулевые на- чальные условия. Поскольку в реакторе имеется только определенный запас реагирующих веществ, а продукты реакции немедленно уно- сятся из зоны реакции, то х0(Г) является монотонной функцией вре- мени. При этом Хо(Г)мин = 0, поскольку запас реагирующих веществ когда-то будет исчерпан. Эти объекты могут работать как в периоди- ческих, так и в непрерывных режимах. Указанные особенности объектов значительно упрощают решение задачи оптимального управления. Так как последующие моменты времени никак не влияют на предыдущие, то оптимальное управление в первые моменты времени после начала процесса не зависит от всего дальнейшего хода про- цесса. Поэтому если разбить весь период управления на п равных частей, то подбор оптимального управления следует начать с первого интервала и подбирать величину щ таким образом, чтобы Хо(Т\) получило минимальное возможное значение при учете всех необхо- димых ограничений. При этом Ax0\=Xo(0)—x^(Ti) получает макси- мальное значение. Для второго интервала времени величина х0(Т\) теперь является начальным условием, и второе управление и2 не- обходимо подбирать так, чтобы х0(Т2) получили минимальные значе- ния; в этом случае Ах02=Хгу(Т\)—х0(Т2) тоже получит максимальные значения; причем и общий выход продукции Ах0(Т2) =Ax0i + Ax02 является оптимальным. Оптимальное управление для третьего интер- вала подбирается аналогичным образом и т. д. пока х0(Тп) не ста- нет равным нулю или заранее заданной малой величине. При этом общее оптимальное время процесса будет равно пАТ. Таким образом, определение оптимального управления достигает- ся для этого класса объектов не с помощью минимизации п-мерной функции, а n-кратной минимизацией одномерной функции, что значи- тельно упрощает определение оптимального управления. 52
Достоинством этой методики является возможность быстрого определения приближенной величины J мин для задач оптимального быстродействия. При этом имеется возможность уточнить оптималь- ность управления со сколь угодно большой степенью точности. Не- обходимо только разделить приближенно найденное оптимальное время 1 мин (при произвольных AT) на требуемое с точки зрения точности числа интервалов и повторить описанную процедуру. Описанная методика подбора оптимального управления являет- ся частным случаем общей методики подбора, рекомендующей начи- нать с малых значений интервала управления Т. Основная особен- ность ее заключается ,в том, что при каждом значении Т подбирает- ся только один настроечный параметр, а именно значение управляю- щего воздействия в последнем подынтервале управления. При этом управление .во всех предыдущих подынтервалах остается постоянным и равным значениям оптимального управления, подобранным на бо- лее ранних этапах поиска. Таким образом, при использовании общей методики с измене- нием величины Т меняется временной масштаб функции tyi(t) и при любом Т в управлении участвуют все функции tyi(t). В случае при- менения описанного варианта частной методики при изменении величины Т число участвующих в управлении функций tyi{t) непре- рывно увеличивается, хотя каждый раз варьируется только одна из них. В результате точность подбора оптимального управления не- прерывно увеличивается с увеличением величины Т. 1-7. Сравнение методов решения задач оптимального управления Все перечисленные методы являются методами численного реше- ния задач оптимального управления, согласно которым можно со- ставить программы для автоматических вычислительных машин. Естественно, что метод, дающий возможность составить менее слож- ную программу, обеспечивающую приемлемую точность и время ре- шения задачи, будет более предпочтительным. Оценивая свойства различных методов можно сказать, что метод обобщенного критерия дает возможность решить простыми средства- ми задачу учета граничных условий при сохранении допустимой и контролируемой степени погрешности. Он сводит несколько различ- ных условий процесса поиска оптимального управления (выполнение граничных условий, минимизация критерия качества и учет ограниче- ний) к одной операции — определению минимума видоизмененного функционала. При этом видоизменение сводится к простейшим пре- образованиям — суммированию, умножению на постоянный коэффи- циент и возведению в степень. Такая переформулировка задачи целесообразна, так как упрощает граничную задачу, сводя ее к зада- че со свободным концом траектории без ограничений. Кроме того, указанное пгеобразование дает возможность даже не оптимальную задачу, а просто граничную, рассматривать как оптимальную, приме- няя для ее решения стандартные программы решения оптимальных задач. Метод изохрон дает возможность свести задачу с нефиксирован- ным временем решения к семейству задач с фиксированным време- нем. При этом общее время решения задачи не обязательно увели- чивается, хотя вместо одной задачи теперь приходится решать ряд 53
значительно более простых, постепенно приближаясь к решению исходной задачи. Это произойдет потому, что задача с фиксирован- ным временем всегда проще задачи с нефиксированным временем и, следовательно, времени на ее решение потребуется меньше. Кроме того, можно использовать методику последовательного приближения, считая исходным пунктом поиска оптимального решения в /+1-Й за- даче семейства оптимальное управление, найденное для i'-й задачи семейства. Это является оправданным, если 7\-+i мало отличается от Т{. Можно отметить также, что в случае применения принципа максимума или динамического программирования заранее .неизвестно, сколькими экстремумами обладает минимизируемая функция, и может существовать сомнение (особенно при высоком порядке си- стемы), что экстремум, найденный при очередной минимизации, не является наиминимальнейшим, т. е. не дает оптимального управ- ления. Методика последовательного приближения, разработанная для метода изохрон, по применимая и для этих методов, в значитель- ной мере снимает эти опасения, поскольку дает возможность каждый раз начинать поиск экстремума, исходя из начальных условий, за- ведомо близких к искомой точке. При этом одновременно с уверен- ностью в истинности найденного экстремума значительно сокращает- ся время его определения. Аналогичное положение имеет место и при применении прямых методов решения вариационных задач, где опас- ность наличия нескольких экстремумов еще больше, поскольку уве- личено количество варьируемых переменных. В итоге -можно сказать, что метод обобщенного критерия и ме- тод изохрон дают средства изменения формулировки исходной задачи, служащие для значительного упрощения ее численного реше- ния, для которого могут служить прямые и косвенные методы. Основными .преимуществами косвенных «методов решения задач оптимального управления (динамического программирования и прин- ципа максимума) перед прямыми методами является возможность сведения определения экстремума функции большого числа пере- менных к последовательности определения экстремумов функций значительно меньшего числа переменных. Это уменьшенное количе- ство переменных равно числу управляющих воздействий в случае применения принципа максимума и порядку системы в случае при- менения динамического программирования. Естественно, что это основное преимущество дается ценою усложнения общей программы вычислений, причем иногда настолько, что в данном случае для ее осуществления могут быть использованы, по-видимому, лишь цифро- вые машины со значительным объемом памяти. Несмотря на это при высоком порядке системы уравнений, описывающей объект управления, и при большом числе управлений эти методы, вероятно, единственно приемлемы. В то же время имеется широкий класс задач оптимального управ- ления, где имеется одно, максимум два управляющих воздействия, вследствие чего при решении задачи прямыми методами число пере- менных не превосходит 10—20. В этих условиях определение экстремума функции, особенно при обеспечении единственности ее минимума, не является слишком сложным и может быть выполнено даже с помощью аналоговых вычислительных машин. Следует сказать, что при использовании численных методов рас- чета оптимальных систем найденные решения всегда являются при- ближенными, .причем увеличение точности решения всегда оплачи- вается увеличением времени решения. В то же время часто повы- 54
шенная точность решения бывает излишней вследствие приблизитель- ности исходных данных. Так, математическое описание производ- ственных объектов всегда приблизительно, хотя бы потому, что с те- чением времени их параметры и характеристики «плывут». Есте- ственно, что в этих условиях предпочтительнее менее точное решение, отражающее основные тенденции процесса, но полученное более про- стыми средствами и в более короткий срок. - В этой связи прямые методы решения заслуживают внимания и дальнейшей разработки. Нельзя также не учитывать, что использование прямых методов дает возможность применить для решения задач оптимального управле- ния широко распространенные, относительно простые и дешевые ана- логовые вычислительные машины, разработанные специально для ре- шения систем обыкновенных дифференциальных уравнений. ГЛАВА ВТОРАЯ АППАРАТУРА, ИСПОЛЬЗУЕМАЯ ПРИ РЕШЕНИИ ГРАНИЧНЫХ ЗАДАЧ 2-1. Сравнение типов вычислительных машин, пригодных для решения граничных задач При выборе типа вычислительной машины для решения задачи и методов решения необходимо учитывать, во-первых, требуемую точ- ность решения и, во-вторых, время необходимое для ее решения. Существует два типа вычислительных машин — цифровые вы- числительные машины (ЦВМ) и аналоговые вычислительные маши- ны (АВМ). Цифровые вычислительные машины (см. [Л. 3 гл. 8]) являются' сложными и громоздкими электронными устройствами и работают по принципу автоматизированного арифмометра. Точность вычислений составляет 7—8 десятичных разрядов. Скорость вычислений обычно характеризуется числом сложений в секунду (обычная скорость 104 сложений в 1 сек), но время решения задачи зависит от ее сложности. В частности, при решении систем дифференциальных уравнений, ког- да они приближенно решаются методом конечных разностей, напри- мер методом Рунге-Кутта {Л. 29], число сложений, приходящихся на один временной шаг решения, получается весьма велико, вследствие чего общее время решения, особенно для нелинейных систем, полу- чается большим. Однако в тех случаях, когда требуемая точность вычислений превосходит Ю-1—,10~2%, (например, при расчете траек- торий управляемых снарядов) ЦВМ является единственно возмож- ным вычислительным средством. Аналоговые вычислительные машины непрерывного действия при- способлены специально для решения системы дифференциальных уравнений как линейных, так и нелинейных [Л. 30]. Точность реше- ния, полученного с помощью АВМ, не превосходит 0,3—0,5% для ли- нейных дифференциальных уравнений и падает до 2—5% в случае 55
нелинейных уравнений. Для большинства задач, связанных с произ- водственными объектами, такая точность вполне приемлема, посколь- ку, как правило, точность математического описания не может быть высокой в силу сложности процессов и, кроме того, исходные данные (коэффициенты скорости реакции, постоянные времени и т. д.) изве- стны с точностью не выше 5—10%. В то же время по скорости реше- ния систем дифференциальных уравнений АВМ опережают ЦВМ. Решения могут быть получены за секунды там, где при применении ЦВМ потребуются десятки минут или часы. Иногда задачи на вычис- ление оптимальных управлений являются задачами на определение общего вида управляющих функций и в этих случаях АВМ дают воз- можность быстро обнаружить их с удовлетворительной точностью. Поэтому АВМ вполне пригодны для решения задач оптимального управления производственными агрегатами, если последние могут быть описаны с помощью систем обыкновенных дифференциальных уравнений. К недостаткам АВМ следует отнести невозможность про- ведения с их помощью логических операций, которые необходимы при поиске экстремальных решений. Этот недостаток преодолевается с по- мощью специальной аппаратуры гибридного типа, содержащей в себе как аналоговую, так и дискретную части. С помощью таких дополне- ний (Л. 15] АВМ получают возможность решать сложные задачи определения оптимальных управлений. Поэтому для расчета опти- мальных режимов производственных агрегатов целесообразно при- менять АВМ с оптимизирующими устройствами. Хотя возможные методы решения не разрабатывались примени- тельно к определенному типу вычислительных машин, все же можно сказать, что принцип максимума Понтрягина и динамическое про- граммирование Беллмана наиболее подходят к возможностям ЦВМ. Применение этих методов для использования АВМ является весь- ма затруднительным. Причиной является обязательное наличие логической схемы, запрограммированной на последовательную минимизацию и запоминание большого количества чисел. Попытка осуществить решение граничных задач обычными методами на АВМ привела бы к развитой сложной и громадной дискретной части, которая к тому же была бы приспособлена для решения одного типа задач. Что касается метода обобщенного критерия и метода изохрон, то они могут быть реализованы с обоими типами машин, причем на АВМ применение метода обобщенного критерия предпочтительней, так как он не требует развитой логической части. Метод изохрон сводится к последовательности минимизаций Q2 при заданных значениях ин- тервала управления Т. Необходимая логическая часть для управле- ния этими операциями весьма проста [Л. 15] и уже разработана. При использовании прямых методов решения некоторым недостатком яв- ляется большое число варьируемых параметров в том случае, если число управлений велико. Однако, если не говорить о специальных случаях, при оптимизации управления производственным объектом редко требуется более одного, максимум двух управлений. В этом случае применение методов обобщенного критерия и изохрон вместе с прямыми методами решения задачи вполне себя оправдывает. В дальнейшем будут описаны только аналоговые вычислитель- ные устройства, применяемые для решения граничных задач, вследст- вие их большой перспективности для решения промышленных за- дач. При необходимости указанная в гл. 1 методика дает возмож- ность составить программу для цифровой машины. 56
Злектронная модель При использовании аналоговых вычислительных устройств для решения задач по описанной в гл. 1 методике необходимы следующие блоки: :;. 1) Электронная модель, способная работать в режиме повторе- ния решения с заданным интервалом управления. На электронной модели набирается система уравнений (В-1), а также схема, вычис- ляющая обобщенный критерий оптимизации Q3 в его~ частном виде, соответствующем конкретной задаче. 2) Генератор управляющих воздействий (ГУВ), который подает на входы электронной модели управляющие воздействия Ui(t).^ 3) Автоматический оптимизатор (АО), т. е. прибор, который на- ходит минимум функции Q3 с помощью варьирования своих выход- ных напряжений, управляющих ГУВ. Блок-схема взаимодействия между блоками показана на рис. 2-1. При работе схемы электронная модель ставится в режим повто- рения решения. При этом в конце каждого решения на выходе моде- ли появляется минимизируемая ве- личина Xq(T), ограничиваемая ве- личина Н и величина Qi(T), кото- рые с помощью специальной схемы перерабатываются в величину Q3. Вычислительные процессы в моде- ли происходят под воздействием возмущающих воздействий, идущих от ГУВ. Форма функций u{(t), .. ur(t) зависит от величин аь .. aN, подаваемых с выхода АО. Прибором, ведущим поиск оптималь- ного решения, является АО, работающий с частотой периодизации ре- шения под воздействием тактовых импульсов, подаваемых с модели. Оптимизатор так меняет весовые коэффициенты аь ..., а^, чтобы минимизировать величину Q3. При этом время минимизации полу- чается пропорциональным времени периодизации, вследствие чего целесообразно применять высокочастотные модели. При использова- нии обычных моделей (ИПТ-5, ЭМУ-8, ЭМУ-10, ЛМУ-1 и т. д.) целе- сообразно выбирать наибольшую возможную частоту периодизации. На вход автоматического оптимизатора подается сигнал в виде постоянного напряжения в диапазоне ±100 в. Выходные сигналы АО также являются постоянными напряжениями в том же диапазоне. Поэтому ГУВ является прибором, управляемым воздействиями в ви- де постоянных напряжений в диапазоне ±100 в и имеющим на выхо- де выходной сигнал в виде напряжения также в диапазоне ±100 в. АО Рис. 2-1. Блок-схема устрой- ства для решения задач оп- тимального управления с применением АВМ. 2-2. Автоматический оптимизатор Автоматический оптимизатор [Л. 25, Заявляется прибором, пред- назначенным для поиска экстремума функции многих переменных с помощью одной из модификаций метода последовательных прибли- жений, приспособленной к тому случаю, когда математическая фор- мула Q3(a) неизвестна и могут быть лишь измерены значения мини- 57
мизируемой функции при любом сочетании параметров а. Эта мето- дика использует тот факт, что если измерения выполнены в достаточ- но близких точках пространства аргументов, то со значительной до- лей уверенности можно прогнозировать поведение непрерывной функ- ции Qz(a) (ее уменьшение или увеличение) в близкой окрестности уже исследованной области пространства аргументов. Этим поль- зуются для того, чтобы при близиться к минимуму (умень- шить значение функции) в пространстве параметров по определенному правилу, после чего снова измеряют значения функции в точках, близких к точке, полученной путем экстраполяции, и так до тех пор, пока значения функции не будут одинаковыми при любых малых вариациях аргу- ментов. Это будет указывать на наличие минимума. Есте- ственно, что таким образом можно обнаружить только один минимум в случае функции с несколькими частными мини- мумами; именно тот, в «обла- сти притяжения» которого ока- зались начальные условия а0, принятые для поиска. Имеется несколько разно- видностей методов последова- тельных приближений [Л. 18], отличающихся правилами об- следования малой области пространства а вблизи начальной точки и правилами прогнозирования экстраполируемой точки. Ниже будет описан алгоритм поиска многоканального АО, разработанного в Ин- ституте автоматики и телемеханики, представляющий собой соче- тание методов градиента и наискорейшего спуска. Пусть имеется некоторая непрерывная функция Q(a), о которой известно только то, что' она обладает одной точкой минимума. Тогда в пространстве аргументов а существуют замкнутые поверхности уровня Q (а) = const, вид которых неизвестен. На рис. 2-2 изображе- на функция двух независимых аргументов ai и а2 с помощью линий Q(x\, х2)= const. Задача поиска минимума функции Q заключается в том, чтобы, начиная с любой точки М0 с координатами аю, (х20, так организовать последовательный выбор новых точек функции, чтобы через определенное число шагов достичь точки минимума М. Для этого измеряют значения функции Q в точках М\ с координатами (аю + 6а, (х20) и М2(аю, а2о + 6а) и вычисляют разности dQ . AQi = Q(«io + 5a> «2o) — <2(аю> «20)^^7 00 Рис. 2-2. Поиск минимума функ- ции двух переменных методом по- следовательных приближений. AQ2 = Q (a10, «20 + За) — Q (а10, а20) : dQ ' да» (2-1) 58
где dQlda\ и dQ/da2 являются значениями частных производных в точке М0. Затем величинам аю и аго дают приращения, пропорциональные полученным значениям первых разностей, с одинаковым коэффи- циентом пропорциональности —k (2-2) cQ Д04 = — kLQx /г^а —, dQ да2 — — kAQ2 ^ — kba -— Са2 и получают экстраполированную точку Л43 с координатами ^аю— dQ dQ \ —^а~даГ' а2°—^а ~да^)' Значение функции в точке Мъ— Q{M3) меньше Q(M0) при небольшом k, так как «шаг поиска» сделан по направлению, обратному направлению вектора градиента (с компо- нентами dQ/даи dQ/d(X2), который нормален к поверхности уровня и направлен в сторону возрастания функции. Таким образом, AQ~Q(M3)-Q(MQ)<Q. (2-3) В точке Мъ можно повторить операцию определения первых раз- ностей или (после проверки знака AQ) дать новые приращения Aai и Act2, равные (Предыдущим. В первом случае (метод градиента) сле- дующий шаг поиска Судет точнее, чем во втором, так как значения dQ/dcii 2) в точке М3 отличаются от их значений в точке М0. Однако во втором случае (метод наискорейшего спуска) не теряется время на определение первых разностей в точке^М$', движение точки, изображающей текущую комбинацию значений а, происходит по пря- мой М0, Мз, МА до тех пор, пока при очередном шаге приращение функции AQ не изменит свой знак. Это означает, что возможность уменьшения значения функции на направлении вектора градиента в точке М0 исчерпана и необходимо снова «ориентироваться» в «по- ведении» функции в точке, где линия поиска Af0, М5, М4 только косну- лась очередной поверхности уровня (до сих пор линия поиска их пе- ресекала снаружи внутрь). Описанный процесс поиска повторяется до тех пор, пока прира- щение функции AQ за несколько рабочих шагов не станет меньше заранее выбранной величины 8. Измеренное при этом значение Q считается равным минимальному значению с точностью е. На практике оказалось, что из-за неизбежных помех в устрой- стве сначала, когда величины А(?г сравнительно велики, целесообраз- но вести поиск методом наискорейшего спуска; когда же модуль век- тора градиента становится малым, уточнение величины умин необхо- димо проводить методом градиента, который более «осторожен». На рис. 2-3 дана блок-схема многоканального автоматического оптимизатора. Вся схема разделяется на две большие части: опера- ционную и логическую. Операционная часть состоит из линейных блоков, соединенных ключами. Входной сигнал в виде значений функций Q, отображаемых постоянным напряжением в диапазоне ±100 в, подается на вход вычитательного блока AQ, который пред- ставляет собой решающий операционный усилитель, охваченный обратной связью в виде емкости С0. При этом входной сигнал на сет- 59
ку усилителя подается через емкость Свх. Такое устройство представ- ляет собой усилитель-инвертор с коэффициентом усиления k = CBX/C0, причем замыканием ключа Ко при любом входном сигнале можно установить выходной сигнал, равный нулю. Выходное напряжение блока AQ подается на входы п парал- лельных каналов. Каждый /-й канал (*=1, ..., п) состоит из последо- вательно соединенных входного ключа Кг, запоминающего звена Зг-, ключа Кшг и интегратора Иг. Кроме ключа Кшг на входе интеграто- ра имеется еще ключ K'i, подающий величину 6а. Таким образом, каждый интегратор #г имеет два входа с разными свойствами: по Операционная Логическая часть лшю--- Ч т. -ТТЛ Т т 1 'п 'п-1 Рис. 2-3. Блок-схема многоканального оптимизатора. входу Кшг устройство интегрирует входной сигнал, по входу К'% — усиливает. Выходы каналов являются варьируемыми переменными <хь ..., ап. Работа операционной части управляется определенным порядком замыкания ключей, который обеспечивается элементами логической части. Логическая часть представляет собой двухконтурный регистр (пересчетная цепочка), составленный из триггеров, причем триг- гер Т{ управляет ключами К% и K'i в соответствующем канале, триг- гер Т0 управляет ключом Ко, триггер Гш управляет ключами Кш всех каналов одновременно. Триггер Тв не управляет ни одним клю- чом и необходим для того, чтобы схему можно было оставить со всеми разомкнутыми ключами. В начальном состоянии все триггеры находятся в положении, соответствующем разомкнутым ключам, которые ими управляются. 60
Возбужден только триггер Тв. С приходом тактового импульса, по- даваемого от схемы периодизации решения электронной модели, со- стояние возбуждения переходит с триггера Гв на Г0, как это про- исходит в обычной пересчетной цепочке при подаче очередного импульса. В связи с этим ключ Ко замыкается. При приходе следую- щего тактового импульса возбужденное состояние перебрасывается на триггер Гь в связи с чем Ко размыкается и замыкаются Ki и К'\ и т. д. Таким образом, с приходом очередного тактового импульса возбужденное состояние в логической схеме продвигается на один элемент кольца в направлении по часовой стрелке, в связи с чем в операционной части происходит размыкание и замыкание соответ- ствующих ключей. В логической части имеется также ключ выбора /(или, с помощью которого можно осуществить либо большой цикл Тв—То—Т\ ... Тш, Тв, либо малый Гв, 70, ^ш, причем положение ключа /(или зависит •от знака выходного сигнала блока AQ во время рабочего шага. Оптимизатор работает следующим образом. Перед началом ра- боты на выходах интеграторов #г- устанавливают начальные значе- ния (хю, ..., (хпо. Тактовый импульс, запускающий решение па моде- ли, замыкает ключ Ко, принудительно устанавливая нулевое выход- ное напряжение блока AQ. Во время переходного процесса в модели, происходящего под воздействием управляющего возмущения, опреде- ляемого воздействиями аю, ..., апо, на входе блока AQ появляется переменное напряжение, которое заряжает входную емкость СВх и в момент окончания решения Т становится равным минимизируемой величине Q. В момент Т возникает новый тактовый импульс, который размыкает ключ Ко и замыкает ключ К\. Тем самым блок. AQ стано- вится усилителем, имеющим £/Вых=0 при £/BX = Q(ai0, ..., ano). Одновременно к выходу блока AQ подсоединяется вход запоминаю- щего звена первого канала -и выходной сигнал И\ получает прираще- ние да. Поэтому следующее решение в электронной модели происхо- дит под воздействием возмущений, характеризующихся величинами (аю+6а, «20, • • (хпо), в связи с чем полученная во втором решении величина Q отличается от величины Q, полученной в первом решении. Поэтому в момент окончания второго периода решения на модели (момент 2Т) на входе блока AQ будет существовать величина Q(aio + 6a, ci20, • • •, «по), а на его выходе величина —&AQi = — &[Q(aio+6a, 020, ..., «по)—Q(ai0, ..., an0)], где k — коэффициент усиления блока AQ. Благодаря открытому ключу К\ величина —&AQi попадает на вход запоминающего звена и следующий тактовый импульс, размы- кая К\ и замыкая К2, оставляет в запоминающем звене 3\ величину, пропорциональную частной производной dQ/dai. Следующий переходный процесс в модели происходит под воз- действием управления, характеризуемого параметрами (аю, а2о+ + ба, а30, . •., апо), и заканчивается запоминанием в 32 величины, пропорциональной dQ/da2, и т. д. Таким образом, через л+1 тактов, т. е. через время Г, во всех запоминающих звеньях Зг будут находиться величины, пропорциональные величинам частных производ- ных dQ/dai. Это положение будет иметь место в момент перехода возбуждения с триггера Тп на триггер Тш. При этом открываются все ключи Km на одинаковое время и величины аю получают при- ращения, пропорциональные выходным величинам Зг, т. е. пропор- циональные dQ/dai. Этот такт «рабочего шага» в пространстве а для 61
электронной модели является .нерабочим, поскольку весовые коэффи- циенты управляющего воздействия во время переходного процесса в модели меняются. Величина Г ( °Q CQ \ 1 Д(3 = [Q i^aio + ^^ • • ,«no + k' —J-Q(al0,.. . ,ano)J на выходе блока AQ получается в конце следующего такта, когда возбуждение переходит с триггера Тш на начальный триггер Тв. Эта величина подается на вход триггера ГГр, работающего только в мо- мент возбуждения Тв. Триггер Ггр будет возбужден, если AQ<0, и останется невозбужденным, если AQ>0. В соответствии с этим ключ находится в положении малого кольца, если AQ>0, или в положении большого кольца, если AQ<0. В_ первом случае будут происходить «рабочие шаги» в пространстве а; во втором случае будет происхо- дить «определение компонент градиента». На вход тригггера ГГР подается регулируемое постоянное напряжение для того, чтобы его срабатывание происходило не при переходе сигнала AQ через нуль, а раньше, когда AQ, оставаясь положительным, станет достаточно малым, равным устанавливаемому порогу срабатывания. Таким обра- зом, если величина частных производных достаточно мала, то «опре- деление градиента» будет происходить после каждого рабочего шага, т. е. поиск будет происходить методом градиента. Признаком доста- точной для окончания поиска близости к экстремуму может служить выполнение следующего условия: совершение подряд назначенного числа N циклов поиска методом градиента (например, N=* lO-s-20). Назначенное число N связано с величиной порога смены методов ра- боты и с характером минимизируемой функции. В настоящее время разработаны две модификации многоканаль- ных автоматических оптимизаторов |[Л. 32], отличающихся в основ- ном конструкцией ключей, которые в электронном оптимизаторе выполняются как электронные ключи, а в электронно-релейном ва- рианте — в виде контактов реле, которые управляются контактами шагового искателя. В последнем случае двухконтурная пересчетная схема заменяется двумя шаговыми искателями, соответствующими ■малому и большому кольцам двухконтурной схемы. При этом релей- ная схема, аналогичная Ггр, включает тот или иной искатель в зави- симости от величины и знака AQ. Разработанный в ИАТ коллективом под руководством проф. А. А. Фельдбаума и проф. А. Я. Лернера электронный вариант 11-канального автоматического оптимизатора рассчитан на работу с частотой следования синхроимпульсов до 50 гц, т. е. до времени решения 0,02 сек. Электронно-релейный вариант, также разработанный в ИАТ, имеет 10 каналов и может работать на частотах от 4—5 до 0,05— 0,02 гц. Он имеет релейную логическую схему, без труда сопрягаю- щуюся с релейными схемами управления обычных серийных электрон- ных моделей типа МН-7, ЭМУ-8, ИПТ-5, ЛМУ-1 и т. д. Модель МН-10 имеет встроенный семиканальный оптимизатор. Точность опре- деления величины Qmhh составляет около 1—2% по отношению к пол- ной шкале прибора. Точность электронного варианта несколько ниже. Отдельные детали и схемы обоих типов оптимизатора приведены в [Л. 32]. Запоминающие звенья представляют собой конденсаторы в сеточных цепях катодных повторителей, предусмотренных для уве- личения времени запоминания. Для релейных схем при достаточно больших емкостях (2—3 мкф) разряд за время замыкания ключей 62
достаточно мал и им можно пренебречь при входных сопротивлениях интеграторов порядка нескольких мегом. При этом, несмотря на то, что ,во время рабочего шага напряжения на запоминающих емкостях изменяются, все же направление шага поиска остается неизменным, поскольку все компоненты уменьшаются в одинаковое число раз. В качестве запоминающих емкостей необходимо брать полистироло- вые конденсаторы. Схемы решающих усилителей, применяемых в блоке AQ и в интеграторах, являются обычными [Л. 30]. Могут быть использованы усилители электронных моделирующих устройств. Однако в связи с пониженными требованиями к усилителям опера- ционной части оптимизатора по сравнению с требованиями к решаю- щим усилителям модели, для них могут применяться упрощенные усилители постоянного тока. Схема усилителя, применяемого в опти- мизаторах 5-АО и 6-АО/10/1, а также схемы электронных клю- чей и триггеров приведены в [Л. 32]. 2-3. Генераторы управляемых воздействий Принцип работы генератора зависит от класса функций, выбран- ных для аппроксимации решения граничной задачи. Удачный выбор аппроксимирующих функций позволяет снизить число настраиваемых параметров без снижения точности решения. Так, например, изве- стно |[Л. 33], что для оптимальных по быстродействию линейных объектов с ограниченным входным воздействием оптимальными *1 \ 1 1 1 1 1 -1 Kit) % г Рис. 2-4. Блок-схема генератора управляющих воздействий. U(t) Рис. 2-5. Схема генератора функций с кусочно-постоянной аппроксимацией. управляющими возмущениями являются сигналы типа прямоуголь- ной волны, причем настраиваемыми параметрами являются моменты переключения управляемого сигнала от максимального сигнала одно- го знака до максимального сигнала другого знака. Число моментов 'переключения равно порядку дифференциального уравнения, описы- вающего объект управления. В то же время, если такие разрывные 'функции аппроксимировать импульсными или треугольными функция- ми с достаточной точностью, то требуется большее количество пере- менных. Однако кусочно-постоянные или кусочно-линейные функции имеют преимущество универсальности, в связи с чем в дальнейшем будут описаны генераторы, работающие по принципу сложения за- данных функций с варьируемыми весовыми коэффициентами, част- 63
ным случаем которых являются генераторы кусочно-постоянных или кусочно-линейных функций. Общая блок-схема такого генератора на одно выходное воздей- ствие представлена на рис. 2-4. Имеется п генераторов заданных функцией cpi(£)> • • •» фп(^)> выходные напряжения которых подаются на вход сумматора 2, предварительно пройдя через регулируемые аттенюаторы аь ..., ап. В качестве такого блока с регулируемым коэффициентом усиления может служить множительное звено [Л. 34]. Эта общая схема в некоторых частных случаях может быть силь- но упрощена. На рис. 2-5 представлена схема генератора кусочно- постоянной функции, состоящего из одного шагового искателя. На- пряжения с выходов авто- ц(х\ матического оптимизатора по- даются на контакты платы J/n-i шагового искателя. В обмотку шагового искателя ШИ пода- ются импульсы с такой часто- той, чтобы общее время п им- пульсов было равно времени переходного процесса в моде- ли, т. е. интервалу управле- ния Т. Если импульсы подают- ся через одинаковые проме- жутки времени, то на выходе шагового искателя существует кусочно-постоянная функция, которую можно подать на вход модели. Если нужно создать необходимо взять две платы удвоится число подбираемых управляющей функции Рис. 2-6. Кусочно-линейная аппро- ксимация функции у(х). два управляющих воздействия, то шагового искателя; при этом переменных. Такой способ создания имеет то преимущество, что каждая независимая переменная с выхо- да оптимизатора оказывает влияние на значение функции в данном интервале и не влияет на величину возмущения во все другие момен- ты времени. При этом шаговый искатель пускается в круговую и сле- дует включать пуск модели как раз в момент перескока движка на первый контакт. Этот способ создания управляемого возмущения прост, но ограничен в быстродействии вследствие инерционности ша- гового искателя. Удобно также менять период управления Т путем изменения частоты импульсов, подаваемых в обмотку шагового иска- теля, т. е. временного масштаба управляющих функций. Из принципа действия очевидно, что в данном случае число настраиваемых пере- менных не зависит от интервала управления, т. е. степень приближе- ния одинакова при всех значениях Т. Более целесообразным классом (с точки зрения точности) аппроксимирующих функций при том же количестве переменных является класс ку:очно-линейных функций (рис. 2-6) Кусочно-линей- ную аппроксимацию легко получить интегрированием кусочно-по- стоянного сигнала. Однако в этом случае получается взаимозависи- мость между отдельными ординатами возмущающего воздействия, что приводит к усложнению функции Q(ab ..., an). Поэтому инте- грируется не само значение кусочно-постоянной функции, а разность двух соседних ее значений [Л. 35]. На рис. 2-7 показано устройство, дающее кусочно-линейную аппроксимацию. Для создания кусочно-чинейной аппроксимации 64
с заданными величинами ординат используется шаговый искатель ШИ с двумя платами. Контакты плат соединены так, что если с од- ного движка снимается сигнал, соответствующий ординате уи то одновременно с движка другой платы снимается сигнал ординаты С помощью дополнительных инвертора и интегратора к по- стоянной величине у\ добавляется линеаризирующая добавка At (У1—Уг-\) ~- В момент каждого импульса, переводящего дви- Т — п жок шагового искателя на следующий контакт, срабатывает реле Р, контакт которого Pi в начале каждого подынтервала устанавли- вает линеаризирующую добавку на нуль. У, Рис. 2-7. Схема генератора функций с кусочно-линей- ной аппроксимацией. Указанный тип аппроксимирующего устройства дает возмож- ность менять величины уг независимо одну от другой. При измене- ниях величины интервала управления необходимо менять постоян- ную времени интегратора для того, чтобы не получалось разрыва в выходном возмущении при замыкании контакта Pi. Имеются специальные устройства, называемые нелинейными пре- образователями, с помощью которых легко получить управляемую функцию времени с кусочно-линейной аппроксимацией. Например, нелинейный преобразователь НП-1 [Л. 36] имеет 11 регулируемых ординат задаваемых на 10 равновеликих интервалах с кусочно-ли- нейной аппроксимацией между ними. Входная величина имеет вид постоянного напряжения в пределах ±100 в. Заданные ординаты Уг могут также меняться в пределах ±100 в. Линейная аппрокси- 5—32 65
мация получается с помощью множительного звена. Ординаты управляются сигналом, являющимся постоянным напряжением. Вы- ходной сигнал в виде управляемой функции времени получается, если t/i(/=l, ..., 11) развернуть во времени с помощью пилооб- разного входного сигнала. Инерционность НП-1 гораздо меньше, чем инерционность шагового искателя и позволяет воспроизводить входной сигнал с частотой до 50 гц. Нелинейный преобразователь НП-1 может быть применен как с обычными моделями с временем решения до 1 сек, так и с высокоскоростными моделями. 2-4. Нелинейный преобразователь, управляемый электрическими напряжениями Нелинейный преобразователь УНП-1 [Л. 36] предназначен для аппроксимации любых функций одного переменного y=f{x) путем задания 11 ординат у г в заданных точках х% интервала изменения аргумента. Назовем заданные точки Х{ интервала изменения аргу- мента х опорными абсциссами, а значения ординат у\ в точках х{ — опорными ординатами. В промежутках между заданными зна- чениями Хг используется линейная аппроксимация. Как входная величина х, так и выходная величина у представляет собой nqcTO- янное напряжение в диапазоне ±100 в, причем шкала изменения входной координаты х разбита на 10 одинаковых промежутков по 20 в. Таким образом, каждая ордината функции у*(Х{) (i= = 0, 1, ..., 11) меняется независимо одна от другой, что дает воз- можность легко набирать аппроксимируемую функцию, так как ор- динаты у\ определяются управляющими напряжениями. Указанный способ аппроксимации дает возможность аппрокси- мировать весьма широкий класс функций с ограниченным значением производной, т. е. функции с ограниченной скоростью изменения. Блок-схема управляемого преобразователя приведена на рис. 2-8. Она состоит из входного усилителя Увх, блока ступенчатой аппроксимации БСЛ и линейного интерполятора. Назначением вход- ного усилителя является приведение диапазона изменения входного сигнала к стандартному интервалу ±100 в, при котором использу- ются все десять интервалов аппроксимации. Блок ступенчатой аппроксимации пропускает на выход прибора два управляющих напряжения у% и у%+\, если входное напряже- ние х находится вблизи величины х%. Линейный интерполятор производит необходимое математиче- ское преобразование с величинами х, у\, г/г-ы таким образом, что- бы получить значения у внутри каждого интервала, подчиняюще- гося закону линейной интерполяции. Используются следующие формулы для вычисления выходного сигнала у, если задана входная величина х У =У2п + (У2п-1 —Угп) при Х2п > X, У = У2п+(У2п+1 — У2п) Х2п Х2п+1 при Х2 п < X. п= 1, 2 5 (2-4) 66
Выражение (2-4) показывает, что если входной сигнал меняет- ся в пределах одного интервала аппроксимации, то выходная ве- личина линейно зависит от входного сигнала. Легко также прове- рить, что в точках х=х2п-и х=х2п> x=x2n+i значение у равно со- ответственно У2г>-и У2п, у2п + 1- Таким образом, выходной сигнал нелинейного преобразователя всегда представляет собой сумму постоянной ординаты с четным индексом, ближайшим к текущему значению входного сигнала и Рис. 2-8. Блок-схема управляемого нелинейного преобразователя. переменной добавки 6, представляющей собой произведение разно- сти ординат с нечетным и четным индексами на абсолютное значе- ние разности опорной абсциссы с четным индексом и текущим зна- чением входного сигнала. На !рис. 2-9 представлены зависимости обоих сомножителей переменной добавки от текущего значения входного сигнала. Значения у2п-1—У2п и #2n+i—#2п даны для случая функции у=х, т. е. для случая, когда \у2п-\—#2n|="J = |«/2n+i—У2п\~\. В соответствии с выражением (2—4) блок-схема преобразователя должна обеспечивать выполнение следующих опе- раций: 1. Выявлять опорную абсциссу с четным номером хч, ближай- шую к текущему значению входного сигнала х, и пропускать на выход БСА управляющее напряжение уч=у{хч), соответствующее этой абсциссе. 5* 67
2. Выявлять опорную абсциссу с нечетным номером хН} ближай- шую к текущему значению входного сигнала, и пропускать на выход ВС А управляющее напряжение */н = */(*н), соответствующее этой абсциссе. 3. Определять разность уи—уч. Хч — X 4. Определять абсолютное значение величины-— —. X ч — Хц 5. Перемножать результаты вычислений по пунктам 3 и 4, об- разуя величину переменной добавки 6. 6. Суммировать результаты выполнения пунктом 1 и 5. Операции 1 и 2 из приведенного списка выполняются в блоке ступенчатой аппроксимации с помощью триггеров Гь ..., Тп и ключей Ки • • •> К\и на входы которых подаются управляющие на- xZn х X2iTX2n-1 *КЛДЛА/ 123456789 10 /7=7 /7=2 П=3 /7=4 п=5 Рис. 2-9. Зависимость переменной добавки б от текущего значения вход- ного сигнала. пряжения у и ..у п. Триггеры представляют собой устройства для фиксации момента перехода входного сигнала через фиксированные уровни Xi (/=1, 11), причем x<xt триггер Г* находится в состоянии 0, а при x>Xi^— в состоянии 1. Переход триггера из состояния 0 в состояние 1 и обратно происходит скачком за вре- мя, не превышающее 10—20 мксек. Точность срабатывания, т. е. раз- брос величин входных сигналов, при которых может произойти переброс, не превышает ±50 мв, что сотавляет +0,025% по отно- шению ко всему возможному диапазону изменения входных сиг- налов. На вход каждого триггера Ti подается сумма входного напря- жения и опорного напряжения U0n, причем сопротивления Ru и Ri2 входного делителя напряжения подобраны так, что напряжение срабатывания его равно величине Х{. Каждый триггер, кроме Т\ и Гц, управляет двумя ключами Kt+x и Ki-u причем при х<х{ выходной сигнал триггера соответ- ствует командам ключ Ki-i открыт, ключ Ki+i закрыт. Когда вход- ной сигнал, увеличиваясь, переходит порог срабатывания триггера, даются команды ключ Ki-i закрыть, и ключ Ki+i открыть. Так как каждый ключ (кроме К\ и Кп) управляется двумя триггерами, то 68
действительное состояние ключа определяется по правилу логи- ческого умножения, т. е. ключ открыт, если с обоих управляющих им триггеров даются команды на открытие. Если подается хотя бы одна команда на закрытие ключа или обе вместе, то ключ находит- ся в закрытом состоянии. Поэтому при всех значениях х, промежу- точных между Х\ и Х\и открыты всегда два соседних ключа, соот- ветствующие опорным абсциссам, между которыми находится теку- щее значение х. При х<х\ открыт ключ К\ при х>хп открыт ключ /(п. Выходы ключей с нечетными индексами соединены вместе и поданы на вход усилителя Уь а выходы ключей с четными индек- сами поданы на вход усилителя У2. На входах этих усилителей всегда существуют ординаты, соответствующие открытым ключам. При этом на выходе усилителя У2 всегда существует отрицатель- ное значение ординаты с четным индексом, соответствующей четной опорной абсциссе, ближайшей к текущему значению входного сиг- нала. На выходе усилителя У\ существует отрицательное значение разности нечетной и четной ординат, индексы которых соответст- вуют ближайшим к х опорным абсциссам. Для образования пере- менного сомножителя добавки б служит специальный нелинейный преобразователь НП, реализующий зависимость изображенную на рис. 2-9,6. Сама величина б образуется на выходе множительного звена МЗ, а значение всей функции у получается на выходе выход- ного сумматора Уз. Для получения приемлемой точности необходимо располагать дискриминатором напряжения (триггером с весьма малой зоной не- чувствительности). Кроме того, множительное, нелинейное и усили- тельные устройства должны быть малоинерционными, чтобы их не- избежными постоянными времени можно было пренебречь даже при наибольших скоростях изменения входной величины х. Например, если необходимо, чтобы величина х пробегала весь диапазон своего изменения за 0,01 сек, то внутри каждого из десяти интервалов входной сигнал будет находится около 1 мсек. Поэтому выбор со- ответствующей ординаты должен происходить не более чем за 1—2% времени пробегания величиной х каждого интервала, т. е. 10—20 мксек. Нелинейный преобразователь составлен из следующих блоков: триггера Шмитта с напряжением срабатывания не более ±50 же, управляющего электронным ключом, широкополосного усилителя, множительного устройства и специализированного нелинейного пре- образователя. Эти блоки описаны в 1[Л. 36]. Для применения нели- нейного преобразователя в качестве генератора управляющего воз- действия необходимо подать на его вход линейно меняющееся напряжение, например с интегратора, на вход которого подано посто- янное напряжение. При этом изменение временного масштаба удобно осуществлять либо изменением входного напряжения инте- гратора, либо изменением его постоянной времени. 2-5. Блоки формирования обобщенного критерия При применении метода обобщенного критерия при отсутствии ограничений критерием оптимальности служит величина п Q2 = Q + PQ1 = х0(Т) + Р V | Xi (Т) - х\ |р, (2-5) 09
где р — достаточно большой коэффициент; р=1; 2; 0,5. Величина р влияет на скорость роста величины Qi при удале- нии Xi(T) от хмг. При р = \ скорость роста величины Qi одинакова при всех значениях Xi(T). При р=2 скорость роста Qi тем меньше, чем ближе конец траектории к заданной точке и в пределе при сов- падении конца траектории с x*i стремится к нулю. При р=0,5 про- исходит обратное явление, а именно производная dQ\/dXi(T) стре- мится к бесконечности при Xi(T)—► В силу этой особенности пронесс поиска минимума величины Qi с помощью автоматического оптимизатора, описанного в п. 2-2, при разных величинах р будет требовать разных величин р. Минимизация критерия Q2 при достаточно большом р приведет к одновременному выполнению концевых условий и получению ми- нимального значения хо(Т). Действительно, если р весьма велико, то при минимизации Q2 можно пренебречь величиной х0(Т) и счи- тать, что Q2~pqi. При этом выполнение концевых условий при ми- нимизации (?2 очевидно. Если же величиной х0(Т) пренебречь нельзя, т. е. величина р конечна, то конец оптимальной траектории по окончании процесса поиска будет находиться в непосредственной близости к заданной точке х*. Степень близости найденного конца траектории к заданной точке зависит как от величины р, так и от поведения обеих функций Хо(Т) и qi, зависящих от вектора весо- вых коэффициентов а в окрестности х*. Процесс поиска остано- вится в точке, где grad Q2=gradxo(r)+p grad qi = 0. Отсюда величина р, необходимая для того, чтобы конец траекто- рии в процессе поиска «притягивался» к х* и остановился в окрест- ности ее, должна удовлетворять соотношению |grad*.(T)| igradq.i ' (26> Здесь значения grad берутся в окрестностях х*. Из выражения (2-6) очевидна необходимость, чтобы р ~> оо при р—2 в конце поиска, когда конец траектории приближается к заданной точке. В самом п деле, Q\ — $^J[Xi(T)—x*i\2 является непрерывной функцией век- i=\ тора весовых^коэффициентов а, имеющей минимум, близкий к нулю в точке а=а0пТ. Можно разложить Xi(T, а) в этой точке в ряд Тейлора и ограничиться линейными членами. Тогда получим: п п N i=\ i=\ k=\ где kxi =Xi (Т) — х*{; да = а — аопт. (2-7) 70
Выражениг (2-7) является квадратичной фермой [Л. 37] относи- тельно величин Дал (k = 1,.. . , N) и величина частной производной dQ, 0 при Да -> 0, т. е. | grad Qj | -+ О, так как dQ* оо \П VI дх\ дх± дкак /=1 1 = \ Если принять р=-1, то величины частных производных в точках, отличных от Ааг=-0 (/=1, ..., я), будут равны: dag \1 dXj Цдак • (2-9) т. е. представляют собой постоянные величины. В точке Да = 0 про- изводных не существует. Наконец, при р=.0,5 i=i f fe=i (2-Ю) причем dXt/даь *9} = t у 21/ >;^-да, т. е. стремится к оо при Да -> 0. При этом требуемая величина Р неограниченно уменьшается. Таким образом, для получения точного попадания конца тра- ектории в заданную точку нет необходимости брать очень большую величину р. Достаточно брать р—\ или /?=0,5. Целесообразно для увеличения точности показания брать вблизи заданной точки р=0,5, а в далеке от нее р=\. В качестве варианта методики достижения х0(Т) =тт при со- блюдении граничных условий можно применять поочередную ми- нимизацию критериев х0(Т) и Qi. При этом минимизация Qi при- ведет к достижению Qi=0 (при Г>ГМИН), причем это может быть достигнуто при разных векторах весовых коэффициентов а. Когда будет достигнута величина Qi=0, необходимо переключиться на минимизацию Хо(Т). При этой минимизации рабочая точка в про- странстве а будет двигаться в направлении вектора grad Q, в связи с чем нарушится условие Qi=0. Если через фиксированный интер- вал времени т снова переключиться на поиск минимума Qu то последующий поиск приведет снова к выполнению условия Qi=0, но уже в другой точке пространства а. При этом в новой точке установления Qi = 0 величина хо(Т) будет меньшей, чем в прежней, 71
поскольку во время минимизации х0(Т) изображающая точка про- двинулась в пространстве а в направлении gradx0(r). Этот процесс поочередной минимизации хо(Т) и Qi приведет к точке пространства а, где одновременно Qi=0 и Хо(Г)==гшп. При этом по мере умень- шения х0{Т) нужно уменьшать величину т. Необходимо подчеркнуть, что процесс минимизации любого критерия должен выполняться при соблюдении условий (В-2), т. е. в процессе поиска некоторые величины, характеризующие как внутренние координаты объекта хи так и управляющие воздействия uh, не должны выходить из заданных допусков. Ограничения могут быть двух типов. Во-первых, можно требо- вать, чтобы какая-либо величина (например, внутренняя координа- та или функция одного или нескольких управляющих воздействий) не выходила за пределы заданных допусков при каком угодно зна- чении момента времени t, заранее неизвестном и принадлежащем интервалу управления О—Т. Таковы, например, ограничения, накла- дываемые на величину тока якоря в электроприводе (см. гл. 3). Во-вторых, может быть поставлено требование, чтобы значение некоторой внутренней координаты в некоторый фиксированный мо- мент времени t\ не выходило из заданных допусков. Ограничения указанного типа накладываются, например, на значения координат начальной и конечной точек фазовой траектории, если они заданы на некоторых множествах, например односвязных областях фазо- вого пространства. В любом случае можно переписать (В-2) в виде Hj (t, а)<0(/=1. ... , m), (2-11) где Hj — заданные функции своих аргументов; а (аь ..., (Xjv)—вектор весовых коэффициентов; t — время. , Задание функций Hj надо понимать -в том смысле, что значе- ние их можно измерить^или вычислить в любой момент времени и при любом значении а, например, с помощью интегрирования В-1-В-3. Учет ограничений в процессе поиска происходит с помощью видоизменения критерия оптимальности х0(Т), а именно составляет- ся обобщенный критерий оптимальности согласно выражению m Qt^oOO + Y^Hf. «). (2-12) где Я• (t. оГ) = / при Я, ^ О, 3 К } \ О при Hj < 0; Y-г-весовой коэффициент, удовлетворяющий условию, |gradA:0 Y у> 1 V grad Hj (а) (2-13) /=1 Из выражения (2-12) видно, что реально суммируются гра- диенты только тех Hj, которые вышли из 'назначенных им допусков. В частности, пока в процессе поиска ни одно ограничение не нару- шается, минимизируемой величиной является х0(Т). Но как только в процессе поиска минимума х0(Т) хотя бы одно из огра- 72
ничен.ий становится больше нуля, критерий (2-12) резко воз- растает, что (при поиске минимума х0(Т)), заставляет рабочую точку выйти из области ограничений {Л. 14 и 15]. Следует отметить, что не требуется бесконечно большой величины у вблизи точек про- странства _а, где нарушаются _ограничения, поскольку хотя сами функции Hj непрерывны, но дН/дак являются разрывными функ- циями. Поэтому |grad#j| при £ереходе за пределы допустимой области поиска в пространстве а нарастает скачом от нуля до |grad#,-|. Величина у может быть установлена в процессе поиска вручную так, чтобы изображающая точка в пространстве а не за- ходила в глубь области ограничений. Слишком большая величина Y может привести к большим колебаниям траектории поиска вблизи границы допустимой области. Возможен также вариант поиска с поочередной минимизацией m величин х0(Т) и а), причем сигналом для смены критерия минимизации может служить нарушение или снятие ограничений [Л. 25]. При любом варианте алгоритма поиска задачами блока форми- рования обобщенного критерия являются: 1) Измерение значений некоторых функций времени Xi(t) в не- которые фиксированные моменты времени t=i\. В частности, tx = T. 2) Измерение наибольших (или наименьших) значений некото- рых функций времени в нефиксированный заранее момент времени, принадлежащий интервалу управления. В частности, наибольшее зна- чение их может измеряться только в том случае, если они превос- ходят заданную величину, которую без ограничения общности мож- но считать равной нулю. 3) Формирование суммы п £ \Xi{T)-x\\v, /=.! 4) Формирование суммы га £^ (t.a). /=1 5) Образование обобщенного критерия оптимальности п п <2з = Q2 + Р ^ I (г> -Х*Л\ р= х* (г) + Р £ Iх* V) - x*i Iр + m /=1 с регулируемыми весовыми коэффициентами Р и у. Схемы измерения наибольший (наименьших) значений коорди- нат в нефиксированный момент времени представляет собой пико- вый вольтметр с запоминанием максимального (минимального) зна- 73
чения на емкости. Перед началом каждого нового решения на мо- делирующей вычислительной машине необходимо разряжать емкость С для подготовки к запоминанию величины Hj в следую- щем решении (рис. 2-10). Формирование критерия Qi состоит из двух операций: а) изменения величин Xi(T) и б) образования суммы абсолютных значений Xi(T)—л;*г-. Рассмотрим теперь схему, с помощью которой определяется сумма модулей некоторых величин (рис. 2-11). Схема состоит из п каналов, каждый из которых представляет собой последователь- ное соединение сумматора и схемы, дающей модуль входного сиг- нала [Л. 32]. Для возведения выход- 'пит ной величины канала в р-ю степень вместо входных сопротивлений уси- Hj /7""^П /^~\ жителя Уз или его сопротивления (I у Т Т (--""у обратной связи ставят нелинейное ^—* \ I \о/ сопротивление с подходящей вольт- амперной характеристикой, напри- мер тиритовое. Схема рис. 2-11 тре- бует Зя-И усилителей. Можно упро- стить схему, применив всего п + 2 усилителя (рис. 2-12), причем, если суммирование входных величин про- исходит на активных сопротивле- ниях, то требуется всего два усили- теля В этом случае, однако, выра- жение для сформированного крите- рия изменяется, хотя и сохраняется основное его свойство Qi = 0 при выполнении граничных условий и Q>0 при их невыполнении. Измерение значений- координат в заданные моменты времени, в частности в конце интервала управления, можно осуществить не- сколькими способами. От синхро- блоко Рис. 2-10. Схема запомина- ния максимального значения координаты. Рис. 2-11. Полная схема определения суммы модулей п коор- динат. Для моделей, работающих в режиме повторения состояний «пуск», «останов», «стоп», измерение Xi(T) производится в состоя- нии «останов». В этом состоянии на выходах всех интеграторов запоминаются величины Х{(Т), которые могут быть непосредствен- 74
но поданы на вход схемы формирования критерия. В рассматри- ваемом случае необходим особый блок, который поочередно вклю- чает реле управления модели с необходимыми временами выдержки в каждом состоянии — синхроблок. Этот блок необходим, поскольку в серийных моделях для режима периодизации решения состояние «останов» не предусмотрено, в связи с чем величины Xi{T) на вы- ходах интеграторах в конце решения не запоминаются. Для моделей, работающих в режиме периодизации, измерение Xi(7) необходимо производить с помощью специальной схемы не- задолго до включения сигнала повторения решения. В этом случае период повторения решения должен быть несколько больше интер- Рис. 2-12. Упрощенная схема определения суммы модулей п координат. xlt) Н ов, 33 вала управления Г. Схема измерения мгновенного значения неко- торой функции времени в заданный момент времени полезна также при использовании в схеме формирования критерия усилителей са- мой модели, которые при сигналах «останов» и «стоп» отключаются и снимают управление от всех внешних сигналов и соединений. По- этому в состояниях «останов» и «стоп» на выходе схемы формиро- вания суммы модулей входных величин будет нулевое напря- жение, в то время как до сиг- нала «останов» напряжение существует. Блок-схема устройства для измерения мгновенного значе- ния временной функции пред- ставлена на рис. 2-13. Входная величина x(t) подается на за- поминающее звено 33 через ключ /С, который управляется одновибратором ОВи с очень малым временем выдержки, например 50 шеек. Сигнал пуска модели (замыкание кон- такта П) через триггер Т ОВ, п Рис. ДЛЯ 2-13. Блок-схема устройства получения мгновенного значе- ния функции времени. 75
одновременно запускает элемент выдержки времени (одновибра- тор ОВ2), настроенный на величину интервала управления Т и за- пускающий в момент времени t=T ОВ\. Так как ОВ{ имеет очень малое время выдержки по сравнению с Г, то ключ К находится в замкнутом состоянии очень малый промежуток времени, за кото- рый x(t) остается практически постоянным. После размыкания клю- ча К в запоминающем звене 33 остается запомненной величина х(Т). Для обычных моделей с минимальным временем решения около 1—2 сек ключом К может служить электромеханическое ре- ле, например, поляризованное реле, имеющее собственную частоту около 400 гц. При более жестких требованиях к постоянству x(t) во время измерения можно применить электронный ключ и одно- вибратор с малым временем выдержки. Применение схемы рис. 2-13 не требует изменения схемы управления серийной электронной мо- дели. Все вышесказанное относится также к случаю, когда необхо- димо измерять критерий оптимальности Хо(Т). Однако в опреде- ленных частных случаях, когда заведомо известно, что хо(Т) изме- няется во времени монотонно, для его измерения можно .применить схему измерения максимального (минимального) значения, т. е. схе- му пикового вольтметра 2-6. Схемы блока синхронизации всего комплекса аппаратуры Схема синхронизации должна удовлетворять следующим усло- виям: 1) Обеспечить работу электронной модели в режиме периоди- зации. 2) Обеспечивать командные сигналы на схему измерения значе- ния критерия Хо(Т), Qi(T) и Нэ в заданный момент времени tf=7\ 3) Генерировать тактовые сигналы, подаваемые на автомати- ческий оптимизатор. На рис. 2-14 показаны временные диаграммы работы схемы. На рис. 2-14,а показана временная диаграмма для модели, рабо- тающей с помощью последовательного включения сигналов «пуск», «останов», «стоп». Особенностью этой системы является соединение в одном устройстве синхронизирующего блока и генератора управ- ляющего воздействия (рис. 2-15). Основной деталью синхроблока является шаговый искатель, который непрерывно вращается в одну сторону под действием им- пульсов, посылаемых в его обмотку генератором регулируемой ча- стоты. Одна или две платы шагового искателя используются для создания управляющих воздействий U\(t) и U2(t) методом ступен- чатой аппроксимации с помощью переключения выходных напря- жений автоматического оптимизатора. Для создания синхронизирую- щих сигналов используется отдельная плата шагового искателя, к различным контактам которой в нужное последовательности под- ключены обмотки реле «пуск», «останов», «стоп». Кроме того, между контактами «останов» и «стоп» находится контакт, соединенный с обмоткой реле Р, посылающего замыканием контакта Pi такто- вый сигнал через триггер Шмитта на управляющую схему автома- тического оптимизатора. " Временной масштаб управляющих воздействий, т. е. интервал управления 7\ и частота тактовых сигналов, подаваемых на опти- 76
мизатор, управляются изменением частоты импульсов, подаваемых в обмотку шагового искателя. Особенностью схемы является то, что электронная модель управляется синхроблоком; схема проста и не требует особой наладки, хорошо сочетается с обычной схемой Пуск Останов Стоп Сиихроимпульс\ Открытие клю- ча на входе A Q \x(t) Стоп t 1 "1 Синхроимпульс^ ^ а) б) Рис. 2-14. Временные диаграммы работы синхроблока. задания времени решения на моделях (например, схемой управле- ния моделью МНБ). Иногда целесообразно ставить модель в режим периодизации решения, если реле «пуск», «останов», «стоп» не имеют выводов для внешнего управления. В этом случае схему управления моделью в режиме периодизации целесообразно использовать в качестве к обмотке реле ,пуск" л 1/ол7 к обмотке реле останов" Триггер Шмитта к обмотке реле „стоп' Синхроимпульс нп Й О Г Рис. 2-15. Комбинированная схема гене- ратора управляющего воздействия и син- хроблока. 77
33 \ Схема выдержки времени Т] Ч ОВ Н Рис. 2-16. Схема синхроблока для моделей, работающих в режиме периодизации. устройства, синхронизирующего работу всего аппаратурного комплек- са. При этом сигнал начала работы модели будет служить в качестве опорного для схемы, показанной на рис. 2-16. Целесообразно схему рис. 2-16 применять вместе с генератором управляющих воздействий, работающим на основе управляемых нелинейных преобразователей. Временные диаграммы показаны на рис. 2-14,6. Схема работает следующим образом. Сигнал «пуск» от схемы управления моделью, поставленной в режим периодизации решений, запускает устройство выдержки величины интервала управления Гь причем величина Т должна пл rm х(т} быть меньше времени реше- ния, фиксированного на мо- делирующей установке. Через интервал времени Т схема выдержки времени ставит триггер Г2, управляющий ключом К, в положение, со- ответствующее проводящему состоянию ключа. При этом конденсатор запоминающего звена заряжается до значений х0(Т) или Qi (Г). Одновремен- но с опрокидыванием триггера Т\ запускается одновифатор О В со временем выдержки 50-^- 100 шеек, который по окончании этого промежутка времени возвра- щает триггер в положение, соответствующее непроводящему поло- жению ключа. Тактовый сигнал на автоматический оптимизатор дается дополнительной схемой выдержки времени Г3. Точность под- держания времени выдержки постоянным требуется только #т схемы Т\. f В качестве схем выдержки времени могут применяться одновйб- раторы, которые могут работать на значительно больших частотах, чем электромеханические схемы с шаговым искателем, что является значительным преимуществом при работе с высокочастотными моде- лями. Схемы некоторых элементов, которые возможно использовать в синхроблоках, приведены в [Л. 38]. Синхроблок является весьма важной частью всего комплекса, оказывающей большое влияние на процесс поиска оптимального ре- шения. В частности, требуется стабильность величины интервала управления Т не менее 0,5% для того, чтобы погрешностью в опреде- лении величин х0Т и Q\(T), вызванной нестабильностью Т, можно было пренебречь. Следует, однако, сказать, что требуется стабиль- ность за короткое время, в частности, за время определения состав- ляющих вектора градиента. Если имеется 10 параметров настройки в генераторе управляющих воздействий и время решения на модели равно 2 сек, то требуется стабильность времени выдержки за 20 сек. Если время выдержки будет изменяться на значительно больших интервалах времени, то это не вызовет нарушения процесса поиска, поскольку управляющими сигналами для интеграторов автоматиче- ского оптимизатора являются величины частных производных, кото- рые определяются заново через каждый рабочий шаг (при работе методом градиента). 78
ГЛАВА ТРЕТЬЯ ПРИМЕРЫ ПРИМЕНЕНИЯ МЕТОДА ИЗОХРОН ДЛЯ РЕШЕНИЯ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ В этой главе приведены некоторые типичные примеры решения оптимальных задач методом изохрон совместно с методом обобщен- ного критерия, которые взяты из различных областей: управление электроприводом, химическим реактором и металлургическим про- цессом. При решении задач оптимального управления процессом боль- шое значение имеет математическое описание процесса, т. е. система дифференциальных уравнений, описывающая его. Часто математи- ческое описание процесса известно лишь весьма приближенно, либо оно вообще отсутствует, в связи с чем в этих случаях приходится затрачивать большое количество времени и труда на получение мате- матического описания, имеющего удовлетворительную точность. Во- прос составления удовлетворительной системы уравнений выходит, естественно, за рамки настоящей работы. Имеется литература, где разобраны вопросы математического описания производственных процессов [Л. 39—41]. В данной работе, как правило, дается уже готовое описание и приводится лишь краткое пояснение физического смысла математи- ческих терминов. Рассмотренные примеры объектов с точки зрения математической классификации являются как линейными (§ 3-1), так и нелинейными (§ 3-2 и 3-3), причем характер нелинейности соответ- ствует условиям теоремы о нелинейных объектах, приведенной в § 1-6. Вообще говоря, любое достаточно точное описание объекта представляет собой систему нелинейных уравнений, которая может быть аппроксимирована линейной системой лишь при определенных допущениях. Так, в § 3-1 нелинейная система становится линейной при предположении постоянства возбуждения двигателя. При постановке задачи одним из важнейших вопросов является выбор критерия оптимальности х0(Т). Вопросы его выбора, как и во-' просы математического описания, выходят за пределы работы. Кри- терий оптимальности определяется технологическими целями и здесь принимается заданным. В каждой из задач используются частные случаи обобщенного критерия, отмеченные в тексте. Большое внимание при описании конкретных примеров уделяется методике получения оптимального решения. С этой целью приводят- ся схемы набора системы уравнений на электронных моделях, схемы совместного включения модели, автоматического оптимизатора, гене- ратора управляющих воздействий и блока формирования критерия с указанием их важнейших параметров. Результаты решения представляют собой временные графики оптимальных управляющих воздействий, полученные для фиксиро- ванных значений величины Г, а также временные графики координат системы, полученные при оптимальных управляющих воздействиях, причем полученные результаты сравниваются с ожидаемыми теорети- ческими графиками. Во всех примерах приводятся также важные гра- фики х0(Т), каждая точка которых соответствует одному решению семейства решений. Эти графики дают возможность оценить тенден- цию изменения оптимального процесса при изменении координат за- данной точки. 79
с точки зрения методики .подбора оптимального управления при фиксированном Т надо отметить принципиальную разницу между примерами § 3-1, с одной стороны, и '§ 3-2 и 3-3, с,другой. В первом случае при поиске оптимального управления принципиально речь идет об определении экстремума функции десяти переменных, в то время как во втором случае поиск сводится к /г-кратному определе- нию экстремума функции одного переменного, что значительно уменьшает теоретические и аппаратурные трудности согласно выво- дам § 1-6. Уместно добавить, что определение любого оптимального управления для любой точки графиков х0(Т) во всех приведенных примерах достигалось путем определения только одной точки экстремума, т. е. за один процесс поиска. Это также вполне соответ- ствует теоретическим результатам § 1-6. 3-1- Автоматический синтез оптимального управления системой электропривода постоянного тока Определение оптимального управления электроприводом постоян- ного тока при учете ограничений, наложенных на токи и напряже- ния {л. 10], имеют большое практическое значение. Система электропривода постоянного тока по схеме генератор— двигатель изображена на рис. 3-1. Система состоит из генератора Г, возбуждаемого сигналом управления щ, подаваемым в обмотку воз- Рис. 3-1. Система электропривода постоянного тока по схеме генератор — двигатель. буждания довг, и двигателя д, цепь якоря которого питается напря- жением, вырабатываемым генератором. На обмотку возбуждения двигателя w подается управляющее воздействие и2. В первом при- ближении линеаризированные дифференциальные уравнения системы имеют вид [л. 3]: @т cQl в.дв === ^*я^я» dt + г'в.д.в — k2U2 J (ft /ciht в.дв» 80
(3-1) Здесь щ — сигнал, подаваемый «а обмотку возбуждения доЙГ генератора; и2 — сигнал, подаваемый на обмотку возбуждения двига- теля до; ег — напряжение на выходных зажимах генератора; ер = с£!/в.дв — напряжение реакции якоря двигателя (рис. 3-1); in — ток якоря двигателя; *'в.дв — ток возбуждения якоря двигателя, в дальнейшем для краткости обозначаемый iB; Q — угловая скорость вала двигателя; х — угол поворота, приведенный к оси двигателя; / — момент инерции механической системы, приведенный к оси двигателя; #вг, #вд, Rh — сопротивления обмотки возбуждения генератора, обмотки возбуждения двигателя и цепи якоря (см. рис. 3-1). Рис. 3-2. Схема набора системы Г—Д на модели. Ори выводе уравнений (3-1) считается, что нагрузкой на двига- тель является только инерционный момент (моментом трения и активным моментом нагрузки пренебрегаем), что справедливо для большинства практических случаев. 6-32 81
Схема набора системы уравнений (3-1) .на модели показана на рис. 3-2. Инерционное звено на усилителе У\ имитирует обмотку воз- буждения генератора, инерционное звено У2— обмотку возбуждения двигателя. Величина тока якоря получается на выходе сумматора У3 путем сложения выходного сигнала У\ и выхода множительного зве- на ЛГЗ-1, отображающего э. д. с. реакции якоря. Выходная величина интегратора У4} отображающая угловую скорость, получается инте- грированием выходного сигнала множительного сигнала МЗ-2, пере- множающего величины, пропорциональные току якоря и току воз- буждения двигателя. Наконец, на выходе интегратора У$ получается регулируемая величина — угол поворота оси двигателя, т. е. обоб- щенная координата положения механической системы, связанной с осью двигателя. Перечислим ограничения, наложенные на динамику системы: 1) Ограничения на входные сигналы во избежание порчи обмо- ток возбуждения | Их | ^ #1макс> I Щ I ^ #2макс» 2) Ограничения на внутренние координаты системы | *'я | ^ ^я.макс» 0 ^ ^в.дв.мин ^ ^'в.дв ^ ^в.дв.макс» 2макс (3-2) Ограничения на внутренние координаты обусловлены ограничениями на температуру обмотки якоря двигателя и на центробежные силы, действующие на якорь двигателя. Задача получения оптимального по быстродействию процесса управления заключается в нахождении таких функций времени U\(t) и u2(t), с помощью которых возможно перевести систему из положе- ния х=0, Q = 0, Q = 0 в положение, где х(Т) =АГзад, й=0, Q=0 при соблюдении всех указанных ограничений. Иными словами, необходи- мо перевести систему из начального состояния покоя в заданное состояние покоя за минимальное время. Таким образом, в данном случае точка х* находится в фазовом пространстве х, Q, Q на оси х. Такая задача возникает при отработке скачкообразного возмущения в системе оптимального регулирования. Как видно из рис. 3-1, объект управления является нелинейным и имеет четвертый _порядок. В дан- ном случае задачи максимального быстродействия G=- 1 и т т Q = ^Gdt=^ldt = T-> min. о о Критерий выполнения граничных условий Qt будет иметь вид: qi — I 22 (Г) + Q2 (7) + [х (Т) - х*\* | - min. При применении метода изохрон величина Т фиксируется. При этом, если Г<ГМИН, когда х(Т)<х*, критерий Qi можно заменить бо- лее простым критерием Q'1==jc(:r)->max. при соблюдении равенства Q2(T) +&2(Т) = 0. Таким образом, при максимизации конечной ординаты х(Т) изо- бражающая точка в фазовом пространстве должна как бы скользить вдоль оси х, не удаляясь от нее значительно. 82
Последние ограничения можно также включить в общие ограни- чения в виде неравенства—\[Q2(T) +Q2(T)]^0. При этом указан- ные ограничения в процессе максимизации критерия Q'i автоматиче- ски выполняются в предельном варианте, что обеспечивается их большим весом в общем максимизируемом критерии. Таким образом, общее выражение для критерия оптимальности получает вид: Q = X{T)-$(Q*(T)+Q*(T) ]--у{[|/ямя.макс]+[|0|-омакс]}. При этом величина коэффициента у равна нулю, если выражение в фигурных скобках отрицательно. Выбор коэффициентов р и y про- изводится экспериментально. Следует отметить, что в определенных случаях критерий \Q(T)\=0 можно заменить критерием Q(T)^0, если в процессе максимизации х(Т) сохраняется тенденция максими- зации й(Г), что справедливо, например, для линейных систем с по- стоянными параметрами. Блок , хШ г W формиро- \er ш нал модель вания критерия х29 Стоп |-*—j Развертка hz I и,(ЩШ Рис. 3-3. Блок-схема установки для определения оптимального управления для электропривода. Для решения задачи был выбран класс кусочно-постоянных функций с делением общего интервала управления на десять равных частей. Генератор управляющих воздействий был собран по схеме шагового искателя, на контакты которого подавались выходные пере- менные десятиканального оптимизатора. Блок-схема установки показана на рис. 3-3. Установка состоит из двух дееятиканальных автоматических оптимизаторов ЛО-/, ЛО-2, электронной модели ЭМУ-б, блока формирования критерия и син- хронизирующего устройства. Последний является шаговым переклю- чателем, с помощью двух плат которого формируются два управляю- щих воздействия U\(t) и подаваемые на вход инерционных блоков модели У\ и Уг. Третья плата включает сигналы «пуск», «оста- нов», «стоп» модели. Шаговый искатель переключается под действием выходного напряжения мультивибратора, частота которого регули- руется в пределах 1—10 гц. Выходы электронной модели, необходи- мые для формирования критерия, подаются на блок формирования критерия, выход которого параллельно заводится на два оптимизато- ра. В каждый данный момент работает только один оптимизатор, так как тактовые импульсы, подаваемые с четвертой платы искателя, 6* 83
подаются только на один из оптимизаторов. Это обеспечивает реле Р\, работающее от триггера со счетным входом. Импульс на переключающий триггер выдается работающим оптимизатором по достижении экстремума критерия оптимальности. Таким образом, возмущающие воздействия U\(t) и u2{t) оптимизируются по очереди. Внешние ограничения |w21 ^ Wimhkc и |«2|^"2макс обеспечиваются применением амплитудных ограничителей. Систему уравнений (3-1) для исследования удобно записать в относительных единицах, положив 2) 3) 1 4) г и1мо 1 с ev @ г.макс 1 в.макс 5) "2'ма^с j о2 j ^ 1 бг*> <?r.mai с—^1^1макс51 ег | ^ — 1в') ^в.маьс — &2^2mai с> | 1в i : = 1я; | 1я |< 1 = со; |©|<1 (3-3) Подставляя (3-3) в (3-1) и производя очевидные, преобразования получаем: т1~йг + в^ = ~^ °i» си сг.макс (сймакг . \ **я.ма! с^я. ~z ^в.маьс — 0 » ег.мацс J ^г.макс dib k2U2 мак с 1 2 -гг" + 1в = ; ,j2l 1 ut ^в.макс ( ^'я.макс* в.макс л Введем обозначения: 7^ л. мех ^'я.'ма! cR хвои j (3-4) kci2 "^в.макс ^г.макс £р^макс Л"макс = 5'.
Тогда в силу очевидных соотношений £г макс ==^1^1макс1 ^г.макс—cQimакс^'в макс^^'я мак Rn\ ^в.макс =^2^2м акс» уравнения (3-4) перепишутся в виде: der 71Ж + ег = °1; ег —(1 — \х)шв = рля diB d& И< dt (3-5) 7\>л.мех О — P-) Физический смысл u — относительное падение напряжения на активном сопротивлении цепи якоря, Гэл.мех— постоянная времени установления величины угловой скорости двигателя при /я = const в случае, если постоянную времени Тх считать равной нулю. Удобно величину Гэл.мех считать единицей времени переходного процесса, т. е. перейти к относительному времени t=//7^.mex. Тогда der dev dz dev 1 dt dz dt di Грл.мех' diB diB 1 dt dz 7"вл>мех ' da) dco 1 dt dz Гвл.мех ' dy_dl 1 dt dz Т'эл.мех Введем отнэсительные постоянные времени г. . . тг . л,ме 1 0Л.мсх ^'^эдфмех = £ и получим уравнения систем в окончательном виде Р,^ + вг = о1( |о1|<1 I U2 I ^ |co|< ' в.мин 1 ;ib< : b.mai с (3-6) 85
Коэффициенты системы уравнений (3-6) характеризуются зна- чениями ft-10+20; р2=»1О+20; ]г=0,1 + 0,2; g—0,2-s-l. Система уравнений (3-61) набиралась на электронной мо- дели ЭМУ-6 в сокращенном варианте. Именно, находилось только одно оптимальное управление пюпт(0 при v2(t) = const.^ При этом нелинейная система четвертого порядка становилась линейной систе- —^jJl i Рис. 3-4. Схема набора линейной системы Г—Д на модели при с/2=const. мой третьего порядка (рис. 3-4). При iB = l, получаем систему уравнений: der Pi-^ + *r = o,; ег —(1—(а)<о = (х1я; da jj. ~dz~\ — (j>: rfx" sco, (3-7) которая описывает схему рис. 3-4. На рис. 3-4 инерционное звено на усилителе У\ имитирует комплексное сопротивление обмотки воз- буждения генератора. Сумматор У2 дает величину, пропорциональ- ную току якоря, которая тем больше, чем больше э. д. с. генератора и тем меньше, чем больше угловая скорость со, т. е. чем больше про- тиво-э. д. с. двигателя. Выход интегратора У4 дает величину угловой скорости, а выход интегратора Уб — общий угол поворота вала дви- гателя. Легко показать, что схема рис. 3-4 с внутренней цепью обратной связи эквивалентна цепочке без внутренних обратных свя- зей, показанной на рис. 3-5, так как связь между точками ег и ш представляет собой интегрирующее звено, охваченное безынерцион- 86
ной обратной связью. Здесь передаточная функция усилители — инерционного звена У2 имеет вид: 1 9 Рис. 3-5. Упрощенная схема набора линейной систе- мы Г—Д. где ky2 — коэффициент усиления У2 по входу ег; &у3— коэффициент усиления усилителя У3; |^у4 — коэффициент усиления интегратора У4; (3=7^/^2 — коэффициент обратной связи (см. рис. 3-4). Для получения величины 1я применяется дифференцирующее устрой- ство У4. Оптимальный переходный процесс системы, показанной на рис. 3-1, заключается в достижении максимального отклонения х за заданное время с полным торможением в конце периода управления. Очевидно, он будет состоять из двух периодов: разгона системы, когда скорость Q возрастает от нуля до максимальной, и торможе- ния, когда скорость от максимальной падает до нуля (рис. 3-6). Так как величина х(Т) равна площади кривой Q(t), то задачей' оптимального управления можно считать стремление возможно уве- личить площадь графика Q(t), в частности, увеличить вели- чину Омакс. Очевидно, что в период разгона наибольшая скорость / dQ будет достигнута при наибольшей площади кривой ia(t\) = £/в ' Вследствие наличия ограничений, наложенных на ии макси- мальный разгон будет осуществляться при максимальной величине U\(t) =const=ttimako При этом кривая iH(t), как легко вычислить, будет иметь вид рис. 3-7. Физически это означает, что вначале после включения щ пока ротор еще можно считать практически непо- движным, ток якоря увеличивается с увеличением ег. По мере раз- гона якоря двигателя увеличивается противо-э. д. с, что приводит в конце концов к уменьшению /я. Очевидно, что при этом Q будет изменяться по кривой, показанной на рис. 3-7, поскольку величина Q t пропорциональна J indt. Таким образом, если не нарушено огра- о ничение й^^макс, то оптимальный процесс разгона будет осуще- ствляться ПрИ tti = «imakc='COnst. 87
процесс торможения должен привести к уменьшению скорости до нуля как раз в момент t — T. поэтому торможение должно на- чаться где-то в середине интервала управления с таким расчетом» чтобы успеть погасить скорость. при этом оптимальный процесс ха- рактеризуется максимально возможной площадью графика Q(i) для второго подынтервала управления. для этого необходимо, очевидно, наиболее интенсивное торможение осуществлять в конце интервала управления, а в середине его тормо- жение осуществлять лишь настолько, чтобы максимально возможным тор- можением в конце еще успеть пога- сить скорость до нуля. Ям рис. 3-6. зависимость со (/) при оптимальном переход- ном процессе. рис. 3-7. зависимость in (/) при оптимальном переходном процессе. рис. 3-8. примерный ход кривых Q(t), in(t), U\(/), x(t) в оптимальном пере- ходном процессе. примерный качественный ход кривых Q (/), /„ (/) и и{ (t), x(t) при оптимальном процессе показан на рис. 3-8, где ограничены вели- чины U\(t) ^амакс и in<i ''я.макс, но ограничений на q пока не до- стигается. при достижении ограничений на угловую скорость каче- ственно вид процесса остается, но посредине графика Q (/) полу- чается участок с -о = const. соответственно на этом участке !н-1«.мин, а также Щ <;«1макс - на рис.- 3-9 показаны этапы автоматического поиска оптималь- ного управления с помощью схемы рис. 3-3 и 3-4. на рис. 3-9 даны проекции фазовой траектории в пространстве %, со, 1я на плоскости ум и %1,ь полученные на экране электронного осциллографа. совме- 88
щение проекций на одном экране производится с помощью комму- татора, работающего на частоте 50 гц. Эти проекции похожи на графики Q (/) и /и (7) (рис. 3-8), поскольку % монотонно зависит от времени. Искажены (сжаты) только начало и конец кривых. Оптимальное управление т.\ (т) ищется в классе кусочно-по- стоянных функций, причем интервал управления разделен на 10 подынтервалов. Настраиваемыми величинами являются ( 1 \ С1Т \ ai=vi l^jry }; a2-=vi ^-77,- >; ...; аш = 1Д{/). При моделировании системы уравнений 3-7 безразмерное время т по- лучает размерность машинного времени 0, т. е. секунды, в связи с чем интервал управления будет обозначаться как в. Граничное ограничение ко (В) \ = 0 было заменено ограничением со (6)^0, Практически это эквивалентно, так как стремление увеличить %(6) заставляет оптимизатор увеличивать все значения со, в част- ности (о (6)). В начале поиска устанавливается ai = a2 = «io = 0. Про- цесс поиска заключается в попеременном увеличении %(6) путем разгона и уменьшении о) (В) до величины меньше нуля путем тор- можения. в результате cti, ..as приобретают положительные зна- чения, а ae, ..«ю — отрицательные значения. В процессе поиска %(В) '.постепенно увеличивается; одновременно увеличиваются и значения 1я.макс- Процесс поиска останавливается, когда 1н.макс достигает предельного значения. 89
На рис. 3-9 показаны фазы поиска для случая 6=10 «0,25 = =-=2,5 сек. Таким образом, частота переключения шагового искателя ^= 6Т25=4 гЦ' На рис. 3-10 показаны диаграммы для оптимального процесса 1Я(6), (Dt(O) и %($). Для этого на горизонтально отклоняющие пла- стины подавали временную развертку, а на вертикальные — величи- ны 1я и со через коммутатор, (работавший ic частотой 50 гц или ве- личину %. Графики совпадают с кривыми рис. 3-9. Виден, на- Рис. 3-10. Временные диаграммы Рис. 3-11. Оптимальная фа- ia{t)t &(t), x(t) для оптимального не- зовая траектория для си- реходного процесса. стемы второго порядка. пример, слабо выраженный третий подынтервал управления — не- большой разгон после торможения, необходимый для того, чтобы осуществить условие 1я(в)=0. В данном случае ограничений на t>i (0) не налагалось, а действовало только ограничение 1Я(0)^1. Поэтому график кривой 1я(0) больше приближается к форме пря- моугольной волны, а график со(0) к треугольнику. Однако третий подынтервал управления (в общем случае, когда |rji|<;i) выражен, как правило, слабо. На рис. 3-11 дана полученная оптимальная фа- зовая траектория для системы второго порядка, Pi = 0, т. е. в пре- небрежении постоянной времени обмотки возбуждения генератора. В этом случае ясно видно два интервала управления, фазовая траектория симметрична. Ток якоря ограничен по модулю. Разрывы кривой 1я(об) обусловлены ступенчатым способом задания управляю- щей функции t>i(0). Выходной сигнал ui(0) не подвергается ограни- чению. Следует сказать, что ручная регулировка оптимального про- цесса практически не улучшала его увеличивался на 1—1,5%]. Время поиска оптимального решения 20—30 мин. Задачей исследования было выяснение зависимости %опт=%(в) от величин рь ц и /я.макс, а также получение кривой %om = f(®)- На рис. 3-12 и 3-13 даны зависимости величин %опт от относитель- ной постоянной времени Pi и величины jli, пропорциональной актив- ному сопротивлению цепи якоря /?я. Как видно из рисунков, с уве- личением постоянной времени Pi величина %0лт резко падает. Это физически ясно, так как большая постоянная времени снижает 90
э. д. с. генератора и, тем самым, ток якоря, а следовательно и ско- рость. Поэтому целесообразно уменьшать инерционность обмотки возбуждения. Относительное падение напряжения в цепи якоря влияет значительно слабее, так как величина тока определяется в основном скоростью нарастания противо-э. д. с. Однако увеличе- ние jbi несколько увеличивает %0пт, так как уменьшает влияние про- тизо-э. д. с. двигателя. На рис. 3-14 дана очевидная зависимость Хопт(/я.макс). С увеличением /я.макс величина Хопт растет. 'опт Рис. 3-12. Зависимость Рис. 3-13. Зависимость величины Хопт от относи- #опт(ме- тельной постоянной .вре- мени ,Рь Зависимость Хопт от в дана на рис. 3-15. При этом частота пе- реключения шагового искателя менялась от 4 до 11 гц. При больших интервалах управления вступает в действие ограничение |со|<1. По- этому кривая со (0 (см. рис. 3-8) получает заметный участок насы- щения. При малых |В(в<3 сек\) с увеличением в величина сомакс растет и поэтому величина Хопт растет более интенсивно, чем при больших ®.
3-2. Оптимизация режима химического реактора для получения окиси этилена Реактор для получения окиси этилена представляет собой ряд параллельных металлических трубок диаметром 1—2 см и длиной L — 5—6 м, внутри которых находится порошковый неподвижный катализатор. На вход контактного аппарата поступает смесь этилена и воздуха при некоторой начальной температуре Тн. Смесь непре- рывно прогоняется через трубки, причем на поверхности порошко- вого катализатора происходят две реакции, протекающие одновре- менно. Одна из них — реакция получения полезного продукта — окиси этилена происходит по формуле [Л. 2] С2Н4 + 02 = С2Н40 + 32 900 шал. Вторая реакция — побочная и нежелательная — реакция горе- ния этилена, происходит по формуле С2Н4 + 302=2С02+2Н20 + 337 280 шал. Обе реакции идут с выделением тепла, в связи с чем необхо- димо поддерживать внутреннюю температуру реактора не выше не- которой заданной, например 300° С, во избежание порчи катализа- тора. Это достигается с помощью холодильника, распределенного по длине трубки. Температура холодильника Тх может быть по- стоянна по длине реактора /, что конструктивно осуществляется наиболее просто или меняется по длине реактора. Задача расчета оптимального режима |[Л. 42] заключается в под- боре величины Гн и функции Гх(/) для заданного реактора таким образом, чтобы получить максимальное количество полезного про- дукта на выходе реактора (при l=L). При этом температура внутри реактора не должна выходить за установленный предел. Имеется математическая модель |[Л. 43], т. е. система уравне- ний, описывающих стационарное (установившееся) распределение интересующих нас величин по длине реактора. При выводе уравне- ний считалось, что благодаря малому диаметру реактора темпера- тура во всех точках сечения постоянна, а также постоянны степени превращения этилена dx 1 — х a\ = ^ + k*h+aC0x dz 1 —х dz~kl 1 +aC0x ' (3-8) x — общая степень превращения, т. е. отношение прореагиро- вавшего этилена в данном сечении реактора т к общему количеству этилена, поступившего на вход реактора; z — полезная степень превращения, т. е. отношение количества окиси этилена в сечении реактора т к общему количеству прореагировавшего этилена; 92
AT = Т—423; АТХ = Тх—423, где Т — абсолютная температура (шкала Кель- вина); С0 — молярная концентрация этилена в дутье на входе в реактор; Ср — теплоемкость газовой смеси при постоянном давлении; а — коэффициент, учитывающий соотношение концентраций этилена и воздуха на входе в реактор; Qi и Q2 — число калорий, выделяемых при первой и второй реак- циях, рассчитанное на граммолекулу продукта реакции; 5 = 70— константа, зависящая от давления нагнетания смеси; k\ — константа скорости первой реакции; к2 — константа скорости второй реакции. Переменная т (время реакции), по которой производится диф- ференцирование в указанной системе уравнений, может быть опре- делена из соотношения 41/0 * = zd- 1. (3-9) где / — длина трубки от начала до рассматриваемого сечения; D — диаметр трубки; V0 — объемная скорость ввода смеси. Таким образом, выражение (3-9) представляет собой закон дви- жения по длине реактора элементарного объема, вступившего в реактор (/=0) в момент т=0. Элементарный объем проходит через реактор с постоянной скоростью, зависящей от объ- емной скорости дутья и диаметра трубки. Когда он находится на расстоянии / от входа в реактор, то это же означает, что реакция уже протекает х секунд. При этом для данного конкретного реак- тора полная его длина L соответствует выходу элементарного обьема из конца реактора, т. е. полному времени реакции ткон = 0,147 сек. При выводе системы уравнений пользовались схемой идеального вытеснения продуктов реакции. Отметим, что вид системы уравне- ний 3-8 соответствует выражению (1-491). Таким образом, реактор описывается системой обыкновенных нелинейных дифференциальных уравнений, несмотря на то, что является системой с распределенными постоянными и в реакторе происходит непрерывный производственный процесс. Это происходит потому, что изменением переменных по сечению реактора пренебре- гают вследствие малого диаметра трубки. При составлении системы уравнений (3-8) использовалось уравнение теплового баланса |[Л. 41] для элементарного объема га- зовой смеси, проходящей через реактор. Кроме того, учитывались уравнения закона действующих масс (Л. 41], записанные относи- тельно концентраций этилена и кислорода как веществ, вступающих в реакцию, и окиси этилена, углекислого газа и воды как веществ, получающихся в результате реакции. Первое уравнение системы (3-8) показывает, что изменение теп- лосодержания элементарного объема, пропорциональное dAT/dx, за- висит как от тепла, выделяющегося в результате обеих реакций, так и от теплового потока, идущего через стенки реактора в холодиль- ник. Последняя составляющая пропорциональна перепаду темпера- тур (АТХ-АТ). Второе и третье уравнения составлены аналогично друг другу на основе закона действующих масс. При этом числитель дроби 93
учитывает уменьшение концентрации этилена в результате реакции, а знаменатель — уменьшение концентрации кислорода в результате разбавления смеси продуктами реакции, а также использования кислорода в ходе самой реакции. Задача заключается в максимизации г(хКОн) при соблюдении условия ЛТ(х) ^150° С. Максимизация происходит с помощью под- бора величин Тн и 7"х(т). Таким образом, имеем частный случай граничной задачи при ткон=Т=const. (Г — интервал управления в терминах гл. 1.) В данном случае имеются два управления: jTx(t) и T'h(tI). Последняя функция имеет вид импульсной, отличной от нуля только при т=0. В силу специфичности вида этой функции ее целесообразно считать параметром или начальным условием. Иногда целесообразно контактный аппарат расчленять на не- сколько последовательных секций |[Л. 43] и подбирать начальные температуры смеси на входе в каждую секцию. При этом функ- ция Гн(т) будет иметь вид нескольких импульсных функций, отлич- ных от нуля при значениях т, соответствующих началам секций реактора. При увеличении числа секций Тн(х) приближается к не- прерывной функции. Ниже везде вместо АГ и АТХ будет просто писаться Т и Тх. Константы, входящие в систему уравнений, имеют следующие значения: Qi — число калорий тепла, выделяемое при реакции (£=1,2), Qi = 32 900 /скал, Q2 = 337 280 ккал, £10 = 11,6- 10б, k20 = 5,7 • 108, Ei — энергия активации, т. е. энергия, потребная для приведе ния молекулы в активное состояние, Е{ — 15 200 кал/моль, £2 — 19 800 кал/моль, R= 1,987 кал/'моль • град — газовая постоянная. Учитывая эти значения, уравнения системы можно написать в виде 7 600 dT ~ 423-4-7* =0,389-10-2(11,6.10е-32900<? + _ 9900 494 4. Т 1 — X + 5,7.10». 337 280^ "+ )1+5>7а. +В(Тт-Т); _ 7500 9 900 dx /11 а те 423 + Г . г „ ~~ 423 + 7\ 1 —X 3^ =(11.6. +5,7.10*2 ) 1+5,7* ' 7 600 dz it a ire 423 + 7 1 ~х й=11'6-10' 1+5,7*' где EJR = 7 600; £2/Я=:9 900; аС0 = 5,7. Указанная система уравнений набиралась на электронной мо- дели ЭМУ-8 (рис. 3-16), образуя модель объекта. Функции k\(T), 1 —х k2(T) и f(x)= i 4_ 5 ^набирались на нелинейных блоках. На выхо- 94
дах множительных звеньев МЗ, образуются величины, пропорцио- нальные скоростям образования продуктов реакций. При нахождении оптимального режима в качестве критерия оптимизации принималось значение выходной координаты z в мо- мент, соответствующий окончанию решения ткон = 0,147 сек. Задачей поиска оптимального решения является максимизация z(xK0J) при сохранении внутренней температуры Т(х) в любом месте реактора не более предельной допустимой. to -L Рис. 3-16. Схема набора системы уравнений химического реактора на модели. Автоматический поиск происходит по схеме рис. 3-17. Модель объекта МО ставится в режим периодизации решений. В конце каж- дого решения в момент его окончания на выходе усилителя У3 по- является значение Q = z(xKon), соответствующее установленным управляющим функциям Гн и Тх. Это значение запоминается в блоке формирования критерия БФК МО > Т ^ - до с тем, чтобы за промежуток времени между сигналами «стоп» и «пуск» оно могло быть использовано в качестве вход- ного сигнала автоматического оптимизатора АО. Запомина- ние производится по схеме пи- кового вольтметра, так как функция Zi(x) является моно- тонно возрастающей. Напря- жение |с выхода У3 заряжает конденсатор через диод, при- чем после производства оче- редного шага оптимизатора конденсатор разряжается для того, чтобы могло быть запомнено следующее значение г(ткон). Учет ограничения по температуре производится следующим образом. В случае нарушения ограничения, т. е. превышения выход- ного напряжения усилителя У2 свыше напряжения, соответствую- Рис. 3-17. Схема установки для поиска оптимального режима хи- мического реактора. 95
щего 150° С, разница напряжений заряжает другой конденсатор че- рез диод. Это разностное напряжение через усилитель с весовым коэффициентом усиления у суммируется с величиной г(тКон) согласно формуле <Зз=г(тКон)— — ( 0, если Т <Г 150° С, \ Д7\ если 150° С; АТ=Т—150° С. Таким образом, в процессе поиска даже небольшое нарушение огра- ничения приводит к резкому уменьшению критерия (благодаря боль- шому весу у),в связи с чем в последующих шагах изображающая точка в пространстве настраиваемых переменных удалится от недо- пустимой области. В указанной постановке задача соответствует этапу решения граничной задачи методом изохрон, т. е. достижению экстремаль- ного значения критерия Q3 при постоянном интервале управления 7=const (в терминах гл. I). В процессе определения оптимальных режимов решалась и полная граничная задача применительно к данному типу реактора |[Л. 43]. Эта задача заключается в мини- мизации длины реактора при условии получения заданной величины з(Ткон) =z*. Таким образом, минимизируемым критерием является в этом случае длина реактора. Для более полного изучения процесса было проведено две серии экспериментов: одна с данными, приведенными выше, другая — со следующими значениями констант: kio = 8,85- 10е (вместо 11,6.10е), &2о = 8,45 • 108 (вместо 5,7 • 108), аС0 = 48 (вместо 5,7), В = 85 (вместо 70). Кроме того, во второй серии экспериментов предельная внутрен- няя температура реактора была принята 250°С (вместо 300° С). Каждая серия состояла из двух этапов: а) получение оптимальной комбинации Тя и Тх при фиксиро- ванной длине холодильника и постоянной его температуре Гх = = const; б) получение оптимальных управлений Тн и Гх(т) для разных длин реактора ,причем Тх(х)—подбираемая оптимальная функция времени реакции. Результаты второго этапа являются идеальным распределением температуры холодильника по длине, не всегда достижимым кон- структивно. Они могут служить исходным материалом при разделе- нии реактора на секции. Первый этап был необходим для того, чтобы осмыслить явления, происходящие внутри реактора, а также для того, чтобы получить в дальнейшем возможность сопоставить режимы реактора при Гх = = const и Гх=/(т), поскольку эти данные существенны при проек- тировании реакторов. Отметим, что система уравнений описывает проточную (без ре- циркуляции) схему реактора в предположении идеального вытесне- ния продуктов, образовавшихся в сечениях реактора. При таком представлении о процессе естественно предположить, что короткие реакторы могут рассматриваться как соответствующие части более длинных реакторов, поскольку вследствие идеального вытеснения 96
происходит накопление продуктов реакции от начала к концу реак- тора. При наборе задачи на модели ЭМУ-8 пришлось изменить мас- штаб времени приблизительно в 10 раз так, чтобы величина тКОн = = 0,147 сек соответствовала времени решения 7,маКс = 1,5 сек. На рис. 3-18 приведено распределение величин *, г, Т по сече- ниям реактора при оптимальном сочетании Тн и Гх, взятое из пер- вой серии экспериментов. Это распределение было по- лучено с помощью системы, состоящей из электронной модели ЭМУ-8 (модель объ- екта МО), автоматическо- го оптимизатора 5-АО-,1'1/1 {АО) и блока формирования критерия БФК. Процесс по- иска оптимального решения занимает около' 10 мин. Как видно из диаграм- мы, функция z (т) монотон- но возрастает, причем на- чальный участок возрастает наиболее круто. Такое из- менение z(x) объясняется ходом изменения кривой Г(т), которая имеет два характерных участка. Сна- чала внутренняя темпера- тура резко возрастает от Гн до предельной прибли- зительно линейно, что соот- ветствует крутому нарастанию величины z. На втором участке, после прохождения через острый максимум, внутренняя температура па- дает по затухающему закону, приближаясь к Гх. Поскольку интен- сивность реакции монотонно снижается с температурой, то и ско- рость нарастания z на втором участке падает. Ход кривой х(х) в основном повторяет ход кривой z(x). Внутренние процессы в реакторе очевидны. На начальном участке идет бурное тепловыделение, причем Гх подбирается такой, чтобы максимальная внутренняя температура не выходила за пре- дельную величину. По мере роста температуры уменьшается тепло- выделение за счет уменьшения интенсивности реакции в связи с уменьшением количества непрореагировавшего этилена, а также за счет увеличения теплоотдачи благодаря увеличению разности температур. Все это приводит к падению температуры на втором участке, где вследствие уменьшившегося тепловыделения темпера- тура внутри реактора асимптотически приближается к температуре холодильника. Оптимальный подбор сочетаний Гн, Тх сводится к тому, чтобы расположить пик кривой Т(х) таким образом, что максимально со- кращается второй малоэффективный участок и при этом сохра- няется 7,Макс = 300° С. При этом приходится начальную температуру брать достаточно низкой, чтобы был запас повышения внутренней температуры на значительной длине трубки реактора, где будет про- исходить интенсивная реакция. Таким образом, повышение Та будет Рис. 3-18. Оптимальное распределе- ние х(х), z(x), Т(х) для случая Гх = =const (первая серия эксперимен- тов). 7—32 97
Рис. 3-19. Схема установки для по- иска оптимального распределения сдвигать пик кривой Т(х) к началу реактора, т. е. увеличивать мало- эффективный второй участок кривой z(x) и уменьшать величину г(тКон). В то же время слишком низкие начальные температуры не дают интенсивно развиваться реакции на начальном участке, в связи с чем величина г(хКОя) тоже уменьшается по сравнению с оптимальной. Следует также сказать, что вблизи оптимального режима z(Tkoh) мало зависит от Гн, поскольку температура внутри реактора в основном определяется тепловыделением внутри реак- тора. Получено значение z(Ткон) =0,39 и 7Х=85°С при Гн=0-^-30° С. Вышеприведенное опи- сание показывает, что изме- нение температуры холо- дильника по длине реакто- ра является средством уве- личения г(Ткон) при задан- ной длине реактора или уменьшения длины реакто- ра при заданном выходе. По-видимому, целесообраз- но пускать горячую смесь в холодный реактор и по- вышать температуру холо- дильника по длине реактора так, чтобы в любой точке реактора температура была равна предельно допусти- мой. Второй этап первой се- рии экспериментов заклю- чался в нахождении опти- |q4 мального распределения температуры холодильника 0,2 по длине реактора при фиксированном, или подби- раемом значении Тн. Экспе- рименты производились по схеме рис. 3-19. Процесс поиска занимает около 20 мин. Множественности максимумов функции z(Tkoh) при подборе Тх\(х) не наблюдалось. Оптимальное рас- пределение Тх(х) подбирается с помощью нелинейного преобразо- вателя НП-1, у которого используются семь управляющих напряже- ний, т. е. вся длина реактора делится на семь участков. При этом для облегчения процесса поиска начальная температура была фиксирована. На рис. 3-20 даны найденные оптимизатором распределения температуры холодильника что длине (при фиксированной начальной температуре) вместе с результирующей кривой z(x). При этом по- лучено z(ткон) =0,5, т. е. на 25% больше, чем при rx=const. Хотя эти цифры следует рассматривать как приближенные вследствие не- избежных погрешностей АВМ, все же тенденция к повышению эффективности преобразования при оптимальном распределении температуры холодильника очевидна. Из рис. 3-20 видно, что опти- мальное распределение температуры внутри реактора представляет Рис. 3-20. Оптимальное распределе «ие Гх(т). 98
собой кривую, быстро поднимающуюся на начальном участке от Тв до Гмакс и в дальнейшем остающуюся постоянной. При этом тем- пература холодильника сначала падает до минимума, получаю- щегося приблизительно в точке перегиба кривой Т(х), а затем мо- нотонно возрастает. Очевидно, что оптимальным распределением температуры внутри реакции является кривая Г=Гмакс = const, когда реакция идет максимально интенсивно во всех сечениях реак- тора. В этом случае температура холодильника Тх должна быть наи- низшей в начале реактора и монотонно повышаться от начала Рис. 3-21. Теоретически оп- Рис. 3-22. Зависимость тимальное (распределение гмакс(тКон). 7х(т). к концу реактора (рис. 3-21). На рис. 3-21 по оси абсцисс отложено время реакции т, пропорциональное длине реактора / согласно выра- жению ,(3-9). Правда, влияние начального участка на общий выход очень слабое в силу его малости, в связи с чем величина начальной температуры Гн практически не влияет на 2(Ткон1), поэтому для со- кращения времени поиска оптимального решения начальная темпе- ратура фиксировалась. ь 1 'С г 40 -80 V 90 60 0.3 60 -40 -0,2 Ю -го -oj 0 г О 1 0.S 10 {5 сек Рис. 3-23. Оптимальные зависимости z(x) и Т(х) при rx=const (вторая серия экспериментов). На рис. 3-22 дана зависимость 20nT(tKoH) в координатах рис. 3-21 для разных длин реактора, позволяющая для задан- ного £0пт выбрать оптимальную длину реактора. Эта кривая прак- тически идентична с графиком z(x) для наиболее длинного реак- тора. Это понятно, так как моделируется реакция полного вы- теснения. 7* 99
Вторая серия экспериментов была проведена при сниженной допустимой внутренней температуре, сниженном значении константы скорости полезной реакции и повышенном значении константы ско- рости реакции горения этилена. Кроме того, увеличен коэффициент теплопередачи от стенок холодильника к стенкам реактора. По- этому в аналогичных экспериментах значения полезной степени пре- вращения были получены меньшие, а пиков в распределении темпе- ратуры по длине реактора практически не наблюдалось. Однако общий характер распределения внутренней температуры реактора, полезной степени превращения и оптимального распределения тем- пературы холодильника остались прежними. 0.5 1.0 15 срп Рис. 3-24. Оптимальная зависимость Г(т) и z(x) для второй серии экспериментов. На рис. 3-23 приведены оптимальные зависимости z(x) и Т(х) при постоянной температуре холодильника Тх для второй серии экспериментов. На рис. 3-24 приведены диаграммы оптимального распределения температуры холодильника и полезной степени пре- вращения по длине реактора. Из сравнения этих диаграмм видно, что для реактора с максимальной длиной выигрыш от оптимального распределения Тх(х) для данных второй серии эксперимента не- велик— всего около 4—5% и само оптимальное распределение на кривая Кривая 0,04 оог г % '00\ 50\ \ . < Г \ к I 9^— _ ■ - Г нон 15 50 75 ЮО % Рис. 3-25. Относительный выигрыш от рас- пределения температуры холодильника в за- висимости от длины реактора (вторая серия экспериментов). '-^кон (тх = опт.)-гк0и (Гх = const); , гуон (^х = опт-)-2кон (^х = cont) 2ьон<Гх = СОП5*) 100
наиболее эффективных участках близко к горизонтальной прямой. Это понятно, поскольку в данном случае влияние температуры хо- лодильника на температуру внутри реактора гораздо более эффек- тивно, чем в первой серии экспериментов. Однако с уменьшением длины реактора выигрыш увеличивается, так как на начальном участке влияние холодильника более слабое вследствие более бур- ного тепловыделения. На рис. 3-25 приведены сравнительные данные из второй серии экспериментов для rx = const и Гх(т) =Гх.0Пт(т). По оси абсцисс отложена длина реактора (время контактирования т), по оси ординат — разница оптимальных выходов обоих реакторов в абсолютных (кривая /|) и относительных (кривая 2) единицах. Из приведенных кривых видно, что для констант реактора и пре- дельной температуры, взятых во второй серии экспериментов, в случае длинных реакторов оптимальное распределение применять не эффективно. 3-3. Оптимизация режима периодического фьюминг-процесса Фьюмингование шлаков является распространенным процессом, предназначенным для извлечения полезных металлов (цинк, свинец, олово и др.) из металлургических шлаков [Л. 44]. Наиболее рас- пространенный процесс заключается в продувке через расплавленный шлак, содержащий окислы извлекаемых металлов, смеси тонкодис- персного пылеугля с воздухом. Часть угля сгорает в шлаковой ванне и за счет выделившегося тепла поддерживает шлак в жид- ком состоянии. Другая часть введенного в ванну углерода является восстановителем и при соприкосновении со шлаком восстанавливает извлекаемый металл, который переходит в газообразную форму в виде паров и уносится из ванны вместе с отходящими газами. В дальнейшем пары металла (в основном цинка) окисляются воз- духом и превращаются в пыль, которая улавливается в специальных мешочных фильтрах, откуда и извлекается. Металлический цинк по- лучается путем химической обработки пылевидного содержимого фильтров. Периодический процесс фьюмингования начинается с заливки во фьюминг-печь определенного количества расплавленного шлака. Затем начинается продувка шлака углевоздушной смесью, и в ре- зультате возгонки цинка содержание последнего в шлаке с течением времени снижается. Фьюмингование кончается, когда остаточное со- держание цинка в шлаке снижается до 1—2%, после чего дутье прекращается, шлак сливается и направляется в отвал, а на его место в печь заливается новая порция шлака. Обычно продолжи- тельность процесса составляет около 120 мин. Оптимальное ведение процесса фьюмингования имеет целью со- кратить время извлечения из шлака содержащегося в нем цинка. Сокращение времени цикла влияет на экономику (себестоимость выходного продукта) в двух направлениях: во-первых, увеличивает производительность агрегата, а во-вторых, сокращает расход до- рогостоящей угольной пыли. Управление процессом фьюмингования может быть осуществлено изменением количества вводимого в печь воздуха и угольной пыли, а также изменением их соотношения. Таким образом, оптимальное управление фьюминг-процессом заклю- 101
чается в таком управлении углевоздушным потоком в течение про- цесса, чтобы время цикла было наименьшим. Расчет оптимальной программы подачи дутья в печь может быть произведен с помощью электронно-вычислительных машин. Ход процесса фьюмингования приближенно описывается систе- мой нелинейных обыкновенных дифференциальных уравнений (Л. 45] dx dT = -kxy, dy dt=al (0 — ¥ (0 — rkxy — ту, dt ■ Yd* (0 - V (0 ~ Qkxy + W (0 - причем x (0) = лг0; t° (0) = t°0; k = Ae ' RT (3-10) где x—массовая концентрация окиси цинка в шлаке; у — концентрация восстановителя в зоне реакции; t° — температура шлаковой ванны; k — макроскопическая константа скорости реакции; / — время; а, Ь, г, т, уи У2, К Q, А, Е, \R — постоянные коэффициенты, по- лучаемые расчетом или в эксперименте; \i(t)—расход дутья, т. е. количество воздуха, поступающего в аппарат в единицу времени; f(t)—поток угольной пыли, поступающей с дутьем в аппа- рат з единицу времени. Система уравнений (3-10) составлена в предположении, что вследствие сильного перемешивания шлака дутьем температура и концентрация во всех точках шлаковой ванны одинаковы. Уравнения составлены на основе материального и теплового баланса ![Л. 41]; материальный баланс составляется только для извлекаемого цинка и восстановителя. В тепловом балансе приходящее тепло затрачи- вается на эндотермическую реакцию восстановления и тепловые по- тери считаются пропорциональными температуре ванны. Состав и расход углевоздушной смеси может меняться как за счет измене- ния расхода угольной пыли, так и за счет изменения расхода воз- душного дутья. Однако конструктивно удобнее менять состав смеси изменением расхода воздушного дутья p,(t) при постоянном расходе угольной пыли, подаваемой шнековым питателем. Таким образом, необходимо подобрать такую функцию времени \i(t), чтобы время цикла, зависящее от программы подачи углевоздушной смеси, было минимальным. Это является типичной задачей оптимального управ- ления по быстродействию. Следует сказать, что в ходе процесса требуется соблюдение ограничений, наложенных на параметры процесса. В частности тем- пература ванны не должна превосходить некоторой максимальной величины 102 (3-11)
Таким образом, критерием оптимизации является время про- цесса, определяемое как время, в течение которого концентрация цинка в ванне падает до определенной величины. В процессе опти- мизации на вычислительной машине должно соблюдаться ограниче- ние (3-111). При этих условиях обобщенный критерий Q3 для данной задачи будет иметь вид: Q3 = х (Т) + y (t° - Гмакс) - min, (3-12) где Т—время процесса; у — достаточно большой численный коэффициент (см. § 2-5) При Гмакс И раВПЫЙ НуЛЮ При *°<*0макс Поскольку величина х монотонно снижается со временем, выраже- ние (3-12) эквивалентно выражению (3-13) 0з = г + т«°-4,кс)- (3-13) Следует отметить, что при изменении состава углевоздушной смеси с помощью изменения только \i(t) условие максимума произ- водительности (Г=гшп) совпадает с условием минимума расхода угольной пыли. Практически удобно производить расчеты оптимального управ- ления прямыми методами, т. е. с помощью фактического варьирова- ния функции времени \i(t) таким образом, чтобы критерий опти- мальности получил наименьшее значение. Немаловажным обстоя- тельством является возможность использования удобных в эксплуа- тации и достаточно точных аналоговых вычислительных машин, специально приспособленных для решения систем дифференциальных уравнений. При применении прямых методов варьируемая функция \i(t) приближенно представляется последовательностью прямоугольных пульсов разной амплитуды и обычно одинаковой длительности (см. § 1-51). Если число импульсов достаточно велико [п^ 10), то. такая ступенчатая функция мало отличается от непрерывной, и это отличие тем меньше, чем больше число п. Обычно выбирают п =10. Таким образом, подбор оптимального управления сводится к под- бору п последовательных высот импульсов. В общем случае при подборе оптимального управления необходимо подбирать одновре- менно все п высот импульсов, т. е. находить минимум функции п переменных. Однако в некоторых случаях (см. § 1-6), к которым принад- лежит рассматриваемая система, нахождение экстремума п перемен- ных может быть заменено последовательным я-кратным определе- нием эстремума функции только одного переменного, что значи- тельно облегчает процесс подбора оптимального управления. Это происходит, например, если в объекте имеет место реакция по схеме идеального вытеснения. Типичным примером является рассматри- ваемый случай. Действительно, продукты реакции в виде паров цинка немедленно удаляются из шлака и реакция восстановления цинка протекает в кинетической области |[Л. 46]. Поэтому процессы, происходящие в ванне, в последующие моменты времени никак не влияют на процессы, происходящие в предыдущие моменты времени, поскольку продукты реакции уже ушли из аппарата. Вместе с тем остаточное содержание цинка от предыдущего момента времени может рассматриваться как начальное содержание цинка в ванне 103
для последующего момента. При этом общее уменьшение количества цинка в шлаке является суммой (интегралом) уменьшений содер- жания цинка во все предыдущие интервалы времени. Получение оптимального управления в случае реакций, происхо- дящих по схеме идеального вытеснения, сводится к последователь- ной регулировке амплитуд импульсов, начиная с наиболее раннего по времени с таким расчетом, чтобы на каждом интервале получить максимальное уменьшение содержания цинка в ванне. Оптимальная настройка каждого интервала требует лишь одного канала в опти- мизаторе. Рис. 3-26. Схема набора уравнений фьюминг-процесса на электрон- ной модели. На рис. 3-26 показана схема набора задачи на аналоговой вы- числительной машине МН-7, построенная согласно системе уравне- ний (3-10). Величины передаточных и масштабных коэффициентов даны в табл. 1 и 2 [Л. 47]. Таблица 1 Передаточные коэффициенты Условное Величина Условное Величина обозначение обозначение К« 1,5 0,75 K2i 1,68 Кз2 0,0426 К22 0,142 Кзз 0,0019 ^2 3 0,117 к34 0,0261 к24 0,544 ^35 0,0055 104
Таблица 2 Наименование масштабного коэффициента Условное обозначение Размерность Величина По содержанию цинка По восстановителю . . По температуре . . . По времени Константа скорости реак Мх кг/в кг/м3 • в °С/в мин/сек 52,6 1,13 14,6 60 ции 'к мъ/кг • сек 0,222.Ю-4 Выходные напряжения интеграторов /, 2 и 3 представляют в масштабах табл. 2 значения х, у и /. Выходное напряжение нели- нейного преобразователя пропорционально макроконстанте условной скорости реакции восстановления, так как его характеристика вход — выход имитирует температурную зависимость k = f(t°). В точ- ки Л и В подаются напряжения, пропорциональные \i(t) и /(/), при- чем f(t) =const, a \i(t) может подаваться от специального генера- тора управляющего воздействия Г.У.В, питающегося от блока пи- тания Б П. Генератор управляющего воздействия представляет собой по существу переключатель п напряжений, каждое из которых мо- жет меняться независимо друг от друга с помощью йртенциометра. Переключение происходит через фиксированные промежутки време- ни, например 10 сек, соответствующие 10 мин в реальном масштабе времени, с помощью шагового переключателя, питаемого от генера- тора импульсов регулируемой частоты. Критерием подбора является минимальное значение х в момент переключения с данного интервала на следующий. При этом крите- рий i(3-12) контролирует значение f, которое не должно превосхо- дить 1 200° С. Методика подбора заключается в следующем. Сначала, изменяя ' величину |д,ь находят напряжение воздушного дутья на первом ин- тервале, при котором величина х в конце интервала принимает ми-' нимальное значение. Затем, оставив найденную оптимальную вели- чину |хюпт постоянной, производят аналогичную манипуляцию с |л2, fjt3, щ и так до тех пор, пока в конце п-то интервала не будет до- стигнуто заданного значения дгпред=^мин. Последовательность по- лученных величин |люпт, ..•> И*попт и будет приближенным значе- нием оптимального управления, точность которого определяется чи- слом ступенек в управляющем воздействии. Так как заранее число ступенек не известно, то необходимо сначала приближенно опреде- лить время процесса при произвольном значении частоты переключе- ний, а потом полученное приближенное значение времени процесса Т разделить на заданное удовлетворяющее по точности число ступенек, например 10, и повторить процесс оптимизации. Таким образом, весь процесс оптимальной программы управления разделяется на 15— 20 последовательных определений экстремума функции одного пере- менного, что выполняется с помощью одноканального оптимизатора или вручную. Для прикидочных расчетов достаточно провести только первый этап оптимизации, состоящий из 7—10 последовательных оптимизаций функций одного переменного. Описанная методика справедлива только для объектов, в кото- рых происходит реакция идеального вытеснения. К этому классу 105
реакций относится, в частности, и конверторный процесс передели стали. Результат двухэтапной оптимизации \i(t) представлен на рис. 3-27. На графике изображены зависимости x(t), y(t), f{t) и [i(t) для двух случаев ji(/)=const и \x(t) =\iom(t). Результаты мо- делирования случая \i(t)= const с удовлетворительной точностью совпадают с экспериментальной зависимостью x(t), полученной во время производственных испытаний на заводе. Из графиков видно, что скорость возгона цинка для оптимального управления выше, чем для случая \i{t)= const. В результате время процесса, отмечае- мое по достижению x(t) = \% содержания цинка в шлаке, умень- шается 'приблизительно на 20%. Достигается экономия угольной пыли ^ л— -д— д— -л 20 30 40 SO 60 70 80 90 WO 110 120 130 140 ISO cert Рис. 3-27. Временные графики x(t), y(t), t°(t), \i(t) для случаев jLi(£)=const И \l(t) =\1>оптУ). за цикл около 80—90 /сг, а повышение производительности происхо- дит на 10—15%. Следует заметить, что увеличение скорости возгона получается за счет поддержания в каждый момент времени макси- мально возможной температуры, т. е. максимальной макроконстанты условной скорости реакции и минимального содержания восстанови- теля в зоне реакции. Максимизировать обе эти величины невозмож- но из-за условий сгорания топлива, но опытами установлено, что изменение температуры в гораздо большей степени влияет на ско- рость восстановительного процесса, чем изменение концентрации вос- становителя. Поэтому в начале процесса, для скорейшего повышения температуры от начальной до предельной необходимо повышать дутье, что улучшает условия сгорания пылеугля до СОг, в связи с чем концентрация восстановителя снижается. Но вместе с этим общая скорость реакции увеличивается. В последующих подинтерза- 106
л ах управления за счет значительного ловышения температуры в пер- вый момент появляется возможность снизить количество д!утви, ягвеж- центрация восстановителя начинает увеличиваться. При постоянном дутье температура имеет тенденцию к увеличению (рис. 3-27), по- этому приблизительно с середины процесса можно опять несколько повысить концентрацию восстановителя. Это приводит к увеличению скорости возгона цинка, так как к концу процесса концентрация окиси цинка резко уменьшается по сравнению с начальной, а уве- личение количества восстановителя обеспечивает лучший контакт молекул окиси цинка с последним. Можно считать, что полученная оптимальная программа управ- ления процессом в основном отражает те тенденции управления, которые приводят к интенсификации процесса. Следует сказать, что система уравнений (3-10) является прибли- женной. Более тщательное рассмотрение требует учета участия в возгоне массы гарниссажного слоя шлака, сплавляемого со стенок ванны во время увеличения подачи тепла в печь {Л. 48]. Полученную программу оптимизации можно рекомендовать для оптимизации про- цесса фьюмингования с любыми конкретными начальными условиями (состав шлака, размеры аппарата и т. д.).
ЛИТЕР АТУ PA 1. Л е р и е р А. Я., Построение быстродействующих систем авто- матического регулирования при ограничении значений координат регулируемого объекта, Труды II Всесоюзного совещания по теории автоматического регулирования т. II, Изд-во АН СССР, 1955, стр. 305—324. 2. Слинько М. Л., Применение электронных вычислительных машин для расчета контактных аппаратов, Журнал Всесоюзного хи- мического общества им. Д. И. Менделеева, т. VI, 1901, № 5. 3. Фельдбаум А. А., Вычислительные устройства в автома- тических системах, Физматгиз, 1959, гл. VIII, § 6. 4. Лисовский Д. П., Т а ш е в с к а я В. М., Математическая модель процесса восстановления металла углеродистым топливом из жидкого шлака. Известия высших учебных заведений, «Цветная металлургия», 1965, № 4. 5. Ефроймович Ю. Е., Оптимальные электрические режимы дуговых металлургических печей, Металлургиздат, 1956. 6. L е i t m a n n G., Optimization techniques with application to aerospace systems, Academic Press, 1962. 7. P о з о н о e p Л. И., Принцип максимума Л. С. Понтрягина в теории оптимальных систем, «Автоматика и телемеханика», т. 20, 1959, № 10, стр. 1320—1334; № 11, стр. 1441—1458, № 12 стр. 1<561— 1578. 8. Гельфанд И. М., Фомин СВ., Курс вариационного исчисления, Физматгиз, 1958. 9. Ф е л ь д б а у м А. А., Основы теории оптимальных автомати- ческих систем, изд-во Наука, 1966. 10. С т а х о в с к и й Р. И., Фицнер Л. Н., Шубин А. Б., Автоматические оптимизаторы и их применение для решения вариа- ционных задач и задач автоматического синтеза, Труды I Междуна- родного Конгресса ИФАК, т. 4, Изд-во АН СССР, 1961. 11. Peterson Е. L., Statistical analysis and systems optimi- zation, Wiley, 1961. 12. Kashmar S. M., Peterson E. L., General imbedding theory, Optimization Techniques with Application to Aerospace System, edited by G. Leitmann, Academic Press, '1962. 13. С т a x о в с к и й Р. И., Об одном алгоритме решения крае- вых задач, «Автоматика и телемеханика», т. 24, 1963, № 7. 14. Р у n е J. В., Linear programming on an electronic analogue computer, Communication and Electronics, 1956, N '24, p. 139—-142. 15. С т a x о в с к и й Р. И., Многоканальный автоматический оп- 108
гимизатор для решения вариационных задач, «Автоматика и теле- механика», т. 20, 1959, № 11. 16. Л ер н ер А. Я., О предельном быстродействии систем авто- матического управления, «Автоматика и телемеханика», т. 15, 1954, № 6, стр. 461—477. 17. Лернер А. Я., Введение в теорию автоматического регу- лирования, Машгиз, 1959. 18. С т а х о в с к и й Р. И., О сравнении некоторых методов поиска для автоматического оптимизатора, Сборник Трудов конфе- ренции по теории и применению дискретных систем, Изд-во АН СССР, 1959. 19. Беллман Р., Динамическое программирование, Изд-во иностр. лит., 1960. 20. Беллман Р., Теория динамического планирования, Сбор- ник Современная математика для инженеров, п/р Э. Ф. Беккенбаха, Изд-во иностр. лит., 1958, гл. 10. 21. Понтрягин Л. С, Некоторые математические задачи, возникающие в связи с теорией систем автоматического регулиро- вания, Сессия АН СССР по научным проблемам автоматизации про- изводства, т. 2, Изд-во АН СССР, 1957. 22. Desoer С. К-, Potriagin's maximum principle and the prin- ciple of optimality, Journal of Franklin Institute, v. 27!l, '1961, iN 5, p. 361—367. 23. К а н т о p о в и ч Л. В., Крылов В. И., Приближенные ме- тоды высшего анализа, Гостехиздат, 1949. 24. Н о р к и н К. Б., О задаче синтеза универсального функцио- нального преобразователя с заданным числом управляемых парамет- ров, «Автоматика и телемеханика» т. 23, 1962, № 8. 25. Ф е л ь д б а у м А. А., Автоматический оптимизатор, «Авто- матика и телемеханика», т. 19, 1958, № 8. 26. С т а х о в с к и й Р. И., Двухканальный автоматический опти- мизатор, «Автоматика и телемеханика», т. 19, 1958, № 8. 27. Devies О. L., The design and analysis of industrial expe- riments, Hofner Publishing Company, New York, 1954. 28. С т e п а н о в В..В., Курс дифференциальных уравнений, Гос- техиздат, 1953. 29. Л а н с Д ж. Н., Численные методы для быстродействующих вычислительных машин, Изд-во иностр. лит., 1962. 30. К о г а н Б. Я-, Электронные моделирующие устройства и их применение для исследования "систем автоматического регулирования, Физматгиз, 1963. 31. С т а х о в с к и й Р. И., Разработка и исследование автома- тического оптимизатора, Кандидатская диссертация, ИАТ АН СССР, 1958. 32. Бочаров И. Н., Калинина А. В., С т а х о в с к и й Р. И., Ф е л ь д б а у м А. А., Ш у б и н А. Б., Многоканальные автоматиче- ские оптимизаторы 2АО 12/5 и ЗАО 10/5 «Приборы и стенды», изд. ВИНИТИ, 1960. 33. Фельдбаум А. А., Оптимальные процессы в системах автоматического регулирования, «Автоматика и телемеханика», т. 14, 1953, № 6, стр. 712. 34. Н о р к и н К. Б., С п и р и д о н о в В. Д., Множительное зве- но, ГОСИНТИ, А-628/3, 1962. 35. Д о г а н о в с к и й С. А., Иванов В. А., Устройства за- 109
паздывания и их применение в автоматических системах, изд-во «Ма- шиностроение», 1966. 36. Ф и ц н е р Л. Н., Н о р к и н К. Б., Нелинейный преобразо- ватель, управляемый электрическими напряжениями, ГОСИНТИ, 1962, А—628/3. 37. Е ф и м о в Н. В., Квадратичные формы и матрицы, Физмат- гиз, 1963. 38. М и т к е в и ч Ю. Д., С т а х о в с к и й Р. И., Генератор бе- лого шума для низких частот, ГОСИНТИ, 1965, № 18—65—364/30. 39. Р о б е р т с С, Динамическое программирование в процес- сах химической технологии и методы управления, изд-во «Мир», 1965. 40. О р д ы н ц е в В. М., Математическое описание объектов автоматизации, изд-во «Машиностроение», 1965. 41. Математическое моделирование термохимических процессов, Сборник трудов Гинцветмет под ред. Б. Н. Петрова, № 21 за 1964, Металлургиздат. 42. Стаховский Р. И., О применении автоматических опти- мизаторов, Труды конференции по математизации каталитических реакций, г. Новосибирск, 1963, Изд-во АН СССР, 1965, 43. С л и н ь к о М. Г., Б о р е с к о в Г. К-, Бесков В. С, Скоморохов В. Б., Использование динамического программиро- вания для оптимального расчета химического реактора, «Кинетика и катализ», 1962, № 2. 44. Гн ато в ски й Е. С, П а л е н о в В. В., Бюллетень техни- ко-экономической информации, 1964, № 8, ЦНИИЦМ. 45. Л и с о в с к и й Д. И., Т а ш е в с к а я В. М., сб. «Автомати- зация управления и регулирования производственными процессами цветной металлургии», изд. ЦНИИЦМ, 1965. 46. Ванюков А. В., Гнатовский Е. С, Зайцев В. я., Журавский В. И., О 'путях интенсификации шлаковозгоночного процесса ((фьюмингования), «Цветная металлургия», 1966, № 17. 47. Лисовский Д. И., Стаховский Р. И., Ташев- с к а я В. М., Голубев В. И., Оптимизация периодического фью- минг-ероцесса с помощью электронно-вычислительных устройств, Бюллетень цветная металлургия, 1966, № 17, ЦНИИЦМ. 48. Q u а г m Т. A., The slag fuming process, Mining Magazine, August Ш65, p. 114.
ОГЛАВЛЕНИЕ Введение 3 Глава первая. Обзор методов решения задач опти- мального управления 9 1-1. Метод обобщенного критерия оптимальности . 11 1-2. Метод изохрон 14 1-3. Динамическое программирование 24 1-4. Принцип максимума Л. С. Понтрягина .... 30 il-5. Прямые методы решения оптимальных задач . . 34 1-6. Теоретические вопросы применения метода изохрон для решения граничных задач прямыми методами 37 1-7. Сравнение методов решения задач оптимального управления 53 Глава вторая. Аппаратура, используемая при решении граничных задач 55 2-1. Сравнение типов вычислительных машин, пригодных для решения граничных задач 55 2-2. Автоматический оптимизатор 57 2-3. Генераторы управляемых воздействий .... 63 2-4. Нелинейный преобразователь, управляемый элек- трическими напряжениями 66 ' 2-5. Блоки формирования обобщенного критерия ... 69 2-6. Схемы блока синхронизации всего, комплекса аппа- ратуры 76 'Глава третья. Примеры применения метода изохрон для решения задач оптимального управления ... 79 3-1. Автоматический синтез оптимального управления системой электропривода постоянного тока . . 80 3-2. Оптимизация режима химического реактора для по- лучения окиси этилена 92 3-3. Оптимизация режима периодического фьюминг-про- цесса 101 Литература 108
библиотека по автоматике готовятся к печати Абакумов В. Г. и Петренко А. Я., Устройства та видиконе для вво- да графиков в электронные вычислительные машины. А ранний Г. А., Жемеров Г. Г., Эпштейн Я. Я., Тиристорные преоб- разователи частоты для регулируемых эл екПр остри водов. Бамдас А. М. и др., Ферромагнитные делители частоты. Бессонов А. А. и Сиваков В. А., Автоматические индикаторы отказов. Бруаз П., Язык АЛГОЛ и его применение к задачам 'исследования операций (перевод с французского). Видинеев Ю. Д., Автоматическое непрерывное дозирование жидко- стей. Гинзбург С. А., Математическая непрерывная логика и изображение функций. Гринберг Л. С, Многообмоточные потенциометры. Давидов П. Д., Аналитический расчет импульсных тепловых режи- мов полупроводниковых приборов. Долкарт В. М. и др., Метод монтажа накруткой. Исмаилов Ш. Ю., Автоматические приборы с шаговыми двигателями. Коган В. Г., Кочубиевский Ф. Д., Шугрин В. Ы., Нелинейные систе- мы с тиристорами. Карибский В. В., Пархоменко П. П. и Согомонян Е. С, Техническая диагностика объектов контроля. Карпов В. И., Полупроводниковые устройства стабилизации напря- жения и тока. Касаткин А. С. и Кузьмин Я. Оценка эффективности автомати- ческих систем контроля. Клюев А. С, Двухпозиционные автоматические регуляторы и их «на- стройка. Комолое В. П. и др., Параметроны в цифровых устройствах. Кондюкова Е. Н. и Редькин Б. Е., Аналого-цифровые преобразова- тели систем автоматического контроля. Корытин А. М. и др., ^ Синхронные приводы с полупроводниковым управлением. Куликовский К. Л., Электрометрические преобразователи напряже- ния. Куликовский Л. Ф., Лихтциндер Б. Я. и Бровкин Л. А., Автоматиче- ские приборы с бесконтактными компенсирующими преобразо- вателями. Лебедев М. Д., Состояние и развитие автоматических систем кон- троля. Лемберг Н. Д., Релейные системы пневмоавтоматики. Маграчев Э. В., Вольтметры одиночных импульсов. Меджицкий Е., Операционные усилители постоянного тока. Мяздриков О. Л., Электронные методы объемной гранулометрии. Мясникова Е. Н., Объективное распознавание речи. Нетребенко К. А., Компенсационные схемы амплитудных вольтметров и указателей экстремума"/" Пекюер И. Я. и Никитенко А. Г., Расчет электромагнитных элемен тов на вычислительных машинах. Прохоров Н. Л., Счетные схемы на магнитных логических элемен- тах. 112
Пышкало В. Д., Акимов Л. В. и Шамрай В. П., Оптимальные по быстродействию промышленные электроприводы. Рубцов В. П., Садовский Л. А. и Филатов А. С, Системы с силовы- ми шаговыми двигателями в металлургической промышленности (Электроприводы с полупроводниковым управлением). Сафрошкин Ю. В., Переходные характеристики и устойчивость тран- зисторных стабилизаторов напряжения и тока. Смолов В. Б., Диодные функциональные преобразователи инфор- мации. Стопский С. Б., Счетчики числа импульсов. Страхов В. П., Методы фазовой плоскости в теории цифровых сле- дящих систем. Удерман Э. Г., Приближенное исследование автоколебаний методом- корневого годографа. Шевченко Г. И., Магнитоанизотропные датчики. Шубенко В. А. и др., Асинхронный электропривод с тиристорным управлением (Электроприводы с полупроводниковым управле- нием) . Ямпольский Ж. А. и др., Аналоговые тахометрические преобразова- тели на магнитных элементах. Ястребенецкий М. А. и Со/.яник Б. Л., Определение надежности ап- паратуры промышленной автоматики.