Текст
                    Ю. И. НЕЙМАРК, н. я. КОГАН, В. П. САВЕЛЬЕВ
ДИНАМИЧЕСКИЕ
МОДЕЛИ
ТЕОРИИ
УПРАВЛЕНИЯ
МОСКВА «НАУКА»
ГЛАВНАЯ РЕДАКЦИЯ
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ
19 8 5

БВК 32.81 Н45 УДК 62-50 Рекомендовано Министерством высшего и среднего специального образования СССР для использования в учебном процессе Ней мар к Ю. И., Коган Н. Я., Савельев В. П. Динамические модели теории управления.— М.: Наука. Главная редакция физико-математиче- ской литературы, 1985. — 400 с. Книга написана на основе общего лекционного курса теории управления (кибернетики), читаемого для студентов специальности «прикладная математика», и может рассматриваться как введение в теорию, рассказывающее об основных динамических моделях автоматического регулирования и управления детермини- рованными и стохастическими системами и процессами. Изложение основывается на понятии состояния, дающем полное описание динамики объекта управления н необходимую информацию для синтеза оптимальной стратегии управления. Для широкого круга читателей: студентов, аспирантов и научных работни- ков, изучающих теорию управления или ею интересующихся. Табл. 4. Ил. 210. Рецензенты: кафедра процессов управления Ленинградского университета; доктор технических наук Г. А. Медведев 1502000000-117 п 053 (02)-85 0 © Издательство «Наука» Главная редакция физико-математической литературы, 1985
ОГЛАВЛЕНИЕ Предисловие . . . .............................................. 5 Глава 1. Предмет и содержание теории управления......................... 7 Глава 2. Понятия состояния и динамической системы...................... 26 § 1. Законы движения планет Солнечной системы. Механическое состоя- ние и уравнения Ньютона, Лагранжа и Эйлера......................... 26 § 2. Электромагнитное поле и уравнения Максвелла................... 33 § 3. Законы макромира, микромира и космоса........................ 36 § 4. Модели игр. Марковские системы................................ 38 § 5. Диффузионные процессы и случайные блуждания................... 47 § 6. Случайность — закономерность, закономерность — случайность 51 § 7. Математическая модель динамической системы.................... 61 Глава 3. Динамическая система и ее фазовый портрет..................... 64 § 1. Фазовый портрет физического маятника.......................... 64 §2. Автоколебания генератора с неоновой лампочкой................. 68 § 3. Динамика сосуществования видов................................ 80 § 4. Эволюция генотипа............................................. 84 § 5. Процессы размножения и гибели................................ 91 § 6. Самосборка одномерных цепочек................................. 96 Глава 4. Управляемые динамические системы............................. 103 § 1. Как сделать устойчивым верхнее положение маятника............ 103 §2. Задача о комаре.............................................. 114 § 3. Авторулевой.................................................. 123 § 4. Исследования Максвэлла и Выинеградского систем прямого регу- лирования ........................................................ 163 §5. Системы гироскопической стабилизации '........................ 178 §6. Управляемая автоколебательная двуногая ходьба................ 205 § 7. Управление и информация...................................... 221 § 8. Минимаксная стратегия поиска минимума функции одной перемен- ной .............................................................. 238 § 9. Поисковая глобальная оптимизация со стохастической адаптивной моделью.......................................................... 248
4 ОГЛАВЛЕНИЕ Глава 5. Модели обучения, персептрон и распознавание образов......... 265 § 1. Простейшие модели обучаемого поведения, персептрон.......... 265 I § 2. Распознавание образов как задача статистической теории принятия решений....................................................... 277 § 3. Минимизация эмпирического риска и стохастическая аппроксимация 279 Глава 6. Оптимизация стратегии управления ........................... 283 § 1. Постановка задачи управления................................ 283 § 2. Наблюдаемость и управляемость............................... 297 § 3. Оптимизация функций и динамических процессов................ 305 § 4. Программное и оперативное управление........................ 315 § 5. Оптимальное управление линейным динамическим объектом по квадратичному критерию качества.................................. 326 § 6. Оценивание и фильтрация................................ • • 337 I §7. Управляемые марковские системы при полном и неполном наблюдении 347 § 8. Адаптивное управление....................................... 371 Именной указатель................................................... 393 Предметный указатель................................................. 395
ПРЕДИСЛОВИЕ Настоящая книга написана на основе лекций Ю. И. Неймарка по общему курсу теории управле- ния, неоднократно читавшемуся на факультете вы- числительной математики и кибернетики Горьков- ского государственного университета как полуто- рагодовой курс лекций с практическими занятиями и лабораторными работами. Она отлична от извест- ных авторам книг по автоматическому регулирова- нию, управлению и технической кибернетике тем, что излагает рассматриваемые вопросы не как спе- циальный курс, а как общий курс, в основу кото- рого положены понятия информации, состояния и динамической системы. В книге изложена часть читаемого курса, отно- сящаяся к динамическим моделям теории управле- ния. Книга близка к лекциям, но у нее свои законы. Лишь в некоторой мере сохранен стиль беседы со слушателями, часто он заменен обычной для кни- ги безличной формой изложения, некоторые разде- лы расширены. Авторы стремились к простоте и доступности, и книга адресуется в первую очередь учащейся молодежи, однако в ней найдут немало нового и интересного инженеры и научные работ- ники. Основные идеи теории управления раскры- ваются в книге в процессе рассмотрения конкретных задач и вопросов, и поэтому книга предполагает последовательное чтение. Вместе с тем изложение каждой задачи или вопроса по возможности само- стоятельное, и это допускает фрагментарное зна- комство с ними. Книга обязана своим появлением не только ав- торам, но и большому труду сотрудников кафедры теории управления и динамики машин Горьковского университета Л. В. Коган и В. Ш. Бермана, осу- ществивших в разное время магнитофонные записи
6 ПРЕДИСЛОВИЕ лекций и превращение их в машинописный текст. В немалой степени она обязана и студентам, которые были терпеливыми слушателями и действенной «об- ратной связью». Авторам было бы очень приятно и полезно, помимо этой локальной обратной связи, обрести в лице читателей новые, более широкие об- ратные связи, и поэтому они обращаются ко всем читателям с просьбой об их осуществлении. Со своей стороны они обещают внимательное отношение к критике и пожеланиям читателей и учет их в буду- щей работе и педагогической практике. Авторы выражают признательность профессо- рам Г. А. Медведеву и В. А. Якубовичу за внима- тельное прочтение рукописи и многочисленные, учтенные авторами замечания. Усилия авторов по написанию книги разделились следующим образом: гл. 1, §§ 2—7 гл. 2, §§ 5, 6 гл. 3, §§ 1, 2, 6, 7, 9 гл. 4, гл. 5, §§ 7, 8 гл. 6 написаны Ю. И. Неймарком; §§ 1—4 гл. 3, § 5 гл. 4—Н. Я- Ко- ганом; §§ 1—4 гл. 6 — В. П. Савельевым; § 1 гл. 2, §§ .3, 4 гл. 4, §§ 5, б гл. 6 — Н. Я- Коганом и Ю. И. Неймарком; § 8 гл. 4 — В. П. Савельевым и Ю. И. Неймарком.
Г ЛАВА 1 ПРЕДМЕТ и содержание теории управления Наше время — время рождения многих новых научных направле- ний, наук и их новых разделов. Они специализируются и обособляют- ся, завоевывают право на самостоятельное существование, разрабаты- вают свои подходы и методы, технические средства, научную термино- логию. Это приводит к размежеванию различных областей науки, к непониманию представителями разных наук друг друга, к тому, что в гигантском потоке научной информации каждому специалисту фак- тически доступна лишь ничтожная, все уменьшающаяся доля. Однако в науке есть и противоположная тенденция образования общих представлений, выявления единства науки, выработки немно- гих общих принципов и общих методов исследования. Одним-из про- явлений этой объединяющей тенденции оказалось возникновение нау- ки об управлении — кибернетики. Слово «кибернетика» достаточно древнее. Оно встречается у Пла- тона и происходит от греческого слова, означающего «кормчий». За- тем его употребил Анри Ампер как обозначение науки об управлении государством. В 1948 г. вышла книга математика Норберта Винера «Кибернетика», провозгласившая возникновение новой науки о про- цессах управления и процессах переработки информации в технике, обществе и живых организмах. Пока велись споры, есть такая наука или ее нет, и что есть ее пред- мет, кибернетика бурно развивалась, вовлекая в свою сферу громадные массы людей и материальных средств. Ее развитию способствовали Джон фон Нейман, Клод Шеннон и многие другие выдающиеся уче- ные. Она привлекала молодежь, она была нужна атомной энергетике и космической технике, она была повивальной бабкой при рождении современной вычислительной техники. Уже в 1956 г. состоялась сессия Академии наук СССР, посвящен- ная актуальнейшему вопросу автоматизации производства, а с 1958 г. стал систематически издаваться сборник «Проблемы кибернетики». В 1960 г. состоялся в Москве первый конгресс ИФАК (международной федерации по автоматическому управлению). В нем участвовал и Н. Винер. В университетах и технических вузах стали появляться новые специальности по методам вычислений, вычислительным ма- шинам и кибернетике. Недавняя инженерная техническая наука, называемая то теорией автоматического регулирования, то теорией сервомеханизмов, как по волшебству, из Золушки превратилась в прекрасную принцессу, прив- лекающую умы и сердца людей. До этого ни одна наука не знала тако-
8 ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ го бурного развития и не вовлекала в сферу своего влияния так много людей и технических средств. Кибернетика явилась неотъемлемой н одной из основных частей научно-технической революции нашего вре- мени. Как и всякая наука, теория управления состоит из трех частей, вернее сказать, составных-элементов. Первый — это объект или объек- ты изучения. В математических науках объект изучения формулирует- ся в виде аксиом. Предметы изучения алгебры и геометрии задаются аксиоматически. У теории управления нет аксиоматики, вместо этого есть формализация объекта изучения в виде математических моделей. Эти математические модели и есть первый составной элемент теории управления — ее объекты изучения. Затем у теории управления есть арсенал средств изучения этих ма- тематических моделей. Это ее второй элемент — методы изучения. Наконец, теория управления, как и всякая наука, применяется для решения конкретных задач, через которые происходит взаимодействие науки с техникой, экономикой, культурой и социальным прогрессом общества. Этот третий элемент — решаемые и решенные конкретные задачи в виде конкретных результатов, рекомендаций и выводов. Все эти части или элементы теории управления тесно переплетены между собой: методы исследования определяют модели, модели и зада- чи порождают новые методы. Нельзя сказать, что является главным. Все главное. Целое не может существовать ни без одной своей части. И все же возможно, что введение в науку об управлении наиболее удобно через ее математические модели, возможно, что именно мате- матические модели в наибольшей мере ее характеризуют. Именно на математических моделях в наибольшей мере вскрывается содержание кибернетики, лежащие в ее основе принципы н общие подходы, раз- работка которых составляет содержание методов исследования. Прин- ципы и общие подходы в науке возникают исторически. Историческое их понимание очень важно, оно позволяет глубже их понять, лучше осмыслить связи и увидеть дальнейшие перспективы развития. Кибернетика возникла как синтетическая наука. Едва ли ее мож- но считать смежной наукой, такой, например, как биофизика, биохи- мия, математическая биология, физическая химия. Кибернетика воз- никла не на стыке разных наук, а в результате осмысливания и обоб- щения нескольких наук, благодаря восприятию идей ряда наук и их синтезу. По-виДимому, основными науками, которые она в себя синтезирует, являются следующие: 1) теория автоматического регулирования-, 2) математическая логика, теория алгоритмов, и автоматов-, 3) теория передачи .сообщений и теория информации-, 4) теория колебаний. Именно они легли в ее основу и подготовили ее возникновение. Отметим, что исторически в возникновении кибернетики немалую роль сыграли нейрофизиология и психология. Более того, именно они
ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ 9 привели к созданию теории сетей из формальных нейронов, к созда- нию персептрона Розенблата, к разгадке тайн фибрилляции сердца и многому другому. Вычислительные машины во многом копируют нашу интеллектуальную деятельность. Это, безусловно, так, и вместе с тем нейрофизиология, психология и изучение деятельности мозга, хотя и индуцировали возникновение кибернетики, убеждая в ее важности и увлекая разгадками тайн природы, но не легли в ее основу. Кратко изложим, что же дала каждая из перечисленных выше и указанных на рис. 1.1 наук. Автоматические устройства были уже у греков, римлян, в древнем Китае, Индии, но не о них речь. Теория автоматического регулирования зародилась только во второй половине прошлого века. Непосредственно перед этим в 1765 г. И. И. Ползуно- вым был построен регулятор уровня жидкости, в 1784 г. Д. Уатт по- строил паровую машину с центробежным регулятором скорости враще- ния. Фрикционные центробежные регуляторы использовались для соз- дания равномерного вращения астрономических труб. Без такого устройства наблюдаемые небесные тела из-за вращения Земли уходили бы из поля зрения телескопов. Без центробежного регулятора скорос- ти вращения не могла бы работать паровая машина. Без него при уве- личении нагрузки она уменьшала бы скорость вращения вплоть до оста- новки, при сбрасывании нагрузки увеличивала бы скорость и могла бы пойти вразнос, т. е. начать вращаться настолько быстро, что это могло бы привести к поломке и серьезной аварии. Скорость вращения зависела бы и от давления пара. Центробежный регулятор делал ско- рость вращения в некоторых пределах практически не зависящей ни от нагрузки, ни от давления пара.
10 ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ Паровые машины, а затем и турбины были в прошлом веке основным источником механической энергии. Они приводили в движение станки, откачивали воду из шахт, вращали электрические генераторы и не могли этого делать без хороших регуляторов. Регуляторы самых разных конструкций изобретались в большом количестве. В это время не был ясен общий принцип их действия, ско- рее всего, на первый план выступали конструктивные особенности. Но такой принцип был — это принцип обратной связи. В чем же он состоит? Начнем с поплавкового регулятора уровня жидкости (рис. 1.2). В резервуар втекает вода через трубку Т и вытекает через трубу С. Рис. 1.2 Уровень воды в резервуаре зависит от того, как притекает в него вода и как она из него вытекает. Втекание воды зависит от того, насколько открыт вентиль В, так что уровень h воды в резервуаре зависит от от- крытости б вентиля В и величины г расхода воды, вытекающей через трубу С. Зависимость h от б — это прямая связь, причем связь направлен- ная: от положения вентиля зависит уровень жидкости в резервуаре, но уровень воды не влияет на открытость б вентиля. Направление этой связи отмечено на рис. 1.2 стрелкой. Зависимость уровня h от расхода г взаимная, поскольку расход воды через трубу С зависит от давления жидкости, определяемого ее уровнем h в резервуаре. Эта связь указа- на на рис. 1.2 дужкой без стрелки. Ее можно было бы изобразить и двумя стрелками, идущими от г к h н от h к г. Нам нужно, чтобы уровень воды h в резервуаре вне зависимости от ее расхода г поддерживался на одной и той же высоте h*. Как это сде- лать? Ясно, что для этого нужно открывать вентиль, когда уровень становится меньше h*, и прикрывать его, когда уровень больше h*. То есть нужно менять величину открытости вентиля б в зависимости от уровня h жидкости. Причем менять так, чтобы б уменьшалось, если K>-h*, и увеличивалось при h<Zh*. Достичь этого можно, например, с помощью устройства, изображенного на рис. 1.3. Это и есть поплав- ковый регулятор Ползунова. Он осуществляет связь от h к б, обрат-
ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ 1Г ную по отношению к исходной прямой связи от б кй. Изменение уровня жидкости меняет положение поплавка П, от положения которого за- висит открытость вентиля В. Это обратная связь, осуществляемая поплавковым регулятором (прямая и обратная связи показаны на рис. 1.3). Рассмотрим теперь в таком же плане центробежный регулятор Уатта скорости вращения. Паровую машину вращает поступающий в нее пар. Чем больше поступает пара и чем больше его давление, тем быстрее она вращается. Поступление пара зависит от положения дрос- сельной заслонки вентиля подачи пара в паровую машину. Это прямая связь, связь, лежащая в основе функционирования паровой машины. Скорость <й вращения вала паровой машины зависит еще и от того, как она нагружена. Задача состоит в том, чтобы устранить (значительно уменьшить) зависимость скорости вращения <о от нагрузки и добиться того, чтобы независимо от нагрузки скорость вращения <о оставалась не- изменной, равной некоторому со*. Как решить эту задачу? Эта задача очень похожа на пре- дыдущую, и решить ее можно так же: ввести обратную связь, которая будет увеличивать подачу пара, когда скорость вращения со становится меньше со*, и, наоборот, умень- шать подачу, если скорость вращения со оказалась больше со*. Тех- нически реализовать такую обратную связь можно очень многими спо- собами. На рис. 1.4 показано, как это сделал Уатт. Он ввел центробеж- ный измеритель угловой скорости, основанный на том, что с увеличе- нием скорости вращения шары Ш расходятся и муфта М поднимается, а с уменьшением скорости вращения шары Ш сближаются и муфта М опускается. Далее, перемещение муфты М Уатт связал с дроссельной заслонкой 3, так что при опускании муфты М заслонка 3 открывается, а при поднятии муфтыМ заслонка 3 закрывается. Тем самым реализу- ется уменьшение подачи пара с возрастанием скорости вращения и увеличение ее при убывании скорости вращения. В центробежном фрикционном регуляторе скорости вращения ас- трономической трубы (подобные регуляторы использовались в патефо- не для создания равномерного вращения пластинки) обратная связь реализована иначе, чем в регуляторе Уатта. Это вызвано тем, что ме- нять натяг заводной пружины или вес грузов, приводящих во враще- ние астрономическую трубу, затруднительно. Поэтому изменение вра- щающего момента достигается путем создания дополнительного мо- мента трения, который увеличивается при слишком быстром вращении и уменьшается при слишком медленном. Технически это реализуется тем, что раздвигающиеся шары центробежного измерителя угловой скорости трутся об ограничительное кольцо.
12 ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ Итак, в основе поплавкового регулятора Ползунова, центробежного регулятора Уатта и фрикционного регулятора лежит один и тот же принцип обратной связи. Согласно историческому анекдоту принцип обратной связи осущест- вил, пожалуй, наиболее простым способом не инженер и не ученый, а шаловливый мальчик. Еще до Уатта прототипы паровой машины ис- пользовались для откачивания воды из шахт. До них это делали лоша- ди, но необходимые мощности росли, и пришлось перейти на силу пара. Пар двигал поршень паровой машины, и он перемещал поршень насо- са. Каждый раз нужно было подавать пар в цилиндр, затем выпускать его, и это делалось вручную поворотом специальной ручки. Работу эту выполнял мальчик, он следил за движением паровой машины и двигал ручку то в одну сторону, то в другую. Надоела ему эта работа, и он заметил, что ручку он двигает все время в такт с движением штока (соединенного с поршнем) паровой машины: шток вниз — ручку вниз, шток вверх — ручку вверх. Смотрел-смотрел, взял и связал веревкой шток с ручкой, а сам пошел гулять. Так было внесено существенное усо- вершенствование в конструкцию паровой машины. Мальчике помощью веревки ввел обратную связь, которая автоматически регулировала нужным образом подачу и выпуск пара. Этот анекдот хорош только тем, что ясно показывает, в чем состоит принцип обратной связи. Все ос- тальное — как и положено в анекдоте. Таким образом, принцип обратной связи заложен не только в центробежном регуляторе паровой машины, но и в самом принципе ее работы. До мальчика паровая машина выполняла команды ручки: руч- ка вниз — поршень вниз, ручка вверх — поршень вверх. При этом она их выполняла так, что небольшие усилия человека при повороте руч- ки превращались в мощные движения поршня. Это прямая усиливаю- щая связь. Принцип усиления этой связи отличен от принципа рычага. Рычаг увеличивает силу, но совершает работу за счет мускульной силы человека и не дает выигрыша в мощности. Связь же от ручки к поршню совсем другая, она реализуется за счет энергии пара, человек лишь управляет ее использованием. Поршень движется не энергией челове- ка, а энергией пара, и это позволяет очень намного превысить мощь человеческой руки. Мальчик к этой прямой связи от ручки к поршню ввел обратную связь от поршня к ручке и тем самым создал новую систему, в которой сами собой возникли периодические движения или, как сказали бы сегодня, возникли автоколебания (самоколебания). Как видите, обратная связь может стабилизировать скорость враще- ния, но она же может приводить к колебаниям. Таким образом, введе- ние обратной связи может придать системе совершенно новые свойства, ранее не присущие ей. ' Проиллюстрируем способность обратной связи наделять систему совершенно новыми свойствами. Представьте, что вы хотите с помощью магнитов свободно вывесить железный шарик. Вы пробуете это сделать, но у вас ничего не выходит: шарик либо падает, либо прилипает к од-
ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ 13 ному из магнитов. Вы ищете решение и, наконец, обнаруживаете, что есть теорема Ирншоу, которая его запрещает. В стационарном маг- нитном поле не может быть устойчивого равновесия ферромагнитного (т. е. железного) шарика. Но вот нам в голову приходит идея восполь- зоваться принципом обратной связи. Это можно сделать по-разному, например, согласовать движения магнита с движением шарика или взять вместо магнита электромагнит и менять в нем силу тока в зави- симости от движения шарика. И оказывается, что теперь шарик уже цожет устойчиво висеть. Обратная связь позволила нарушить запрет, вытекающий из теоремы Ирншоу, и наделить магнитное поле совер- шенно новыми свойствами. Очень жаль, что в книге нельзя показать этот эффектный экспери- мент. Вам придется поверить на слово. И еще один пример использования принципа обратной связи. Пред- ставьте себе бег на 3 или 10 км. Вы видели, как бегут хорошие спорт- смены. Говорят, знаменитый чемпион в. беге на длинные дистанции ^(урмн бежал, реализуя свой наперед намеченный график, почти рав- номерно всю дистанцию. Так примерно бегают чемпионы и сейчас. А ведь хочется — и естественно — бежать вначале быстро, а под ко- нец, когда устанешь, помедленнее. Новичок так и бежит: сначала впе- реди всех, затем сзади всех. За счет чего же достигается равномер- ность бега? Опять с помощью той же обратной связи, реализуемой во- лей бегуна. Именно обратная связь, устанавливающая зависимость усилий от скорости бега, наделяет бегуна новыми качествами, отлич- ными от естественного поведения новичка. Вы видите, что принцип обратной связи всюду, где вы хотите дос- тигнуть каких-то целей и наделить для этого систему новыми свойст- вами. Это очень общий и универсальный принцип, его и взяла из тео- рии автоматического регулирования кибернетика. В истории использования принципа обратной связи не все было про- сто и гладко. Выяснилось, что мало ввести обратную связь, нужно это сделать надлежащим образом, а сделать это далеко не всегда просто. Очень скоро обнаружилось, что регуляторы скорости вращения паровых машин и турбин не всегда делают то, что от них ожидают, а подчас вызывают совершенно другие последствия, приводящие к аварии. Астрономические трубы вместо того, чтобы равномерно вращаться, начинали дрожать, паровые машины — то увеличивать, то уменьшать скорость вращения так, что размах этих изменений мог нарастать до катастрофических размеров. Явления были необычными. Теория от- сутствовала. Тупик усугублялся тем, что чем лучше инженеры делали .регуляторы, чем большей точности хотели от них добиться, тем хуже они работали или вовсе были непригодны. Назрела необхо- димость в помощи теории, и она пришла в лице гениального физика Д. К. Максвелла и знаменитого русского инженера И. А. Вышнеград- ского. Эта помощь опиралась на теорию колебаний, точнее, теорию ма- лых колебаний, ведущую свое начало от Лагранжа.
14 ГЛ. I. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ Далее будет подробно рассказано, что сделал Максвелл и что — Вышнеградский. Здесь только заметим, что пришли они к диаметраль- но противоположным выводам и оба были правы. Непосредственную помощь инженерам оказал только И. А. Выинеградский. Он построил знаменитую, названную его именем диаграмму, указывающую, как нужно выбирать параметры регулятора, чтобы он хорошо работал, и после такого выбора регуляторы действительно работали хорошо. Но так было лишь до тех пор, пока принцип обратной связи применялся в достаточно простом виде. Его более сложные использования сулили новые выгоды, но и привели к новым проблемам. Так возникли ставшие теперь классическими системы прямого, непрямого и изодромного ре- гулирования, системы регулирования по отклонению и по скорости отклонения, а вместе с ними и классическая линейная теория автома- тического регулирования. Автоматические регуляторы стали управ- лять движением самолетов и получили наявание автопилотов. Авто- матические регуляторы поддерживали требуемые температуры, дав- ления, расходы, концентрации, напряжения. Без них не мыслима ни атомная энергетика, ни ракетная техника. Без них сейчас нельзя де- лать бумагу, прокатывать металл, осуществлять его плавку, они нуж- ны в котельных и на электростанциях, на судах и в химическом про- изводстве, на станках с программным управлением и в локационной технике. Перейдем теперь к роли в возникновении кибернетики математи- ческой логики, теории алгоритмов и автоматов. Эта роль состоит в создании средств формализации мышления, приводящих к созданию вычислительных машин, целой вычислительной индустрии со своими языками общения с машиной, колоссальным быстродействием вы- полнения элементарных операций и очень большой памятью. Она состоит в новых возможностях формализации отдельных видов интеллектуальной деятельности человека, после которой ее смогут выполнять вычислительные машины, необычайно расширяя возмож- ности человеческого интеллекта. Благодаря ЭВМ конструктор может испытать математическую мо- дель своего пока еще только воображаемого объекта. Увидеть, хорошо или плохо он справляется со своими задачами. Внести изменения и снова посмотреть, что получилось. Он может во многих случаях рас- считать будущую конструкцию так, чтобы три имеющихся возможно- стях достигнуть наилучшего эффекта. Ученый может реализовать мысленные эксперименты и воображае- мые ситуации. Можно моделировать процессы в далеких звездах, ис- пытывать несуществующие ракеты и самолеты, генераторы, плотины и строительные конструкции. Можно научить машину доказывать теоремы, играть в шахматы, ставить диагнозы болезней, проводить геологическую разведку, улучшать производственные процессы, уп- равлять выполнением сложных и тонких операций. С помощью совре- менных ЭВМ можно взглянуть в глубь истории Земли, прогнозировать происходящие на ней процессы.
ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ 15 Все невозможно перечислить, и это только начало, и все еще впе- реди. Правда, одновременно становится все яснее и яснее, насколько сложен мозг человека, и как еще скромны по сравнению с ним возмож- ности машины. И все же кое в чем, пусть самом простом, машины дог- нали и даже превзошли человека. С математической логикой, теорией алгоритмов и автоматов свя- заны и глубокие исследования по обоснованию математики, по выяс- нению принципиальных возможностей тех или иных операционных Систем. Но эта сторона осталась за математической логикой. Киберне- тика ограничилась тем, что восприняла способы формализации интел- лектуальных процессов, способы трансформации формализованных описаний и способы их синтеза на тех или иных формальных элемен- тах. Граница эта не очень четкая, но она есть. Историю осмысливания человеческого мышления обычно начина- ют от Аристотеля. Именно он сформулировал основные правила логи- ческого вывода. Затем, спустя много веков, в течение которых фор- мировались философские и естественнонаучные взгляды человечества, правила вывода Аристотеля были формализованы в алгебре Буля и исчислении высказываний. Дальнейшая формализация пошла именно по этому пути алгебраизации. Один из первых прототипов современных программируемых вы- числительных машин был создан Чарлзом Бэбиджем. Это была про- граммируемая механическая вычислительная машина. Дочь поэта Дж. Г. Байрона Ада Лавлейс написала инструкцию программирова- ния вычислений на этой машине. Эти выдающиеся по своему времени достижения были забыты. Началом современных программируемых ЭВМ принято считать вычислительную машину на релейных элемен- тах с быстродействием примерно в 100 операций в секунду, созданную По идеям венгерского математика Дж. фон Неймана. Возможно, что сказанное не дает достаточно четкого ответа на во- прос о том, какое отношение имеет формализация интеллектуальной деятельности и вычислительные машины к теории управления и кибер- нетике, к их основному принципу обратной связи. Принцип обратной связи указывает на общее направление управляющего воздействия. В приведенных выше примерах «логика» этого воздействия была очень Простой: скорость увеличивается — подачу пара уменьшить, скорость уменьшается — подачу пара увеличить. Как нужно уменьшать по- дачу пара и как ее увеличивать, об этом принцип обратной связи ни- чего не говорит. Кроме того, легко представить себе случаи, когда и «логика» управления значительно сложнее. Для этого следует обра- титься к более сложным задачам, чек! стабилизация скорости враще- ния маховика паровой машины, например к задаче управления посад- кой и взлетом самолетов, управления уличным движением на пере- крестке, управления сложным химическим технологическим процес- сом, управления распределением энергоресурсов и многим другим. В каждом из этих случаев необходимо прибегнуть к довольно сложной стратегии управления. Стратегия управления определяется ее алго-
16 ГЛ. I. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ ритмом, а алгоритм реализуется с помощью каких-то средств. Поня- тие алгоритма, способы его формализации, отыскания и реализации — это уже понятия и задачи, заимствованные из математической логики, теории алгоритмов и автоматов. Усложнение стратегии управления и необходимость для ее отыска- ния использования понятий и методов математической логики, теории алгоритмов и автоматов возникают не только при переходе к более сложным объектам управления. Это возможно и в задаче стабилизации скорости вращения, если она будет осложнена неизвестностью и «пла- ванием» параметров паровой машины, наличием случайных помех и стремлением в этих условиях реализовать наилучшее в некотором смыс- ле управление. Решение такой задачи требует использования совсем непростых алгоритмов идентификации, поисковой оптимизации и адаптации. Наконец, все это для своей реализации требует вычисли- тельной техники, да и сама вычислительная техника не более чем сис- тема, реализующая управляющие воздействия вводимой в нее програм- мы. Чтобы конкретно представить себе, сколь сложной и сколь техни- чески оснащенной может быть система управления даже сравнитель- но простым объектом, представим себе, что нам нужно ввести в совре- менный большой порт, где все время снуют малые и большие суда, сов- ременный большой лайнер. Причем ввести его на указанное место мы хотим своим ходом, не прибегая к средствам буксировки. Задача сос- тоит в том, чтобы провести лайнер по определенному коридору, не столкнувшись ни с одним другим судном .и не стукнувшись о причал. Управлять можно рулем и ходом (скоростью вращения винтов). Труд- ность в том, что громадная инерция лайнера выявляет последствия наших действий совсем не сразу, а, возможно, спустя многие минуты, и если эти действия были опрометчивыми, ничто уже не сможет помочь, и авария неизбежна. В этой ситуации необходимо прогнозировать возможные результаты управления на значительное время вперед, учитывая не только динамику движения лайнера, но и случайные вет- ровые воздействия, течения, волны, движения других судов. Наконец, даже имея прогнозы движения лайнера, нужно суметь ими восполь- зоваться, а это не так уж просто. Скорее это настолько сложно, что прогноз движений лайнера поручается ЭВМ, а человек, получая в удобной для него форме как эти данные прогноза, так и обстановку движения, принимает решения об управлении лайнером. Заметим, что в аналогичных задачах «попроще», например посад- ки самолета, уже достигнута полная автоматизация управления. Таким образом, если необходима краткая формулировка, то форма- лизация мышления дала теории управления методы и средства для оты- скания и реализации сложных и эффективных стратегий управления. Перейдем к освещению вклада в теорию управления теории переда- чи сообщений и теории информации. Многие современные системы управления включают в себя каналы передачи данных. Организация передачи данных, ее убыстрение, необходимость защиты их от помех —
ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ 17 эиэ и есть те вопросы, которые стоят и решаются в теории передачи сообщений и теории информации. Это достаточно сложные вопросы, и их решение сейчас далеко продвинуто как в плане теоретическом, •гак и техническом. Системы дальней телефонной связи осуществляют гигантские коэффициенты усиления (~10во) и защищены от помех. Мы принимаем очень слабые сигналы от космических аппаратов, на- ходящихся где-то возле Венеры, Марса и Сатурна, а это примерно то- же самое, что услышать писк комара на расстоянии многих километ- ров. Мы передаем на спутники управляющие сигналы, и в приеме их не должно быть ошибок. Мы записываем и считываем данные, необхо- димые для управления, из источников их хранения, и при этом нужно не делать ошибок, хотя со временем записи стираются и портятся, за- писывать эти данные нужно как можно плотнее. Однако не эти конкретные, очень важные практические проблемы определяют в первую очередь общее значение теории передачи сообще- ний и теории информации для теории управления и кибернетики. По- жалуй, самое принципиально важное—это само понятие информа- ции, оно играет в теории управления такую же роль, как понятие энер- гии в физике. При физических процессах происходят и изучаются трансформации энергии, переходы ее из одного вида в другой, из механического в электрический, из электрического в химический и т. д. При процессах управления происходят преобразования информации, и именно они изучаются в теории управления. Мера энергии и закон ее сохранения были установлены давно. Мера информации — совсем недавно в работах Клода Шеннона. Поэтому теорию информации, возможно, ждут такие же удивительные откры- тия, какие были в теории энергии. Но само понятие информации уже навсегда вошло в науку, навсегда останется и мера информации К- Шен- нона. Что передается по прямым и обратным каналам связи системы уп- равления, что обрабатывается в соответствии с алгоритмами управле- ния? Какие-то токи, отметки, перемещения, силы, напряжения. Но можно абстрагироваться от их конкретного физического воплощения и рассматривать их как некую информацию. Теория информации дала теории управления основу для такого общего, абстрагированного от физического содержания, подхода к исследованию процессов управления. Важность понятия информации и ее переработки в системах управ- ления позволила смотреть на кибернетику как на науку о переработ- ке информации. Это так, но это не все. Физика тоже изучает всевозмож- ные преобразования энергии, но к этому ее содержание не сво- дится. Как уже отмечалось, выяснение условий устойчивости работы регу- ляторов, а к концу прошлого века в Англии их было уже порядка 75 000, основывалось на теории малых колебаний Лагранжа. Так что у истоков теории автоматического регулирования стояла теория коле- баний. Именно она указала путь к исследованию динамики регулято-
18 ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ ров и их устойчивости. Это был путь линеаризованной теории, господ- ствовавшей вплоть до 30—40-х годов нашего века. Теорию колебаний принято начинать от Лагранжа. Хотя колеоа- ния маятника наблюдал и изучал Галилей, а Гюйгенс использовал их для создания великолепных часов, но именно Лагранж дал общие спо- собы составления дифференциальных уразнений малых колебаний вблизи равновесия и провел их исследование. Этим он заложил основы линейной теории колебаний. Следующий этап в теории колебаний — это трактат «Теория звука» Рэлея. Рэлей вовлек в колебательное рассмотрение не только лагран- жеву механику, но и акустику, электричество, теплоту. Он обнаружил аналогию между маятником и электрическим томсоновским контуром, разрядником, резонатором, органной трубой, музыкальным инстру- ментом. Он разгадал секрет поющего пламени и опыта Рийке. Он обна- ружил во всем этом многообразии великую колебательную общность. Он заложил основы «колебательной взаимопомощи», когда изучение явлений в одной области помогает разгадать их в другой. Известно, что явление резонанса колебаний грузика за пружинке подтолкнуло А. Н. Крылова к созданию теории качки корабля, позволило понять, почему и как килевая качка корабля зависит от его курса и скорости движения. Это же явление резонанса, возможно, дало идею закрити- ческого ротора в турбине Лаваля. А разве не резонанс лежит в основе радиопередачи и радиоприема? Чтобы лучше почувствовать суть этой колебательной взаимопомо- щи, расскажем об эффектной демонстрации поющего пламени. Пред- ставим себе обычную стеклянную трубу дленой метра полтора и диа- метром сантиметров десять. Труба открыта с концов и поставлена вер- тикально. Снизу в трубу вводят примерно ио центру тонкую трубку, по которой подается водород, горящий на ее конце. Видно, как пламя постепенно перемещается вверх по трубе, и вдруг возникает и нарас- тает до сильного звучания чистый красивый звук, весь зал наполняет- ся могучим звучанием. Это звучание может быть настолько сильным, что пламя вдруг гаснет и звук замирает. Пламя зажигают снова, и вновь зал наполняет чистый и красивый звук. Не следует думать, что дело в самом пламени. Горение — очень сложное явление. Пламя можно убрать и заменить раскаленной се- точкой — звук опять возникнет и будет длиться, пока не остынет ме- таллическая сетка. Что же звучит и почему это звучание вэзникает? Рэлей разгадал загадку. В трубе возникают колебания воздуха. Скорее всего, это ко- лебание основного тона трубы, когда в ее центре — пучность давле- ния, а по концам — узлы. Это как в органной трубе. Но что возбуждает и что поддерживает эти колебания? Колебания давления влияют на пламя, так как с возрастанием давления вытека- ние водорода замедляется, а с его убыванием — ускоряется. Таким образом, интенсивность выделения тепла зависит от фазы колебаний воздуха в трубе. В свою очередь более интенсивное выделение тепла
ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ 19 повышает давление, и ясно, что если эти повышения давления делать в подходящие фазы колебаний воздуха в трубе, то они будут нарастать. Это\совершенно так же, как при раскачивании маятника, при подтал- кивании его в «попутном» направлении, когда он проходит через сред- нее положение. Такова разгадка. Она вся — на колебательных анало- гиях, на аналогии со звучанием органной трубы и способом поддержа- ния колебаний маятника часов. Когда впервые показывались эти опыты, едва ли можно было ду- мать, что спустя много лет эти же колебания будут вредить нормаль- ной работе реактивных двигателей и инженеры будут искать их при- чины и способы устранения. Обратим внимание еще вот на что. В трубе возникают автоколеба- ния, и причиной их является замкнутый цикл воздействий, составлен- ный из прямой и обратной связей: изменение давления воздуха в трубе влияет на пламя, пламя через выделение тепла влияет на колебания воздуха в трубе. Так что все происходит не без принципа обратной свя- йи. Это с его помощью затухающие колебания превратились в нараста- ющие и наполнили аудиторию сильным и чистым звуком. Это еще один пример того, как обратная связь может служить не только для стабили- зации скорости вращения, но и быть причиной возникновения колеба- ний. Давайте теперь с этой новой точки зрения посмотрим на возникно- вение неустойчивости регулирования скорости вращения паровой ма- шины. Мы считаем, что регулятор осуществляет очень простую страте- гию управления, состоящую в том, что при увеличении скорости враще- ния уменьшается подача, пара, а при уменьшении скорости вращения подача пара увеличивается. Но ведь так будет, если скорость враще- ния не очень быстро меняется и шары центробежного измерителя ско- рости вращения успевают менять свое положение и положение за- слонки. А что будет, если эти изменения достаточно быстрые и шары регулятора не успевают за ними? Тогда логика стратегии управле- ния может нарушиться и даже стать такой, что при увеличении скорости вращения подача пара увеличивается, а при уменьше- нии — уменьшается. Следствием этого будет уже не стабилизация скорости вращения, а, наоборот, нарастание ее изменений. Предотвра- тить такую возможность путем уменьшения масс шаров нельзя, поскольку именно они должны двигать дроссельную заслонку. Но тен- ' денцию к колебательности нужно уменьшить. Именно это сделал Вы- шнеградский, предложив специальное устройство — катаракт — для демпфирования колебаний шаров регулятора. Из сказанного ясно, что механизмы возникновения поющего пламени и колебаний регуля- тора одинаковые. Оба они объясняются замкнутым циклом воздей- ствий, в котором возмущение нарастает. Для автоматических регуляторов такое нарастание вредно. Но то, что вредно для регулирования, оказалось полезным и нужным в на- рождающейся радиотехнике, и она стала использовать принцип обрат- ной связи для генерации колебаний. Принцип обратной связи оказал-
20 ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ ся полезным и для приема слабых сигналов. Возникли новые пробле- мы, и они дали толчок развитию теории колебаний. В это развитие зна- чительный вклад внесли работы голландского физика Ван-дер-Поля и школ Л. И. Мандельштама — А. А. Андронова и Н. М. Крылова — Н. Н. Боголюбова. В бурный период становления теории нелинейных колебаний как отдельной научной дисциплины задачи автоматического управления отошли для нее на второй план. Возврат к ним произошел только в сороковых годах. С ним в теорию автоматического регулирования пришли новые методы исследования линейных систем автоматического регулирования, основанные на идеях операционного исчисления Хевисайда, и новые методы исследования нелинейных систем, веду- щие свое начало от работ А. Пуанкаре и А. М. Ляпунова. Из сказанного ясно, что теория колебаний снабдила теорию управ- ления методами исследования устойчивости и динамики систем авто- матического управления. Вместе с этим неприметным образом она пе- редала теории управления общий колебательный подход, подход к системам и задачам управления, при котором системы управления рассматриваются безотносительно к конкретной их технической и кон- структивной реализации. Она научила происходящие в системе про- цессы управления рассматривать безотносительно к тому, происходят ли они в механических или химических системах, в живом организме или в человеческом обществе. Возможность такого общего подхода основывается на изоморфизме колебательных закономерностей и зако- номерностей процессов управления в системах различной природы, на изоморфизме колебательных процессов и процессов управления в этих системах абстрактным процессам в их математических моделях. Подводя итог сказанному о становлении кибернетики, перечислим ключевые слова основных ее понятий: информация, алгоритм, изо- морфизм и обратная связь. Теперь, после того как мы бегло ознакомились с базой и возникно- вением теории управления, попытаемся осветить вопрос о том, что та- кое кибернетика сегодня и чем она будет завтра. С момента ее рожде- ния прошло немногим более тридцати лет. Это очень малый срок. Но мы живем в очень бурное и стремительное время. За эти короткие годы человек успел на спутнике облететь земной шар, побывать на Луне, создать атомную энергетику, создать громадную индустрию вычис- лительной техники, организовать спутниковую космическую телеви- зионную связь. Темпы развития теории управления как науки оказа- лись подстать стремительному развитию этих передовых направлений техники, да и эта техника была бы невозможна без кибернетики. Ки- бернетика обзавелась партнерами — это математическая кибернетика, техническая кибернетика, биологическая кибернетика, медицинская кибернетика и даже эволюционная кибернетика. Методы кибернетики используются и в химии, и в физике, и в геологии, и в лингвистике. Они стали проникать всюду. Кибернетика породила автоматизирован- ные системы управления, включая производство и технологию (АСУ,
ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ 21 АйУП и АСУТП), автоматизированные системы научных исследований (АСНИ) и систему автоматизированного проектирования (САПР). Она стимулирует создание более сложных, чем ранее, автоматов-роботов, способных совершать много-более сложные и не столь жестко програм- мированные действия, чем обычные автоматы. Вычислительные маши- ны усилили интеллектуальную мощь человека. Кибернетика возгла- вила научно-технический прогресс и новую научно-техническую рево- люцию. Именно эти социальные последствия предсказывал Н. Винер кибернетике в своей книге уже в 1948 г. Что же такое кибернетика как наука? Это не математика и не мате- матическая наука. Во всяком случае, ее нет в многотомном сочинении Никола Бурбаки. Она не имеет аксиоматики. Среди основных ее мето- дов — эксперимент. Но она непохожа и на физику или химию. Физика К химия имеют свои определенные объекты исследования. Химия изу- чает химические вещества и их превращения. А что изучает кибернети- ка? Процессы управления, но что это такое и в чем они происходят? Все равно в чем, не важно в каких объектах. Так что и на естествен- ную науку она непохожа. Кибернетика не техническая наука уже по- тому, что она проникает во все технические науки и ни к одной из них не сводится. По-видимому, следует признать за теорией управления (киберне- тикой) право быть наукой нового синтетического типа, наукой о про- цессах управления и переработки информации. Сейчас, возможно, эти слова звучат несколько странно. Но ведь еще совсем недавно на страницах печати дискутировался вопрос о том, есть ли такая наука «теория автоматического регулирования». Многим казалось, что такой науки нет, потому что у нее нет своих методов, своего объекта иссле- дования, что она лишь приложение знаний, добытых в других науках, к инженерным задачам автоматического регулирования. Перед кибернетикой стоят мировые загадки. Это загадки жизни и нашего мозга. Конечно, не перед одной кибернетикой, но на нее воз- лагаются большие надежды. Эти надежды имеют основания. В нашем понимании основ жизни, молекулярных ее основ, идеи кибернетики сыграли не последнюю роль. Известно, что камнем преткновения эво- люционной теории Дарвина был вопрос о том, как и почему от зайчихи Происходит зайчонок. Каким образом из одной клетки возникает но- вый организм, каким образом он наследует видовые признаки? Как и откуда маленькая клетка знает, что из нее должен вырасти зайчонок, а не собачка? Как передаются видовые признаки, как вся сложнейшая организа- ция человека передается следующему поколению — эта великая тай- на природы пала. Многое еще не ясно, но тайны нет. В каждой клетке есть «книга жизни» в виде тончайших спирально закрученных лент длиной в несколько сантиметров, на которых все записано. Записано в четырехбуквенном алфавите, каждая буква которого — молекула определенного химического вещества. Запись эта очень большая, она больше, чем та, которая содержится в самой большой энциклопедии.
22 ГЛ. 1 ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ Эту книгу может «читать» и передавать записи на «печатные станки» транспортная РНК. Печатные станки—рибосомы—размножают тексты в виде новых записей в двадцатибуквенном алфавите. Буквами этого нового алфавита являются молекулы двадцати аминокислот, а запи- си — это белковые соединения, из которых построено все живое. На этой фабрике синтеза белков есть линии передачи сообщений, уст- ройства перекодировки (перевода текста из одного алфавита в другой), печатающие устройства, системы управления с обратными связями. Обратные связи ускоряют и замедляют процессы синтеза, прекращают и начинают их, корректируют ошибки. Что нам известно о деятельности человеческого мозга или куда более примитивного нервного узла паука или муравья? Лишь общие и подчас смутные представления, сомнительные аналогии с вычисли- тельной машиной, отдельные успехи в понимании процессов передачи и обработки нервных импульсов. Как функционирует мозг, чем объяс- няется его гибкость и универсальность, его огромные возможности и где их границы? На эти вопросы нет ответов. Нет ответов и на многие, казалось бы, простые конкретные вопросы, например, каков носитель памяти. Память огромна, а выборка из нее быстра. Как это согласо- вать? Робототехника столкнулась с новой проблемой — проблемой организации и управления движениями. Она оказалась непомерно' сложной даже в рамках проблемы «глаз — рука». Мы организуем свои сложнейшие движения подсознательно, сознание лишь формирует об- щий их план, их целевое назначение. Оступившись, мы автоматически принимаем необходимые меры, и если все же падаем, то пугаемся уже после падения. Проблема воссоздания в машине образа окружающего нас мира и организации в нем движений оказалась настолько сложной, что эта сложность навела на мысль, что в процессе эволюции наш мозг сфор- мировался, решая проблемы поиска пищи, активного ухода от врагов и поиска лучших условий жизни. То есть что он сформирован и при- способлен в первую очередь для решения этих сложнейших проблем ориентации и движения в пространстве, а наше сознание и логичес- кое мышление — лишь побочный результат. Может быть, это и так, а, может быть, это так лишь до понимания следующих сложных проб- лем, поставленных эволюцией перед живыми организмами на земле. Таким образом, жизнь и ее тайны, мозг и его загадки — это много- гранные комплексные проблемы, которые в значительной мере — про- блемы комплексной науки кибернетики. Постижение этих тайн и зага- док будет стимулом и трамплином для самой теории управления. Теперь несколько слов о лечении и о проблемах человека-операто- ра. Лечение можно трактовать как задачу организации воздействий на наш организм — управляющих воздействий, которые бы вывели его из болезненного состояния. Такая постановка задачи хотя и открыва- ет широкие перспективы, но эффективно и с пользой реализована сей- час только в состояниях глубокой подавленности организма, когда
ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ 23 его функционирование приобретает весьма упрощенный вид. Такая упрощенность возникает в результате очень тяжелых травм, переох- лаждений, глубоких оперативных вмешательств, например, операций на сердце. При этом сознание полностью выключено, вегетативные функции сужены и подавлены, физиологические функции разобщены и не координированы. Организм почти мертв, жизнь еле теплится в нем. Его нужно вывести из этого состояния, вернуть его к жизни — это называется реанимацией. Она должна осуществляться быстро, точно и с учетом многих факторов. Уже сейчас в решении задач поддержания жизни в ее критическом состоянии и в реанимации существенную поль- зу оказывают средства кибернетики, ее автоматические устройства, ее алгоритмы управления и ее вычислительные системы. Эта эффектив- ная помощь несомненно будет расширяться, и это тоже одна из проб- лем, стоящих перед теорией управления. Очень многообразный и сложный комплекс проблем выдвигают пе- ред кибернетикой (биологической кибернетикой) вопросы организации человеко-машинных комплексов, проблемы человека-оператора. Как довести до человека-оператора всю необходимую информацию, как увериться, что он ее воспринял, как облегчить ему задачи принятия решений, как проверить, что оператор не ошибся из-за временного не- внимания, усталости или болезни? Итак, перед теорией управления много нерешенных малых, средних н больших проблем. На нее возлагаются большие надежды, она в авангарде научно-технического прогресса нашего времени. При зарождении кибернетики ключевыми ее понятиями были ин- формация, алгоритм, изоморфизм и обратная связь. Изменились ли они за истекшее время или к ним что-то добавилось? Да, добавилось, и это добавление очень существенное — оптимизация. Это веление времени. Мы хотим все делать наилучшим образом, мы не можем себе позволить делать что-либо плохо. Наши резервы не безграничны. Мы вынуждены экономно потреблять природные ресурсы, уменьшить загрязнение природы, для этого мы должны оптимизировать функцио- нирование нашей промышленности и экономики, для этого следует все делать оптимальным образом. Нужно сказать, что стремление к оптимизации заложено в человеке природой. Идя с работы домой или из дома на работу, вы выбираете оп- тимальный путь либо из соображений минимизации временных зат- рат, минимизации риска непредвиденных обстоятельств и опоздания, максимизации приятности пути, либо из каких-то компромиссных со- ображений. Очень отчетливо проявляется заложенное в нас стремле- ние к оптимизации в наших неосознаваемых действиях: в ходьбе, в срезании углов при поворотах, в желании некоторых (увы!) пересечь по диагонали газон, а не идти по огибающей его тропинке, в наших профессиональных движениях, во всем том, что получило наименова- ние экономности движений. Понятия оптимальности и оптимизации были и тридцать и триста Дет тому назад. Всякое управление имеет своей задачей достижение
24 ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ какой-то цели. И тогда во многих случаях эти цели состояли в миними- зации некоторых функционалов. Но эта минимизация не была во гла- ве, она выступала лишь как средство формализации понятия цели. Сейчас это не так, сейчас оптимизация и стремление к ней — ведущая идея. Система управления должна функционировать не как-нибудь, а оптимальным или хотя бы квазиоптимальным образом. А это повлекло за собой далеко идущие последствия. Уже давно известно, что общность способа решения находится в противоречии с его простотой. Сужая задачу, можно упростить алгоритм ее решения; расширяя ее постановку, мы, как правило, усложняем алгоритм ее решения. Более того, для очень общих задач алгоритм решения может даже отсутствовать. Как же согласовать стремление к возможно более простому решению со стремлением к достаточно общему решению? В применении к теории управления эта проблема выглядит так: как согласовать возможность функционирования системы управления в возможно более разнообразных условиях с возможно лучшим ее функ- ционированием в каждом конкретном случае? Разрешение этой' конфликтной ситуации возможно с помощью двухуровневой организации управления, при которой второй уро- вень управления адаптирует первый уровень к конкретным условиям. Эту адаптацию можно представить себе как некоторую перестройку параметров или переход к новой структуре в системе управления пер- вого уровня. Можно ее представить и так, что имеется некоторый на- бор систем управления и в каждом конкретном случае управление вто- рого уровня выбирает наиболее подходящую. Перестройка первого уровня управления может происходить на основе выяснения, каковы конкретные условия работы системы по каким-то их признакам. Например, шофер автомашины меняет переда- чу в зависимости от дороги, ее подъема или спуска. Эта перестройка может носить поисковый характер, и тогда ее на- зывают обучением. Нужно сказать, что сейчас нет четкой терминоло- гической грани между адаптацией и обучением, но можно ее видеть в отмеченном различии алгоритма перестройки первого уровня, хотя глубина перестройки первого контура в этом словоупотреблении так- же играет определенную роль. Таким образом, стремление к улучшению и оптимизации сущест- вующих ранее систем управления привело к идее их адаптации и обучения, к построению адаптивных и самообучаемых систем. Наряду с этим стали возникать и совершенно новые адаптивные и самообучаемые системы. А это уже существенный скачок. Это переход от управления по заданным алгоритмам к созданию систем, которые сами ищут и формируют свой алгоритм управления. Конечно, делают они это тоже на основе каких-то алгоритмов — алгоритмов адаптации и обучения. Это кардинальное различие, оно существенно изменяет как содержание теории управления, так и ее технические возможности. Отметим, что поиск нужного алгоритма управления может быть типа проб и ошибок, типа более или менее быстрого самообучения, но
ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ 25 он может носить и характер обучения некоторым учителем, который показывает, как нужно делать, или подсказывает, когда делается вер- но и когда неверно. Конечно, обучение с учителем, как правило, быст- рее ведет к цели. Но всему не научишь, слишком всего много, не все можно предвидеть. А иногда учителя нет и не у кого учиться. Так что самообучение тоже необходимо. По-видимому, самое существенное, что характеризует современный этап развития теории управления,— это оптимизация, адаптация и обучение и связанное с этим расширение возможностей систем управ- ления. Теория оптимизации возникла вне теории управления в виде клас- сического вариационного исчисления и минимизации функций, в виде линейного и нелинейного программирования. Однако современные методы оптимизации динамических процессов, и в первую очередь принцип динамического программирования Р. Веллмана и принцип максимума Л. С. Понтрягина, уже возникли в ее недрах. С теорией управления связаны и новые задачи оптимизации на сетях и графах. Таким образом, к своим старым ключевым словам: информация, алгоритм, изоморфизм и обратная связь теория управления добавила еще оптимизацию, адаптацию и обучение. ИНФОРМАЦИЯ, АЛГОРИТМ, ИЗОМОРФИЗМ, ОБРАТНАЯ СВЯЗЬ, ОПТИМИЗАЦИЯ, АДАПТАЦИЯ И ОБУЧЕНИЕ — вот ключевые понятия современной теории управления. Настоящая книга тоже имеет свое ключевое понятие СОСТОЯНИЕ, которое лежит в основе понятия динамической системы и дает полную информацию для управления.
ГЛАВА 2 ПОНЯТИЯ СОСТОЯНИЯ и ДИНАМИЧЕСКОЙ СИСТЕМЫ § 1. Законы движения планет Солнечной системы. Механическое состояние и уравнения Ньютона, Лагранжа и Эйлера По-видимому, первыми математическими моделями, позволяющими прогнозировать будущее, были модели движения планет Солнечной системы. И это не случайно, так как интерес к построению системы движения небесных тел был вызван насущной практической необхо- димостью и прежде всего необходимостью определять и измерять вре- мя. Это было нужно и для земледелия, и для скотоводства. Нужно было знать, когда сеять («не посеешь — не пожнешь»). Нужно было знать, когда перегонять стада на пастбищах, когда начинать и кончать ту или иную работу. Важно было знать, когда наступают засушливые, а когда дождливые периоды, когда разливаются реки, когда наступа- ют холода и т. п. Наблюдая за небесными телами, люди поняли, что все эти явления как-то связаны с их движением. Стали подмечать за- кономерности их движения и строить различные системы мира, кото- рые не только проложили дорогу системе, основанной на теории тяго- тения Исаака Ньютона (1643—1727), но в значительной мере определи- ли все развитие точного естествознания и наши общие представления о характере закономерностей окружающего нас мира. Поэтому, про- слеживая эволюцию наших взглядов на закономерности движения не- бесных тел, мы в значительной мере прослеживаем и эволюцию, и фор- мирование наших общих естественнонаучных представлений. Уже птолемеева теория движения небесных тел носила харак- тер математической модели, но модели описательного геометрического характера. Это отвечало состоянию астрономии того времени, которая была чисто описательной наукой, основанной только на непосредствен- ном наблюдении. Если наблюдать за ночным небом, то кажется, что звезды прикреп- лены к небесному своду, который вращается вокруг Земли. Именно так считали астрономы древности, которые ставили в центр мира не- подвижную Землю, а вокруг нее — вращающуюся небесную сферу с прикрепленными к ней звездами. Но уже тогда были известны пять небесных тел (помимо Солнца и Луны), движение которых не уклады- валось в эту схему. Они хоть и участвовали в суточном вращении небо- свода, но их положение относительно звезд и относительно друг друга менялось довольно причудливым образом. Древние греки назвали эти небесные тела планетами, что по-гречески означает «блуждающая звезда», а древние римляне дали им имена в честь своих богов: Мерку-
§ 1. МЕХАНИЧЕСКОЕ СОСТОЯНИЕ 27 рий, Венера, Марс, Юпитер, Сатурн. Именно с этими пятью планетами и стремлением дать истолкование их движения связано дальнейшее развитие астрономии и появление различных моделей Вселенной, из которых наиболее полной была геоцентрическая система мира Клав- дия Птолемея (II век н. э.). 'Ъ этой модели сконцентрировались, по существу, все описания дви- жения планет, которые сложились к этому времени. В ее основе лежа- ли представления о том, что планеты —• идеальные шары и их движе- ние складывается из комбинаций равномерных круговых движений. Каждая планета, а также Солнце и Луна, совершает круговое движе- ние вокруг некоторого центра, который в свою очередь вращается по некоторой окружности вокруг неподвижной Земли. При соответствую- щем подборе радиусов кругов и скоростей модель Птолемея действи- тельно отражала основные особенности видимых движений планет. Она позволила с большой точностью измерять время, предсказывать лунные и солнечные затмения, создать календарь, который в даль- нейшем не претерпел существенных изменений. По мере уточнения и расширения наблюдаемых данных для их согласования с теорети- ческими число кругов птолемеевой системы (циклов, эпициклов, ги- перциклов) увеличивалось и приводило к все большему и большему ее усложнению. Кроме того, в птолемеевой системе мира, описывающей видимые движения планет, имелись закономерности, обусловленные отражением движения Земли вокруг Солнца и вокруг своей оси на движениях всех пяти планет, которые этой теорией никак не объяс- нялись. Следующий шаг в развитии представлений о строении мира связан с именами Николая Коперника (1473—1543), Галилео Галилея (1564— 1642) и Иоганна Кеплера (1571—1630). К этому времени система Пто- лемея , незыблемо просуществовавшая 14 веков, была уже не в состоя- нии объяснять растущее число фактов наблюдательной астрономии и становилась тормозом в развитии как астрономии, так и всего естество- знания. Чтобы двигаться вперед, надо было ее заменить. И этот шаг был сделан польским ученым Николаем Коперником, открывшим гели- оцентрическую систему мира. Основным в его системе было то, что центром Вселенной является не Земля, а Солнце. Все планеты, и в том числе Земля, вращаются вокруг него, кроме того, Земля еще вращает- ся вокруг своей оси. Гелиоцентрическая система Коперника несрав- нимо проще, со значительно меньшим числом кругов, объясняла види- мые движения планет. Однако она противоречила естественному пред- ставлению о Земле как о центре Вселенной, являющемуся церковной догмой. Удар по этой догме нанес итальянский ученый Галилео Га- лилей. С помощью телескопа собственной конструкции Галилей сде- лал ряд важных наблюдений, подтвердивших систему Коперника, и, в частности, обнаружил четыре спутника Юпитера, разбив догмати- ческое утверждение, что центром вращения может быть только Земля. Избавил от кругов систему Коперника Иоганн Кеплер, установив три закона движения планет, и в том числе Земли. Согласно первому
28 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ и ДИНАМИЧЕСКОЙ СИСТЕМЫ закону Кеплера каждая планета двигалась по эллипсу, в одном из фокусов которого находилось Солнце. По эллипсу они двигались так, что в равные времена радиус-вектор Солнце — планета описывал равные площади. И, согласно третьему закону, квадраты времен обращения планет пропорциональны кубам больших полуосей эллип- сов, по которым они движутся. Все это поколебало и разрушило освященные церковью догмы о незыблемости и порядке мира, в центре которого находится Земля. Земля стала рядовой планетой, вместе с другими совершающей движе- ние вокруг Солнца. Спала завеса индивидуальности, неповторимости земных явлений и процессов, и был освещен путь к открытию основных законов естествознания, дающих общее объяснение земным и небесным явлениям и общее объяснение всем трем законам Кеплера. Так закончился целый период описательного изучения движения планет Солнечной системы. Итогом его была в целом правильная кар- тина строения мира и конкретные представления о движении планет, об их орбитах, периодах обращения и др., основанные на доступных тому времени наблюдениях. И хотя было непонятно, почему планеты движутся в соответствии с законами Кеплера, модель Коперника сыг- рала решающую роль в открытии закона всемирного тяготения и фор- мировании описания движения планет, которое легло в основу совре- менной математической модели Солнечной системы, основанной на тео- рии Ньютона. Как построить ньютоновскую математическую модель Солнечной системы? Прежде всего надо ее выделить и рассмотреть как изолиро- ванную систему. Итак — Солнечная система. Дальше надо отказаться от всего, что с точки зрения нашей задачи не важно, например: от влия- ния далеких звезд, есть ли жизнь на Марсе или нет, что делается на Земле и т. д. Поэтому все планеты Солнечной системы, их спутники и само Солнце мы будем изображать материальными точками, которые движутся, каждая по своей орбите. Такое представление планет поз- воляет ввести их описание S, состоящее из координат материальных точек и ик скоростей. Если перенумеровать все планеты и их спутники, то описание будет выглядеть так: У1, 21; ...; х„, уп, гп и yt, г,; ...; х„, у„, г„. Теперь — теория Ньютона. Что она дает? Она дает возможность найти оператор, с помощью которого по описанию S(t) в момент- вре- мени t можно найти описание S(Z+AZ) в будущий момент времени /+ +Д/. В соответствии со вторым законом механики и законом всемир- ного тяготения мы можем записать уравнения
§1. МЕХАНИЧЕСКОЕ СОСТОЯНИЕ 29 Здесь т.{ — масса i-й планеты, Гц — расстояние от i-й планеты до /-й, которое зависит от координат планет, и у — гравитационная постоян- ная. Систему Зп дифференциальных уравнений второго порядка (1.1) можно записать в виде системы 6п уравнений первого порядка = xi = ui, ..., (1.2) ra которая в свою очередь с помощью вектора S с компонентами xlt у1г «ь- • ! хп< Уп, гп’ • • •; и„, vn,wn записывается в виде одного векторного уравнения вида ^ = F(S), (1.3) где F (S)— вектор, определяемый вектором S. Из (1.3) следует, что вектор S(i+Ai) может быть найден через вектор S(Z): S(t + M) = S(t) + F(S)M+ ..., (1.4) т. е. любое последующее описание Солнечной системы, даваемое век- тором S, может быть найдено по любому предшествующему такому же описанию. С точки зрения теории дифференциальных уравнений — это Следствие теоремы о существовании и единственности решения задачи Коши для дифференциальных уравнений (1.2), а с точки зрения пони- мания движения Солнечной системы — это возможность прогнозиро- вания всего ее последующего движения по начальным данным. Факти- ческое решение задачи прогнозирования состоит в интегрировании уравнений (1.2). Задача, вообще говоря, весьма непростая и, как пра- вило, требующая использования вычислительных средств. Факт этой возможности отразим соотношением S(t + M) = T (M)S(t), (1.5) обозначающим, что по описанию S(t) в момент времени t с помощью Оператора Т(Д/) может быть при любом Д^О найдено описание S(Z+ ф-А/). Итак, мы установили, что описание S(t) движения планет Солнеч- ной системы обладает определенной полнотой в том смысле, что изме- нение его во времени им же определяется. Такое описание называют состоянием, а систему, к которой оно относится,— динамической сис- темой. Таким образом, динамическая система — это система, допус- кающая описание, являющееся состоянием. При этом существенно, что под полнотой описания имеется в виду не его широта и детальность, а только достаточность для определения его дальнейшего изменения по нему самому. Так, квантовомеханическое описание может не ка- заться нам полным, но оно образует состояние. Заведомо неполно лю- бое вероятностное описание, но оно тоже может образовывать состоя- ние. Некоторое соответствие между нашими интуитивными представ-
30 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ и ДИНАМИЧЕСКОЙ СИСТЕМЫ лениями о полноте и понятием полноты описания, образующего сос- тояние, имеется лишь в отношении механических и, возможно, электро- динамических систем, т. е. в рамках классической детерминистической физики. С теорией Ньютона не только непосредственные наблюдения давали «пищу» астрономии, значительное развитие получили и методы вы- числения орбит и движений тел Солнечной системы. Теоретические исследования математических моделей движения небесных тел и воз- можность прогноза их движения привели к ряду замечательных дости- жений, одним из которых было теоретическое открытие или, как гово- рят, «открытие на кончике пера» восьмой планеты Солнечной систе- мы — Нептуна. Именно для решения задач небесной механики Ньютоном были раз- работаны основы аппарата дифференциального и интегрального ис- числения и тем самым заложены основы математического анализа и всей высшей математики. И долго после Ньютона, вплоть до конца XIX века, высшая математика развивалась бок о бок с небесной меха- никой, дав науке много замечательных результатов и, в частности, аналитическую механику, теорию возмущений, теорию устойчивости и качественную теорию дифференциальных уравнений. Представление небесных тел как системы взаимодействующих ма- териальных точек позволило осмыслить и сформулировать понятие состояния для произвольной механической системы, позволило найти их описание и построить динамические системы механики. Сегодня ме- ханическую систему мы понимаем как совокупность взаимодействую- щих между собой материальных частиц. Наиболее характерными яв- ляются три типа механических систем, отвечающие различным идеа- лизациям. 1. Система материальных точек. Этот тип механической системы имеет место, когда число взаимодействующих частиц невелико и един- ственным характерным свойством их является масса. 2. Твердое тело. Число частиц велико, но все они «жестко» связаны друг с другом, так что расстояния между ними не меняются. 3. Газы, жидкости и упругие тела. Число частиц велико, связи между ними «нежесткие», и расстояния между ними могут меняться. Первые два типа систем объединены общим названием — дискрет- ные механические системы. Третий тип иногда называют распределен- ными механическими системами. Общую форму задания состояния и написания уравнений движе- ния для дискретных систем дал Жозеф Луи Лагранж (1736—1813). Согласно Лагранжу состояние S механической системы описывает- ся обобщенными координатами Qi, q2, . . ., qn и обобщенными скорос- тями <7i, q2, . . ., qn, а уравнения движения имеют вид 77^-^ = ° (i = 1, 2, ..., п). (1.6)
§ 1. МЕХАНИЧЕСКОЕ СОСТОЯНИЕ ЗГ Здесь L — функция Лагранжа, т. е. выраженная через обобщенные координаты и скорости разность кинетической и потенциальной энер- гий системы. tz dL Как известно, в новых переменных qlf q2, . . ., qn и р1^= —г—, ... ..., рп — —-—уравнения Лагранжа записываются в форме уравне- dqn ннй Гамильтона дН дН .. q'1^ dPi' Pi~ dqi’ где H — функция Гамильтона, которая представляет собой полную энергию системы (кинетическую и потенциальную), выраженную че- рез обобщенные координаты qt и обобщенные импульсы pt. Из возмож- ности записи уравнений механики в виде (1.7) следует, что за состоя- ние механической системы можно принять совокупность ее обобщен- ных координат и импульсов. Если ввести вектор состояния S(qlt ри . . .ъ р„), то уравнение (1.7) можно опять записать в виде (1.3). При этом . дН дН дН дН F(S) будет вектором с компонентами , . .., Как следствие уравнений (1.6) или соответственно (1.7), для изменения состояния дискретной механической системы имеет место соотноше- ние (1.5). Итак, для любой системы материальных точек и твердых тел ясно, что такое механическое состояние, каким дифференциальным уравнениям оно удовлетворяет и как построить оператор Т (Д2), связы- вающий состояние в моменты времени t и /+Д^. Лагранж пытался применить разработанный им метод составления уравнений движения дискретной механической системы к изучению, движений струны и даже жидкости, но полной ясности он не достиг.. Уравнения движения идеальной несжимаемой жидкости вывел Лео- нард Эйлер (1707—1783). Они представляли собой дифференциальные, уравнения в частных производных вида fy + (Vv) v = — ~Vp, divv = 0. (1.8> Вэтих уравнениях v(x, у, z\ t) — вектор скорости течения жидкости в точке (х, у, г) в момент времени t, р и р (х, у, z; f) — постоянная плот- ность жидкости и соответственно давление жидкости в точке (х, у, г) в момент времени t. Первое уравнение Эйлера (1.8) выражает второй, закон Ньютона для любой движущейся частицы жидкости, второе — так называемое уравнение неразрывности, выражающее сохранение- массы любой движущейся частицы жидкости. Если к уравнениям (1.8У добавить краевые условия на границе рассматриваемого объема жид- кости и начальные условия (поле скоростей течения жидкости в началь- ный момент времени), то, как оказывается, получающаяся задача имеет единственное решение, т. е. по начальному полю скоростей на- ходится поле скоростей течения жидкости в любой последующий мо- мент времени. Из этого следует, что поле скоростей v (х, у, в; /) являет-
32 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ и ДИНАМИЧЕСКОЙ СИСТЕМЫ •ся состоянием S (t) и что существует оператор Т(АО такой, что S(t + M) = T(bt)S(t). (1.9) Этот вывод несколько неожиданный. Согласно предыдущему мож- но было бы ожидать, что понятие механического состояния жидкости должно включать в себя положение частиц жидкости и их скорости. Уравнения Эйлера приводят к выводу о том, что состоянием являются уже только скорости всех частиц жидкости — поле скоростей текущей жидкости. Однако для упругой сплошной среды это уже не так, в опи- сание ее состояния входят не только скорости, но и положение частиц. и(х Так что следующая из уравнений Эйле- ра возможность исключения из состоя- <<: Т___ния положений частиц является спе- a=Z7 цифической особенностью жидкой сплош- рис. 2.1 н°й среды. Эта особенность состоит в идентичности жидкости как механиче- ской системы самой себе после любых ее перемещений. Отказ от предположений идеальности и несжимаемости жидкости (газа) приводит не только к усложнению уравнений Эйлера, но и рас- ширению описания, отвечающего состоянию. Если сохранить предпо- ложение о несжимаемости, но учесть вязкость жидкости, то уравнения Эйлера заменятся уравнениями Навье — Стокса Лжг 1 57 + (Vv)v=— — Vp + vAv, divv = 0, содержащими новый член vAv, учитывающий силы вязкости. Отказ от несжимаемости влечет необходимость расширения понятия состояния и включения в описание жидкой сплошной среды не только ее скоростей, но и термодинамического описания ее в каждой точке, т. е. полей давлений, плотностей и температуры. В отдельных случаях здесь возможны упрощения, однако в общем случае необходимо ис- пользование термодинамических соотношений между давлением, плот- ностью и температурой и уравнений распространения тепла. Перейдем к упругой сплошной среде. Ограничимся очень простым примером колебаний закрепленной на концах натянутой струны (рис. .2.1). Будем описывать струну в каждый момент функцией и(х, t), опре- деляющей отклонение точек струны от равновесного положения, и функцией v(x, t), определяющей скорости этих точек струны. Изме- нение этих функций во времени описывается дифференциальными уравнениями вида dv „ д2и ___— а* — dt дх2' ди di = V. К этим уравнениям надлежит присоединить условия на границах «(О, 0=0, и(1, 0=0. После этого задание и(х, i) и и(х, 0 в некоторый момент времени t вместе с уравнениями и граничными условиями опре-
§2. ЭЛЕКТРОМАГНИТНОЕ ПОЛЕ И УРАВНЕНИЯ МАКСВЕЛЛА 33 деляет смешанную задачу математической физики, решение которой существует и единственно, т. е. если знать форму струны и скорости ее точек в какой-то начальный момент времени, то их можно найти в лю- бой последующий момент времени. Это означает, что пара функций и(х,) v(x) является состоянием струны, а решение описанной смешанной задачи математической фи- зики дает оператор, связывающий настоящее состояние с будущим. § 2. Электромагнитное поле и уравнения Максвелла Представляющиеся нам сейчас естественными законы механики возникли не сразу. Поначалу казалось очевидным, что силы вызывают движение, а не изменяют его. Казалось, что отсутствие сил ведет к прекращению движения. Примитивно осмысливаемый земной опыт, ка- залось бы, только подтверждал эту точку зрения. «Опыт небесный» учил совсем другому, но для этого нужно было принять общность за- конов, земных и небесных. Но как бы там ни было, законы механики сравнительно легко синтезировались с привычными представлениями и привели к детерминистически механистическому восприятию мира. И так же, как в свое время Архимед воскликнул: «Дайте мне точку опоры и я сдвину землю!», Лаплас сказал, что если ему зададут во всех деталях описание мира, то он предскажет его будущее. Описание понималось как механическое. Все состоит из частиц, а частицы дви- жутся по законам механики. Частиц очень много, и они разные. Разнообразие частиц и их дви- жений — это и есть окружающий нас мир. Может быть, поэтому перво; начально электрические явления воспринимались как фокусы. Ведь фокус — это когда мы видим действия и не понимаем или не улавли- ваем их причинную обусловленность и взаимосвязь. Понятый фокус — это уже не фокус. «Разоблачение» электрических фокусов оказалось делом очень непростым. Для этого нужно было прибегнуть к совер- шенно новым непривычным представлениям об электромагнитном поле, которое непосредственно никогда не встречалось и опыт общения с которым отсутствовал. Для этого нужно было погрузиться в мир эк- спериментов с электричеством и постигнуть его. И это сделал Майкл Фарадей (1791—1867). Он понял, что «фокусы» электричества объяс- няются особым состоянием окружающего пространства, которое наз- вал электромагнитным полем. Введенные Фарадеем понятия электрической индукции и электро- магнитного поля сделали возможным построение математической моде- ли электродинамических систем. Окончательный ее вид был найден Джеймсом Кларком Максвеллом (1831—1879) в виде уравнений в ча- стных производных, получивших в дальнейшем его имя. Согласно этим уравнениям все физические величины, связанные с электродинамической системой, определяются через ее электромагнит- ное поле, изменение которого во времени им же определяется. Поэтому электромагнитное поле S является состоянием и изменение его во
34 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМИЧЕСКОЙ СИСТЕМЫ времени описывается уравнением вида (1.3): f = ^(S). (2.1) Электромагнитное поле S можно определить двумя векторными поля- ми: напряженностью электрического поля Е и полем магнитной ин- дукции В. Так что в любой момент времени t состояние электродинами- ческой системы определяется совокупностью двух векторных полей Е(х, у, z; I) и В (%, у, z; t). Физическое описание электродинамической системы помимо полей напряженности электрического поля и магнит- ной индукции включает в себя поля электрической индукции D (х, у, г; t) и напряженности магнитного поля Н(х, у, z; t), плотность токов проводимости j (х, у, z; t), объемную плотность свободных зарядов р(х, у, z; t). Эти величины связаны между собой так называемыми ма- териальными уравнениями, которые в простейших случаях записы- ваются в виде D = tE, B=uH, j = oE, (2.2) где е, р, — диэлектрическая и магнитная проницаемости, о — удель- ная электропроводность, и двумя дифференциальными соотношениями div В = 0, divDs=4np, (2.3) первое из которых отражает факт отсутствия свободных магнитных за- рядов, второе — закон Гаусса для электрического поля. Уравнения, определяющие изменение состояния во времени, имеют = —4nj + crotH, =— crotE. (2.4) Первое из этих уравнений выражает связь полного тока с магнитным полем, второе — закон электромагнитной индукции. Уравнения (2.2)—(2.4) таковы, что знание начальных значений по- лей Е и В позволяет найти их в любой последующий момент времени и в любой момент времени через них найти другие поля D, Н, j и р. Собственно, именно это свойство системы.уравнений (2.2)—(2.4) яв- ляется основанием того, что совокупность полей ЕД В является сос- тоянием S электродинамической системы. Ясно, что возможны и другие варианты конкретного задания со- стояния S электродинамической системы, например, с помощью полей D и Н или Е и Н. Состояние S можно задать и с помощью совсем дру- гих величин, например потенциалов. Самое существенное не в конкрет- ном способе задания S, а в том, что существует такое описание S, через которое могут быть выражены все остальные физические величины и которое само подчиняется уравнению вида (2.1). Этот факт делает электродинамическую систему динамической системой, т. е. системой, для которой существует полное описание, называемое состоянием, изменение которого во времени им же определяется.
§ 2. ЭЛЕКТРОМАГНИТНОЕ ПОЛЕ И УРАВНЕНИЯ МАКСВЕЛЛА 35 Как открытие Нептуна было триумфом теории Ньютона, так от- крытие электромагнитной природы света было триумфом теории Мак- свелла. И то, и другое было «сделано» на бумаге кончиком пера и лишь затем подтверждено наблюдением и экспериментом. Собственно, это было не только обнаружение электромагнитной природы света, это бы- ло открытие целой гаммы электромагнитных волн, от низкочастотных радиоволн до проникающего рентгеновского излучения и у-лучей, в которой видимый свет занимает лишь свое скромное место. Попутно интересно отметить, что если после теоретических расче- тов Леверье астрономы стали искать и нашли на небе новую планету Нептун (Адамсу, несколько раньше Леверье сделавшему с помощью вычислений то же самое открытие, повезло значительно меньше), то Г. Герц предпринял свои, ставшие знаменитыми, эксперименты для опровержения малопонятной и необоснованной теории Макс- велла. Только под давлением неожиданных результатов эксперимента он признал правоту теории Максвелла и подтвердил существование электромагнитных волн, предсказанных Максвеллом. Как прийти от уравнений Максвелла к электромагнитной природе света? В прямом смысле это сделать нельзя, но можно показать, что существуют прямолинейно распространяющиеся электромагнитные волны, скорость распространения которых близка к измеренной ранее скорости света. Пусть поля Е и Н зависят только от координаты z; пусть только компонента Ех и соответственно Н векторов Е и Н отличны от нуля: пусть еще s=p,=l, о=0. Тогда из (2.2)—(2.4) непосредственно следует, что дЕх дНу дНу _ ~дЕ~ С dz ' dt ~ С дг (2.5) и что при всех t Ey=Ez=0, HX—HZ=Q. Решением уравнений (2.5), в частности, являются гармонические бегущие плоские волны Ех = Ну = A sin со (z—ct), распространяющиеся вдоль оси z со скоростью с. В каждой точке во
36 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМИЧЕСКОЙ СИСТЕМЫ времени электрические и магнитные поля Ех и Ну меняются с частотой <о и амплитудой А. Вектор напряженности электрического поля Е(ЕХ, 0, 0) ортогона- лен вектору напряженности магнитного поля Н (0, Ну, 0), так что в каждый момент времени такая электромагнитная волна имеет вид, по- казанный на рис. 2.2. В заключение отметим, что уравнения Максвелла могут быть запи- саны в лагранжевой форме. В частном случае так называемой квази- стационарной электродинамики, включающей в себя всю электротех- нику и частично радиотехнику, уравнения электромеханической сис- темы записываются в виде обычных уравнений Лагранжа, с той раз- ницей, что в функции Лагранжа под кинетической энергией имеется в виду еще и энергия магнитного поля, а потенциальная энергия вклю- чает не только механическую энергию, но и энергию электрического поля. Такие обобщенные на электромеханические системы уравнения Лагранжа получили название уравнений Лагранжа — Максвелла. § 3. Законы макромира, микромира и космоса Механика Ньютона — Лагранжа и электродинамика Фарадея — Максвелла относятся к так называемой классической физике. Был пе- риод, когда казалось, что в физике уже нечего открывать. Все в прин- ципе понятно, все — лишь многообразные следствия известных общих законов. Это ощущение не ново, оно возникало и будет возникать каж- дый раз после создания обобщающей теории, охватывающей все из- вестные факты. Но оно длится недолго. Новые факты не заставляют себя ждать. Классическая физика очень скоро пришла с ними в проти- воречие. Эти новые факты шли из микромира и из физики высоких ско- ростей, затем они стали приходить и из космоса. Цель дальнейшего изложения ни в коей мере не относится к описа- нию этого бурного героического периода ломки и созидания. Она сос- тоит в том, чтобы отметить, что, хотя все рушилось и переосмыслива- лось, понятие состояния и динамической системы выжило и сохрани- лось и тем самым стало еще более всеобъемлющим и значительным. Только в выявлении этого факта состоит цель дальнейшего изложения. Микромир — это мир элементарных частиц, мир малых масштабов порядка 10“8—10-13 см. Он недоступен нашему непосредственному восприятию, у нас нет никакого опыта непосредственного общения с ним. Так стоит ли удивляться, что он устроен совсем не так, как наш макромир? Скорее следовало бы удивляться обратному. Но как бы то ни было, и в этом необычном микромире есть полное описание, называе- мое состоянием. Оно определяется так называемой функцией ф. Функ- ция ф — комплексная. Ее изменение во времени определяется уравне- нием Шредингера 1/1^=//ф, (3.1) где /7ф — некоторый оператор И от функции ф.
§3. ЗАКОНЫ МАКРОМИРА, МИКРОМИРА И КОСМОСА 37 С помощью функции ф можно найти все физические величины. То, как они определяются и что при этом определяется, удивительно и необычно. Например, нельзя одновременно определить положение и скорость элементарной частицы. В общем случае определяются лишь их плотности вероятности. Но можно найти спектр-излучения атома, теоретически найти все линии его спектра. Можно удивляться первому, но нужно иметь в виду, что обычные известные наблюдаемые нами яв- ления — это некоторые усредненные эффекты, где стираются индиви- дуальности и проявляются законы больших чисел, т. е. вероятностей поведения отдельных индивидуумов. Можно специально придумать эксперименты, где индивидуальное поведение должно проявить себя. Такие эксперименты есть, их данные очень непонятны, но соответствуют тому, что можно получить из функции состояния ф. Так, если на пути пучка электронов поставить экран с двумя отверстиями, сквозь которые они могут пролетать, то на стоящей за экраном фотопластинке в разные ее места будут попадать электроны, вызывая выделение серебра и почернение пластинок. Об- щая картина этого почернения похожа на дифракционную картину от излучения когерентных источников света из точек, отвечающих от- верстиям. Попробуйте понять, как это происходит. Ведь выходит, что электрон, пролетая через одну дырку, «знает» о существовании другой. Но с точки зрения функции состояния ф так и должно быть, ибо она определяет для каждой индивидуальной частицы лишь вероятность попадания ее в то или иное место фотопластинки, и эта вероятность зависит от обеих дырок. Таким образом, для микромира понятие состояния сохранилось, а характер описания существенно изменился: из детерминистического он стал стохастическим. Физика высоких скоростей привела к новому пониманию прост- ранства и времени — к специальной теории относительности, заменив- шей отделенные друг от друга понятия пространства и времени общим понятием пространства и времени, общим пространственно-временным миром. В этом мире время жизни зависит от скорости движения. Быст- ро летящая частица живет дольше летящей медленно. Скорости не складываются, точнее, они складываются очень удивительным обра- зом так, что скорость, большая скорости света, невозможна. Но на общем понятии состояния это никак не сказалось. Раньше оно должно было быть инвариантно относительно преобразований Галилея, а те- перь — преобразований Лоренца. Это, конечно, повлекло изменение его конкретного вида. В частности, изменился вид функции Лагранжа, а сами уравнения сохранились. Но само понятие состояния выжило, с ним ничего не произошло. А как быть с общей теорией относительности? Где в ней понятие состояния? Общая теория относительности связала пространственно-времен- ную геометрию с расположением масс. Задание пространственно-вре-
38 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ и ДИНАМИЧЕСКОЙ системы меннбй геометрии определяет расположение масс, расположение масс определяет геометрию пространственно-временного мира. Пространственно-временной мир общей теории относительности имеет риманову геометрию, а риманова геометрия определяется сво- ей метрикой и порождаемыми ею тензорами аффинной связности и кри- визны. Так что мир общей теории относительности описывается неко- торыми тензорами римановой геометрии. Вот совокупность этих тен- зоров и есть описание Г пространства и времени в общей теории от- носительности. Согласно уравнению Эйнштейна изменение Г им же самим определяется, это находится в полной аналогии с тем, как в нью- тоновском мире движение масс ими же определяется. При этом необ- ходимо иметь в виду, что уравнения Эйнштейна общей теории относи- тельности второго порядка по времени (как, впрочем, и уравнения Ньютона) относительно Г, и поэтому определение последующих его значений требует знания не только начального значения Г, но и ско- ростей изменения Г. То есть понятие состояния S должно включать в себя описание Г и dV/dt. Это опять же в полной аналогии с теорией Ньютона. Однако содержания теорий Ньютона и Эйнштейна разли- чаются сильно. Состояние в теории Ньютона касается только располо- жения масс; состояние в теории Эйнштейна описывает глобальную гео- метрию пространственно-временного мира. Эти различия существенны. Пространство и время в теории Ньютона неизменны, в теории Эйнштей- на они меняются и мир может деформироваться, сжимаясь и расширя- ясь. Принято, что сейчас мы находимся в фазе расширения. Все последние годы своей жизни Эйнштейн отдал единой теории поля. С излагаемой точки зрения он стремился к отысканию такого полного описания мира S, которое, с одной стороны, было бы состоя- нием, а с другой — определяло бы все известные нам физические ве- личины. §4. Модели игр. Марковские системы Пусть два человека играют в угадывание. Один из них «загадываю- щий» — либо зажимает в кулак пятак, либо нет. Другой игрок — «уга- дывающий» — отгадывает — есть пятак у «загадывающего» или его нет. Если «угадывающий» угадал, то он выигрывает; если не угадал, то выигрывает «загадывающий». Можно ли как-то формализовать такую игру, т. е. выбрать для нее описание и построить математическую модель? Понятно, что пока нель- зя. Мы слишком мало знаем об игроках. Мы не знаем законов загады- вания и отгадывания, т. е. стратегии игроков. Стратегии игроков могут быть очень сложными, зависящими от психологических нюансов их поведения, от их чувств и настроения. Все это в деталях учесть очень трудно. Это трудно даже просто описать. Попробуем учесть простые мотивы поведения игроков, упрощая и идеа- лизируя их. У разных людей этот основной мотив не один и тот же. «Загадывающий» может, например, повторять свое действие, если вы-
§4. МОДЕЛИ ИГР И МАРКОВСКИЕ СИСТЕМЫ 39 V S) Рис. 2.3 играл, и менять, если проиграл. Аналогичной может быть и стратегия «угадывающего»: он повторяет свое действие, если в предыдущий раз оно принесло ему выигрыш, и меняет его, если в предыдущий раз оно привело к проигрышу. Таких игроков, которые твердо уверены, что при выигрыше надо повторять ход, а при проигрыше менять его, мож- но было бы назвать «простаками». Такое поведение игроков можно было бы назвать и «прямолинейным». Возможно, что игроки при удачах не меняют своих действий, а при неудачах делают это не сразу, а, на- пример, только после двух неудач подряд. Возможны и стратегии с хитростями, когда, даже выиграв, игрок, чтобы обмануть противника, меняет свое действие, а проиграв, его не меняет. Примем для наших игроков такие примитивные стратегии и попытаемся дать им математи- ческие описания. Начнем с «простака». Пусть ради определенности этот простак — загадывающий. Тогда загадывающий может находиться только в двух состояниях: он уверен, что нужно взять в кулак пятак, либо /'"'ч уверен, что это делать не следует. Обо- \ А / значим эти состояния через х+1 и x_v Находясь в состоянии x_lt он не берет монету, а в состоянии х+1 он зажимает ее в кулак. При выигрышах простак за- гадывающий не меняет своего состояния, т. е., будучи в х_1( остает- ся в x_i, а будучи в х+1, остается в х+1. Напротив, при проигрыше он его сразу меняет, с х_г на х+1 и с х+1 на х_г. Мы полностью описали стратегию простака. В качестве ее мо- дели может служить автомат с двумя внутренними состояниями х_± и х+1 и двумя входными действиями: выигрыш (+1) и проиг- рыш (—1). Выходные действия автомата отвечают следующему оче- редному ходу: в состоянии Х-.±—это не брать пятак (—1), а в со- стоянии х+1—взять и зажать его в кулак (-|-1). Состояния автомата и х+1 можно изобразить точками, а переходы из одного состояния в другое—дугами, идущими из одной точки в нее же или в другую (рис. 2.3). Получившийся геометри- ческий образ называется графом: точки x_j и х+1—это его вершины, дуги, соединяющие эти точки,—его ребра. Примем описанную стратегию для загадывающего. Для угады- вающего возьмем чуть более сложную модель стратегии с четырьмя внутренними состояниями: г/_2 — уверен, что монеты нет, —ду- мает, что монеты нет, но сомневается, г/+1—думает, что монета есть, но не уверен, у+2— уверен, что монета есть. Смену внутренних со- стояний угадывающего в зависимости от того, выиграл он или про- играл, зададим в виде графа рис. 2.4. Согласно этому графу при выигрыше он укрепляется в своем мнении, т. е. из г/.j переходит в у_2, из у+1 — в у+2 или остается при нем (у_2-^у_2, у+2—+у+2). При проигрыше угадывающий в состояниях у_2 и у+2 меняет свое мнение не сразу, переходя в состояния у_г и у+1 соответственно, а смена состояний у_г и z/+] происходит так же, как у загадываю-
40 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМ11Ч ЕСКОЙ СИСТЕМЫ щего. Действия или ходы угадывающего также определяются только его внутренним состоянием. В состояниях у_2 и у_1 он говорит, что монеты в кулаке загадывающего нет, а в состояниях у+1 и у+2, О) о). Рис. 2.4 что монета есть. Ясно, что угадывающий тоже «простак»: при вы- игрыше он ведет себя так же, как загадывающий; при проигрыше в состояниях у_2 и z/+2 он не сразу меняет свое действие на про- „ „ , „ „ „ „ „ тивоположное, а только после повтор- «л 1 У— "г ^—1 У—1 1 У+1 &—1 У+7 'т’ * о п-—-—я ного проигрыша. Такого «простака» / / можно было бы назвать «памятливым». / X “ Итак, мы формализовали игроков. X———о------------cf Каждый игрок — это автомат (система) со +?у-г своими внутренними состояниями, смена Рис. 2.5 которых происходит в соответствии с гра- фами рис. 2.3 и 2.4 в зависимости от результатов игры. Теперь, опираясь на такое описание, попробуем построить математическую модель игры. Рассмотрим систему «зага- дывающий— угадывающий». Зададим ее внутренними состояниями, каждое из которых определим как совокупность xiy yt возможных внутренних состояний загадывающего и угадывающего. Таких внут- ренних состояний будет восемь:' х_г, у_2, х_г,у_у, у+1-, х_л,у+2\ x+i, У-г', х+и У-1', x+i, У+У, х+1,у+2- Смена внутренних состояний введенной системы определяется по графам смен внутренних состо- яний загадывающего и угадывающего и показана на рис. 2.5. На- пример, если загадывающий находится в состоянии а угадыва- ющий— в состоянии у_2, то выигрывает угадывающий; при этом загадывающий переходит в состояние х+1, а угадывающий сохраняет состояние, т. е. состояние у_2 переходит в состояние х+1, у_2. На рис. 2.5 видно, что из каждой вершины графа выходит только одна стрелка, а это значит, что если задать начальное состояние систе- мы, то все будущие смены внутренних состояний игроков определяются однозначно, т. е. граф, изображенный на рис. 2.5, является геомет- рическим заданием оператора и построенная модель игры есть динами- ческая система, состояния которой описываются внутренним состоя- нием системы «загадывающий — угадывающий». На рис. 2.5 видно, что в игре (за исключением, возможно, одной партии) будет происхо- дить циклическая смена внутренних состояний. Цикл состоит из 6 пар- тий, в 4 из них выигрывает загадывающий. Полученная динамическая система с содержательной стороны от- лична от систем, рассмотренных ранее, однако с точки зрения понятия состояния она ничем не отличается от них. Здесь, как и в механических или электродинамических системах, определено состояние S в виде
4. МОДЕЛИ ИГР И МАРКОВСКИЕ СИСТЕМЫ 41 некоторого описания и однозначный оператор Т, позволяющий по на- стоящему состоянию найти 'следующее состояние. Рассмотрим еще игру «простака» с игроком с «примитивной хит- ростью». «Простак» был описан ранее (рис. 2.3). Игрок с «примитив- Рис. 2.6 ной хитростью» описывается графами смен состояний на рис. 2.6. Сис- тема, состоящая из двух игроков, имеет, как и в предыдущем примере восемь внутренних состояний. Од- нако смены этих состояний про- исходят иначе; как — показано на рис. 2.7. Из рис. 2.7 вид- но, что игра также зацикливает- ся, повторяясь через каждые четыре партии. Теперь она но- сит безобидный характер, так как в каждом цикле два раза вы- Рис. 2.7 игрывает один и два раза другой. Рассмотрим еще одну модель игры, в которой угадывающий — «простак», а загадывающий — «мистик». Вне зависимости от проиг- рыша или выигрыша «мистик» подбрасывает пятак, и если он падает гербом, то зажимает его в кулак, а если не гербом — то не зажимает. Конечно, .он подбрасывает пятак так, чтобы этого не видел угадываю- щий. В противном случае «мистик» выглядел бы уж слишком глупым. Описать стратегию загадывающего можно также с помощью графа с двумя вершинами, только теперь из каждой вершины будут выходить по два направленных ребра, переходы по которым равновероятны как при выигрыше, так и при проигрыше (рис. 2.8). Если теперь построить модель игры в виде системы «загадыва- ющий—угадывающий» с внутренними состояниями x_n у_г\ x_lt у+1; х+1, y_i, х+1, у+1, то на графе рис. 2.9 из каждой вершины будут выходить по две стрелки, переходы по которым равновероятны. Это означает, что игра «мистика» с «простаком» не носит, как в преды- дущих примерах, детерминированный характер, она — стохастическая. Ее исход зависит от случая, от того, как упадет пятак после под- брасывания. В соответствии с этим комбинации xf и у у уже не будут состояниями системы, состоящей из играющих друг с другом «про- стака» и «мистика», так как задание х(-, уу не позволяет однозначно определить эту совокупность в следующей партии. Действительно, если в некоторой партии игру описать совокупностью, скажем х_п У-i, то с вероятностями 1/2 в следующей партии будет либо х+1, Улибо x_j, y_j. Но если принять за описание не сами комбина-
42 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМИЧЕСКОЙ СИСТЕМЫ ции х:, у}-, а их вероятности pyx^yf), то такое описание оказыва- ется полным и может быть принято за состояние рассматриваемой системы. Действительно, пусть р(х_1( у_±), р(х_1,у+1), р(х+1,у_1), и р(х+1,у+1) — вероятности в некоторой партии. Тогда в соответствии Рис. 2.8 с графом переходов рис. 2.9 вероятности этих же комбинаций в следующей партии будут равны р(х_п У-1) = ^р(х_1, y-J + ^-piX-i, у+1), Р (х+1, y.J = ^р (x_n y_J Н-1 р (х_п г/+1), — 1 1 (4.1) Р (*+1. P+i) = у Р (*+1. У-1) + 2" Р (*+i. P+i), ?(*-i. У+1) = ^Р(х+1, Г/.0 + 4P(*+i> P+i)* Действительно, в следующей партии, например, комбинация х+1, y_t может возникнуть с вероятностями 1/2 либо из комбинации x_i, у+1, либо из комбинации у_г, и поэтому Р (*+!» Р-1) ~~2 Р (-^-i> Р+1) “b'jr Р (-^-1» Р-1)* Таким образом, действительно по вероятностям р (xt, у}) в предыдущей партии могут быть найдены вероятности p(xit у^ в следующей партии. Это означает, что вектор р, компонентами которого являются вероят- ности p(Xi, yj), является состоянием. Формулы (4.1) могут быть запи- саны в виде одного векторного равенства где Р — матрица вида (4.2) р = рР, 1 т 1 2 0 0 0 0 1 1 2" Т 1 1 0 0 т Т 0 0 1 1 Т 2 (4.3)
§ 4. МОДЕЛИ ИГР И МАРКОВСКИЕ СИСТЕМЫ 43 формула (4.2) непосредственно выражает тот факт, что вектор вероят- ностей р является состоянием. По формуле (4.2), зная начальные ус- ловия игры, например, что в первой партии сделал загадывающий и что сказал отгадывающий, можно найти состояние р(п) в n-й партии. Оказывается, независимо от начального состояния при больших п р(/,) близок к некоторому р*, т. е. limpln) = p*. (4.4) Эти предельные вероятности могут быть найдены из уравнения р* = р*Р, (4.5) а 1-а « 1-13 Рис. 2.Ю Закон изменения этих следующего из (4.2). Решая систему уравнений (4.5), найдем, что все компоненты вектора р* равны друг другу и равны 1/4. Из этого следует, что игра «мистика» с «простаком» безобидная и каждый из них имеет равные вероятности выигрыша и проигрыша. Теперь рассмотрим игрока, который хотя и не мистик, но при при- нятии решения колеблется и может в зависимости от своего «состояния» принять то или иное решение с некоторыми вероятностями. Этих своих «состояний» у игрока может быть несколько, и смена их также подчинена некоторым правилам. Можно, например, принять, что эти пра- вила такие же, как для «простака», или «памятливого простака», или, наконец, для «простака с хитростью». При участии хо- тя бы одного такого игрока игра будет уже носить стохастический характер, а ее состояние будет задаваться вероятностями. вероятностей при переходе от одной партии к следующей, как и в пре- дыдущем примере, можно записать в виде (4.2). Рассмотрим, например, игру «простака» с «колеблющимся проста- ком». Графы смены состояний «простака» и «колеблющегося простака» одинаковые и представлены на рис. 2.3. Различных комбинаций сос- тояний «простака» и «колеблющегося простака» четыре. Они изображе- ны на рис. 2.10. Пусть «колеблющийся простак» в состоянии у_г может принять действие — 1 (сказал «нет пятака») с вероятностью а и соот- ветственно действие +1 (сказал «есть пятак») с вероятностью 1 — а. Аналогично, пусть |3 и 1 — |3 — вероятности действий—1 и 4-1 в состоянии у+1. Как видите, колебания «колеблющегося простака» пос- ле выигрыша и проигрыша неодинаковые. Знание вероятностей а и |3 позволяет найти вероятности смены все- возможных комбинаций состояний хг, х, игроков. Они указаны на рис. 2.10. Зная эти вероятности, непосредственно приходим к
44 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ и ДИНАМИЧЕСКОЙ СИСТЕМЫ соотношениям р (x_n y_J = (1 —₽) р (x_n у+1) + (1 —а) р (х+1, y_J, р_(х+1, y-J = ар (x_n t/.J + рр (х+1, г/+1), б p(x_lf у+1) = (1 —а) р (х_!, 1/_1) + (1 —₽) Р (х+1, у+1), р(х+1, у+1) = ар(х+1, j/J+fH*.,, i/+1), которые могут быть записаны в виде (4.2). Как и в предыдущем примере, у этой игры существуют предельные вероятности р*. Для их отыскания введем обозначения Pi = Р (х_1, У-J, pl=p (x+1, y-J, Р*з=Р (х_и у+1), pl = р (х+1, у+1) и запишем уравнения для компонент вектора р* согласно (4.6) в виде Р*1 = (1—Р)Рз + (1—“)Рг. р2=ар1+№, /4 7х р3‘ = (1— a) Pi + (1— Р)а, А*=ар; + Р/>;. ‘ ' Из этих уравнений и из условия нормировки р;+р2* + рз* + р: = 1 (4.8) можно найти предельные вероятности р*, pl, р*3 и р\. Однако и без этого из уравнений (4.7) непосредственно следует, что р3 +рз = Pi и поэтому вероятности выигрыша и проигрыша у обоих игроков одинаковые при любых аир. До сих пор изменения состояний игроков происходили при выигры- ше и проигрыше однозначным образом. Это не касалось «мистика», поскольку он вообще свое состояние менял не в зависимости от игры, а от случайно падающей монетки. Допустим теперь, что и смена сос- тояния другого игрока может быть случайной. «Простак» при выигрыше всегда оставался в прежнем состоянии. Примем теперь, что он сохра- няет свое прежнее состояние с вероятностью а и меняет его с вероят- ностью 1—а. Аналогично, при проигрыше он меняет свое состояние с вероятностью 0 и сохраняет с 1— 0. Назовем такого игрока «простаком с хитростью». Графы смены его состояний при выигрыше и проигрыше изображены на рис. 2.11. Как и ранее, на ребрах этих графов указаны
§4. МОДЕЛИ ИГР И МАРКОВСКИЕ СИСТЕМЫ 45 вероятности соответствующих переходов. При а=Р = 1 «простак с хит- ростью» становится «простаком». Как и ранее, рассмотрим, каким законам подчиняются смены ком- бинаций состояний игроков. Таких всевозможных комбинаций четыре. Их смены имеют вероятности, указанные на рис. 2.12. В соответствии с графом смен состояний рис. 2.12 и вероятностей этих смен приходим к соотношениям i/_i) = (l— а)р(х+1, y+1)+^p(x_t, г/+1), Р (х+1, y.i) = ар (х_п у_х) + (1 —р) р (х+1, i/.j), (4 р_(х+и i/+i) = (l—a)p(x_n (/_i) + Pp(x+1, r/_j), p(x_lt У+1)=ар(х+1, */+1) + (1—Рр) (х_п y+i). В этой игре также существуют предельные вероятности, которые могут быть найдены из уравнений (4.9), если принять, что P_(x.J,y_1) = p(x.1, y_1) = pi, _~р(х+1, У-1) = р(х+1> у_г) = р1, Р (*+1, У+1) = Р (*+!• У+1) = Р11 Р (*-i> У+1) = Р (^+1. У+1) = Рз, и учесть условие нормировки (4.8). Эти предельные вероятности ока- зываются равными Р а Pi = Pi =2(а4-р) > Р2=Рз=2(а+Р)’ Отгадывающий выигрывает в комбинациях у_г и х+1, г/+1. По- этому его ожидаемый выигрыш равен 5(р:+р:)=^. (4.Ю) Из (4.10) следует, что максимальный выигрыш, равный 5, имеет место при а=0 и любом Р=/=0, р=0 исключается. Это вызвано тем, что в этом особом случае, когда формула (4.10) дает неопределенность типа 0/0, соответствующий граф смен состояний распадается на три не свя- занные между собой части. При этом уже не выполняются условия су- ществования одних и тех же предельных вероятностей вне зависимости от начальных условий. Стратегия отгадывающего при а=0, Р#=0 ведет сразу к подлаживанию «простака с хитростью» под «простака» и обыгрыванию его вчистую. Можно догадаться, что любая детерминистическая конечная страте- гия загадывающего имеет против себя такую стратегию уверенного отгадывания. Так что хорошей стратегией может быть либо очень слож- ная детерминированная стратегия с большим числом состояний, либо стратегия стохастическая. Так, стратегия «мистика» всегда беспро- игрышна, правда, она не дает и выигрыша. Как хорошо известно, теория вероятностей возникла из рассмотре- ния азартных игр. Игру в отгадывание нельзя назвать азартной, по- скольку в ней нет нарастания ставки, но и она привела нас к очень
46 ГЛ. 2. ПОНЯТИЯ состояния и ДИНАМИЧЕСКОЙ СИСТЕМЫ важному типу динамических систем — марковским системам, точнее, к дискретным однородным марковским системам с конечным числом состояний. Сразу же отметим, что под состояниями марковской системы по- нимаются вовсе не те состояния, о которых все время шла речь до сих пор. Можно было бы отличать одно состояние от другого, присоединив к одному из них прилагательное «фазовое». Но при этом в теоретичес- кой физике и теории динамических систем употребления этого прила- гательного различны. Менять традицию, даже если она не очень хоро- шая, без большой необходимости едва ли разумно. Так что ограничим- ся этим предупреждением и будем уточнять смысл слова «состояние» по контексту его использования. Прилагательное же «фазовое» будем использовать только применительно к состоянию динамической сис- темы, т. е. как это принято в теории динамических систем. Однородной марковской системой с конечным числом состояний называется система, могущая находиться в конечном числе состояний Xi, х2, . .., хп, смена которых происходит в соответствии с некоторыми вероятностями p(xt->-Xj). Состоянием марковской системы, рассматри- ваемой как динамическая система, является вектор вероятностей p(p(Xi), р(х2)....p(xj). (4.11) Его изменение происходит в соответствии с формулой р = рР, (4.12) где Р — матрица, элементами которой являются вероятности смены состояний p(xt-^Xj). Вероятность р(х;^х7) смены состояния х,- на Aj является элементом матрицы Р, стоящим в t-й строке и /-м столбце. Все элементы матрицы Р неотрицательны. Сумма элементов любой строки этой матрицы равна единице. Такую матрицу называют стоха- стической. Стохастические матрицы обладают рядом отличительных особен- ностей. Одна из них состоит в том, что все собственные значения такой матрицы лежат внутри единичного круга плоскости комплексного пе- ременного. Пространством состояний марковской системы является простран- ство векторов р с неотрицательными компонентами, сумма которых равна единице. Это пространство представляет собой симплекс 2n-1. В случае рассмотренной выше игры «мистика» с «простаком» это про- странство представляет собой трехмерный симплекс S3. Он изображен в виде тетраэдра на рис. 2.13. Вершинам этого тетраэдра отвечают век- торы вероятностей р с компонентами (1,0, 0, 0), (0, 1, 0, 0), (0, 0, Г, 0) и (0, 0, 0, 1). На ребрах и гранях симплекса обращаются в нуль соот- ветственно две и одна из компонент вектора р. Соотношение (4.12) можно рассматривать как преобразование точек симплекса в себя. Если при этом симплекс Sf!_1 преобразуется строго внутрь себя, то геометрически очевидно, что при последова- тельных преобразованиях он будет стягиваться к некоторой точке
§ 5. ДИФФУЗИОННЫЕ ПРОЦЕССЫ 47 р*. Это означало бы, что при любом р£ litn рРт = р*. (4.13) Преобразование симплекса строго внутрь себя заведомо имеет место, так как все элементы матрицы Р положительны. Это известный критерий так называемой эргодичности матрицы Р или соответствующей ей мар- ковской системы. В заключение отметим, что рассмот- ренные детерминистические и стохасти- ческие стратегии игроков приводят соот- ветственно к детерминированным и сто- хастическим динамическим системам. В первом случае — к детерминирован- ному конечному автомату, а во вто- ром — к стохастическому, называемо- му марковской системой. Стохастические Рис. 2.13 автоматы можно рассматривать как обобщение детерминированного ав- томата. Стохастический автомат переходит в детерминированный, если все элементы его матрицы Р — либо нули, либо единицы. Ясно, что и стохастические стратегии являются обобщением детерминированных. § 5. Диффузионные процессы и случайные блуждания Весь окружающий мир состоит из молекул, атомов и элементарных частиц. Явления макромира — это коллективный эффект движений и превращений элементарных частиц, так что все в конечном счете сво- дится к ним, все законы макромира — следствия законов микромира. Но частиц необозримо много, и каждая движется по-своему. В какой же мере возможно вывести и исследовать свойства и законы макромира, ис- ходя из этих многообразных движений громадного количества частиц? Наука, которая пытается это сделать, и иногда не без успеха, назы- вается статистической физикой. Там, где можно ограничиться класси- ческой трактовкой движения частиц — это классическая статистичес- кая механика и физика; там, где необходимо учитывать квантовые эф- фекты — это квантовая статистическая физика. Но законы макромира можно рассматривать и не углубляясь в атомистическую структуру ве- щества. В механике и в электродинамике мы отвлекаемся от тонкой структуры вещества, исследуя лишь их макроскопические проявле- ния. Установление связей между этими двумя подходами и вывод, на- пример, законов термодинамики и материальных соотношений элект- родинамики, исходя из атомистической структуры вещества и элект- ронной теории, очень непростое дело. Последующее имеет целью на очень простом примере диффузион- ных процессов показать суть этой связи и как, исследуя микродвиже- ния частиц, можно прийти к установлению макроскопических законо-
48 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМИЧЕСКОЙ СИСТЕМЫ мерностей. На этом примере, в частности, обнаружится статистическая природа макроскопических закономерностей, детерминизм которых обусловлен лишь необычайно малыми вероятностями отклонений, на- зываемых флюктуациями. Именно исчезающей малостью вероятностей флюктуаций объясняется привычное нам охлаждение горячего стака- на чая, а не нагревание его, и то, что при вдохе воздух поступает в легкие, а при выдохе выходит из них, а не наоборот, и многое, очень многое другое. Но прежде чем перейти к изложению этого простого примера, сле- дует обратить внимание на эфемерность и нереализуемость, казалось бы, верного пути получения макроскопических законов, исходя из прямого исследования движений всех частиц. Это невозможно не толь- ко потому, что частиц слишком много (1020 и больше), но и по другой принципиальной причине. Оказывается, что невозможно найти движе- ния даже только одной молекулы, приняв, например, что все осталь- ные молекулы застыли. Это вызвано тем, что каждую секунду движу- щаяся молекула испытывает сотни тысяч столкновений, и для того, чтобы предсказать их последствия в течение этой секунды, нам необ- ходимо выполнять вычисления с фантастическими точностями и с такими же фантастическими точностями знать начальные условия ее движения и расположение застывших молекул. Это точности порядка 10'10‘ см и больше. Так что, увы, прямой путь никогда не приведет к цели. Методы статистической физики существенно отличаются от этого прямого пути, они обходят его непомерные трудности. Теперь перейдем к непосредственному рассмотрению явления диф- фузии одного вещества в другом. Начнем с опыта. В сосуд с водой кап- нем немного краски. Перемешивать не будем. Через некоторое время весь объем воды будет окрашен. Краска разошлась по всему объему. Это процесс диффузии. Концентрация диффундирующего вещества р зависит от места и времени. Пусть ради простоты речь идет о так на- зываемой одномерной диффузии вдоль оси х; тогда р=р(х, t). Диффу- зия вещества происходит так, что от мест с большей концентрацией оно перемещается в места с меньшей концентрацией и скорость этого перемещения (закон Фика) пропорциональна градиенту его плотности VP- Отсюда легко находится, что dt~Udx2‘ Vх1' Это хорошо известное уравнение в частных производных одномерной диффузии. С его помощью по начальному распределению плотности р (х, 0) диффундирующего вещества можно найти его плотность р (х, t) в любой последующий момент времени t>Q. Так математически опи- сывается явление одномерной диффузии. Не упустим случая подчеркнуть, что это математическое описание также основывается на понятии состояния, которым является плотность диффундирующего вещества р, и определении закона его изменения с
§5. ДИФФУЗИОННЫЕ ПРОЦЕССЫ 49 помощью параболического уравнения в частных производных (5.1) и, возможно, еще каких-то краевых условий. Подойдем -к рассмотрению процесса диффузии с молекулярной точки зрения, согласно которой явление диффузии — это движение молекул одного вещества сре- ди молекул другого. Будем % /г рассматривать одномерную диф- ----1----г*" -----1---1---Д фузию. Есть частицы основ- а’а х х+а ного вещества и частицы диф- „ „,. фундирующего вещества. Части- цы как-то бегают, сталкиваются между собой, перемещаются оттуда, где их больше, туда, где их мень- ше. Причем их распределение на прямой стремится выровняться. Те- перь давайте представим себе, что частиц основного вещества много больше, чем частиц диффундирующего вещества, скажем, в 104— 10е раз. Тогда каждая частица диффундирующего вещества движется, сталкиваясь главным образом с частицами основного вещества, а со своими «собратьями» она сталкивается очень редко. Поэтому можно пренебречь влиянием на движение этой частицы ее «собратьев». Это позволяет нам рассмотреть движение лишь одной диффундирующей частицы, так как другие будут двигаться точно так же. Движение та- кой частицы очень сложное, ее скорость зависит от температуры, а об- щее движение определяется в основном столкновениями с частицами основного вещества. А таких столкновений в единицу времени очень много. По-видимому, единственное, что мы можем более или менее до- стоверно утверждать,— это то, что в силу однородности основного ве- щества диффундирующая частица перемещается влево и вправо с оди- наковыми вероятностями. Перемещения, которые она совершает меж- ду двумя соударениями, различные, времена между соударениями тоже различные. Но мы существенно упростим реальный процесс и бу- дем считать, что наша частица может двигаться с равной вероятностью либо налево, либо направо на один и тот же шаг а. Причем каждый шаг она делает через одно и то же время т. Такую упрощенную модель (рис. 2.14) А. А.' Андронов образно назвал движением «абсолютно пья- ного». Исследуем движение такой частицы. Естественно было бы взять за состояние частицы координату х, определяющую ее положение в мо- мент времени t. Но нетрудно понять, что х состоянием быть не может, так как из положения х частица может перейти либо в положение х—а, либо в положение х+а. Как быть в такой ситуации — известно. Надо в качестве описания взять не положение х, а плотность вероятности та- кого положения. Пусть в некоторый момент t плотность вероятности положения частицы р(х, I); тогда, если р(х, t) — действительно состоя- ние, то мы должны суметь найти плотность вероятности положения частицы в момент /+т. Обозначим ее через р(х, /+т). Как частица мо- жет попасть в точку х в момент времени f-J-т? Она может попасть туда, если находиласв в момент t либо в точке х—а, либо в точке х+а и еде-
50 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМИЧЕСКОЙ СИСТЕМЫ лала в первом случае шаг вправо, а во втором — шаг влево (рис. 2.14). Вероятность каждого шага равна 1/2. Отсюда р(х, р(х—а, + + t). (5.2) Мы получили динамическую систему, которая позволяет по плот- ности вероятности положения частицы на оси х в момент времени t найти эту же плотность вероятности в следующий момент времени /•4-т. Наша частица имитирует движение молекулы диффундирующего вещества, но шаги молекулы очень маленькие и шагает она очень часто, т. е. а и т малы. Учтем это, написав, что р(х, / + т) = р(х, t) + т4-т2(...), р(х—а, t) = p(x, 0—а2+ (•••)*’, р(%+а, t) = p(x, /) + -^a + j|^-a24-(-••)<*’• ^Подставив эти выражения в соотношение (5.2), найдем, что '4r- = ^-S- + 0(T) + 0f-'). (5.3) dt 2т дх2 1 ' ’ 1 \ т j ' ’ Теперь перейдем к пределу в полученном соотношении (5.3), причем примем, что а->0, т->0 так, что limg = R (5.4) При т->0 и а->0 в соответствии с (5.4) а3/т->0, и уравнение (5.3) принимает вид <«) совпадающий с ранее полученным уравнением (5.1). Однако смысл переменных р(х, t) и р(х, i) разный, разный и смысл постоянных D, и пока ниоткуда не следует, что они равны друг другу. р(х, t) — это плотность диффундирующего вещества в месте х в момент времени I, р{х, t) — это плотность вероятности нахождения диффундирующей частицы в точке х в момент времени t. Поэтому, несмотря на совпадения по виду уравнений (5.1) и (5.5), смысл их совершенно различный. Раз- личны и соображения, на основе которых они получены. В макроскопической модели введение плотности диффундирующего вещества р (х, f) основывается на достаточно большом числе диффунди- рующих молекул в сравнительно малых объемах и на макроскопичес- ком законе диффузии, согласно которому ее скорость пропорциональна градиенту плотности. В микроскопической модели функция плотности
6. СЛУЧАЙНОСТЬ И ЗАКОНОМЕРНОСТЬ 5t вероятностей описывает движение одной-единственной диффундирую- щей молекулы. Однако, несмотря на эти различия, связь между этими моделями все же имеется и совпадение видов уравнений (5.1) и (5.5) не случайно. Пусть на отрезке длиной Ах в момент времени t находится т мо- лекул; тогда, с одной стороны (6 — масса одной молекулы), dm « р (х, I) \х, а с другой, если М — общее число молекул, то согласно закону боль- ших чисел Мр(х, t) Дх« т, т. е. р(х, t) « SMp(x, t), (5.6) и, следовательно, величины р(х, t) и р(х, I) пропорциональны. В силу этого коэффициенты D должны быть одинаковыми. Но примерное ра- венство (5.6) имеет место не всегда, его следует понимать в статисти- ческом смысле, т. е. отклонения от него, и даже большие, возможны, но они мало вероятны. Таким образом, правда ценой грубых упрощений, мы связали мак- роскопическую и микроскопическую точки зрения на процесс диффу- зии. Эта связь основывается на законе больших чисел и имеет стати- стический характер. При этом микроскопическая модель является бо- лее полной, макроскопическая модель вытекает из нее, являясь ее следствием. Ее большая полнота состоит в том, что она позволяет рас- смотреть не только законы изменения усредненной плотности вещества, но и флюктуаций этой плотности. Это означает, что описание с помо- щью плотности р (х, t) менее полное, чем с помощью плотности вероят- ности р(х, /). Подчеркнем, однако, что каждое из них является пол- ным в том смысле, что образует состояние и каждая из моделей является динамической системой. Одна — по своему характеру описа- ния исходного конкретного процесса — детерминированной, другая — стохастической. Возможно ли, что меньшая полнота модели, описывае- мой плотностью р(х, t), станет очень существенной? Да, так может быть. Будет это, когда флюктуации станут значительными. Это имеет место, когда рассматриваются слишком маленькие объемы или когда общее число частиц М диффундирующих молекул недостаточно велико. § 6. Случайность — закономерность, закономерность — случайность Из общих законов механики следует, что планеты Солнечной систе- мы движутся, соблюдая законы Кеплера. Из законов геометрической оптики следует, что увеличение лупы обратно пропорционально ее фокусному расстоянию. Если из верхней точки О окружности одно- временно под действием силы тяжести скользят без трения по различ- ным наклонным материальные точки At, А2 и Л3, то, согласно законам
52 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ и ДИНАМИЧЕСКОЙ СИСТЕМЫ Ньютона, они вновь достигают окружности через равные промежут- ки времени (рис. 2.15). Все это примеры, когда одни закономерности влекут за собой дру- гие. К этому мы привыкли. Так построена геометрия: из акисиом сле- дуют теоремы. Так построено наше логическое мышление: из посылок мы выводим следствия. В несколько меньшей мере мы привыкли к тому, что закономерно- сти могут быть следствием случайностей. Этому учит теория вероят- ностей. Именно в этом смысл так называемых за- —конов больших чисел. Если много раз незави- \\\ симо повторять одно и то же испытание, в ре- / \ ххд зультате которого может появиться или не по- / \ | явиться некоторое событие, то среднее число 1 \ I наступлений события при достаточно большом \ \ j числе испытаний может быть предсказано и, \ у следовательно, его величина есть закономерное событие. Давление газа — это средний импульс ударов молекул. Каждый из этих ударов — Рис. 2.15 случайное событие, и импульс его случаен, но средний импульс — величина закономерная — это давление газа. Такова же природа многих физических макроскопи- ческих закономерностей, являющихся следствием стохастических зако- номерностей поведения молекул, атомов и элементарных частиц. Так, закон Ома — следствие хаотического движения электронов в электри- ческом поле. Такова же природа закона о переходе тепла от горячего тела к холодному. В общем, это все тоже хорошо известно и привычно. Но, оказывает- ся, возможны случаи, когда закономерности влекут случайности. На первый взгляд кажется',, что так не может быть. Об этом до послед- него времени мало говорилось, это, если можно так выразиться, не было обжито наукой и учебниками, хотя, безусловно, с этим мы все время встречались и, может быть, даже в более явной форме и не менее часто, чем с возникновением закономерностей из случайностей. Давно уже человек наблюдает смены погоды, но и сейчас предска- зание ее на длительный срок — дело неблагодарное. А ведь движение атмосферы подчиняется законам механики. Движение молекул газа тоже подчиняется законам механики, но мы говорим о хаотическом и случайном их движении. Это очень сложные примеры. Возьмем доску Гальтона; здесь все много проще. Доска Гальтона представляет собой вертикальную или наклонную доску, на которой рядами набиты колышки (гвозди). В верхней части из воронки высыпается просо (или другие мелкие круглые одинаковые предметы), зерна которого спус- каются, стукаясь о колышки, вниз и размещаются по отсекам. Все это схематически изображено на рис. 2.16. В отсеках зерна собираются так, что образуют отчетливое нормальное распределение. Считается, что зерна, падая вниз, на каждом ряду колышков отскакивают слу- чайно и, следовательно, уклонение зерна от середины представляет
§6. СЛУЧАЙНОСТЬ И ЗАКОНОМЕРНОСТЬ 53 собой сумму случайных смещений по горизонтали при всех отскоках. Такая сумма, согласно теореме Лапласа из теории вероятностей, имеет нормальное распределение, которое и образуют числа зерен проса в от- секах, если их упадет достаточно много (104—10* штук). Так что в пря- мом своем назначении доска Гальтона демонстрирует закономерность, порождаемую случайностями. Но есть здесь и другая сторона. Молча- ливо и без обсуждения принимается, что зерна, ударяясь о колышки, прыгают случайно. Даже не видя эксперимент, вы легко можете себе его представить и, несомненно, согласитесь, что зерна будут прыгать от колышка к колышку случайно и что движение следующего зерна никак не будет походить на движение предыдущего. Но, собственно го- воря, почему случайно? Ведь движение зерен подчиняется законам ме- ханики, а они не допускают никакой случайности. Откуда же эта слу- чайность берется? Возможно, дело в том, что зерна из воронки вы- скакивают не совсем одинаково, да и сами они не полностью идентич- ны, вот и скачут по-разному. Заменим просо маленькими стальными шариками из шарикового подшипника, сделаем выходную трубку по размеру шариков, чтобы они в ней не болтались. Думаете, что-нибудь изменится? Нет, шарики по-прежнему в отсеки будут падать случай- но. Но этого не может быть, при одинаковых условиях шарики долж- ны прыгать одинаково! В чем же дело? Ответ может быть только один: значит, несмотря на наши старания, ус- ловия падения неодинаковые. Другого вывода быть не может. Либо есть нечи- стая сила, либо условия падения шари- ков неидентичны. Конечно, абсолютной идентичности быть не может. Ясно, что какие-то Рис. 2.16 различия есть, ну, пусть порядка 10-в мм. Это ничтожные раз- личия, едва ли мы их можем исключить практически. Но посмотрим, что из таких ничтожных различий следует. Пусть ради простоты радиу- сы г шариков и колышков одинаковы. Тогда уклонение шарика по го- ризонтали на 6 вызовет изменение угла отскока ба~б/г, а уклонение б при следующем соударении околышек порядка (6/r)D, где D — рас- стояние между колышками, о которые ударяется шарик (рис. 2.17). Итак, после одного удара величина изменения б заменилась на qt), где После п соударений она изменится в q" раз. Пусть «=30 и
54 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМИЧЕСКОЙ СИСТЕМЫ О=5г. Тогда <7"~530>1020. Поэтому к концу движения шарика, если бы он ударялся о те же колышки, что и предыдущий шарик, начальное расхождение возросло бы примерно в 1020 раз. Даже при очень малень- ком начальном различии порядка 10-8 см (размер атома) это привело бы к конечному рассогласованию порядка 10е км. Конечно, такого рассогласования быть не может, и это попросту означает, что следую- щий шарик будет ударяться о другие колышки, и как он будет это де- лать, предсказать невозможно. Эта невозможность принципиальна, поскольку бессмысленно требовать идентичности начальных положе- ний с точностью порядка 10-20см, намного превосходящей размер атом- ного ядра. Да если бы такая точность и была возможна, то проявились бы тепловые флюктуации и привели бы опять к непредсказуемости дви- жения отдельных шариков, к случайности их прыганий с колышка на колышек. Итак, мы вынуждены признать, что в мире, в котором мы живем, существуют ситуации, в которых закономерное развитие событий при- водит к непредсказуемости и случайности. Так что случайность в на- шем мире закономерна даже в рамках детерминистической трактовки. Возможно, мы никогда, несмотря ни на какие успехи науки и вычисли- тельной техники, не сможем предсказывать погоду на сроки, большие двух недель или месяца. Теперь, после того как этот факт принят, рассмотрим его в аспекте занимающего нас исследования динамических систем и систем управ- ления. При этом хотелось бы обратить ваше внимание на следующий непростой вопрос. Да, никуда не денешься, закономерное развитие событий может быть непредсказуемо. Да, в этом смысле оно случайно, но откуда следует, что эти события являются случайными в смысле теории вероятностей, которая требует наличия у них вероятностей? Это не простой вопрос. Теория вероятностей ответа на него не дает. Ее историческое развитие сложилось так, что она его обошла и сформи- ровалась как аксиоматическая математическая наука. Но все же в некоторой мере на этот вопрос ответить можно, причем и в том смысле, что возможна непредсказуемость и случайность, не имеющая вероят- ности. Хотелось бы предупредить, что это вопросы новые, не устояв- шиеся, ждущие своих исследователей. Так что не следует смотреть на предлагаемые высказывания как на какую-то непогрешимую догму, это всегда не так, а в данном случае совсем не так. Пожалуй, самыми простыми примерами, где закономерность по- рождает случайность, являются датчики ЭВМ, алгоритмически вычис- ляющие случайные числовые последовательности. Для того чтобы по- нять, как такое может быть, рассмотрим последовательность чисел х0, х2,. . ., вычисляемых по формуле x„ = <7X„_x—(6.1) где q — число, большее единицы, а скобки [ I означают целую часть заключенного внутри них числа. Достаточно далекие значения этой последовательности непредсказуемы, поскольку начальное значение
§6. СЛУЧАЙНОСТЬ И ЗАКОНОМЕРНОСТЬ 55 х0 может быть задано только с некоторой ограниченной точностью и эта начальная неопределенность после п итераций по формуле (6.1) воз- растет в qn раз, где </>1. Есть ли у чисел этой «случайной» последова- тельности распределение вероятностей? Ответа на этот вопрос нет. (Это не совсем точно. Есть замечательные работы А. Н. Колмогорова, но рассмотрение их увело бы нас слишком далеко.) Можно ответить на другие, в некотором смысле близкие вопросы. Допустим, что начальные ошибки х0 сколь угодно малы и имеют некоторую плотность вероятностей, тогда числа последовательности хп имеют предельную плотность вероятности, одну и ту же для любой плотности вероятностей начальных значений х0. Это же утверждение можно сформулировать и как наличие плотности вероятности у слу- чайных чисел хп при наличии, пусть и очень малых, случайных ошибок вычислений по формуле (6.1). Эти случайные ошибки должны удовлет- ворять требованиям теории вероятностей, т. е. иметь плотность рас- пределения, и тогда вне зависимости от этой плотности вероятностей числа хп имеют некоторую свою, всегда одну и ту же, предельную плот- ность вероятностей. В данном конкретном примере это равномерное распределение на единичном отрезке [0, 11. Примем это за достаточное обоснование случайности последовательности хп и ее равномерного распределения. Можно с этим не соглашаться и предложить что-нибудь Другое. Заметим, что рекуррентную процедуру отыскания чисел ха, xlt х2,. . . при <7=10 можно трактовать как отыскание десятичной дроби числа ха-. целая часть этой дроби — [х01, первый десятичный знак после запятой —[lOxj], второй — [10х21 и т. д. В свете этого факта равно- мерность распределения последовательности хп означает, что десятич- ные знаки чисел единичного отрезка встречаются равновероятно. Уточ- ним, это в предположении, что имеется некоторое распределение самих действительных чисел, неважно какое, но есть. При разложении числа в цепные дроби приходим к рекуррент- ной формуле Уп = ~-----Г— 1- (6-2) ап уп-1 Lv«-iJ v Эта рекуррентная формула также неограниченно увеличивает началь- ную погрешность и порождает на единичном отрезке некоторое распре- деление, но оно уже не равномерное, а с плотностью (ln-12)(l+</)-1. Это было известно уже К. Гауссу. Остановимся на вопросе о существовании предельной плотности вероятностей. Допустим, что случайные величины х и х связаны соот- ношением х — f (х) (6.3) однозначным, но не взаимно однозначным, так что обратная функция x=g(x)—многозначная и имеет несколько однозначных ветвей х= =gs(x) (s=l, 2,. . .). Тогда плотности вероятностей р(х) и р(х), как
56 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМИЧЕСКОЙ СИСТЕМЫ нетрудно обнаружить, связаны между собой следующим образом: Р (х) = 2 Р (gs (х)) g's (%). (6.4> S Каждый раз, когда происходит преобразование (6.3), плотность вероят- ностей испытывает преобразование (6.4). Может оказаться, что при не- ограниченном повторении этого преобразования происходит стремле- ние к некоторой предельной плотности вероятностей р* (х) и что схо- димость имеет место для любой начальной плотности вероятностей. Если это имеет место, а именно в этом и состояло высказанное утверж- дение о характере случайности чисел последовательностей хп и уп, то предельная плотность вероятностей р* (х) может быть найдена ив уравнения Р* (х) = 2 Р* (gs (х)) g's (х). (6.5> а Составим уравнение (6.5) для преобразований (6.1) и (6.2). В случае (6.1) xn_1=(xn/q)+[qxn]q~1, и поскольку [qxn] при </=10 может прини- мать десять значений 0, 1, . . ., 9, то = 7 + Й (5 = 0,1,......9). (6.6> Поэтому, согласно (6.4), 9 Р„(х) = Е.Р„-1(п^)^ (6-7> s = 0 v 7 и, следовательно, предельная плотность вероятностей удовлетворяет уравнению 9 = (6.8> 5=0 * 7 Аналогично, для преобразования (6.2) приходим к уравнению вида р,(»)=Ё^р*(гЬ)- (М> Легко проверяется, что /?*(х)=1 и р* (у)=1 /[(1 +г/)1п 2J удовлетворяют соответственно уравнениям (6.8) и (6.9). Для преобразования (6.1) несложно обосновать наличие и единст- венность предельной плотности вероятностей р* (х) = 1 и то, что к ней происходит сходимость от любой начальной дифференцируемой плот- ности р0(х). Действительно, из (6.7) следует, что 9 Рп(Х)^\0~^Рп-1 (тЙ s=0 ' 7
§6. СЛУЧАЙНОСТЬ И ЗАКОНОМЕРНОСТЬ 57 и что max I р’„(х) К ~ max | р'п_х (х) |. * X Поэтому р'п (х)->0 при п-> оо, что и требовалось. Теперь мы рассмотрим управляемый дискретный динамический про- цесс, в котором связь между последующим состоянием и предыдущим такого же типа, как и в формулах (6.1) и (6.2), т. е. при нем тоже про- исходит неограниченное нарастание начального изменения. Пред- ставьте себе, что вам нужно взобраться вверх по лестнице с очень вы- сокими ступеньками, выше вашего роста. Зацепиться и вскарабкаться на следующую ступеньку не удается, впрыгнуть тоже. Обойти лестни- цу нельзя. А взобраться необходимо. Как это сделать? По правилам такой игры у вас должны быть какие-нибудь подручные средства. Они есть: пружина между двумя дощечками, гвозди и молоток. Кроме того, в ваше распоряжение поступают средства управления. Управлять своими действиями вам никто не запрещает. Предлагается следующее. Прибейте гвоздями свои ботинки в центре одной из дощечек, затем вставьте ноги в ботинки и зашнуруйте их. После этого начинайте подпрыгивать на пружине, потренируйтесь немного и затем, когда научитесь прыгать выше следующей ступеньки, прыгайте так, чтобы оказаться над ней. Получается? Очень хорошо. Когда вы взбираетесь все выше и выше, вы все время управляете своими движениями, то увеличивая свои подскоки, то перебираясь на следующую ступеньку, как только высота вашего прыжка будет для этого достаточной. Это различие формализуем управляемой перемен- ной it. u==Q — увеличивать подскок, и=1 —прыгать на следующую ступеньку. Для того чтобы построить математическую модель вашего подъема вверх по лестнице, нужно принять какие-нибудь предположе- ния о том, как вы наращиваете подскоки, когда и=0, и как вы пры- гаете на следующую ступеньку, когда и=1. Примем что-нибудь прав- доподобное и попроще. Пусть вначале раскачка происходит по гео- метрической прогрессии, а затем наступает сразу предел, т. е. пусть график раскачки имеет вид, показанный на рис. 2.18. Предел высоты подскока, естественно, должен быть больше, чем высота ступеньки. Этот график изображает связь между максимальными высотами х и х над одной и той же ступенькой в следующих друг за другом прыж- ках. Процесс раскачки из спокойного состояния до максимально воз- можных высот прыжков на графике рис. 2.18 изображается ломаной линией. Согласно этой ломаной максимальный прыжок достигается на пятом подскоке. Ясно, что это число могло бы быть и другим. Подско- ки, изображенные ломаной на рис. 2.18, соответствуют управлению м=0. Однако, как только появляется возможность прыгнуть выше следующей ступеньки, мы переходим к действию и=1 и в результате этого прыжка оказываемся над следующей ступенькой, причем макси- мальная высота над ней будет х—h, где h — высота ступеньки. Внесем соответствующее изменение в график рис. 2.18. Это приведет к графику
58 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМИЧЕСКОЙ СИСТЕМЫ рис. 2.19. Ломаная, изображающая наши подскоки, изменится. Вна- чале прыжки 1, 2, 3, как и раньше, и при этом и=0. На четвертом прыжке и=1, дальше снова несколько раскачек с и=0, потом и=1 и прыжок на следующую ступеньку и так далее. Рис. 2.18 Запишем рассматриваемый управляемый процесс подъема по лест- нице в виде уравнения изменения состояния х в зависимости от управ- ления a>h): _ ( а -{- qx—uh при x^alq, х = ( i. , (6.10) | а — uh при x^a/q ' и стратегии управления f 0 при х ssC h/q, U = 1 i (6-И) ( 1 при х > hlq, ’ определяющей управление в зависимости от состояния. Величины q, h и а являются параметрами. От них зависит вид графика рис. 2.19 и то, как будет происходить конкретный процесс управляемого подъема по лестнице. При значениях параметров, соответствующих рис. 2.19, на всех прыжках dx/dx=q>l, и поэтому происходит неограниченное нарастание малейшего изменения состояния, что соответствует непред- сказуемому случайному характеру процесса подъема, точнее, достаточ- но отдаленной от начала его части. Отметим, что при других значениях параметров, когда соответст- вующий график вида, показанного на рис. 2.20, процесс подъема но- сит закономерный, детерминированный характер и с некоторого прыжка — периодический. При этом при каждом прыжке вы заби- раетесь на следующую ступеньку и оказываетесь над ней на такой же высоте, как-и над предыдущей. Какие же выводы следуют из всего сказанного? Вы видели, что ди- намические системы, в том числе и системы управления, подразде- ляются на детерминированные и стохастические. При этом детермини- рованные системы можно рассматривать как частный случай стохасти-
§6. СЛУЧАЙНОСТЬ И ЗАКОНОМЕРНОСТЬ 59 ческих. Но это не умаляет важности их как самостоятельного типа ди- намических систем. Детерминированную динамическую систему можно сделать стохастической, если подвергнуть ее случайным воздействиям. После этого она станет стохастической. Если эти воздействия не кор- релированы во времени или время корреляции достаточно мало, то мы приходим к марковской системе. В том, как возникает стохастичес- кая система из детерминированной и чем определяется ее стохасти- ческое описание, могут быть существенные и очень важные отличия. Наличие этих коренных отличий и есть, пожалуй, самый важный вы- вод из сказанного. В первом случае при воздействии случайных помех детермини- рованная система становится стохастической, но по мере убывани этих помех ее стохастичность исчезает, дисперсии распределений вероятностей становятся все меньше и меньше. Ее стохастическое описание определяется как статистическими характеристиками помех, так и свойствами исходной де- терминированной системы. Подчеркнем еще раз, что при неограниченном убыва- нии стохастических помех возникшая стохастическая система «непрерывно» переходит в исходную детерминирован- ную. Однако возможен и совершенно другой случай, когда убывание помех не влечет за собой исчезновение стохастичности, когда она как бы не зависит от этих помех. При любых малых стохастических помехах перед нами одна и та же стохастическая динамическая система. При на- растании помех на ее «изначальную» стохастичность как бы наклады- ваются еще статистические возмущения этих помех. Естественно, чем помехи больше, тем их влияние заметнее. Первый тип стохастических систем весьма привычен, и именно о нем пишут во всех книгах и статьях о влиянии помех и флюктуаций. Второй тип также в центре внимания в статистической физике, в гидродинамике турбулентных течений. Од- нако высказанная выше точка зрения на природу их стохастичности, если можно так выразиться, не эксплуатировалась в должной мере. Лучше сказать, что она не была настолько отчетливой, чтобы можно было эффективно ее использовать, опираться на нее в теоретических построениях. Однако в самое последнее время тут произошли корен- ные изменения. Можно сказать, что эта новая идея вызвала среди фи- зиков лавинообразный процесс. Вопросы самогенерации стохастич- ности динамической системой усиленно дебатировались на ряде сим- позиумов, школ и семинаров у нас и за рубежом. Особую роль в воз- буждении этого интереса сыграла очень простая дискретная модель конвективной турбулентности, предложенная Зальцманом и Лоренцем в виде системы трех дифференциальных уравнений первого порядка
60 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ и ДИНАМИЧЕСКОЙ СИСТЕМЫ 10 20 J0 Рис. 2.21 нированно определяемых вида х = — ax + <Jy, у = гх—у—xz, z = — bz + xy. (6.12) Здесь х, у, z — фазовые переменные, а, г и b — положительные пара- метры. На рис. 2.21 при Ь=8/3 на плоскости параметров о, г изображена бифуркационная граница Гъ непосредственно выше которой у урав- нений (6.12) имеются решения, носящие хаотический непредсказуемый характер. Вид соответствующей фазо- вой траектории показан на рис. 2.22. Это фотография фазовой траектории с экрана осциллографа. При. значениях параметров между кривыми 1\ и Г2, по- мимо хаотических движений, возможны устойчивые равновесия и движения, стремящиеся к ним. Непосредственно вы- ше кривой Г2 все движения хаотические, все они неустойчивы по Ляпунову. Чтобы в какой-то мере связать приводимые ранее примеры детерми- хаотических случайных последовательно- стей с тем, что наблюдается у решений уравнений Лоренца (6.12), за- метим, что если пересечь фазовое пространство плоскостью z=r—1, Рис. 2.22 то последовательные точки пересечения фазовых траекторий с этой плоскостью с хорошим приближением ложатся на некоторую кривую, порождая на ней точечное отображение такого же типа, как и отобра- жения (6.1), (6.2) и (6.10), (6.11). Вид этого точечного отображения по- казан на рис. 2.23. График точечного отображения таков, что всюду Их/Л|>1, и поэтому имеет место неограниченное нарастание любого отклонения. Он такого типа, как график на рис. 2.19 и графики, изоб- раженные на рис. 2.24 и 2.25 и отвечающие точечным отображениям (6.1) и (6.2). На этом покончим с первым выводом. Он общего характера и ка- сается не только теории управления, но и всей науки в целом. Пожа-
s 7. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ДИНАМИЧЕСКОЙ СИСТЕМЫ 61 дуй, он даже мировоззренческого характера. Второй вывод специаль- ный, он будет относиться прежде всего к теории управления. Естественно думать, что управление вносит организованность и по- рядок. На языке теории динамических систем это соответствует появ- лению устойчивости, синхронизации движений отдельных подсистем в общее ритмичное движение. Так, управление уличным движением вносит порядок в невероятный хаос, который мог бы быть без него, наша нервная и гормональная системы упорядочивают функционирова- ние многих миллиардов клеток нашего организма. Выход из этой ор- ганизованной упорядоченности грозит организму гибелью. Примером тому — рост раковых опухолей, клеток, потерявших связь со всем организмом и растущих в нем как в питательной среде. Но вы видели, что результатом управления может быть и возникновение неустойчи- вости, беспорядка и хаоса. При этом не всегда возникшая хаотич- ность не может быть полезным и выгодным режимом функционирова- ния системы. Это, во всяком случае, не так в задаче о подъеме по лест- нице вверх, это не так при необходимости организации поиска, где, возможно, именно хаотичность необходима для поиска решения и раз- вития. Но дальнейшее обсуждение этих очень интересных вопросов оставим до другого случая. § 7. Математическая модель динамической системы Предыдущее изложение осветило содержательную сторону понятий состояния и динамической системы. Настал черед математической фор- мализации. Эта формализация возможна в весьма различных планах и изоморфных описаниях. Ниже она дается в геометрическом аспекте, в том, который ей придал А. Пуанкаре (1854—1912). Он был геометр по образу мышления, он мыслил геометрически. Во всяком случае, так он сам говорил. Такая геометр изованна я модель динамической системы достаточно удобна и наглядна, она позволяет непосредственно
62 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМИЧЕСКОЙ СИСТЕМЫ связать теорию динамических систем с топологией. Особенно наглядна она для динамических систем небольшой размерности, где ее образ — фазовый портрет—доступен прямому геометрическому созерцанию. Фазовый портрет позволяет «понимать» динамику системы, логику и обусловленность ее поведения. Он позволяет понять, как и отчего может меняться поведение системы. Многие, если не все, колебатель- ные явления нашли в фазовом портрете свое наглядное и адекватное отражение. Но все же это не единственная формализация и даже не единствен- ная хорошая модель. Так называемая функциональная модель имеет тоже свои положительные стороны. Она берет свое начало от идеи черного ящика, идеи функционального преобразования, связывающего входные действия с выходными, от электротехники и операционного исчисления, от логических устройств и вычислительных машин. Функ- циональная модель не есть портрет динамического поведения, она от- ражает только функциональные связи. Модель Пуанкаре исходит из представления множества возможных состояний в виде некоторого пространства состояний, фазового про- странства. Состояния реальных динамических систем могут быть близ- кими или далекими. Для них имеется естественное понятие близости. Для механической системы близость — это близость конфигураций и скоростей; для электродинамической — близость электромагнитных полей. Это естественное понятие близости делает множество всевоз- можных состояний пространством состояний, точнее, топологическим пространством. Каждая точка этого пространства отвечает некоторому состоянию S и обратно. Это соответствие по смыслу должно1 быть взаимно однозначным и взаимно непрерывным, фазовое пространст- во — это изоморфный геометрический образ множества всевозможных состояний S. Изменение состояния S означает перемещение в фазовом простран- стве точки S, которая описывает при этом некоторую траекторию, на- зываемую фазовой траекторией. Из каждой точки фазового прост- ранства выходит одна и только одна фазовая траектория. Так что все фазовое пространство разбивается на непересекающиеся траектории. Геометрический образ фазового пространства в виде пучка составляю- щих его фазовых траекторий или в виде фазового пространства, раз- битого на фазовые траектории, называется фазовым портретом дина- мической системы. Фазовый портрет динамической системы определяет изменение ее состояния S из любого начального. Изменение состояния S со временем может быть задано оператором (А/) так, что S(t + M) = T (AZ)S(/). (7.1 Оператор Т (А/) однозначен и удовлетворяет очевидному соотношению 7(A/2)T(A/1) = T(A/1 + AQ, (7.2)
§ 7. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ДИНАМИЧЕСКОЙ СИСТЕМЫ 63 означающему, что последовательные изменения состояния S(t) за времена A/j и А/2 совпадают с изменением состояния S(t) за время A/j-f-A/a- Таким образом, с динамической системой связано некоторое фазо- вое пространство Ф с заданным в нем оператором Т (ДТ). Опера- тор Т(А/) однозначен при А/^0 и определяет разбиение фазового пространства Ф на фазовые траектории — фазовый портрет динами- ческой системы. Такова общая геометризованная модель динамической системы, она определяется фазовым пространством Ф и оператором Т(А/). Теперь о некоторых подробностях. Пространство Ф может быть не только непрерывным, но и дискретным. Оно может быть в одних своих частях непрерывным, в других — дискретным. Оператор Т(А/) может быть определен для всех А£>0, но возможны случаи, когда он изве- стен лишь для некоторых значений А/ или пар значений времен и В случае, когда фазовое пространство Ф непрерывно, оно может быть конечной или бесконечной размерности. Наконец, оно может иметь ту или иную топологическую структуру. Так, оно может быть двумерной плоскостью, двумерной сферой или тором. Оно может быть и других топологических типов. Оператор T(\t) может быть задан аналитическими или логическими формулами, он может быть задан дифференциальными уравнениями или некоторыми вычислительными алгоритмами. Наиболее привыч- ными формами задания оператора являются дифференциальные урав- нения в обычных или частных производных. С конкретными видами фазовых пространств, операторов и фазо- вых портретов мы познакомимся в следующей главе. Там мы встретим- ся с различными видами фазового пространства и с различными фор- мами задания и определения оператора T(&t). В следующих главах мы встретимся и с довольно различными фазовыми портретами кон- кретных динамических систем.’ Эти конкретные динамические системы будут различной природы, как детерминированными, так и стохастическими. Однако эти их осо- бенности не имеют отношения к математической модели динамической системы. Они лежат вне нее. Они относятся не к самой математической модели динамической системы или к ее фазовому портрету, а к кон- кретной содержательной трактовке понятия состояния.
ГЛАВА 3 ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ § 1. Фазовый портрет физического маятника Рассмотрение примеров динамических систем и их фазовых порт- ретов начнем с плоских движений физического маятника. Этот пример интересен тем, что позволяет сравнительно легко построить фазовый портрет и дать его физическую интерпретацию, а также большой ролью, которую маятник сыграл в развитии механики, физики, теории колебаний. Рис. 3.1 Рассмотрим физический маятник, совершающий плоские движения относительно неподвижной точки подвеса (рис. 3.1). Мгновенное по- ложение его определим углом <р отклонения от вертикальной оси, про- ходящей через точку подвеса. Так как движущийся маятник пред- ставляет собой механическую Систему, то мгновенное положение <р и скорость <р изменения положения определяют его состояние. Мно- жество всевозможных состояний маятника определяется условиями —л^ф^Тл, —оо<ф<+оо, причем при <р=—л и <р=л маятник за- нимает одно и то же верхнее положение. Как выбрать фазовое пространство маятника? Прежде всего ясно, что это должно быть двумерное пространство, и поэтому естественно взять плоскую полоску (рис. 3.2) с одной исключенной границей, на- пример, ф=—л. Действительно, тогда каждому состоянию маятника соответствует одна точка и, наоборот, любой точке полосы отвечает
§ 1. ФАЗОВЫЙ ПОРТРЕТ ФИЗИЧЕСКОГО МАЯТНИКА 65 одно определенное состояние маятника. Осталось проверить, сохра- няется ли в выбранном пространстве понятие близости состояний. Близкими естественно считать состояния, в которых углы близки и скорости близки. Если близость сохраняется, то выбранное прост- ранство — фазовое. На самом же деле в пространстве, которое мы выбрали, эта близость не сохраняется. Действительно, если, как пока- зано на рис. 3.2, взять одну точку М близкой к А (л, <р), а другую — У близкой кВ(—л,<р),то между собой они находятся далеко, но им от- вечают близкие состояния. Добиться сохранения близости можно, если вырезать полоску и склеить ее края. Получится цилиндр (рис. 3.3). Это и есть фазовое пространство физического маятника. Попробуем освоиться с фазовым пространством, для чего рассмотрим рис. 3.3. Возьмем две точки 0t (ср=О, <р=0) и 02(<р=л, <р=0). Обе они отвечают состояниям равновесия маятника. Точка соответствует нижнему состоянию равновесия, когда маятник 'спокойно висит. Точка 02 — верхнему состоянию равновесия, когда маятник спокойно торчит вверх. Такое состояние теоретически возможно. Мы знаем, что верхнее и нижнее состояния равновесия маятника существенно разли- чаются. Однако с точки зрения фазового пространства точки 01 и 02 ничем не отличаются друг от друга. Теперь представим себе, что изменение состояний маятника изображается замкнутой кривой Г1( охватывающей точку 0х. Что это значит? Это означает, во-первых, что маятник колеблется возле нижнего состояния равновесия, угол и ско- рость меняются в некоторых определенных пределах, во-вторых, со- стояния периодически повторяются. То есть замкнутой кривой, охва- тывающей нижнее состояние равновесия, отвечает периодическое коле- бательное движение маятника около состояния равновесия. Теперь возьмем замкнутую кривую Г2, охватывающую цилиндр. Движению фазовой точки по этой кривой соответствует вращательное движение маятника в положительном направлении. Если нарисовать такую же кривую в нижней части цилиндра, то ей соответствует вращательное движение маятника в другую сторону. А теперь выясним, как действительно маятник движется. Для этого найдем оператор Т динамической системы и построим разбиение фазо- вого цилиндра на траектории. Уравнение, описывающее движение маятника в предположении отсутствия трения, имеет вид 7cp-f-/ngrZsin<p = O, (1.1) где I — момент инерции маятника относительно точки подвеса, m — масса маятника, I — длина маятника. Решение уравнения (1.1) однозначно определяется начальными ус- ловиями <р(О)=<ро, <р(О)=фо и, следовательно, является оператором рассматриваемой динамической системы. Уравнение (1.1) интегрирует- ся в эллиптических функциях, однако, как приятно заметить, для на- хождения фазовых траекторий нет необходимости его интегрировать, достаточно найти первый интеграл. Этим первым интегралом является
66 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ интеграл энергии, и он легко находится, если умножить уравнение (1.1) на (fdt и проинтегрировать. Получим первый интеграл уЛр2—mgl cos <р = const. (1.2) Первое слагаемое в (1.2) дает значение кинетической энергии маятни- ка, второе — потенциальной, а весь первый интеграл означает, что при движении маятника его полная энергия не меняется. Если за нуль отсчета потенциальной энергии выберем нижнее положение маятника, то интеграл (1.2) перепишется сле- дующим образом: Iq2 + mgl(\—соэф) = /1, (1.3) где h— полная энергия маятника. Полученный интеграл (1.3) дает связь между <р и <р, т. е. является уравнением фазовых траекторий. Что- бы построить их, прибегнем к очень простому геометрическому приему. Выразим ф из уравнения (1.3); полу- чим Ф = + ]/4p-V(<p)], (1.4) Рис. 3.4 где У(ф)=т£/(1—соэф) — потенци- альная энергия маятника. Пост- роим график функции V (ф) (рис. 3.4). Проведем прямую У(ф)=/г и от- ложим стрелочками значения h—У(ф). Там, где h—Е(ф)>0, стрелоч- ки направлены вверх и там существуют действительные значения <р; там, где h—V (ф)<0, стрелочки направлены вниз и действительных значений ф не существует. Под этим рисунком нарисуем развертку фазового цилиндра. На развертке для каждого h отложим значения Ф и ф. Получим фазовую траекторию. Отметим стрелкой направление движения фазовой точки (направление изменения состояния) по.фазо- вой траектории. Там, где ф>0, фазовая точка движется в направлении увеличения ф. При ф<0 движение происходит в противоположном на- правлении. В каких пределах можно менять А? Если /г<0, то все стрелки на- правлены вниз. Действительных значений ф нет. При h=0 фазовой траекторией является единственная точка 01 — это состояние равно- весия. Для /г>0, но небольшого, получаем замкнутую фазовую траек- торию, охватывающую точку 01. При дальнейшем увеличении h бу- дем получать подобные предыдущим кривые, но больших размеров.
§ 1. ФАЗОВЫЙ ПОРТРЕТ ФИЗИЧЕСКОГО МАЯТНИКА 67 Так будет до значения h, равного максимальному значению функции V (<р). Если дальше увеличивать h, то будем получать другие кривые. Это тоже замкнутые кривые, но они охватывают цилиндр. Причем каждому h отвечают две такие кривые: одна для ф>0, другая для Ф<0. Теперь вновь вернемся к значению h, равному значению функции У(ф). Этому значению соответ- ствуют три фазовые траектории: точка 02 — со- стояние равновесия и две траектории Si и S2, которые отделяют (сепарируют) замкнутые траек- тории, охватывающие точку 01, от замкнутых траекторий, охватывающих цилиндр. Такиетраекто- рии называются сепаратрисами. Итак, что мы имеем? Точкам 0± и 02 соответ- ствуют состояния равновесия. Кривым 1\ от- вечают периодические колебательные движения, а кривым Г2 — периодические вращательные движения в одну сторону и в другую. Кривым Si и S2 соответствуют только теоретически возможные движения, когда маятник асимп- тотически приближается к верхнему состоянию равновесия с одной и с другой стороны. Раньше мы не могли отличить нижнее состояние равновесия от верхнего. Теперь мы это легко сделаем. Рассмотрим фазовые траектории на цилиндре. Вокруг нижнего состояния равновесия идут замкнутые траектории. А вокруг верхнего таких траекторий нет. Из верхнего состояния равно- весия выходят две траектории Si и S2, которые вновь в него входят. С двух сторон к траекториям Si и S2 примыкают траектории колеба- тельных движений, а с двух других сторон — траектории вращатель- ных движений. Особенно хорошо это видно на обратной стороне ци- линдра (рис. 3.5). Причем становится ясно, в чем существенное раз- личие верхнего и нижнего состояний равновесия. Они отличаются тем, что близкие к ним траектории ведут себя по-разному, хотя сами точки 01 и 02, конечно же, одинаковы. В чем суть этого различия? Возьмем фазовую точку вблизи состояния равновесия. Это означает, что на маят- ник подействовало малое возмущение. Если он находился в нижнем положении, то будет совершать небольшие колебания возле этого по- ложения. Если же он находился в верхнем положении, то при сколь угодно малом возмущении он будет либо сильно качаться, далеко ухо- дя от нижнего состояния равновесия, либо будет вращаться. Увидеть это различие и определить, в чем оно состоит, нам позволил фазовый портрет системы. Итак, на этом примере мы увидели конкретную геометрическую ин- терпретацию всех возможных движений динамической системы в виде разбиения фазового цилиндра на фазовые траектории. Это, по сущест- ву, геометрическая модель возможных движений маятника. Такой портрет можно построить для любой динамической системы. Почему
68 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ это можно сделать? Потому, что мы располагаем понятием состояния, понятием фазового пространства, понятием оператора, который опре- деляет понятие фазовой траектории и единственности разбиения фазо- вого пространства на траектории системы. § 2. Автоколебания генератора с неоновой лампочкой Рассмотрим электрическую схему с неоновой лампочкой, изобра- женную на рис. 3.6. Источник постоянного тока с.э. д. с., равной Е, включен в так называемую 7?С-цепь, состоящую из последовательно соединенных сопротивления R и конденсатора емкости С. Цепь нагру- жена неоновой лампочкой, включенной параллельно конденсатору. Если неоновая лампочка пропускает ток, то газ, наполняющий ее, находится в ионизированном состоянии и светится — лампочка горит; если она не пропускает ток, то не горит. Неоновую лампочку можно считать нелинейным сопротивлением, у которого зависимость меж- ду током i и напряжением и (вольт-амперная характеристика) выра- жается функцией i=f(u). На рис. 3.7 изображен график этой функ- ции ради простоты только для положительных значений и, для отри- цательных и график, симметричен относительно начала координат. Посмотрим, как изменяется величина тока, текущего через лам- почку, при изменении напряжения на ней. При малом напряжении лампочка не горит, ток через нее не проходит. Если напряжение уве- личивается, то при некотором «напряжении зажигания» и3 лампочка загорается, причем через нее сразу же течет ток конечной величины. При дальнейшем увеличении напряжения ток немного увеличивается, лампочка горит ярче, и ничего существенного при этом не происходит. Самое удивительное произойдет, если будем уменьшать напряжение и на горящей лампочке. Уменьшаем напряжение до и3 — лампочка го- рит, уменьшаем дальше — все еще горит и лишь при некотором напря- жении иг, которое назовем «напряжением гашения», лампочка по- гаснет. При этом ток изменится скачком от значения, отвечающего на- пряжению гашения, до нуля. Все эти особенности вольт-амперной характеристики неоновой лампочки отражены на рис. 3.7 и прояв- ляются в том, что функция f(u) — разрывная и двузначная на интер- вале мг^и<^м3.
§2. АВТОКОЛЕБАНИЯ 69 Теперь попробуем разобраться в том, что происходит в этой элект- рической системе. Прежде всего ясно, что если величина э.д.с. Е источника питания меньше, чем иг, то в системе всегда будет устанав- ливаться режим, при котором лампочка не горит. Кроме этого очевидного случая интуитивно ясно, что будет в дру- гом крайнем случае, когда Е>иэ. Если напряжение источника пита- ния достаточно велико, то, в каком бы состоянии лампочка ни находи- лась в момент включения схемы, спустя некоторое время она обяза- тельно загорится и больше не погаснет. Что же будет происходить между этими крайними случаями? Для выяснения этого построим ма- тематическую модель системы, т. е. найдем состояние системы, ее фа- зовое пространство и оператор изменения состояния. За первоначальное описание системы возьмем — ток через со- противление R, q — заряд конденсатора, и — напряжение на неоно- вой лампе и на конденсаторе, i — ток через лампу. Все эти величины меняются со временем. Установим связи между ними. Напряжение на конденсаторе и величина заряда связаны уравнением q=Cu. В со- ответствии с вольт-амперной характеристикой ток через неоновую лам- почку i=f(u), график функции / (и) изображен на рис. 3.7. Закон Кирх- гофа для токов (ток через конденсатор равен dqldf) и напряжений дает еще два уравнения: = I + Ri1-^-u — E. Для четырех переменных в описании системы имеем четыре уравнения. Но легко заметить, что описание избыточно, и можно обойтись лишь одной переменной, исключив из уравнений три остальные. Какие переменные исключить, а какую оставить? Ясно, что труднее всего исключить переменную и, так как она входит аргументом в нелиней- ную функцию f(u). Ее и оставим. Исключая iu I и q из уравнений, по- лучим i = ±[E-u-Rf(u)]. (2.1) Теперь можно думать, что и является состоянием динамической систе- мы. Однако это не так. Уравнение (2.1) не позволяет однозначно опре- делить последующие значения и для любых начальных значений. Дей- ствительно, если взять начальное значение и из интервала [цг, н3], то нельзя однозначно решить уравнение (2.1), так как неизвестно, какую ветвь функции f(u) взять, то ли нижнюю, когда лампочка не горит, то ли верхнюю, когда лампочка горит. Остюда следует, что опи- сание системы только напряжением и на лампочке неполное, и его надо дополнить описанием внутреннего состояния лампочки. Лампоч- ка имеет два внутренних состояния: «не горит» и «горит». Обозначим внутреннее состояние лампочки буквой к и придадим ей два значе- ния: х=0, если лампочка не горит, и х=1, если лампочка горит. Зна- чению х=0 отвечает нижняя ветвь характеристики лампочки, а х=1
70 ГЛ. з. динамическая система и ее фазовый портрет отвечает верхняя ветвь. Закон смены внутреннего состояния неоновой лампочки определяется условиями смены значений х. Если х=0, то переход к значению х = 1 происходит при «=и3 и и>0; если х=1, то переход к х=0 происходит при и=иг и м<0. Теперь дифференциаль- ное уравнение (2.1) и закон изменения х позволяют по заданным зна- чениям иих однозначно определить их дальнейшее изменение. Дей- ствительно, если х=1, то в уравнении (2.1) надо взять верхнюю ветвь функции /(«); если х=0, то надо взять нижнюю ветвь, т. е. введением х-0 дополнительного описания лампочки я-1 мы преодолели неоднозначность функ- ] |_ции f(u). Таким образом, совокупность j| х=(х, и) является полным описанием динамической системы или ее состоя- Рис. 3.8 нием- Теперь перейдем к выбору фа- зового пространства. Прежде всего определим понятие близости состояний системы. Близкими естест- венно считать состояния, для которых х одно и то же, а значения и близки. Тогда за фазовое пространство естественно выбрать две полу- прямые: одну, отвечающую х=1 и и^иг, и другую для х=0 и и^и3 (рис. 3.8). Переход с одной полупрямой на другую может происходить только при мг и и3 в направлениях, указанных пунктирными стрелка- ми на рис. 3.8. Заметим, что за фазовое пространство системы можно взять график функции /(«). Действительно, сравнивая рис. 3.7 и 3.8, видим, что график функции /(«) и изображение фазового прост- ранства состоят из двух полуограниченных линий. Верхние линии отвечают значению х=1, а нижние — х=0. Переход с верхней на нижнюю происходит при и=иг, а с нижней на верхнюю — при и=и3. Теперь перейдем к изучению изменений состояния системы. Фазо- вое пространство будем изображать в виде графика функции f(u). Выберем на графике f(u) произвольную точку (х, и) и возьмем ее за начальное состояние системы. Изменению состояния будет отвечать движение фазовой точки по фазовому пространству, причем закон дви- жения определяется оператором системы, т. е. дифференциальным урав- нением (2.1) и законом изменения х. Надо решить уравнение (2.1), учитывая изменение х. Однако можно определить, как движется фазо- вая точка, не интегрируя уравнение (2.1). Действительно, для каждой точки (х, и) фазового пространства правая часть дифференциального уравнения (2.1) определяет и. Зная и, легко понять, как движется фазовая точка по фазовому пространству. Там, где и>0, она движется вправо в сторону увеличения и, где и<0, движется влево. Определить и можно или вычисляя правую часть уравнения (2.1), или графически. Графически это делается следующим образом: в декартовой системе координат, на оси абсцисс которой откладываются значения и, строим график двух функций y=f(u) и у=(Е—u)/R (рис. 3.9). График y=f(u) является фазовым пространством нашей системы. Графиком второй
§2. АВТОКОЛЕБАНИЯ 71 функции является прямая L. В каждой точке (х, и) определим графи- чески разность (Е—u)/R—f(u) и отметим ее стрелочками, Как пока- зано на рис. 3.9. Если разность положительна, то стрелочку направим вверх; если отрицательна, то вниз. Построенные таким образом раз- ности пропорциональны с коэффициентом 1/С значению и. Посмотрим, как движется фазовая точка в случае, изображенном на рис. 3.9. Прямая L и график функции f(u) пересекаются в одной точке 01. Здесь «=0 и, значит, точка 0^ является состоянием равно- весия. Слева от него «>0, справа «<0. Следовательно, все фазовые точки слева и справа приближаются к точке 01. Точка 01 — устойчи- вое состояние равновесия. Мы получили фазовый портрет системы в этом случае. Он опреде- ляется единственным устойчивым состоянием равновесия, к которому фазовая точка приходит из любого начального состояния. В состоянии равновесия х=0 и и=Е, т. е. лампочка не горит и напряжение на ней и=Е<иг. Какие еще движения возможны в системе? Ответ на такой вопрос можно получить, если рассмотреть все возможные случаи взаимного расположения прямой L и графика функции /(«). Рассмотрим случай, изображенный на рис. 3.10. В фазовом пространстве есть одно состоя- ние равновесия — точка О2. Состояние равновесия устойчивое, так как фазовая точка из любой части фазового пространства приближает- ся к 02. Казалось бы, все аналогично предыдущему случаю, снова имеем единственное состояние равновесия, однако в нем х = 1, а это означает, что лампочка горит, т. е. точке 02 отвечает качественно иное состояние системы. Теперь рассмотрим промежуточный случай, когда Е>и3, но пря- мая L не пересекает график функции /(«) (рис. 3.11). В этом случае в фазовом пространстве системы нет состояний равновесия, но есть замкнутая фазовая траектория ABCD, к которой фазовая точка при- ходит из любого начального состояния. Такую замкнутую фазовую траекторию называют предельным циклом. Предельному циклу отве-
72 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ чает периодический процесс смены состояний в системе, периодическое колебание, названное А. А. Андроновым автоколебанием. Отличитель- ной особенностью автоколебания от других видов периодических ко- лебаний в динамических системах является то, что это колебание си- . стема генерирует сама и его вид, пери- од и амплитуда определяются только свойствами системы. i I Итак, в этом случае фазовый порт- | рет системы определяется единственной замкнутой фазовой траекторией — пре- -------Ai__________ у дельным циклом. Все остальные фазо- х-о иг______________е вые ТраекторИИ с увеличением времени к Рис. 3.11 нему приближаются. Такой предельный цикл называется устойчивым. Устойчи- вому предельному циклу отвечают автоколебания системы, при ко- торых лампочка поочередно то загорается, то гаснет. На рис. 3.12 изображено, как изменяется во времени состояние, когда система совершает автоколебания. Приведены графики измене- ния напряжение u(t) на конденсаторе и тока i(t) через неоновую лам- почку. За начальное взято состояние, отвечающее точке А на рис. 3.11. Когда фазовая точка движется по участку АВ предельного цикла, лампочка не горит, а конденсатор заряжается до значения напряжения и3. Затем фазовая точка перескакивает на ветвь х = 1, лампочка заго- рается, причем ток через нее имеет сразу же конечное значение. Даль- нейшее движение фазовой точки происходит по участку CD. Конденса- тор разряжается через лампочку. Напряжение на нем уменьшается, уменьшается ток через лампочку. При значении напряжения, равном иг, лампочка гаснет, ток через нее изменяется скачком до нуля и про- цесс повторяется. Для того чтобы найти период автоколебаний, надо знать конкретный вид функции f(u). Будем считать ее кусочно-линей- ной, как показано на рис. 3.13. Тогда ее можно описать так: О, и— U если х = О, если х = 1,
§ 2. АВТОКОЛЕБАНИЯ 73 где jj . uTi3—u3ir D и3 — иг Движение фазовой точки на участке АВ описывается уравнением RCu=E—и. Его решение при начальном условии u(0)=ur имеет вид и~Е — (Е—иг)ехр ( — ~ f). Время движения по участку АВ определяется выражением T1 — RC\n-p—Движение фазовой точки по участку CD описы- вается уравнением RCu^EA-^-U-^ — ^u. Кл \ Ад / Решение его при начальном условии u(0)=u3 имеет вид и=Е+т^и~(Е+тгли~Ua}ехр Из условия u(7'2)=ur определяется время движения по участку CD. Оно равно RR С E+r~U Ua т _ ААдЬ 1п _Ад_____ Ад Период Т автоколебаний равен 7’=7’1+7,2. Он пропорционален ем- кости С конденсатора и довольно сложно зависит от других парамет- ров системы. Рассмотрим последний из качественно различных случаев взаимо- расположения графика функции f(u) и прямой L, показанный на рис. 3.14. Здесь ur<ZE<Zu3H прямая L пересекает обе ветви характери- стики лампы. В фазовом пространстве есть два состояния равновесия 0t и 02. Оба они устойчивые, но несколько в ином смысле, чем в слу- чаях, изображенных на рис. 3.9 и 3.10. Если в случаях единственного состояния равновесия фазовая точка приходит к нему из любого на- чального положения, то в случае двух состояний равновесия (рнс. 3.14) все фазовое пространство делится на две области: в одной из них фа- зовые точки приходят к состоянию равновесия О19 в другой приходят к О2. Это области притяжения состояний равновесия. У состояния равновесия 01 — это нижняя ветвь фазового пространства; у состоя- ния равновесия 02 — это верхняя ветвь. Если начальное возмущение невелико и не выводит фазовую точку из области притяжения неко- торого состояния равновесия, то установится то же самое равновесие. Если же возмущение велико, то состояние равновесия может сменить- ся. Таким образом, в этом случае состояния равновесия устойчивы не
74 гл. з. динамическая система и ее фазовый портрет при всех начальных возмущениях, а лишь при таких, которые не вы- водят фазовую точку из области притяжения состояния равновесия. Итак, в этом случае фазовый портрет системы определяется двумя состояниями равновесия, устойчивыми по отношению к небольшим начальным возмущениям. В одном из них, — лампочка «не горит», в другом, 02 — «горит». То, какое из них установится в системе, за- висит от начального состояния. Если в начальный момент лампочка не горела, то не будет гореть потом; если горела, то будет продолжать гореть. Переход системы из одного установившегося состояния в дру- гое можно осуществить, подавая, например, импульс напряжения на конденсатор. Такой режим работы, когда с помощью некоторого управляющего воздействия можно выбрать одно из двух возможных установившихся состояний, называется триггерным. Таким образом, мы построили четыре качественно различных фа- зовых портрета динамической системы, отвечающие различным случаям взаиморасположения графика вольт-амперной характеристики i= =f(u) лампы и прямой L: i=(E—u)/R. Чтобы знать, какой режим уста- новится в системе и как перейти от одного режима к другому, надо изучить зависимость фазового портрета от параметров. Пусть мы можем распоряжаться величиной э. д. с. батареи и сопротивлением резистора, т. е. параметрами Е и R. Рассмотрим плоскость параметров Е и R, причем Е>0 и R^Q (рис. 3.15). Плоскость параметров Е и R разби- вается некоторыми линиями на четыре области, каждой из которых отвечает определенный фазовый портрет. Границы этого разбиения определяются таким расположением прямой L по отношению к гра- фику f(u), изменение которого приводит к качественно различным фа- зовым портретам. Как следует из рис. 3.9—3.11, 3.14, именно таким будет расположение прямой L, когда она пересекает либо нижнюю ветвь графика функции f(u) в точке и3, либо верхнюю ветвь в точке иг. Это будет при значениях параметров либо Е=и3, либо/? = = (Е—иг)/1г. В плоскости параметров Е и R эти условия определяют уравнения граничных прямых.
§2. АВТОКОЛЕБАНИЯ 75 В этом примере генератора релаксационных колебаний довольно легко удается построить фазовый портрет и изучить его зависимость от параметров. Но этот пример еще интересен и тем, что в нем опера- тор динамической системы, который задается дифференциальным уравнением и законом смены х, не является однозначно обратимым. Действительно, рассмотрим случай, изображенный на рис. 3.11; если система находится в состоянии х=0, ur<Lu<.u3, то дальнейшее его изменение определяется однозначно, величина и растет и за конечное время достигает значения и3. Затем х меняется и становится равным 1, а и начинает убывать и т. д. Но если мы попытаемся определить, откуда фазовая точка пришла в это состоя- ние, то ничего не получится. Она могла прийти сюда как с ветви х=0, так и с ветви х=1, т. е. опе- ратор динамической системы одно- значно необратим. Вернемся к электрической схеме генератора релаксационных коле- баний с неоновой лампочкой и обратим внимание на то, что в ее мате- матической модели не нашли отражения процессы установления тока, связанные с наличием самоиндукции электрических контуров и инер- ционностью газового разряда в неоновой лампе. Это пренебрежение самоиндукциями, пусть очень маленькими, и инерционностью газового разряда привело к тому, что в рассмотренной математической модели могут происходить мгновенные изменения тока. Теперь рассмотрим более полную электрическую схему с неоновой лампочкой, изобра- женную на рис. 3.16, где инерционность установления тока учитывает- ся введением индуктивности L в контур лампы. Неоновую лампу, как и прежде, будем считать нелинейным сопротивлением. Однако вид связи между напряжением и током через нее требует уточнения. Дело в том, что ранее неоновая лампочка присоединялась непосредственно к конденсатору, поэтому напряжение v на ней совпадало с напряжением и конденсатора и определялось его зарядом. Изменение этого заряда определяло изменение напряжения на неоновой лампочке. При изме- нении напряжения на неоновой лампочке ток через нее менялся в со- ответствии с характеристикой, изображенной на рис. 3.7. Теперь в контуре неоновой лампочки есть индуктивность L, которая опреде- ляет ток, проходящий через лампу, а не напряжение на ней. Поэтому теперь нас интересует зависимость напряжения v на лампе от проходя- щего через нее тока i, а не зависимость тока от приложенного напря- жения. Казалось бы, эту зависимость можно получить простым обра- щением рассмотренной ранее вольт-амперной характеристики лампы, однако это не так. Не так это уже потому, что на характеристике, пред- ставленной на рис. 3.7, неизвестно, какие напряжения отвечают зна- чениям тока между нулем и минимальным током горящей лампы. В прежней модели этот вопрос не возникал, теперь на него необходимо ответить. Оказывается, значениям тока в этом промежутке отвечает
76 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ так называемый падающий участок зависимости напряжения от тока, участок, где с ростом тока напряжение не возрастает, а убывает. Соот- ветствующая характеристика связи тока и напряжения изображена на рис. 3.17. Теперь можем перейти к рассмотрению динамики электрической системы, схема которой изображена на рис. 3.16. Используя законы Кирхгофа и известные физические зависимости, запишем уравнения для зарядов, токов и напряжений в системе « = £, Rii + u = E, L^ = u—v, q = i±—i, v = g(i). (2.2) В этих уравнениях q — заряд конденсатора, й — ток через сопротив- ление R, i — ток в контуре неоновой лампы, v — напряжение на лам- пе н и — напряжение на конденсаторе. Функция g(i) выражает за- висимость напряжения на неоновой лампе от про- ✓ текающего через нее тока. Ее график изображен / на рис. 3.17. / Исключая из уравнений (2.2) переменные q, й \_Х и v, получим два дифференциальных уравнения ~dt=~—g l> = g(l)> (2.3) Рис. 3.17 описывающие изменение и и й Значит, напряжение на конденсаторе и ток i в контуре лампы можно принять за состояние динамической системы, а за фазовое простран- ство взять двумерную плоскость переменных и и й Теперь перейдем к изучению фазового портрета динамической систе- мы и, в частности, выясним, как связан двумерный фазовый портрет с рассмотренным ранее одномерным и как происходит переход от пер- вого ко второму при L->0. Введем обозначения <р(и, i)=~(E —и—Ri), ф(и, i) = u—g(i) (2.4) н, используя их, запишем уравнения (2.3) в виде ^ = ф(«, О, = О- (2-5) Состояния равновесия динамической системы определяются из урав- нений <р («, i) = Q, ф(и, i) = Q. (2.6) На фазовой плоскости (u, i) эти уравнения задают две линии, точки пересечения которых отвечают состояниям равновесия. Согласно (2.4) одной из них является прямая i (Е — и), а другой—кривая i=/(u), где функция /(и) — обратная по отношению к u=g(i) (рис. 3.18).
§ 2. АВТОКОЛЕБАНИЯ 77 Из рис. 3.18 видно, что возможны различные сл.учаи, когда имеются одно, два или три состояния равновесия. Ограничимся рассмотре- нием только одного из них, когда имеется единственное состояние рав- новесия, расположенное на падающем участке зависимости u=g(i). Заметим, что при L—0 этому случаю отвечает режим генерации релак- сационных колебаний. Остальные возможные случаи могут быть рас- смотрены аналогичным образом. Перейдем к изучению остальных фазовых траекторий. Деля вто- рое уравнение системы (2.5) на первое, получим дифференциальное уравнение первого порядка = (2.7) du <p(zz, О v устанавливающее связь между перемен- Г — ными состояния. Его решения определя---------------> ют фазовые траектории. Но, к сожале- рис 3 18 нию, уравнение (2.7) не интегрируется, и поэтому мы будем анализировать ре- шения качественно, используя особенность системы (2.5) и урав- нения (2.7), состоящую в том, - что параметр L — очень маленький, близкий к нулю. Сначала проанализируем уравнения (2.5). Они определяют скоро- сти движения фазовых точек. Поскольку параметр L мал и в предель- ном случае стремится к нулю, на фазовой плоскости можно выделить две области, в одной из которых скорости движения фазовых точек ко- нечны и невелики по сравнению со скоростями движения в другой, где происходят быстрые движения фазовых точек с тем большими ско- ростями, чем меньше значение L. Действительно, рассмотрим на фазо- вой плоскости кривую Г: i=f (и), в точках которой ф(и, i)=0, и возь- мем ее окрестность, где функция ф(и, i) принимает маленькие значения порядка L. Так как = jj'b (и> О» то в этов окрестности ско- рости изменения-i конечны при любых сколь угодно малых значениях L. Вне этой окрестности картина иная. При уменьшении L величина di/dt увеличивается и в предельном случае при L->0 стремится к бес- конечности. Движения фазовых точек в этой области естественно на- звать быстрыми по сравнению с медленными движениями в окрестно- сти кривой Г. В предельном случае при £->0 область медленных дви- жений стягивается к кривой Г, а вся остальная часть фазовой плоско- сти является областью быстрых движений. Рассмотрим по отдельности быстрые и медленные движения. Прежде заметим, что правая часть уравнения (2.7) определяет в каждой точке угловой коэффициент di/du касательной к фазовой траектории. В об- ласти быстрых движений его величина тем больше, чем меньше L, и в предельном случае при L->0 он становится бесконечно большим. Это означает, что при L малом, но не равном нулю, фазовые траектории
78 ГЛ. Г. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ быстрых движений близки к вертикальным прямым u=const (рис. 3.19), т. е. на них переменная и меняется мало, тогда как i быстро из- меняется, тем быстрее, чем меньше L, и поэтому эти движения можно приближенно описать уравнениями и = const, 1-^- = ф(и, t), (2.8) притом тем точнее, чем меньше L. В предельном случае фазовые траек- тории совпадают с прямыми u=const, и движение по ним происходит Рис. 3.20 скачкообразно с бесконечными скоростями изменения i (рис. 3.20). На- правление движения фазовых точек по траекториям быстрых движений, согласно (2.8), определяется знаком функции ф(и, i). Там, где ф(и, i)>0, значение i возрастает и убывает, где ф(ы, i)<0. Из рис. 3.20 видно, что по отношению к кривой Г траектории быстрых движений ведут себя неодинаково. Всюду, кроме участка BD, быстрые движе- ния приходят к кривой Г, а в окрестности участка BD уходят от нее. Причем в предельном случае быстрые движения ведут себя по отно- шению к Г так, как будто она является для них многообразием состоя- ний равновесия, устойчивым, где быстрые движения приходят на Г, и неустойчивым, где уходят от нее. В этом смысле кривая Г, за исклю- чением участка BD, устойчива по отношению к быстрым движениям, а участок BD неустойчив. Заметим, что участок BD кривой Г отве- чает падающему участку зависимости напряжения на неоновой лампе от проходящего через нее тока. Теперь мы можем ответить на вопрос: какие изменения состояния электрической системы рис. 3.16 отвечают быстрым движениям фазо- вых точек? Им отвечают процессы установления тока через неоновую лампочку, когда изменение тока определяется малой индуктивностью L и происходит настолько быстро, что напряжение и на конденсаторе практически не успевает измениться. В предельном случае, который, очевидно, является идеализацией, ток через лампу устанавливается скачком. При этом в лампе могут установиться любые значения тока, связанные с напряжением на конденсаторе условием i=f(u), кроме
§2. АВТОКОЛЕБАНИЯ 79 тех значений, которые отвечают падающему участку зависимости на- пряжения на лампе от подаваемого на нее тока. Теперь перейдем к рассмотрению медленных изменений фазо- вых переменных в окрестности кривой Г. Начнем с предельного слу- чая, когда областью медленных движений будет сама кривая Г. В этом случае фазовые переменные связаны соотношением i=f(u), а их изменение описывается уравнениями ф (u, i) = О, ~ = <р (и, i). (2.9) На участке BD кривой Г расположено состояние равновесия — точ- ка О. В ней, согласно (2.6), ф(и, i)=0, <p(u, i)=0. Движение фазовых точек определяется знаком и величиной скорости изменения и и происходит, как изображено стрелками на рис. 3.20. Состояние равно- весия неустойчивое, поскольку фазовые точки от него уходят. Все движения приходят к точкам В и D. Но они не являются состояниями равновесия, поскольку в них du/dt^Q. В точке В duldt>0, а в точке D du/dt<S>- Поэтому, попадая в них, фазовая точка в соответствии с на- правлением скорости покидает кривую Г и по траекториям быстрого движения скачком вновь на нее возвращается в точки С и А соответ- ственно. Затем фазовые точки продолжают движение по кривой Г, никогда не попадая на участок ВО. Мы видим, что рассмотреть медлен- ные движения отдельно без быстрых не удается, так как тогда неясно, что будет с фазовой точкой, если она попадает в точку В или О на кривой Г. Учитывая это, посмотрим, как движутся по кривой фазовые точки. Из рис. 3.20 видно, что из любого начального состояния на кривой Г фазовые точки приходят на предельный цикл ABCD, состоя- щий из чередующихся медленных и быстрых движений. При L малом, но не равном нулю, медленные движения происходят в малой окрестности кривой Г. Поэтому естественно считать, что они происходят так же, как в предельном случае, и приближенно описы- ваются уравнениями (2.9). Однако это не везде так. Это справедливо лишь там, где медленные движения устойчивы по отношению к быст- рым, и не выполняется, где они неустойчивы. Действительно, из лю- бой сколь угодно малой окрестности участка BD фазовые точки ухо- дят по траекториям быстрых движений в область устойчивых медлен- ных движений (рис. 3.20). Какие же изменения состояния электрической системы отвечают медленным движениям фазовой точки? Когда быстрые процессы уста- новления тока через лампу, определяемые малой индуктивностью, заканчиваются, дальнейшие изменения тока через нее определяются напряжением на конденсаторе. Именно они и отвечают медленным движениям фазовых точек. Теперь мы можем рассмотреть фазовый портрет системы в целом. В предельном случае он определяется неустойчивым состоянием рав- новесия и устойчивым предельным циклом ABCD. Фазовая точка из любого начального состояния приходит по траектории быстрого дви-
80 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ, ФАЗОВЫЙ ПОРТРЕТ жения на медленные и по ним на предельный цикл, состоящий из чередующихся медленных и быстрых движений. Как и в модели, рассмотренной ранее, предельному циклу отвечают релаксационные колебания, устанавливающиеся в электрической схеме с неоновой лам- пой. Но теперь мы понимаем, что скачки тока означают быстрые про- цессы установления тока в лампе, определяемые малой индуктивно- стью, по сравнению с медленными процессами изменения тока через лампу при изменении напряжения на конденсаторе. Ранее рассмотрен- ная модель не объясняла эти движения. Так как же связан двумерный фазовый портрет на рис. 3.20 с од- номерным на рис. 3.11, рассмотренным ранее? Сравнивая их, видим, что одномерный фазовый портрет представляет собой часть двумерного фазового портрета в предельном случае (L->0), состоящую из предель- ного цикла и траекторий медленных движений, устойчивых по отно- шению к быстрым. Конечно, одномерный фазовый портрет не дает полного представления о процессах, происходящих в рассматриваемой электрической системе, в частности, никак не отражает процессов установления тока через лампу, однако основные процессы, связан- ные с медленным изменением напряжения на конденсаторе, он отра- жает. А это, безусловно, очень важно, так как исследование двумер- ного фазового портрета значительно сложнее. § 3. Динамика сосуществования видов Рассмотрим математическую модель совместного существования двух биологических видов (популяций) типа «хищник — жертва», называемую моделью Вольтерра — Лотки. Впервые она была полу- чена А. Лоткой (1925 г.), который использовал для описания динамики взаимодействующих биологических популяций идеи и математические модели химической кинетики. Чуть позже и независимо от Лотки ана- логичная и более сложные модели были разработаны итальянским ма- тематиком В. Вольтерра (1926 г.), глубокие исследования которого в области экологических проблем заложили фундамент математической теории биологических сообществ или так называемой математической экологии. Модель, которую мы рассмотрим, интересна, пожалуй, как раз тем, что с нее, по существу, и началась математическая экология. Пусть есть два биологических вида, которые совместно обитают в изолированной среде. Среда стационарна и обеспечивает в неограни- ченном количестве всем необходимым для жизни один из видов, кото- рый будем называть жертвой. Другой вид — хищник — также нахо- дится в стационарных условиях, но питается лишь особями первого вида. Это могут быть караси и щуки, зайцы и рыси, мыши и лисы, мик- робы и антитела и т. д. Будем для определенности называть их кара- сями и щуками. Караси и щуки живут в некотором изолированном пруду. Среда предоставляет карасям питание в неограниченном коли- честве, а щуки питаются лишь карасями. Обозначим через у число щук, а через х число карасей. Со временем число карасей и щук ме-
f3. ДИНАМИКА СОСУЩЕСТВОВАНИЯ ВИДОВ 81 няется, но так как рыбы в пруду много, то не будем различать 1020 ка- расей или 1021 и поэтому будем считать х н у непрерывными функция- ми времени. Будем считать совокупность (х, у) состоянием динамичес- кой системы и попробуем написать, как оно меняется со временем. Надо сказать, что в биологии дело обстоит значительно сложнее, чем, скажем, в механике, где само понятие состояния формализовано и су- ществуют четкие законы, позволяющие написать его изменение. В био- логии этого пока нет. Попробуем из самых простых соображений найти, как меняется (х, у). Рассмотрим х. Это скорость изменения численности карасей. Если щук нет, то число карасей увеличивается и тем быстрее, чем больше карасей. Будем считать, что эта зависимость линейная, т. е. х~б!Х, причем коэффициент Bi зависит только от условий жизни карасей, их естественной смертности и рождаемости. Аналогично — для щук. Скорость изменения их числа, если нет карасей, зависит от числа щук, будем считать, что у~£гу. Если карасей нет, то число щук уменьшается, у них нет пищи и они вымирают. В экосистеме скорость изменения численности каждого вида также будем считать пропорцио- нальной его численности, но только с коэффициентом, который зави- сит от численности особей другого вида. Так, для карасей этот коэф- фициент уменьшается с увеличением числа щук, а для щук увеличи- вается с увеличением числа карасей. Будем считать эту зависимость также линейной. Тогда получим уравнения x = ejX—Y1//X, у^ — ^у + у^ху. (3.1) Динамическая система с состоянием (х, у), которое изменяется со- гласно системе уравнений (3.1), называется моделью Вольтерра — Лотки. Построим фазовый портрет системы (3.1). За фазовое пространство возьмем первую четверть х>0, у>0 плоскости х, у. Умножая первое уравнение (3.1) на у2, второе на yi и складывая, получим ?2-« + Т11/ = е1Т2^— (3-2) Вновь умножим первое уравнение (3.1) на е2/х, второе на kJ у и сло- жим; получим (3-3) Вычитая (3.3) из (3.2) и интегрируя, получим первый интеграл систе- мы (3.1) YaX + Vi*/—е21пх—В} 1п у — const. (3.4) Выражение (3.4) в неявном виде дает уравнение фазовых траекторий. Чтобы их построить, рассмотрим поверхность г = 'у2х+'у1у—821пх—еДпу. (3.5)
82 ГЛ. 3. ДИНАМИЧЕСКАЯ (2ИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ Фазовые траектории являются линиями уровня этой поверхности. Качественно вид этой поверхности изображен на рис. 3.21. Харак- терным для нее является то, что z неограниченно возрастает как при приближении к координатным плоскостям х=0 и «/=0, так и при не- ограниченном увеличении х и у. Функция z(x, у) имеет минимальное значение z* при х=х*, у=у*, являющихся координатами состояния равновесия системы (3.1). Если пересекать поверхность (3.5) плоско- стями z=const, то в пересечении будут получаться кривые, проекции которых на плоскость (х, у) являются фазовыми траекториями системы (3.1). Эти кривые приведены на рис. 3.22. Направление движения фазовой точки можно определить из таких соображений. Пусть мало карасей, т. е. х~0; тогда из второго уравнения системы (3.1) «/<0, т. е. движение фазовой точки происходит против часовой стрелки. Итак, построили фазовый портрет динамической системы — см. рис. 3.22. Он содержит одно состояние равновесия — точку О. Все остальные фазовые траектории — замкнутые, охватывающие состоя- ние равновесия. Состоянию равновесия отвечает неизменное число х* и у* карасей и щук в пруду. Караси размножаются, щуки их едят, вымирают, но число тех и других не меняется. Замкнутым фазовым траекториям отвечает периодическое изменение численности карасей и щук. Причем то, по какой кривой движется фазовая точка, зависит от начальных условий. Рассмотрим подробнее, как меняется состояние вдоль фазовой траектории. Пусть фазовая точка находится в положе- нии А (рис. 3.22). Здесь мало карасей и много щук. Щукам голодно, они постепенно вымирают и почти совсем исчезают. Караси «обрадо- вались», что нет щук, скорость их прироста увеличивается и увеличи- вается их число. Так происходит примерно до точки В. Но увеличе- ние числа карасей затормаживает процесс вымирания щук. Они «по- чувствовали», что жить можно, пищи достаточно, и число их начинает расти (участок ВС). Щук стало много, им нужна пища, много пищи. Они едят карасей и почти всех съедают (участок CD). После чего щуки начинают вымирать и процесс повторяется. Участок CD — это «золо-
§3. ДИНАМИКА СОСУЩЕСТВОВАНИЯ ВИДОВ 83 тое время» спиннингиста. Существует много рассказов о феноменаль- ных озерах, на которых бывает пора, когда щукй\«сами прыгают вам в руки». Здесь щук много, а карасей почти нет. Щуки голодны и готовы схватиться за любую железку, лишь бы ее им предложили. «Золотое время» недолгое — два-три месяца, а период его повторения велик — 5—7 лет. На рис. 3.23 качественно построены кривые изменения численности карасей и щук в зависимости от времени. Максимумы кривых чере- дуются, причем максимумы щук отстают от максимума карасей. Это от- ставание разное для разных экосистем типа «хищник — жертва», но, как правило, много меньше периода колебаний. Несмотря на то, что рассмотренная модель является простейшей и в действительности все происходит много сложнее, она позволила объяснить кое-что из загадочного, что есть в природе. Перестали быть загадкой счастливые для рыболовов периоды, получила объяснение периодичность в протекании хронических заболеваний, стало отчасти ясно, почему течение болезни зависит от фазы и интенсивности прово- димого лечения и многое другое. Действительно, как протекает хроническое заболевание? Обост- рение сменяется улучшением и опять все снова повторяется. Болезнь связана с наличием «хищника» (микроб, вирус), который поедает что-то в организме «жертвы». Обострение бывает, когда «хищника» много — верхние участки кривых на рис. 3.22. Улучшение самочувствия соот- ветствует спадающим участкам, нижние участки — когда совсем хо- рошо. И снова наступает ухудшение — возрастающие участки. Обост- рение тем сильнее, чем больше траектория протекания болезни. В со- стоянии равновесия и около него болезнь слабо выражена. Вы больны, но обострений у вас нет. Наконец, вам надоедает такое состояние, и вы идете к врачу. Врач дает лекарство, вы его принимаете и уничтожаете почти всех «хищников». На фазовом портрете изображающая точка уходит резко вниз, скажем, в точку Е (рис. 3.22). «Хищников» почти нет. Чувствуете вы себя великолепно, но через какое-то время (тече- нию болезни отвечает теперь большой овал) вы выходите на такое обост-
«4 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ рение, что если останетесь живы, то очень хорошо. Значит, лечить надо очень аккуратно. Сейчас подобные экологические модели строят- ся при лечении различных хронических заболеваний, в частности, при борьбе с хроническими инфекциями. Строится экологическая модель болезни с учетом всех иммунных факторов и лечение производится в соответствии с этой моделью. 160- ----- заяц h -----Рысь 1&Л5 1865 1885 1905 1925 Гоби Рис. 3.24 В заключение приведем экспериментальные кривые (рис. 3.24) изменения численности североамериканского зайца и рыси в Канаде за период с 1845 по 1935 годы, качественно согласующиеся с кривыми на рис. 3.23, построенными по математической модели. § 4. Эволюция генотипа Следующей рассмотрим модель эволюции генетических свойств по- пуляции. Хотя эволюция включает изменение всех генетических свойств данного вида, записанных в виде многих тысяч томов книг в длинном наборе хромосом, мы рассмотрим лишь, как изменяется от поколения к поколению генотип, отвечающий за какой-нибудь один признак по- пуляции. Пусть это, к примеру, признак цвета, скажем красный и бе- лый, за который отвечают два гена, один из которых потомство полу- чает от мужской особи, а другой — от женской. Генотип определяется совокупностью генов, которые получает потомство от родителей. Пусть ген А отвечает за красный цвет и пусть это доминантный ва- риант признака, а ген а отвечает за белый цвет — рецессивный ва- риант признака. Генотипы популяции определяются комбинациями генов: АА, Аа, аа. Особи с генотипами АА и Аа (доминантная и гиб- ридная особи) не отличаются друг от друга и имеют красный цвет; особи с генотипом аа (рецессивные особи) имеют белый цвет. Пусть х, у и z — относительные численности доминантных, гибридных и ре- цессивных особей одного поколения или, что то же самое, вероятности того, что случайно выбранная особь имеет генотип АА, Аа и аа. Вели- чины х, у, z удовлетворяют условиям х^О, z^O, х-j- у-\-г = 1.
§4. ЭВОЛЮЦИЯ ГЕНбТИПА 85 В результате скрещивания появляется новое поколение, состав гено- типов которого уже будет другим: х, у и г. Нас интересует, как ме- няется состав генотипов от поколения к поколению, что будет через |0, 100 и более поколений, останутся ли одни красные особи или одни белые, или установится какое-либо распределение. Чтобы это выяс- нить, надо найти связь между исходным составом х, у, z популяции и составом х, у, z следующего поколения. Как происходит формирование генотипа потомства? При скрещи- вании берется один ген (одна буква) женской особи и один ген муж- ской. Их комбинация образует генотип потомства. Например, при скрещивании доминантных особей в любом варианте получается до- минантная особь, это можно условно записать так: АА+АА=АА. Если встречаются две гибридные особи, то потомство может иметь лю- бой генотип: А А, Аа, аа, но с разными вероятностями. Вероятности Этих генотипов соответственно равны 1/4, 1/2, 1/4, т. е. Аа±Аа= 1 л л . 1 . ,1 = — А А 4-у Да 4-— и т. д. Используя этот закон формирования генотипа потомства, а также предполагая, что вероятности генотипов среда мужских и женских Особей одинаковы (это оправдано, если одинаковы вероятности полу- чения в потомстве мужских и женских особей), и считая, что скрещива- ние в данной популяции происходит без дискриминации, найдем связь между х, у, z и х, у и г. Для этого составим таблицу 1, в которой выпи- шем всевозможные варианты скрещиваний с указанием как вероятно- Таблица 1 Вероятность скрещиваний Скрещиваемые генотипы Генотипы потомства мужские женские X2 АА АА АА ху АА аА ~2 ЛА-\--^аА XZ АА аа Аа Ух аА АА ~2 AA-j-^aA У2 аА аА 1 „ „ , 1 , , I -^АА+^аА + ^-аа Уг аА аа 1 . 1 2-аЛ + Таа ZX аа АА аА zy аа аА 1 . . 1 г2 аа аа аа
86 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ стей скрещиваний, так и вероятностей различных генотипов в потом- стве, возникающем в результате каждого скрещивания. Согласно таблице вероятности различных генотипов у потомства выражаются через вероятности генотипов у родителей следующим об- разом: х = х2 + хг/ + у у2 = у)2, у = ху + 2хг + ^ у2 + уг = 2^х + -^ yj + у}, (4.1) г = У* + уг 4- z2 = ( z -f- у у у. Выражения (4.1) однозначно определяют генетическое описание сле- дующего поколения по описанию предыдущего. Следовательно, вероят- ности х, у, z генотипов популяции являются состоянием динамической системы, фазовым пространством которой является треугольник x+y + z = 1, О, z>0, показанный на рис. 3.25, а Это дискретная динамическая Н оператор задан соотношениями (4.1). система с непрерывным фазовым про- странством. Ее оператор переводит любую точку фазового пространства, соответствующую некоторому генети- ческому составу популяции, в дру- гую, которая является новым состоя- нием и отвечает генетическому соста- ву следующего поколения популя- ции. Эту точку оператор (4.1) вновь переводит в другую и т. д. Последо- вательность таких точек образует фа- зовую траекторию, которая является геометрическим изображением про- цесса эволюции генотипа данной по- пуляции. Изучим фазовый портрет этой динамической системы. Прежде всего отметим особенность точечного отображения треугольника х-\-у-\- +z=l, х^О, у^О, г^О, в себя. Из (4.1) непосредственно следует, что y2=Axz. Это означает, что отображение (4.1) переводит все точки фазо- вого пространства в кривую, которая получается в пересечении тре- угольника x-4-t/ + z = l, х^О, t/^0, z^O, с поверхностью г/2=4хг. Этим пересечением является участок 2 пара- болы, изображенный на рис. 3.25 и являющийся инвариантной кривой точечного отображения. Любая точка кривой 2 переводится отобра- жением (4.1) в точку той же самой кривой. Следовательно, изучение
§4. ЭВОЛЮЦИЯ ГЕНОТИПА 87 фазового портрета динамической системы сводится к исследованию отображения кривой 2 в себя. Что прежде всего должно быть интересным с точки зрения исход- ной задачи? Это — есть ли такие составы генотипов популяции, кото- рые не изменяются в процессе эволюции? Если есть, то им должны от- вечать неподвижные точки отображения (4.1). Чтобы их найти, надо в (4.1) положить х=х, у=у, z=z и найти их значения х*, у*, г*. Не- посредственной подстановкой х*, у*, г*, удовлетворяющих условиям z/*2=4x*z* и x*+t/*+z*=l, х*>0, у*>0, z*>0, в (4.1) найдем, что каждая точка инвариантной кривой 2 является неподвижной по от- ношению к отображению (4.1). Таким образом, эволюция любого на- чального состава генотипов данной популяции такова, что ближайшее ее потомство получает состав, отвечающий одной из точек кривой 2, и после этого состав ее уже не меняется. А как связан неизменный состав популяции с начальным? Чтобы ответить на этот вопрос, надо найти точки фазового пространства, ко- торые переводятся отображением (4.1) в каждую конкретную точку кривой 2. Из первого и третьего уравнений (4.1) находим х—г— — (х—z)(x+y+z), но так как x-\-y+z= 1, то х—z=x—г. Это означает, что точки отрезка прямой х—z=const, x+i/+z=l, х^О, r/^0, z^O, пере- водятся отображением (4.1) в неподвижную точку, являющуюся пере- сечением кривой 2 с этим отрезком (рис. 3.25). Таким образом, в процессе эволюции не меняется разность между относительным числом доминантных и рецессивных особей популяции; в частности, если x=z, т. е. относительные численности доминантных и рецессивных особей одинаковы, то независимо от численности гиб- ридных особей установится генетический состав х—1/4, г/=1/2 и z=l/4. А теперь рассмотрим математическую модель эволюции состава генотипов, отвечающих за так называемый «признак, сцепленный с иолом». Если в предыдущем примере признак цвета никак не был свя- зан с полом особей популяции, т. е. различные генотипы среди муж- ских и женских особей были равновероятны, то в данном случае ве- роятности генотипов, отвечающих за признак, существенно связаны с полом особи. Таким признаком, например, у человека является даль- тонизм или гемофилия. Рассмотрим один из таких признаков, скажем, дальтонизм. В этом случае мы опять имеем два гена А и а. Ген А — доминантный и обес- печивает нормальное зрение; ген а — рецессивный, порождающий дальтонизм. У женских особей возможны три генотипа А А, Аа, аа. Только в случае аа проявляется дальтонизм, в двух других зрение нормальное. Мужская особь может иметь лишь два генотипа: доми- нантный — А и рецессивный — а. Если в результате скрещивания по- является женская особь, то ее генотип определяется генотипом обоих родителей, как и в предыдущем примере; если же в потомстве особь мужская, то генотип определяется только генотипом женской особи
?8 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ родителей; например, если у нее генотип Аа, то у потомства мужского пола с равной вероятностью может быть генотип или А, или а. Пусть- х, у, г — относительные количества или вероятности генотипов жен- ских особей, и и v — относительные количества генотипов мужских особей. Они удовлетворяют следующим условиям: х+у+г=1, х>0, «/>0, z>0, «4-и=1, u>0, и>0. Y Рассмотрим случай свободного, без дискриминации, скрещивания, предполагая, что вероятности получения в потомстве мужских и жен- ских особей одинаковы. Тогда для нахождения связи между генети- ческим составом предыдущего и последующего поколений можем со- ставить таблицу 2 всевозможных вариантов скрещиваний, аналогично тому, как было сделано в предыдущем примере. Таблица 2 Вероятность скрещиваний Скрещивание генотипов Генотипы потомства женские мужские женские мужские хи АА А АА л XV АА а Аа л уи Аа А у ЛЛ + уЛа 1 л I 1 У ^+"2° yv Аа а уЛа+уаа 1 . , 1 2^+2“ ZU аа А Аа а го аа а аа а Согласно таблице генетический состав потомства определяется через генетический состав родителей следующим образом: и + у^ и, — / 1 \ - I - 1 (4-3) z= (гН-у!/) и, u=x+-g-;/, v^zA-^y- Следовательно, описание х, у, г, и, v генетического состава попу- ляции — полное и является состоянием динамической системы. Но в силу условий (4.2) оно избыточно: среди чисел х, у, г, и, v лишь три являются независимыми. Пусть ими будут х, у и и. Их и возьмем за состояние динамической системы. Состояние х, у, и — это три числа, следовательно, фазовое пространство трехмерное, но не все трехмер- ное пространство, так как в силу (4.2) х, у, и ограничены условиями x-f-j/s^l, х^О, £/i>0, (4.4)
§4. ЭВОЛЮЦИЯ ГЕНОТИПА 89 В трехмерном евклидовом пространстве переменных х, у, и условия (4.4) определяют прямую треугольную призму (рис. 3.26). Каждая точка призмы определяет состояние динамической системы, и, обрат- но, каждому состоянию отвечает точка призмы. Близким состояниям со- ответствуют близкие точки. Значит, призма — фазовое пространство динамической системы. Теперь определим оператор, задающий смену состояний динами- ческой системы. Используя условия (4.2), исключим г и и из соотноше- ний (4.3). Получим х = (х-\-~у\и, й = х + ~у, - / 1 / А (45) У = (*+2 2и) + “• Итак, получили динамическую систему, состоянием которой яв- ляются относительные численности доминантных и гибридных особей Рис. 3.27 женской части популяции и доминантных особей мужской части по- пуляции, фазовым пространством является треугольная призма, а оператор смены состояний задается соотношениями (4.5). Теперь перейдем к изучению ее фазового портрета (рис. 3.27). Прежде всего установим особенность отображения призмы в себя. Ис- ключая из (4.5) и и х+~^-у, получим и2 — 2и (x-f-y у —х. Эта связь значений х, у, и означает, что все фазовое пространство преобразует- ся отображением (4.5) в точки некоторой поверхности S, имеющей уравнение u2 = 2 u—х, а сама поверхность S является ин- вариантной по отношению к отображению (4.5). Кроме S, у отобра- жения (4.5) есть еще одна инвариантная поверхность — плоскость х + ^-у—и—О, (4.6)
90 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ которая пересекается с призмой по треугольнику R. Действительно, если исходная точка х, у, и принадлежит плоскости (4.6), то х2=и2, у=2 (1—и)и, и=и и, следовательно, точка х, у, и тоже принадлежит ей, поскольку х + ^-у—u = u2-f-(l—и) и—и = 0. Однако по отношению к этой инвариантной плоскости точки фазо- вого пространства при преобразованиях ведут себя не так, как по отношению к поверхности S: не всякая точка х, у, г после^преобразо- вания оказывается на ней, однако все они к ней асимптотически при- ближаются. Это следует из того, что расстояние от любой точки до инвариантной плоскости при последовательных преобразованиях убывает со скоростью геометрической прогрессии. Действительно, модуль величины р = х+ -^-у—и дает расстояние от исходной точки х, у, и до инвариантной плоскости, а ее знак определяет, по какую сторону от плоскости она расположена. После преобразования рас- стояние от точки х, у, z до инвариантной плоскости определяется модулем величины'р =х + ^У— и Подставляя в р выражения х, у, и из (4.5), получим р = —4-р. (4.7) т. е. при последовательных преобразованиях любая точка, не принад- лежащая инвариантной плоскости, приближается к ней со скоростью геометрической прогрессии со знаменателем 1/2. Знак минус в выраже- нии (4.7) означает, что точка последовательно переходит с одной сто- роны относительно инвариантной плоскости на другую. Итак, любая исходная точка после однократного применения отоб- ражения (4.5) попадает на поверхность S и дальше преобразуется в точки этой же поверхности, асимптотически приближающиеся к ее пересечению с инвариантной плоскостью (4.6). Если исходная точка лежит на инвариантной плоскости, то она переводится отображением (4.5) непосредственно в точку, принадле- жащую этому пересечению, при этом значение и не изменяется. Пересечением поверхности S с инвариантной плоскостью является часть параболы L, параметрическое уравнение которой имеет вид x = u2, г/ = 2и(1—и), (4.8) Осталось выяснить, как ведет себя отображение (4.5) кривой L в себя. Подставляя (4.8) в (4.5), получим х=и2, у—2и(\—и), и=и. Следова- тельно, все точки кривой L являются неподвижными по отношению к отображению (4.5). Фазовая траектория, выходящая из любой исход- ной точки, приближается к одной из неподвижных точек либо асимпто- тически, если исходная точка не принадлежит инвариантной плоское-
§ 5. ПРОЦЕССЫ РАЗМНОЖЕНИЯ И ГИБЕЛИ 91 ти, либо попадает в нее сразу после однократного применения отобра- жения, если исходная точка принадлежит ей. В последнем случае все точки с одинаковым значением и переходят в одну и ту же неподвижную точку. Итак, в соответствии с фазовым портретом динамической системы эволюция любого начального состава генотипов популяции, не свя- занного соотношением *4-у у—и = 0, в случае признака, сцепленного с полом, не заканчивается за один шаг. Однако уже генетический сос- тав ближайшего потомства оказывается связанным неким соотношени- ем, определяющим поверхность S в фазовом пространстве. Дальней- шее изменение происходит при сохранении этого соотношения в на- правлении к неизменному распределению состава генотипов, отвечаю- щему неподвижным точкам отображения (4.4). Если начальный состав генотипов связан соотношением х+^-у— —и=0, то в процессе эволюции не меняется состав генотипов мужской части популяции, изменяется только генетический состав женской части. При этом эволюция заканчивается за один шаг и происходит точно так же, как в предыдущем примере эволюции генотипа, отвеча- ющего за признак, не сцепленный с полом. § 5. Процессы размножения и гибели Представим себе процесс, при котором в некоторые дискретные моменты времени /1<Х<Дз<--- каждая из частиц некоторого множест- ва может либо исчезнуть, либо сохраниться, либо размножиться на две, три или большее число частиц. Для каждой из частиц эти измене- ния происходят независимо друг от друга с некоторыми вероятностя- ми р0, ри р2, ... Спрашивается, как будет меняться со временем общая числен- ность частиц? Точнее, вероятности того или иного их числа, посколь- ку размножение и гибель частиц носят случайный характер. Описанная абстрактная схема может рассматриваться как идеа- лизированная математическая модель многих реальных процессов: процессов размножения простейших одноклеточных организмов, бак- терий и вирусов, химических реакций, цепных ядерных реакций. Эта схема относится и к вопросу о сохранении фамилии. Обычно фамилия в родословной передается по мужской линии и поэтому происходит по линии сыновей. Отсутствие сына в потомстве означает исчезновение «частицы», рождение одного сына — ее сохранение, рождение двух сыновей — превращение одной частицы в две и так далее. Исследование динамики описанного ветвящегося процесса раз- множения частиц позволяет выяснить судьбу фамилий и, в частности, найти вероятность их исчезновения. Эта последняя задача была реше- на в 1874 г. Гальтоном и Ватсоном.
92 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ <р(р) Рис. 3.28 Сравнительно недавно описанная задача вновь возникла как за- дача протекания в теоретической физике и химии. Название ведет свое начало от работы Бродбента и Хаммерса 1957 г., в которой рассматривалось «протекание» газа по сложному ветвящемуся лаби- ринту ходов угольного фильтра. Теория протекания в своей общей постановке занимается изуче- нием связности элементов различных пространственных структур со случайными связями. Математическая модель протекания носит статический характер, в ней речь идет об областях связности, о кластерах связных частиц, которые определяют многие явле- ния электрической проводимости, ферро- магнетизма, полимеризации и другие. Эквивалентная ей и значительно раньше возникшая задача о ветвящемся процессе размножения, напротив, имеет динамиче- ский характер развивающегося во време- Р ни процесса. Если интересоваться только вероятно- стью обрыва процесса размножения ча- стиц, т. е. вероятностью гибели всех ча- стиц на каком-нибудь из этапов размножения, то она может быть най- дена с помощью следующего простого рассуждения. Пусть первоначально имеется одна частица и пусть р — вероят- ность ее гибели или гибели ее потомства на одном из последующих этапов. В следующем такте эта частица может либо исчезнуть с веро- ятностью ро, либо сохраниться с вероятностью ри либо превратиться в $ частиц ($=2, 3, ...) с вероятностью ps. После того как появилось s частиц, вероятность исчезновения их всех равна произведению веро- ятностей исчезновения каждой из них, т. е. ps. В силу этого P = Po + PiP+PtP2 + paP3+ (5.1) Таким образом, искомая вероятность р гибели удовлетворяет уравнению (5.1). Правая часть уравнения (5.1) представляет собой, в силу неотри- цательности вероятностей р0, ръ р2, ... и /?0<1, монотонно возрастаю- щую вместе с первой производной функцию <р(р) от переменной р. Ее график имеет один из видов, представленных на рис. 3.28. Соглас- но этим графикам уравнение (5.1) имеет в зависимости от того, больше или меньше единицы производная ср' (1), либо корень р* (0^р*<1) и еще один единичный корень, либо один-единственный единичный корень р* = 1. Поэтому при выполнении неравенства ф'(1)=Р1 + 2р2 + Зр3+... < 1 (5.2) происходит обрыв ветвящегося процесса размножения с вероятностью единица. При обратном неравенстве естественнее заключить, что обрыв имеет место не с вероятностью единица, а с вероятностью, отвечающей
§ 5. ПРОЦЕССЫ РАЗМНОЖЕНИЯ И ГИБЕЛИ 93 меньшему положительному корню р*<1. Во всяком случае при р0=1 вероятность обрыва, очевидно, равна нулю, что отвечает именно этому меньшему корню. Прямое обоснование выбора меньшего корня урав- нения (5.1) будет получено в дальнейшем. Однако уже сейчас отметим наличие бифуркации (качественного изменения) в явлении размноже- ния, соответствующей переходу при изменении вероятностей р0, ри р2, ... от неизбежной гибели (обрыва) к возможности неограниченно долгого существования. Более полное рассмотрение состоит в исследовании динамики чис- ленности частиц от такта к такту. В этом исследовании можно ограни- читься случаем, когда в начальный момент имеется только одна части- ца, поскольку процессы размножения от каждой из частиц происходят независимо друг от друга. Пусть х„ — число частиц на n-м такте. На первом такте хх=1. В дальнейшем последовательные значения х2, х9, ... являются некото- рыми целыми числами 0, 1,2, ... Переходы от хх к х2, от х2 к х3 и т. д. можно трактовать как последовательные смены состояний. Однако, поскольку эти переходы носят стохастический характер, фазовыми состояниями являются вероятности различных чисел частиц, т. е. вектор р, компонентами которого являются вероятности /?(0), р(1), р(2), ... различных чисел частиц. Пусть х — число частиц на некотором этапе их — их число на следующем этапе. Каждая из х частиц может превратиться соответ- ственно в gi, |2, • ••, частиц, так что Х = £1 + ^2 + • • • + (5-3} т. е. число частиц на следующем этапе представляет собой сумму независимых одинаково распределенных случайных величин. Число этих случайных величин равно числу частиц на предшествующем этапе. Чтобы упростить вытекающий из (5.3) аналитический вид связи между векторами р и р, рассмотрим вместо векторов р и р их так на- зываемые производящие функции Hz) = p(0) + p(l)z + p(2)z2+..., ,54 /(z) = p(0) + p(l)z + p(2)z2+... Векторы р и р и их производящие функции f(z) и f(z) однозначно друг друга определяют. Однако аналитический вид связи между f(z) и f(z) значительно проще, чем между р и р. Действительно, r(z) = Sp(s)z, = 2z'sS/’(^)P(s|^ = ^) = = ^p(k)^p(s\x = k)zs. (5.5> k s Здесь р (s|x=&) — условная вероятность числа s частиц на следующем
-94 ГЛ. 3. динамическая система и ее фазовый портрет зэтапе, если на предыдущем этапе их было k. Сумма 2p(s|x = A)zJ (5.6) S представляет собой производящую функцию этих условных вероят- ностей и, как нетрудно видеть, равна k-и степени производящей функ- ции <P(z) = Po + piZ + p2z2+... (5.7) вероятностей ра, ри р2, ... Таким образом, Г(г) =2р(^)фй(г) = /:(ф(г))- (5.8) k Последнее равенство в (5.8) следует непосредственно из определения производящей функции вероятностей р(0), р(1), р(2), ... Формула (5.8) определяет производящую функцию f(z) вероятнос- тей различных чисел частиц на следующем этапе процесса их размно- жения через производящую функцию f(z) вероятностей их чисел на предшествующем этапе и производящую функцию <р (г) вероятностей ги- бели и рождения одной, двух, трех и т. д. частиц. Согласно этой формуле на первом этапе производящая функция равна <p(z), на втором — ф(ф(з)), на третьем — ф(ф(ф (?))) и так да- лее. Обозначим производящую функцию на п-м этапе через fn (г). Она определяет фазовое состояние (полное вероятностное описание) на п-м шаге. В этих новых обозначениях формула (5.8) перепишется в виде /п+1(2) = ^(Ф (z)). (5.9) Таким образом, фазовое пространство рассматриваемой динами- ческой системы представляет собой пространство Ф всевозможных функций вида f (z) = а04-atz -|-a2z2 -Т ..., (5.10) где а0, а1у а2, ... — неотрицательные числа, в сумме равные единице, а изменение состояния определяется формулой (5.9). Отметим, что /„(0) = р„(0), (5.11) где рп (0) — вероятность нулевого числа частиц на п-м этапе. Из (5.9) следует, что Рп+1 (0) = f 1 (р„ (0)) = Ф (р„ (0)). (5.12) Эта формула (5.12) показывает, что последующее /?п+1(0) и предыдущее рп (0) значения вероятностей отсутствия частиц связаны точечным отображением (5.12) единичного отрезка в себя. Возможные виды а) и б) графиков этого точечного отображения уже изображены на
<5. ПРОЦЕССЫ РАЗМНОЖЕНИЯ И ГИБЕЛИ 95 рис. 3.28. Согласно их виду точечное отображение (5.12) имеет един- ственную устойчивую неподвижную точку р*, причем в случае a) р* = 1, а в случае б) р*<.1. Последовательные отображения любой точки стремятся к этой единственной устойчивой неподвижной точке р*, следовательно, lim (0) = р*. (5.13) По смыслу р* — это вероятность обрыва процесса размножения на каком-нибудь шаге. Тем самым указанный ранее способ получения этой вероятности получил полное обоснование. Вернемся к формуле (5.9). Она связывает следующие друг за дру- гом состояния. Исходя из графика функции /1(г)=<р(г), можно шаг за шагом построить графики функций f2 (г), f3 (г), ... и найти вид пре- дельного графика L(z). Здесь возможны два случая, отвечающие ви- дам а) и б) функции ср (г). В случае а) = 1 при любом 1 (рис. 3.29). В случае б) f~(z)=p* при 0<г<1 и f„(l) = l (рис. 3.30), т. е. при г=1 имеет место разрыв непрерывности, а при прочих г предельная функция ^(г) — постоянная, равная р* (р* — коорди- ната устойчивой неподвижной точки отображения (5.12)). Можно заметить, что {^М2)}2=0 = А»М <5Л4> Эта формула обобщает соотношение (5.11). При любом конечном т>0 из нее и вида предельной функции fx(z) следует, что Нт рп(т) = 0. (5.15) п-><® Таким образом, приходим к следующему выводу об асимптотиче- ском поведении процесса размножения при неограниченном его про- должении: при <р'(1)<1 процесс обрывается с вероятностью единица; при <р'(1)>1 он обрывается с вероятностью р*<1 и с вероятностью
96 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ 1—р* неограниченно разрастается. Последний вывод следует из того, что (5.15) имеет место при всех т>0, а при m=Q lim рп (0) = р* < 1. Л->00 Вместе с тем математическое ожидание числа т на n-м этапе равно м/и=гп(1) = {^п-1(А.(г))^]=/;_1(1)Г1(1) = [Л(1)Г-1 и неограниченно возрастает с ростом п. В заключение приведем пример расчета вероятности исчезновения фамилии. По статистическим данным переписи населения в Америке от 1920 г. /7о=О,48; /?1=0,21; /?2=0,12; /?3=0,07, и из уравнения (5.1) находим р*«0,8, т. е. вероятность исчезновения фамилии значитель- но больше вероятности ее сохранения. § 6. Самосборка одномерных цепочек Нить ДНК болезнетворного вируса, проникнув в клетку, перестра- ивает ее биохимические процессы так, что они начинают производить многочисленные копии отдельных его частей. Затем эти части соединя- ются в' новые вирусы, которые, покинув клетку, могут повторить этот цикл с новыми здоровыми клетками. Сборка вируса из отдельных его деталей идет сама собой. Под влиянием случайных толчков теплового движения молекул отдельные части могут оказаться в нужных конфи- гурадиях друг по отношению к другу и надлежащим образом соединя- ются. Это случайный, никем и никак не управляемый процесс. Вероят- ности требуемых сборок определяются концентрациями деталей и трудностями создания необходимой для сборки ситуации. Очень по- хожим образом происходят и процессы полимеризации из отдельных молекул длинных цепочек молекул. Для динамического описания процессов подобного рода в 1975 г. в работе А. М. Леонтовича была предложена математическая модель случайной самосборки цепочек из отдельных звеньев. Последующее изложение основывается на работах 1979—1980 гг. М. Л. Тая. Звенья могут быть нескольких разных типов Ai, А2, ..., Ап. Каждого из типов звеньев достаточно много, так что можно говорить об их концентрациях. Эти звенья могут соединять- ся между собой, образуя цепочки. Соединения могут быть лишь опре- деленных типов. К звену типа At могут подсоединиться только звенья типов Л;_1 н Л i+i- После таких соединений возникают двухзвенные цепочки Лг_1Лг и ЛгЛг+1. К ним в свою очередь могут подсоединиться звенья Лг_2, Лг+1, Лг_1 и Лг+2, образуя трехзвенные цепочки ^1-2^1 -1^г> ^г^г'+1'^г+2 и так далее (рис. 3.31).
§6. САМОСБОРКА ОДНОМЕРНЫХ ЦЕПОЧЕК 97 Принимается, что возможны не только описанные присоединения отдельных звеньев к уже возникшей цепочке, но что и цепочки могут соединяться друг с другом. Именно цепочка Аг...Аг может соединиться с цепочкой Ai+1...Aj, образуя новую, более длинную цепочку Az... ...A;...Aj. Этот процесс сборки может продолжаться вплоть до обра- зования цепочек AiA2...An. Однако наряду с этим процессом самосбор- ки возможны и спонтанные разрывы цепочек. Любая цепочка AZAZ+1... ...Ak может разорваться на две части AZ...A^ и AJ+1...Aft. Задача изучения такого процесса состоит в выясне- нии зависимостей от времени концентраций ч всевозможных различных цепочек А;...А;. \а;- Обозначим эти концентрации через хц (1=С \ Всего таких концентраций / j/h-t Чгп(п—1). Спрашивается, как эти концент- 'w 1 рации хи меняются во времени? --о Для написания дифференциальных уравне- ' ний изменений этих концентраций во времени Рис. 3 31 необходимо знать вероятности образования одних цепочек из других и вероятности тех или иных разрывов уже образовавшихся цепочек. В общем случае можно было бы принять, что имеются отнесенные к единице времени и единичным концентраци- ям вероятности pisj образования из любых цепочек Аг...А^ и AS+1...A> цепочки At...As...Aj и вероятности qlkm разрыва любой цепочки Az...AfeAfe+1 . .. Ат на цепочки Az...Afe и Ak+1...Am. Эти вероятности Pisj и Qikm в общем случае могли бы зависеть от всех концентраций Xtj. Они, вообще говоря, зависят еще от среды, в которой происходит процесс, и от ее температуры. Сам процесс сборки и разрывов сопро- вождается поглощениями или выделениями энергии и поэтому может влиять на температуру среды. Наконец, в среде могут находиться мо- лекулы, которые способствуют тем или иным соединениям и разрывам или затрудняют их. Рассмотрим описанный процесс при следующих упрощающих предположениях: вероятности сборок pisf зависят только от соеди- няющихся звеньев As и Ai+1, и, аналогично, вероятности разрыва qlkm зависят только от того, какие звенья Ак и Afc+1 разъединяются. Это означает, что pisj.=ps при любых i^s и / > $ и qikm — Qk ПРИ любых I tn> k. Эго довольно естественное предположение влечет ряд особенно- стей процессов самосборки. Цель дальнейшего—их выяснение. Пред- положение о наличии вероятностей ps и qk неявно предполагает, что акты соединений и разрывов происходят независимо друг от друга, что если xis и xs+1/—концентрации цепочек AZ...AS и AJ+1 ... A/t то независимо от других соединений и разрывов за малое время т из них образуются цепочки A/...А^...Ау с вероятностью xpsxis xs+lj. Аналогично и вероятность разрыва це- почки Ai...Ak...Am на цепочки Az...Aft и Afc+1...AOT равна rqkxlm.
98 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ На рис. 3.32 изображены всевозможные превращения, которые могут привести к образованию или распаду цепочки Дг...Д;. В соот- ветствии с этим изменение концентрации xi} таких цепочек за малое время т равно Дх17 = т 2 РЛА+ц+т 2 + т 2 Яг-1хц — —т 2 Якх1/ т 2 Pi-\xli-lXiJ т 5 P}'xiJxj-Hm~^~ ••• ’ l<i-l m>j+l где многоточие означает члены более высокого порядка, чем т. Переходя к пределу при т->0, придем к системе дифференциальных уравнений вида XI/ qixtm—pjxijxr + S ( <7< - ixi j — Pi - Iхи - Iхi J • (6.1) В системе (6.1) V2n(n—1) уравнений и столько же неизвестных концентраций Хц. Она достаточно сложна. Однако она обладает замечательным свойством, благодаря которому ее исследование при достаточно больших временах сводится к рассмотрению системы всего лишь п—1 уравнений. Это вызвано тем, что в фазовом пространстве системы (6.1) имеется интегральная поверхность Зп_1 размерности п—1, к которой все соседние траектории асимптотически экспонен- циально приближаются (рис. 3.33). Этот факт имеет место не только для постоянных ps и qk, но и при ps и qk, зависящих от Хц. Он говорит о том, что через некоторое время в системе возникают определенные
6. САМОСБОРКА ОДНОМЕРНЫХ ЦЕПОЧЕК 99 ценарушаемые соотношения между концентрациями, которые можно трактовать как возникновение некоторого порядка из первоначально хаотизированных и случайных концентраций х^. В случае, когда в системе (6.1) имеется глобально устойчивое состо- яние равновесия, этот порядок есть просто приход к вполне определен- ным концентрациям Это привыч- ная ситуация возникновения равнове- I сия, при которой процессы образования \ и распада цепочек уравновешивают друг друга. Такой порядок можно на- \ звать полным. Но не всегда имеется /уяч \ глобально устойчивое состояние рав- ______ новесия и отвечающий ему полный по- рядок, и тогда может оказаться, что / имеет место частичный порядок, соответ- рис 3 33 ствующий некоторому асимптотически устойчивому многообразию. По-видимому, такая ситуация в значи- тельной мере является общей для многих сложных систем. Общим является и то, что интегральное многообразие имеет не слишком боль- шую размерность. Мы далеки от того, чтобы хоть в какой-нибудь мере дать сказанному общее обоснование, хотя можно привести очень много самых разнообразных подтверждающих примеров, на основе которых возникло даже новое направление в науке, получившее наименование синергетики — науки о возникновении порядка из хаоса. Ограничим- ся тем, что покажем, что это так для случайного процесса самосборки цепочек. Вполне возможно, что это свойство и не всеобщее, а просто оно очень часто имеет место, и поэтому полезно его иметь в виду и пом- нить о нем. В некотором общем аспекте можно разделять динамическое по- ведение на ведущее к той или иной степени хаотизации или к той или иной степени порядка. Подчеркнем, что по крайней мере сегодня это, скорее всего, общие полезные представления в неизученной и неосво- енной нами области. Вернемся к уравнениям (6.1). Введем новые переменные У 1т - S 2 xiJ- (6-2) 1=1 j = m По смыслу yim — концентрация всех цепочек, содержащих цепочку Др.-Дщ. Можно обнаружить, что Х1т = У 1т У1т+1 У1-1т У1-1т+1- (®.3) Запишем теперь уравнения (6.1) в новых переменных у1т. После ряда преобразований находим, что т — 1 У1т = S [(Z/lfe— yik+l) Pk (Ук+1т — Укт)~ЯкУ1т\- (6-4) k—l Полученные уравнения (6.4) эквивалентны системе (6.1).
100 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ По смыслу уи—концентрация элемента At. Эти концентрации предполагаются вначале заданными и по смыслу не должны меняться. Можно обнаружить, что это следует из уравнений (6.4). Действитель- но, при т=1 из (6.4) вытекает, что Уц—Q, так как в этом случае сумма, стоящая в правой части уравнения (6.4), не содержит ни одного члена. Введем теперь переменные vij = yij— ai Д ~~ (l<i</<n). (6.5) R-i « Их число нам—1 меньше числа переменных ytj, т. е. равно —1)— —п+1. Можно обнаружить, что в силу уравнений (6.4) при l^iCj— —1<п vij=— + (6-6) где /-1 Р,/= X [Pk + Pi(ai~Уи-Л + р,-! (aj~~yj-ij)], k=i j-2 <P,7 = fe2+i Pk№ik — ^-fe+Ж+и — Vkj + fk^j— fkj) + + (fik — fik+l)(Pk+y-VkJ)], 11 ‘k*c ak Из (6.6) следует, что если при каком-нибудь конечном значении t все v;j=O, то и для последующих значений t они остаются равными нулю. Это означает, что поверхность 3n_t, на которой все Vij—O, состоит из фазовых траекторий, т. е. является интегральной поверхностью. Раз- мерность этой поверхности равца размерности фазового пространства переменных ytj за вычетом числа переменных иц, обращающихся в нуль, т. е. равна п—1. В качестве фазовых переменных можно взять переменные иц и п—1 переменйых us = ysf+1 (s=l, 2, .... n—1). (6.7) В этих новых переменных (!<;/</—l<Zn) и us (l^s^n—1) диф- ференциальные уравнения (6.4), согласно (6.5), (6.6) и (6.7), могут быть записаны в виде М s ^УзЗ Pss+i) Ps (Уз+i s+1 Ухх+1) ЯзУзз+1 I । = (+"“+) Ps (as+l ^s) Qs^s> 'Vij = — S [tffe + Ma,—+) + p;_1(a/—H,._1)]vl7 + k—i * 2 + S Pk (vik—Vik+1) vk+1/ — vkj- + (.ak+1~uk) II J + k=i L s=A+l “sj fc-1 +~(ak~uk) (Vk+ij — Vkj)- (6-8) s= i
§6. САМОСБОРКА ОДНОМЕРНЫХ ЦЕПОЧЕК 101 Из этих уравнений непосредственно следует, что поверхность, на кото- рой все vi}=Q, является интегральной и что она глобально асимпто- тически устойчива по отношению к этим переменным. Все это справед- ливо в предположении, что все qk>0, т. е. что образование всех рас- сматриваемых связей носит обратимый характер: любые звенья, сое- динившись, в последующем имеют некоторую вероятность опять разъединиться. Первое утверждение непосредственно следует из того, что правые части уравнений для переменных vtj обращаются в нуль вместе с v^. Второе утверждение несколько менее очевидно. Его до- казательство может быть получено последовательным рассмотрением групп переменных vtj с различными величинами разностей /—I. Преж- де всего заметим, что во второй член правой части уравнения для пере- менной vi} входят переменные vsk с разностями s—k, меньшими чем I—/, а в первом члене коэффициент при переменной заведомо отри- цательный. Поэтому при переменных иг/ с i—/=1 утверждение имеет место. Но тогда оно имеет место и для переменных vtj с i—j=2 и т. д. Тем самым глобальная асимптотическая устойчивость поверхности Vij=O установлена, и поэтому при больших временах рас- смотрение системы сводится к рассмотрению только уравнений для переменных us общим числом п—1. Попробуем дать осмысленную интерпретацию этому удивительно- му факту. Согласно ему в системе всегда спустя достаточное время устанавливаются зависимости j-i UiJ ТТ ykk + i a, k=i ak ’ Как можно их интерпретировать? Перепишем их в виде у — 1 У!/ Уа+1 тт ykk+i Уп+1 yi+ij (р, который можно интерпретировать следующим образом. Доля элемен- тов Ah находящихся в связи с цепочками вида A[+1...Aj, равна произведению долей элементов Дг, находящихся в связи с элемен- том Д/+1, на долю элементов Д,-+1, находящихся в связи с цепоч- кой Ai+2...Ay. Или, в терминах вероятностей, Р (А(<г+ Д(Ч1... Ду) = £’(Д<«-> Д(-+1)Р (Д(+1«-> Д(-+2- • - Л)’ т. е. вероятность того, что элемент Д(- окажется принадлежащим цепочке Д(-...Ду, равна произведению вероятности того, что эле- мент А/ находится в двухзвенной цепочке Д(-Д;+1, на вероятность того, что элемент Д{+1 находится в цепочке Д(-+1...Ду. Эго можно трактовать как независимость событий Д(-<-> Д(-+1 и Д,-+1<-> Д,-+» • • • Ду. Эта независимость не изначальная, но она устанавливается в системе
102 гл- 3- ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ через некоторое время. Это, если так можно выразиться, законо- мерность равновесного состояния, точнее, состояния, при котором фазовая точка уже пришла на глобально асимптотически устойчивую поверхность q7„_i, но на самой поверхности равновесие при этом, может быть, еще и не установилось и никогда не уста- новится. Что можно сказать о движении фазовой точки на поверхности В простейшем случае постоянства коэффициентов ps и qs на ней имеются два состояния равновесия, одно устойчивое и одно не- устойчивое. В более сложных случаях устойчивых равновесий может быть несколько, может быть устойчивое периодическое движение или даже хаотические и стохастические движения. При произвольных qs > 0 и ps > 0 уравнение (6.8) относительно переменных us довольно общего вида.
ГЛАВА 4 УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ § 1. Как сделать устойчивым верхнее положение маятника Маятник в верхнем положении неустойчив. Теоретически, если его поставить строго вертикально, он не упадет, однако практически это не так, потому что после малейшего возмущения он отклонится от равновесия и упадет, да и поставить маятник строго вертикально не- возможно. Все это находится в полном согласии с фазовым портретом маят- ника, найденным ранее и изображенным на рис. 4.1. Верхнее поло- жение маятника отвечает седловому состоянию равновесия О, при ма- лейшем отклонении от него в дальнейшем происходит все больший и больший уход фазовой точки от равновесного положения. Это не так только в случае отклонений фазовой точки на идущие в седловое равновесие фазовые траектории S+, но нет никаких надежд, что случайные возмущения будут столь уникальными. Поэтому, будучи предоставлен сам себе, маятник из верхнего положения всегда пада- ет. Как сделать, чтобы он из верхнего положения не падал? Безусловно, этот вопрос требует уточнения. Без него решение очень просто: достаточно держать маятник в верхнем положении, например, закрепив его ось вращения либо намертво, либо с некото- рым трением покоя. Подобные решения не годятся. Требуется не до-
104 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ пустить падения маятника не закреплением его оси или каким-нибудь подобным образом, а только с помощью подходящих движений этой оси. Нужно предотвратить его падение, манипулируя его осью. Для большей наглядности представим себе, что ось маятника соединена с ручкой (рис. 4.2), и эту ручку можно перемещать как нам хочется. Спрашивается, как нужно перемещать ручку, чтобы верхнее по- ложение маятника стало устойчивым? Если двигать ручку вниз с ускорением, большим ускорения силы тяжести, то при этом верхнее и нижнее равновесные положения маятника как бы поменяются мес- тами. Этот способ стабилизации верхнего положения маятника не может быть длительным и поэтому тоже не подходит. Возможно, вам уже пришли в голову цирковые эквилибристы: они решают задачи и посложнее. Как же они это делают? Они как-то двигали бы ручку, предотвращая этими движениями опрокидывание маятника. На первый взгляд кажется, что эти слова не содержат ни- какой полезной информации. Однако это не так. Она есть и состоит в том*, что эквилибрист перемещает ручку в зависимости от движения самого маятника, следовательно, он осуществляет некую обратную связь, поскольку перемещения ручки влияют на движение маятника и сами они происходят в зависимости от его движения. Итак, мы пришли к тому, что в рассматриваемом случае эквилиб- рист является управляющей системой, целью которой является удер- жание маятника в верхнем положении. Тем самым стала ясна связь поставленной задачи с основной темой книги. Однако, прежде чем продолжить это рассуждение, рассмотрим другие возможные пути стабилизации маятника, не использующие обратные связи и средства управления. Такое рассмотрение способствует выявлению специфики стабилизации средствами управления. Как же можно стабилизировать маятник в верхнем положении, дви- гая ручкой, не сообразуясь с движением самого маятника? По-видимо- му, таких способов достаточно много. Укажем на следующие два: поставить ручку вертикально (рис. 4.2) и вращать ее вокруг собствен- ной оси (а), держать ручку вертикально и колебать ее вверх и вниз (б). Первый способ применим не к любому маятнику; второй — к любому, нужно только подобрать подходящую частоту и амплитуду, и маятник будет стоять вертикально, а если его легонько толкнуть, будет качаться возле своего вертикального положения. Рассмотрим последовательно каждый из этих способов, а затем рассмотрим возможности использования управления. 1. Стабилизация верхнего положения ма- ятника с помощью вращения. Найдем уравнения движения маятника М, ручка которого Р вращается вокруг собствен- ной оси с угловой скоростью со. При учете силы тяжести и пренебре- жении трением рассматриваемая система будет консервативной, и для нее можно записать обобщенный закон сохранения энергии в виде — ср2—у (со cos ср)2—(со sin ср)2 mgl cos ср = h. (1.1)
$ 1. СТАБИЛИЗАЦИЯ ПЕРЕВЕРНУТОГО МАЯТНИКА 105 Здесь <р — угол отклонения маятника от вертикали, ю — угловая скорость вращения горизонтальной оси маятника 0'0" вокруг вер- тикали, А и С — главные моменты инерции маятника относительно точки О пересечения осей маятника 0'0" и ручки. При этом предпо- лагается, что маятник представляет собой тело вращения относительно оси L, проходящей через точку О перпендикулярно О'О", т — масса маятника, I — расстояние центра масс маятника до оси 0'0", g — ус- корение силы тяжести, h — некоторая постоянная интегрирования, Q которая в верхнем равновесном положении маятника равна — A-mgl (<р=ф=О). Равновесное положение <р=<р=О будет устойчивым, если функция V = tngl cos <р—(и cos ф)2—(со sin ф)2 в точке ф=0 имеет минимум, и, напротив, неустойчивым, если — максимум. Непосредственные вычисления дают, что S = °» Sri =“mglA-{C—Л)со2, д<р |ф=о оф2 |ф=о six / > в силу чего устойчивость имеет место при выполнении условия (С — Л) со2 > tngl. (1.2) Таким образом, устойчивости верхнего положения маятника можно добиться, если для него С>Л и если угловая скорость вращения его ручки превосходит a*=mgl(C—Л)-1. 2. Стабилизация вертикальными колеба- ниями. Проще всего ручку маятника колебать вверх и вниз по закону a sin at.- При этом движения маятника описываются уравнением вида Лф—ml (g-f-aco2 sin со/) sin ф =0. Так как нас интересует только устойчивость состояния равновесия Ф=Ф=0, то в этом уравнении в силу предполагаемой малости ф мож- но БШф заменить на ф и записать его в виде Лф—ml (g + aa2 sin at) ф = 0. (1.3) Исследование решений этого уравнения, получившего наименование уравнения Матье, не просто. Довольно сложно и исследование ус- тойчивости состояния равновесия. Поэтому можно поступить двоя- ко: сослаться на известные результаты его исследования или упрос- тить задачу настолько, чтобы можно было ее сравнительно просто решить. Но факт стабилизации вертикальными колебаниями настолько необычен, что, пожалуй, все же лучше, чтобы в этом вы убедились сами. Конечно, можно было бы просто показать это на эксперименте. В свое время такие очень эффектные эксперименты с использова- нием электромоторчика от швейной машины проделывал известный
106 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ физик П. Л. Капица. Маятник стоял вертикально н после толчка, покачиваясь, возвращался к вертикальному положению. Он стремился к вертикали, и можно было «ощутить силу», с которой он это делал. Эта сила была названа вибрационным моментом и была вычислена. Все это не очень просто и несколько в стороне от основной темы об- суждения, так что упростим задачу так, чтобы она сохранила смысл и не очень затруднила решение. Пусть ручка колеблется вверх и вниз не по гармоническому закону «sinco/, а так, что ее ускорение периоди- чески с частотой со меняется с —а®2 на а®2. Это соответствует тому, что уравнение (1.3) следует теперь записать в виде Л<р—/7i/(g-j-aG>2signsin<oZ)<p = 0, (1.4) где значок sign означает знак, т. е. +1, если sincoZ > 0, и —1, если sinco/ < 0. Уравнение (1.4) на промежутках времени от мо- мента ^ = Лл/® (k — целое) до /fc+1 = ifc4-n/0) и от tk+1 до tk+2 = = 4+14~л/со—линейное и может быть проинтегрировано. Пусть при t = tk <р = ср* и <р = cpfc; тогда последовательно с помощью решений уравнения (1.4) на промежутках времени от tk до tk+1 и от tk+1 до tk+2 можно найти значения <р и <р в момент времени tk+2. Обозначим их через q>fc+2, фй+2. Не очень сложные выкладки приводят к тому, что Фл+2 = («Г1®?1 sh ncoj sh лсо2 + ch л «4 ch ли2) Фа + + (иг1 sh TtHj ch лсо2 + ®2 ch лей; sh ли2) <pft, (1.5) <pfc+2 = (иг1 ch лих sh ли2 + sh n®t ch ли2) <pA + + (ch nHj ch ли2 + HjH2 sh л®; sh ли2) <pfc, где 2 ml (g+aco2) 2 __ ml (g—aa2) ®i - д , ©2 = у л • Соотношения (1.5) по значениям <pfc и <Р* в момент времени tk ука- зывают их же значения <pfc+2, Фй+2 через время 2л/и в момент времени ffc+2, т. е. они позволяют проследить последовательные изменения состояния <р, ф маятника через промежутки времени 2л/и. Последо- вательные значения ф, ф связаны линейным преобразованием с по- стоянными коэффициентами. Как известно, неограниченное возраста- ние или, напротив, убывание к нулю этих последовательных значений зависит от собственных значений матрицы линейного преобразования (!,5). Неограниченное' убывание имеет место, когда эти собственные значения по модулю все меньше единицы, а возрастание — когда хотя бы один из них по модулю больше единицы. Уравнение, опреде- ляющее собственные значения преобразования (1.5), можно после несложных вычислений привести к виду X2—[(вМ+Д ) shn®1shn®2-|-2chn®1chn®2j X-f-l =0, (1.6)
§ 1. СТАБИЛИЗАЦИЯ ПЕРЕВЕРНУТОГО МАЯТНИКА 117 и, как нетрудно видеть, модули обоих его корней не могут быть мень- ше единицы, так как их произведение равно 1. Возможна лишь так называемая консервативная устойчивость, когда его корни по модулю равны единице, что имеет место при соблюдении условия | J sh raoj sh жоа -f- 2 ch raoj sh nco2 j < 1. (1.7) Это условие можно выполнить, если подобрать подходящие а и а- Построение области устойчивости, ров, где выполняется неравенст- во (1.7), может быть осуществле- но численно и приводит в инте- ресующей нас части к картинке, изображенной на рис. 4.3. Со- гласно виду заштрихованной на рис. 4.3 области устойчивости верхнее положение маятника бу- дет стабилизировано, если вы- брать достаточно большую частоту a^mgl/A и подходящее значение «амплитуды» а. 3. Стабилизация не- т. е. области значений парамет- устойчивого равнове- сия маятника средствами управления. Будем манипулировать ручкой маятника в горизонтальном направлении в плоскости маятника (собственно, только эта часть горизонтального перемещения оказывает влияние на его движение). Обозначим это перемещение ручки через у, тогда уравнения движения маятника запишутся в виде A<p = mgZsin<p—ту (cos<p. (1.8) Разрешается менять у или у в соответствии с величинами <р и <р. Примем самое простое: у = а<р4-р<р, (1.9) где аир — некоторые постоянные, т. е. примем линейную зависимость воздействия у от переменных <р, <р состояния маятника. Если мы сумеем реализовать такое управление, то движение маятника будет уже опи- сываться новым уравнением вида Д<р + m/рф cos ф -|- ml (a cos ф—g) sin ф = 0, или, после линеаризации в окрестности равновесия ф=ф=0, вида Дер-f-m/рф + т/(а—£)ф = 0. (1.10) Верхнее положение равновесия маятника устойчиво, если коэффи- циенты в уравнении (1.10) положительны, т. е. если выполняются
108 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ неравенства 0 > 0, а > g. (1.11) Итак, с помощью введения управления со стратегией вида (1.9) верх- нее положение маятника становится устойчивым, если выполнить условия (1.11). Реализация такого способа стабилизации верхнего положения маятника с помощью автоматической системы вполне воз- можна: нужно только иметь измеритель угла <р и силовое устройство, двигающее ручку с ускорением, определяемым стратегией (1.9). Заметим, что при реализации такой стратегии управления приход возмущенного маятника к равновесному положению может быть осу- ществлен путем затухающих колебаний или путем неколебательного уменьшения <р и <р. Это зависит от корней характеристического урав- нения А X2 + m/fSX + ml (а—g) - 0. Колебательный характер возврата к вертикальному положению будет при комплексных корнях с отрицательной действительной частью, т. е. при выполнении условий (1.11) и условия т/р2<4Л (а—g). При обратном неравенстве корни будут действительными отрицатель- ны (и, что соответствует так называемому апериодическому затуханию. Однако, хотя техническая реализация стратегии управления (1.9) вполне возможна, она не так уж проста; во всяком случае было бы значительно проще воспользоваться стратегией вида У — k при аф + Р<р>0, —k при аф + Рф<0. (1-12) Это так называемый релейный закон управления. Он состоит в том, что ручку двигают с одним и тем же ускорением то в одну сторону, то в другую в зависимости от знака величины аф+Рф. Анализ работы такой системы управления сложнее, чем в предыду- щем случае: перед нами нелинейная система. Однако он сравнительно прост и нагляден, если обратиться к ее фазовому пространству. Фазо- вое пространство маятника, как известно из предыдущего, является цилиндром. Нас оно целиком не интересует. Ограничимся рассмотре- нием его только не в очень большом отдалении от равновесия ф=ф=0, тогда оно изобразится некоторой частью плоскости, содержащей точку Ф=Ф=0. Внутри этой части фазового пространства мы можем прибли- женно заменить эшф на ф и cos ф на 1, и тогда, согласно (1.8) и (1.12), уравнение движения запишется в виде А<р—mglq = — kml sign (аф-|-Рф), (1-13) где sign означает знак стоящей после него величины. Несколько упростим вид этого уравнения. После изменения масш- табов по углу и времени при положительных а и Р оно приводится к
S1. СТАБИЛИЗАЦИЯ ПЕРЕВЕРНУТОГО МАЯТНИКА 109 виду ф—ф = — sign (ф-|-хф), (1-14) содержащему только один параметр х. Проведем на фазовой плоскос- ти прямую ф+хф=0. Эта прямая Г разделит ее на две части Ф+ и Ф", в каждой из которых уравнение движения линейное, а именно, ф—ф = —1 в части, где ф4-хф>0, ф—ф=-|-1 в части, где ф + хф<0. В каждой из этих частей Ф+ и Ф“ уравнения движения интегрируют- ся, легко находятся фазовые траектории и соответствующие фазовые портреты. Они изображены на рис. 4.4 (х>0). Точки Oj и О2 — сед- ловые состояния равновесия. Возле них в каждой из частей Ф+ и Ф“ фазовые точки движутся, как показано на этом рис. 4.4. Из этого фазового портрета непосредственно видно, что фазовые точки, близкие к точке О (ф=Ф=0), к ней неограниченно приближают- ся, т. е. что вертикальное положение маятника в результате управле- ния стало устойчивым. Однако отнюдь не всегда маятник, будучи отклонен от вертикали, к ней вернется. Это заведомо не так для всех точек, лежащих вне полосы между прямыми SJ и SJ. Только не очень сильно отклоненный от положения равновесия маятник снова вернется к нему, так что имеет место устойчивость, но только по отношению к не очень большим возмущениям.
110 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Сейчас мы немного разобрались в том, каким образом можно ста- билизировать верхнее, изначально неустойчивое положение маятника средствами управления, путем введения обратной связи, и можно было бы поразмышлять о том, как эту же задачу мог бы решить или решает эквилибрист. Однако прежде бегло сравним способы стабилизации без управления и с управлением. Как было видно из рассмотрения стабилизации «вращением» и «колебанием», устойчивость верхнего положения достигалась, но она носила консервативный характер. При вращении верхнее состояние равновесия типа центра и окружающие его фазовые траектории замк- нутые. Аналогично, в случае колебания устойчивость обеспечивается за счет равенства единице модулей корней характеристического урав- нения, определяющего собственные значения матрицы линейного пре- образования состояния за период колебания ручки. Если при экспе- рименте устойчивость все же асимптотическая, то это только за счет трения в оси маятника, которое по условию задачи не может исполь- зоваться для стабилизации. В противоположность этому, устойчивость, вызываемая управлением и вводимой им обратной связью, асимптоти- ческая, причем мы можем при желании увеличивать или уменьшать скорость прихода маятника к состоянию равновесия, не прибегая к трению в его оси, а только меняя стратегию управления. Далее, нетрудно заметить, что стабилизация с помощью управле- ния более универсальна, чем вращением и колебанием ручки. Универ- сальней в том смысле, что одна и та же стратегия управления приме- нима к всевозможным маятникам, в то время как первые два способа применимы не ко всякому маятнику и требуют подбора параметров о> или а и со манипулирования ручкой. Наконец, можно отметить, что при первых двух способах нужно всё время вращать либо колебать ручку и делать это достаточно ин- тенсивно, в то время как при управлении ее .приходится двигать лишь, если маятник отклонился от вертикали (точнее, значений ср=ср=О), и как только он к ней вернулся, надобность в них исчезнет. Все сказанное — в пользу стабилизации с помощью управления. Однако есть довод и против управления: управление требует опреде- ления состояния маятника, требует создания соответствующей изме- рительной системы. Вернемся к эквилибристу. Трудно думать, чтобы он все время двигал ручку в зависимости от состояния маятника, это скорее для технической системы. Человек действует, по-видимому, несколько по-другому. Он реагирует на достаточно сильное уклонение маятни- ка, вырабатывает программу действий и, реализуя ее в некотором маневре, возвращает маятник в «безопасную» зону. Как только снова возникнет опасность падения маятника, снова осуществляется под- ходящий маневр и т. д. Трудно сказать, так ли на самом деле действует эквилибрист, но такая стратегия управления возможна. Ее особен- ностью является быстрая ликвидация аварийных ситуаций, быстрое приведение маятника в безопасную зону и относительное бездействие,
§ 1. СТАБИЛИЗАЦИЯ ПЕРЕВЕРНУТОГО МАЯТНИКА 111 пока маятник с точки зрения эквилибриста находится в безопасной зоне. Попытаемся проанализировать такую стратегию управления. Причем начнем с того, что постараемся понять, в чем состоит маневр Л как его спланировать. Возможно, что маневр вовсе не планируется каждый раз, а есть некий запас таких маневров, спланированных заранее в процессе обучения, н они лишь применяются по мере надоб- ности. Конечно, обучение, при котором эквилибрист находит нужные маневры, существенно отличается оттого, как мы будем сейчас их отыс- кивать, но с анализом этой стороны как отрабатывается маневр илн от- куда он берется, оставим без -вни- мания. Нас будет интересовать, су- ществуют ли такие маневры, в чем они состоят и как осуществить стабилизацию верхнего положения маятника с помощью таких манев- ров, а также что из себя будет представлять соответствующая си- стема управления и какова ее стратегия. Для того чтобы усилить инте- рес к этим вопросам, обратим вни- мание на то, что стабилизируют только в цирке, мы с вами делаем э- мы пока повременим: вопрос о том, верхнее положение маятника не о все время, когда стоим и ходим, мы все время решаем эту сложную задачу, даже не замечая, что это делаем, и не понимая, как это делаем. Лишь после аварийных ситуа- ций падения мы подчас сетуем на свою неловкость или говорим дру- гому, что нужно уметь держаться на ногах и уметь падать, что неплохо бы этому подучиться. Пусть движение маятника подчиняется уравнению (1.8) и пусть в некоторый момент времени t0 он оказался в угрожаемом состоянии <р0, фо- Назовем маневром совершаемое в конечное время движение ручки «/(/), приводящее маятник к равновесию <р=<р=О. Таких ма- невров существует бесчисленное множество. Действительно, пусть <р, <р — отклоненное положение маятника и ф (/) — дважды дифферен- цируемая функция, обращающаяся в нуль при и удовлетворя- ющая начальным условиям ф(£о)=фо, ф(/о)=фо. Из уравнения (1.8) можно непосредственно найти y(t), которое обеспечило бы на проме- жутке от t0 до ti совпадение <р(0 с ф(/). Таким образом, каждой такой функции ф(1) отвечает некоторый маневр y(t), для которого, согласно (1.8), & ml cos ф ' ’ ' На рис. 4.5 показан график изменения <р (О до момента to, затем этот график дополнен произвольным приведением маятника к равновесию
112 ГЛ. 4. УПРАВЛЯЕМЫЕ динамические системы в момент времени h. Далее, по формуле (1.15) может быть найден со- ответствующий этому способу приведения маятника маневр y(t). При отыскании y(t) по ф(0 следует иметь в виду, что при /=/0 г/(/0)= =у (to)=O- Получаемое при этом перемещение ручки у (t) может не удов- летворять требованию законченности этого движения на промежутке от ta до /1, поскольку вовсе не обязательно y(t!)=Q. Это нужно потре- бовать, и это накладывает еще одно ограничение на функцию приведе- ния ф(0. состоящее в выполнении условия C~A^±mgls-n^dt=^ J ml cos ip ' 1 t 0 Таким образом, всякая функция приведения ф(/), удовлетворяющая условию (1.16), порождает некоторый маневр, т. е. законченное дви- жение ручки y(t) на промежутке времени [/0, /J, в результате которого отклонившийся маятник вновь приводится к равновесию. Возможно, что, обучаясь, человек может научиться программиро- вать в мозгу такие маневры и тем самым приводить наше тело к вер- тикали из различных его отклонений. Едва ли это возможно сделать совершенно точно, и поэтому возможно, что приведение к равновесию совершается путем использования ряда все более и более приближаю- щих к равновесию маневров. Покажем, какими могут быть соответст- вующие маневры приведения маятника к вертикали и как выглядит это приведение на фазовом портрете маятника. Пусть перемещение ручки y(t), совершившееся в небольшой про- межуток времени т, имеет вид, изображенный на рис. 4.6. При малом т из уравнения (1.8) следует, что за это время АФ ~ ДФ ~ °» т. е. такое перемещение ручки (назовем его тоже маневром) меняет угол наклона маятника ср, не изменяя его угловую скорость. Таким образом, с помощью этих быстрых маневров — перемещений ручки y(t) вида, показанного на рис. 4.6, мы можем «скачкообразно» менять его угол наклона, мало влияя на его угловую скорость. Теперь рассмотрим фазовый портрет маятника, изображенный на рис. 4.7. Точка О соответствует неустойчивому верхнему положению маятника. Обратим внимание, что удаление фазовой точки — маят- ника — от равновесия происходит вдоль сепаратрис седла S~, а приближение — вдоль S+. Поэтому положения фазовой точки вблизи S- следует рассматривать как опасные, напротив, вблизи S+ — как безопасные. Соответствующие области на фазовом портрете обозначе- ны буквами А и В. Теперь представим себе, что, когда фазовая точка попадает в зону опасности А, применяется описанный маневр изме- нения ф таким образом, чтобы попасть в зону безопасности В, жела- тельно как можно ближе к сепаратрисе S+. Ясно, что такие маневры не позволяют фазовой точке уйти далеко от точки О. Более того, если
§ 1. СТАБИЛИЗАЦИЯ ПЕРЕВЕРНУТОГО МАЯТНИКА 113 в результате серии таких маневров нам удается попасть достаточно близко к сепаратрисе S+, то маятник весьма близко подходит к поло- жению равновесия и некоторое время пребывает вблизи него. Расши- рение зоны А и сужение зоны В влечет большую близость маятника к вертикальному положению. Вместе с тем сужение зоны В требует большей точности маневра, а расширение зоны А — более быстрого и четкого реагирования на отклонения маятника. Поддерживая свое вертикальное положение после больших отк- лонений, мы прибегаем к некоторому подобию маневра изменения <р: при малых отклонениях мы пользуемся перераспределением нагрузки на площади опоры ног, не последнюю роль играют движения корпуса, рук и ног, использующие возникающие силы инерции. Но все сказан- ное только из области догадок, так может быть, но может быть все и несколько иначе или совсем не так. Хотелось бы обратить внимание еще на одну задачу, внешне сов- сем непохожую на изучаемую, но, как оказывается, приводящую к таким же уравнениям и поэтому в принципе такую же. Это задача о левитации. О свободном висении тела без механических поддержек, не с помощью воздушного потока или силы Архимеда. Согласно леген- де так висел в воздухе гроб Магомета, так якобы могут зависать йоги и «летающие тарелки». Поскольку механические поддержки исклю- чены, то мы с вами можем осуществить левитацию только с помощью электромагнитных сил. Тут возможно несколько вариантов: магнит- ные силы, электростатические, электродинамические. Остановимся на вывешивании тела с помощью магнитных сил. Имеется железный шарик, и нужно его свободно вывесить с помощью магнитного поля. На первый взгляд задача кажется очень простой: магнит сверху притя- гивает шарик, компенсируя силу тяжести, и он висит. Но так ничего
414 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ не выйдет. Кто имел дело с магнитами, тот это сразу сообразит: шарик либо упадет, либо прилипнет к магниту. Заставить его висеть не удастся. Хотя у него и есть положение равновесия, т. е. место, где сила тяжести и сила притяжения магнита равны, но это равновесие неустойчивое. Как же заставить шарик все же висеть? Мы уже знаем, что для этого нужно неустойчивое равновесие преобразовать в устой- чивое и что этого можно достичь с помощью подходящего управле- ния. В данном случае мы можем управлять силой притяжения магни- та, заменив его электромагнитом. Итак, как следует управлять током в катушке электромагнита, чтобы в его магнитном поле мог ус- тойчиво висеть железный шарик? Заметим, что непосредственно уп- равлять током в электромагните трудно, проще управлять напряже- нием. Сейчас следовало бы выписать все необходимые уравнения и начать их исследовать. А может быть, можно и сразу догадаться, что нужно делать? Наверное, управление следует осуществить с помощью обрат- ной связи, определяющей изменение напряжения и в зависимости от отклонения г и скорости г железного шарика от его неустойчивого равновесия; похоже, что для этого подойдет, например, закон управ- ления вида и = az+Pz. Да, подойдет, и шарик будет устойчиво висеть. Нужно только подоб- рать подходящие значения параметров а и 0. У левитации есть много полезных применений. Вывешенный Ша- рик можно раскрутить настолько быстро, что он разорвется. А это уже метод определения его прочности. Есть у левитации и много дру- гих полезных применений. Уже сейчас создаются новые виды без- рельсового наземного скоростного транспорта с вагонами, выве- шиваемыми электромагнитным полем. § 2. Задача о комаре Представьте себе, что Вы легли спать в палатке и, вдруг, на Вас сел комар. Вы хотите не дать ему Вас укусить. Для этого можно либо хлопнуть, надеясь его убить, либо спугнуть. Комар, если его не уби- ли, может снова сесть на Вас, пока Вы не заснули, либо затаиться и дождаться, когда Вы уснете, и укусить Вас. Как же Вам вести себя в этой ситуации, как управлять своими действиями, чтобы прихлоп- нуть комара, не дав ему скрыться? Как сделать это наилучшим обра- зом? Ясно, что перед нами задача управления, задача отыскания его оптимальной стратегии. Управление состоит в последовательности принятия и реализации решений о том, нужно ли хлопнуть ладошкой, нужно ли аккуратно спугнуть, чтобы еще раз сел, и мы почувствова- ли, где сел. Стратегия управления состоит в правиле, по которому мы принимаем решения: хлопнуть или спугнуть. Эта стратегия долж-
§2. ЗАДАЧА О КОМАРЕ 115 Управляющих дейст- на быть такой, чтобы максимизировать вероятность достижения цели управления — прихлопывание комара. Попытаемся построить математическую модель этой задачи уп- равления и, если удастся, с ее помощью найти оптимальную стратегию управления. Не будем стремиться учитывать все тонкости процесса поимки комара, но постараемся отразить основные его стороны. Нам нужна простая модель, позволяющая понять самые существенные моменты в стратегии прихлопывания комара. В нашем распоряжении, если отбросить в сторону нюансы, после посадки комара — два возможных поведения: хлопать, спугнуть. Каждое из этих действий приводит к некоторым последствиям, их тоже всего несколько: комар убит, комар улетел, комар снова сел на Вас, причем он может сесть, обнаружив место посадки либо не обнаружив его. Между «обнаружил» и «не обнаружил» возможны промежуточ- ные градации, однако ради простаты будем относить их все к двум крайним случаям: место посадки комара либо известно, либо неизвест- но. Возможна и еще одна тонкость, когда мы точно не знаем: не то комар улетел, не то все же сел на Вас. Этот нюанс мы тоже исключим, считая, что хотя мы и не всегда знаем место его посадки, но умеем различать слухом, когда он улетел и когда не улетел. Итак, примем, что объект управления имеет четыре состояния: Xi — комар сел в известном месте, х2 — комар сел в неизвестном месте, х3— комар убит, х4— комар улетел. вий два: хлопать — и4, спугивать — и2. При действии «х состояние может смениться на х3, т. е. удалось убить комара, и улететь, и тогда из состояния хх J .. ’ г-, 1 и=и-хлопать он перейдет в х4. После хлопка — 1 действия Ui — он может снова сесть, оставаясь в состоянии хх ли- бо переходя в состояние х2 в зави- симости от того, удалось ли почув- ствовать, где он сел, или не уда- лось. Аналогично, состояние х2 при х< действии Ui может перейти в хх, ос- таться прежним или перейти в х3 или х4. Состояния х3 и х4 могут перейти только сами в себя. Изобразим состояния хи х2, Хз и х4 точками. Тогда возможные смены состояний естественно изобразить стрелками, идущими от одной из этих точек к другой. Получающийся рисунок называется графом смены состояний. Таких графов два: один при действии их и второй при действии и2. Оба эти графа изображены на рис. 4.8. Ясно, что эти графы смен состояний указывают только, что может произойти при том или ином действии, а не то, что действительно произойдет. Объект управления — комар — в данном случае стохастический. Его поведе- ние не может быть предсказано точно. Но оно допускает вероятностное но комар может u^uz~ спугнуть ху- сел, известно где хг-сел, неизвестно аве х3-увит -улетел Рис. 4.8
116 ГЛ. 4. управляемые динамические системы описание, состоящее в указании вероятностей переходов из одних состояний в другие при действиях и п2. Обозначим эти вероятнос- ти через us) и будем считать, что это какие-то заданные числа. Заметим, что это предположение не так уж очевидно, ведь со временем комар может либо наглеть, либо набираться страху и в соответствии с этим менять свое поведение. Кроме того, разные комары могут вести себя по-разному и иметь поэтому разные вероятности тех или иных действий. Примем, что этого не происходит или что, в грубом прибли- жении, этими различиями и изменениями можно пренебречь. Ясно, что не всегда такое допустимо, более того, это изменение иногда может быть даже самым существенным. Например, в том случае, когда мы захотели бы прихлопывать комара, используя особенности комариной «психики», усыпляя его бдительность и убивая наглеца. Возможные изменения состояния xt в зависимости от управляющего воздействия us изображены на графах рис. 4.8. На этом же рис. 4.8 приведены обозначения состояний xt и стратегий us. Каждый переход на этих графах происходит с вероятностью р (Xf-t-Xf, и±) или р (х{-*-Х;, и2) в соответствии с или и—и2. Для построения и оптимизации стратегии управления весьма важ- ным является возможная длительность ловли комара, ваше терпе- ние. Оно может быть таким, что уже после двух-трех неудавшихся попыток вы либо вскакиваете и переходите к более решительным дей- ствиям, либо таким, что закутываетесь с головой, либо таким, что ве- дете борьбу до конца, пока комар не улетит либо не будет прихлопнут. Для того чтобы вести себя с самого начала оптимальным образом, нужно знать, на что вы способны, и заранее решить, как вы будете себя вести. С теоретической точки зрения наиболее существенно раз- личать случай конечного ресурса действий и неограниченного. Однако можно думать, что неограниченное увеличение ресурса в пределе со- ответствует бесконечному ресурсу. 'Рассмотрим сначала случай ограниченного ресурса действий. Пусть этот ресурс ограничен одним действием. Тогда очевидно, что из двух возможных действий Ui и и2 нам следует выбрать то, для кото- рого вероятность убить комара максимальна, т. е. для которого мак- симальна вероятность перехода в состояние х3. В соответствии с рис. 4.8 таким действием является Ui (действие и2 вообще не может привести к состоянию х3). Теперь пусть в нашем распоряжении два действия. При этом на первом этапе в зависимости от состояния xt можно выбирать одну из стратегий us в соответствии с формулой u = gr1(xz) (2.1) и, аналогично, на втором последнем этапе также в зависимости от состояния X; можно выбирать то или иное и. в соответствии с формулой и=Ш (2.2) Формулы (2.1) и (2.2) определяют правила выбора действий на пер- вом и втором этапах всего процесса поимки комара, т. е. стратегию
§ 2. ЗАДАЧА О КОМАРЕ 117 избавления от комара. Ясно, что всего таких различных стратегий шестнадцать: четыре на первом этапе и четыре на втором. Все четыре возможные на каждом этапе стратегии приведены в таблице 3. Непо- средственно ясно, что стратегии 3 и 4 заведомо плохие: при стратегии 3 мы хлопаем комара, когда не знаем, где он сидит, и спугиваем, когда знаем; при стратегии 4 мы ничем не способствуем поимке комара. По- этому остается только четыре варианта стратегий: на первом этапе стратегия 1 или 2 и на втором также 1 или 2. Но мы уже знаем, что, когда в запасе имеется только одно действие, этим действием должно Таблица 3 Состояние Номер стратегии I 2 3 4 Х1 Х3 «1 111 «1 «2 быть Uj, так что на втором этапе следует пользоваться первой стратеги- ей. Фактически остаются только две возможные стратегии: на пер- вом этапе— 1-я или 2-я, на втором этапе — только 1-я. Рассмотрим последовательно каждую из них. Стратегия: g'i(x1)=g’1(x2)=u1, g’2(x1)=g’2(x2)=u1. С самого начала возможны два варианта в соответствии с тем, находится ли комар в состоянии или х2. Для этих случаев нужно найти вероят- ности P2(Xi) и Р3(х2) прихлопывания комара при принятой двухэтап- ной стратегии. На первом этапе принимается действие Ui и изменения состояния комара происходят в соответствии с графом рис. 4.8 с ве- роятностями p(xt-^-Xj, и^. В частности, прихлопнут уже на этом первом этапе комар может быть в зависимости от его начального со- стояния с вероятностями p(Xi-+x3, и^ и р(х2-+х3, иг). На втором этапе комар может быть прихлопнут только, если после первого этапа он окажется в состоянии Xi или х2, причем это может произойти соответ- ственно с вероятностями p(Xi~^x3, Ur) и р(х2-+х3, Ui). Таким образом, для искомых вероятностей P2(^i) и Р2(х2) находим, что Р2 (xi) =p(xi^ xlt и^ р (хх х3, и,) ф- + p(Xi-^x2, Ui)p(x2^x3, Ui)+p(Xi-^x3, ut), (2.3) P2 (хг) = P (x2 Xi, Ui) P (Xi —> X3, Ui) + + p(x2^x2, иг) p (x2x3, Ui) + p(x2 —, X3, Ui). Стратегия: gi(x1)=u1, gi(x2)=u2, g3(Xi)=g2(x2)=Ui. Рас- смотрение этой стратегии совершенно аналогично рассмотрению
118 ГЛ. 4. управляемые динамические системы предыдущей и приводит к тому, что Р2 (xt) = р(х^ Хр «О р (х2 х3, uj 4- + р(х^х2, и1)р(х1—^х3, U1)+p(x1~^x3, иг), (2.4) Р2(х2) = р(х2—>х1г и2) р (Х2 —> х3, иг) + р (х2—> х2, и2) р (х2—>Х3, Mj). Как видно из этих формул, вероятности /^(xj) в обоих случаях одинаковы. Это и понятно, так как в этом случае на обоих этапах поимки применяется одно и то же действие Напротив, вероятности Р2(х2) — различные. Оптимальной является та стратегия, которая дает большее значение этой последней вероятности, а это зависит от кон- кретных численных значений вероятностей смен состояний p(xf->x,, us). Сравним вероятности Р2(х2) для первой и второй стратегий. Их разность А равна А = [j? (х2 ► Xp Uj) р (х2 > х2, u2)J р (х1 > х3, + [р (х2 —>х2, их)—р (х2 —> х2, и2)] р (х2 Х3, Ut). Если А положительна, то в начальном состоянии х2 эффективнее пер- вая стратегия; если меньше нуля — вторая. Первый член в выражении для А положительный, второй отрицательный. В соответствии с этим преимуществу первой стратегии способствует увеличение вероятности прихлопнуть комара наугад и преимуществу второй — осторожность комара, т. е. большая вероятность того, что он улетит, после того как его попытались прихлопнуть. Аналогичным образом могут быть рассмотрены все возможные стратегии и выбрана оптимальная при трех этапах поимки, четырех и любом конечном числе. Однако сложность вычислений при этом быстро нарастает. В связи с этим особый интерес вызывает рассмотре- ние задачи о поимке комара при неограниченном числе этапов, тем более что к этому случаю можно отнести и поимку комара с достаточ- но большим числом этапов, причем может оказаться, что достаточно большое число этапов начинается с 5—6. Может показаться, что рассмотрение процесса прихлопывания комара с возможностью бесконечного числа этапов представляет собой очень сложную задачу. Однако это не так, ибо как раз неогра- ниченность числа этапов влечет существенное упрощение, состоящее в том, что теперь все этапы одинаковые, и поэтому на каждом из них оптимальной будет одна и та же стратегия g(Xj). И поэтому, если рань- ше оптимальную стратегию нужно было выбирать среди большого числа других, то теперь только среди не более четырех стратегий, из которых две заведомо плохие. Четырех — потому, что функция g(Xj) может иметь два значения «j и и2, а аргумент тоже два — Xj и х2. Две заведомо плохие стратегии — это g'(xi)=u2, g’(x2)=u2 и g’(x1)=u2, g(x2) = Ui. Стратегию, одинаковую на всех этапах поимки, назовем стацио- нарной. Пусть g(Xt) — некоторая стационарная стратегия управле-
§ 2. ЗАДАЧА О КОМАРЕ 119 ния и Р(х4), Р(х2) — вероятности убить комара при этой стратегии, если его ловля начинается соответственно в состояниях х4 и х2 и может закончиться только либо состоянием х3, либо х4, а в противном слу- чае неограниченно продолжается. Пусть теперь xt (i=l, 2) — началь- ное состояние и, в соответствии с принятой стратегией управления, к нему применяется действие g(x;), в результате которого с вероят- ностями р(хг^х1, g(x,)), /?(хг->х2, g(xt)), p(x~rx3, g(xf)), Р&г+Хь g(xi)) могут возникнуть соответственно состояния хъ х2, х3 и х4. При продолжении процесса ловли комара с той же стратегией из состояния Xt он будет пойман с вероятностью P(x't), из состояниях, —с вероят- ностью Р(х2), из состояния х3 — с вероятностью единица и из состоя- ния х4 — с вероятностью нуль. Следовательно, вероятность прихло- пывания комара в состоянии х;, с одной стороны, равна Р(х;), а с дру- гой — она равна р (х£ -> xlr g (х,.)) Р (xt) +p(xl-^x2, g (X;)) Р (х2) 4- 4-р (X; -^х3, g (х,-)) = Р (х,). (2.5) Эти соотношения (2.5), записанные для i=l, 2, можно рассматривать как два уравнения относительно Р(х±) и Р(х2), из которых они легко могут быть найдены. Таким образом, для любой из возможных, приведенных в таблице 3, стратегий управления могут быть найдены соответствующие вероят- ности поимки комара Р(х1) и Р(х2). Теперь осталось, перебрав все четыре варианта стратегий, выбрать в качестве оптимальной ту, для которой P(xt) и Р(х2) — наибольшие. При этом имеется в виду, что для оптимальной стратегии одновременно наибольшими являются обе вероятности P(xt) и Р(х2). При этом, однако, сразу же возникает вопрос: а существует ли такая оптимальная стратегия? Ведь возможно, что увеличение одной вероятности происходит в ущерб другой и стра- тегии, при которой обе вероятности наибольшие одновременно, не существует. Однако, оказывается, все же такая стратегия есть, и это можно увидеть из уравнений для вероятностей Р(х1) и Р(х2), которые согласно (2.5) записываются в виде р(х1~^ xn g(x1))P(xl) + p(x1- х2, g(xt))P(x2) + +р(х1—>х3, g(x1)) = P(x1), (2.6) р (х1 х2, g (х„)) Р (х4) + р(х.г-^ х2, g (х2)) Р (х2) 4- 4- Р (х2 х„ g (х2)) = Р (х2), если рассматривать их решения как точки пересечения соответствую- щих прямых на плоскости Р(х4), Р(х2). Действительно, учитывая, что p(x/->x1,g(x.))+p(x,.^x2, g(x,.))<l (i = l, 2), обнаруживаем, что прямые L и М, отвечающие первому и второму уравнениям (2.6), имеют угловые коэффициенты и й2<4 и пере- секают соответственно оси Р(х4) и Р(х2) в точках с абсциссой q4>0 и ординатой <?2^0, т. е. они расположены, как показано на рис. 4.9, и поэтому пересекаются в некоторой точке, лежащей в первом квадран-
120 ГЛ. 4. УПРАВЛЯЕМЫЕ динамические системы ге. На рис. 4.10 изображены две прямые L1 и L2 и две прямые М1 и M2r отвечающие соответственно двум различным значениям каждой из функций g(Xi) и g(x2). Четыре точки пересечения прямых L1 и ЛР, L1 и М2, L2 и ЛР, L2 и ЛР расположены так, что одна из этих точек,. назовем ее R, обязательно имеет одновременно и самую большую абс- циссу, и самую большую ординату. Эта точка отвечает оптимальной стратегии. Прямые L1 и L2 отвечают соответственно g(x1)—u1 и g(x1)=u2, а прямые М1 и Л12 — соответственно g(x2) = Ui и g’(x2)=«2. Поэтому расположение прямых L1, L2, М1 и М2 на рис. 4.10 означает, что для оптимальной стратегии g(Xj) = Hi и g(xi) = u1, т. е. комара нужно бить ладошкой как в том случае, когда знаешь, где он сидит, так и в том, когда не знаешь. Это соответствует прямо- линейной стратегии управления: бей, не задумываясь. Однако воз- можны и другие расположения прямых L и М, при которых оптималь- ная стратегия охоты на комара не столь прямолинейна. Как для этого должно измениться расположение прямых L и М — довольно ясно. Достаточно, например, поменять местами прямые М1 и М2, и тогда оптимальной стратегией будет Это означает, что в состояниях х2 мы стремимся непосредственно прихлопнуть комара, в то время как в состояниях х2 только добиться ситуации, при которой такое прихлопывание более осуществимо. Та- кого рода управление, при котором часть действий непосредственно направлена на достижение цели, а часть — только на создание усло- вий для таких непосредственных действий, можно назвать дуальным. Но возможно ли, чтобы такая дуальная стратегия была оптимальной? Для того чтобы убедиться, что такое возможно, рассмотрим два число- вых примера, приводящие к прямолинейной и соответственно дуаль- ной стратегиям.
§2. ЗАДАЧА О КОМАРЕ 121 Пример 1. р(Х1-н ► хп «Д = 0,2; р(х4-^ х2, «Д = 0,1; р(Х1-н - xv «Д = 0,6; р (х4 —> х2, «Д = 0,3; Р(Хл-ч - Хр «Д = 0,4; р (х2 —> х2, «Д = 0,2; р(х2_ ► ХрИД = 0,6; р(х2^ х2, «Д = 0,3; Р^-* х3, «Д = 0,5; p(Xj—* х4, «Д = 0,2: p(xt х3, «Д = 0,0; р (х4 —» Хр и2) = 0,1; р(х2-+ х3, иД = 0,2; р (х2 —> х4, «Д = 0,2; р(х2-+ х3, и2) = 0,0; р (х2 — Хр «Д = 0,1. Для этих значений вероятностей смен состояний уравнения (2.6) для прямых L1, L2, М1 и М2 имеют вид 0,2Р (хД-|-0,1Р(хД Д-0,5 = Р (хД, 0,6Р(хД4-0,ЗР(хД = Р(х1), 0,4Р (хД + Q,2P (хД + 0,2 = Р (хД, 0,6Р(хД + 0,ЗР(хД = Р(хД. Они изображены на рис. 4.11. Точке R соответствует прямолинейная стратегия, в ней пересекаются прямые L1 и М1. Для нее и Р(хД«0,6. Заметим, что в этом случае дуальная стратегия лишь немного хуже оптимальной прямолинейной, так как точ- ка пересечения прямых L1 и /И- близка к точке 'R. Другие из рассматриваемых стратегий (включенных в таблицу 3), как это непосредственно видно из рис. 4.11, уже намного хуже. Стратегии «ударять, когда неизвестно, где сидит комар» и «спу- гивать, когда известно» отвечает точка пе- ресечения прямых L2 и Л41. Для нее веро- ятности Р(хД и Р(хД меньше половины. Рис. 4.11 Стратегии «всегда спугивать» соответству- ет точка пересечения прямых L2 и Л42, естественно, что при этом Р(хД=Р(х2)=0. Пример 2. Численные значения тех же самых вероятностей, что и в предыдущем примере 1, следующие: 0,1; 0,2; 0,3; 0,6; 0,2; 0,4; 0,3; 0,6; 0,6; 0,1; 0,0; 0,1; 0,2; 0,2; 0,0; 0,1. Уравнения прямых L1, L2, Л41 и Л42 в примере 2 имеют вид ОДР (хД + ОДР (хД + 0,6 = Р (хД, 0,ЗР(хД4-0,6Р(хД = Р(хД, ОДР (хД + 0,4Р (х2) -f- 0,2 = Р (хД, 0,ЗР (хД + 0,6Р (хД = Р (хД
122 ГЛ. 4. управляемые динамические системы и изображены на рис. 4.12. Из этого рисунка следует, что оптимальной оказывается дуальная стратегия. На этом закончим рассмотрение задачи о прихлопывании комара. Эта задача, несмотря на свою несколько шуточную постановку, очень серьезна, таким же образом могут быть поставлены и решены многие другие очень важные и ответственные задачи. По существу, в ней ставится и решается вопрос о многоэтапном воздействии на стохасти- ческий объект, приводящем к наилучшему конечному результату. Это почти общая постановка задачи управления. Ее специфика состоит в том, что при заданной стратегии управления £„(*,) (n=l, 2, ..., N) наш объект управления является нестационарной марковской системой, Р(Хг) 1,0 0,5 Р&Р 0,5 ijj Рис. 4.12 а в случае стационарной стратегии уп- равления g(xt) — стационарной (одно- родной) марковской системой. Состоя- ниями этой динамической марковской системы являются х± и х2, х3 и х4, фазо- вым ее состоянием — вероятности р(х4), р(х2), р(х3) и p(Xi) этих состояний. Вероятности смен этих состояний зада- ны, это p(Xt-*-Xj, gn(xi)) или, для стаци- онарной стратегии, р(Хг->Х;, g(Xj)). Ве- роятности перехода из состояния х; в состояние х} зависят на каждом этапе смены состояний только от состояния х; и не зависят от предшествующих со- стояний системы, как и требуется для марковской системы. Последующее фазовое состояние pn+i(pn+i(-^i), Pn+i(x2), pn+i(xs), р„+1(х4)) связано с предыдущим р„ (р„(х4), рп(х2), р„(х3), pn(xt)) соотношением вида Pn + J где Рп — матрица вероятностей перехода из состояния х{ в х, при стратегии й„(хг). В случае стационарной стратегии ё’„(хг)=й’(хг) при всех п, и поэтому матрица Рп одна и та же при всех п, что соответствует стационарной марковской системе. Итак, мы пришли к тому, что задача о прихлопывании комара представляет собой задачу об управлении динамической марковской системой. Марковскую систему, вероятности смен состояний которой за- висят от управляемой переменной или переменных, называют управ- ляемой марковской системой. Управляемые марковские системы — это важный и обширный класс стохастических систем управления. В общем случае они имеют конечное или бесконечное число состоя- ний, вероятности смен которых зависят от управления и самого сос- тояния. Предшествующие смены состояний не имеют никакого влияния на эти вероятности, они как бы забываются. Именно благодаря этому «забыванию» вероятности состояний оказываются полным описанием,
§ 3. АВТОРУЛЕВОЙ 123 соответствующим фазовому состоянию. Рассмотрение управляемых марковских систем в дальнейшем будет продолжено. В качестве пере- хода к этому продолжению выясним, не связаны ли между собой стра- тегии управления при различных числах этапов N, и что происходит с ними при неограниченном возрастании N. Пусть gifxt), g^(xt), ..., g’yv(xj) — оптимальная стратегия при N этапах. Пусть мы начали ловить комара и израсходовали s действий М пусть мы его не прихлопнули и он не улетел. У нас осталось в резер- ве еще N—s действий. Согласно нашим упрощенным представлениям то, что комара уже хлопали и спугивали, не оказало никакого влияния на его поведение: он улетает и садится с теми же вероятностями, с теми же вероятностями он обнаруживает и не обнаруживает себя. Эти же упрощенные представления относятся и к нам: мы не стали его луч- шие хлопать или спугивать. Такое упрощение задачи приводит к очень важному выводу: ловля комара после s попыток (этапов), если он после них не улетел и не прихлопнут, ничем не отличается от его ловли с самого начала при наличии в резерве N—s этапов. Это означает, что оптимальный выбор действий на $+1, ..., N этапах должен быть такой же, как и на 1, 2, ..., N—s этапах при ловле с резервом N—s этапов, т. е. Qs+i (Х;) = grs (Xi), ..., g% (Xi) = gft-* (Xi). Эта связь между оптимальными стратегиями при резервах в N и W—s действий (s= 1, 2, ..., N—s) является выражением знаменитого и широкоизвестного принципа динамического программирования Р. Веллмана. Именно он будет положен в основу при дальнейшем рассмотрении оптимального управления динамическими процессами и, в частности, марковскими системами. Осталось еще рассмотреть, что происходите оптимальной стратегией при У->оо. При очень больших значениях N с вероятностью, близкой к единице, комар либо будет прихлопнут, либо улетит, и поэтому на первых этапах «ничего не изменится», если это очень большое число допустимых этапов N будет увеличено или даже станет равным бес- конечности. Если это так, то существует предельная стратегия g™ (xt) и эта предельная оптимальная стратегия ловли комара на первом этапе является оптимальной на втором, третьем и любом, если резерв действий неограничен. Таким образом, мы пришли к тому, что при N—oo оптимальная стратегия стационарна. § 3. Авторулевой Представьте себе, что Вы плывете на лодке и, вдруг, замечаете, что она сбилась с курса. Вы поворачиваете руль и выводите лодку на курс. Вы управляете ее движением. Человек управляет движением и более сложных объектов. Если говорить о поддержании курса, то здесь управление малыми и больши- ми, речными и океанскими судами, велосипедом, автомобилем, под-
124 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ водной лодкой, самолетом, трактором и комбайном, вообще, всевоз- можными движущимися объектами. Человек более или менее быстра научается этому и делает это довольно хорошо. Мы не знаем, как он это делает. Мы не знаем, как наш мозг решает столь сложные задачи. А в ряде случаев нужно управлять объектами в автоматическом ре- жиме. Как же научить управлять движением динамического объекта автомат, если мы не знаем, как это делаем са- / ми? Какие нужно решить для этого задачи? / Как их решать? Некоторые из этих вопросов мы рассмот- 7 \ рим на простейшем примере управления кур- /д сом судна, скажем, лодки. Рассмотрим лодку, которая за счет мо- т0Ра или весел движется с некоторой ско- ростью V. В силу разных причин (течение, волны, ветер и т. д.) лодка уклоняется от за- l /\ данного курса. Будем считать, что это откло- некие происходит путем поворота лодки BO- Z' круг ее центра масс, и обозначим угол от- \ клонения продольной оси лодки от курса Рис. 4.13 через <р (рис. 4.13). Чтобы заставить лодку плыть куда надо, т. е. по нашей воле пово- рачивать ее вокруг центра масс, есть руль. Угол отклонения ру- ля от продольной оси лодки обозначим через хр. Поворачивая руль, мы можем менять положение лодки относительно заданного курса, т. е. можем ею управлять. В чем состоит цель такого управления? Цель состоит в том, чтобы как можно точнее обеспечить движение лодки по заданному курсу. Чем точнее выдерживается курс, тем лучше управление. Ясно, что самым лучшим является управление, при котором лодка все время идет по курсу, т. е. ф^О. Добиться, чтобы лодка все время шла по курсу, трудно. Это идеальная цель управления, но тем не менее мы пытаемся ее осуществить, поворачивая руль должным образом. Руль — это средство реализации цели управления. А как надо поворачивать руль? Как с помощью средств управления добиться осуществления цели управления? Чтобы как-то ответить на этот вопрос, надо прежде всего построить математическую модель объекта управления, т. е. математическую модель лодки. Для этого надо выбрать соответствующее описание и записать уравнения движения лодки. Вообще, движение лодки в воде — это сложная гидродинамическая задача, и на сегодня сущест- вуют различные уровни подробности ее рассмотрения и решения. Мы же напишем самое простое уравнение. Пусть <р — угол поворота лодки относительно вертикальной оси, проходящей через ее центр масс, и I — момент инерции относительно этой оси. Вода действует на корпус лодки и руль, создавая некоторые моменты относительно вертикальной оси. Ясно, что момент от руля
§ 3. АВТОРУЛЕВОЙ 125. зависит от угла его поворота и в самом простейшем виде пропорцио- нален ему с некоторым коэффициентом k, т. е. М (ф)=—kty. Знак минус означает, что момент от руля всегда направлен против направле- ния отклонения руля (рис. 4.13). Момент, действующий на корпус лодки, в грубом приближении равен —/нр, причем в зависимости от конструкции лодки коэффициент h может быть положительным, от- рицательным или равным нулю. При этих предположениях уравне- ние движения лодки запишется в виде /<рф-/1ф = — (3.1) Нас интересует вопрос, как выбирать ф(/), чтобы реализовать цель управления ф(/)=0. Но прежде всего разберемся в том, как ведет себя лодка без управления, т. е. если ф(/)==0. Это означает, что руль установлен вдоль продольной оси лодки, закреплен, и никто его не трогает. Тогда, согласно (3.1), уравнение неуправляемой лодки имеет вид = 0. (3.2) Чтобы разобраться, как ведет себя неуправляемая лодка, надо по- строить ее фазовый портрет. Эта система механическая, значит, ее состояние есть совокупность ф и ф. Так как ф — это угол, а ф — уг- ловая скорость, то фазовым пространством, как в случае физическо- го маятника, является цилиндр. По направляющей цилиндра откла- дывается ф, а по образующей ф (рис. 4.14, а). Этот цилиндр можно рисовать в виде развертки. Надо его разрезать по образующей и раз- вернуть. Получится полоса шириной 2л (рис. 4.14, б). Граничные точки полосы надо отождествить, т. е. считать, что точ- ки ф=—л, ф и ф=л, ф отвечают одному и тому же состоянию. Теперь будем строить фазовый портрет динамики лодки без руля. Интегрируя по времени уравнение (3.2), получим первый интеграл /ф+йф=с,.
126 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ где с — постоянная. Он дает связь между ф и ф, т. е. уравнение фазо- вых траекторий. На полоске это прямые с угловым коэффициентом —hir, на цилиндре винтовые линии (рис. 4.15; —hJI принимается отрицательным, что соответствует положительному h). Фазовая точ- ка движется по траектории в направлении, показанном стрелкой; где ф>0, там <р возрастает, а там, где ф<0, ф убывает: Пусть фазовая точка, двигаясь по траектории, приходит в точку А (рис. 4.15, а) Дальнейшее ее движение происходит по той же самой траектории, но уже из точки В. Двигаясь дальше, фазовая точка приближается к отрезку 001. Что собой представляют точки этого отрезка? Для них ф=0. Но из уравнения (3.2) видно, что для них и ф=0, т. е. ф=0, откуда следует, что ф=сопэ1 является решением уравнения (3.2). К такому же выводу можно прийти и непосредственно, обнаружив подстановкой, что Ф=сопз1 — решение уравнения (3.2). Следовательно, каждая точка отрезка 001 (точнее, окружности, поскольку точки О и 01 отождеств- лены) является состоянием равновесия нашей динамической системы, а в ее фазовом пространстве есть целый отрезок состояний равновесия, к точкам которого приближаются все остальные фазовые траектории. А теперь разберемся, что представляет собой фазовый портрет с точки зрения действительных движений лодки. Прежде всего — состо- яния равновесия. В них ф=сопэ1 и ф=0, т. е. со временем угол ф не меняется. Лодка движется прямолинейно под некоторым постоянным углом к заданному курсу и не отклоняется от этого направления ни вправо, ни влево. Она по существу придерживается одного курса. Скажем, вы толкнули ее в некотором направлении, так она и движется прямолинейно, не отклоняясь от этого направления. Ясно, что таких направлений сколько угодно, и можно толкнуть лодку по любому из «них. А следовательно, и состояний равновесия сколько угодно. Вот
§ 3. АВТОРУЛЕВОЙ 127' отрезок состояний равновесия и отвечает прямолинейным движениям неуправляемой лодки по всевозможным направлениям. Фазовые тра- ектории верхней части фазового пространства, где ф>0, соответству- ют вращению лодки в положительном направлении, а нижней части — в отрицательном направлении. Ну, а если мы отклоним неуправляе- мую лодку от прямолинейного движения, например, крутнув ее в направлении увеличения угла <р? Как она будет вести себя после этого?' С точки зрения фазового портрета этот толчок, отклоняющий ее от прямолинейного движения, отвечает изменению начального состоя- ния, а дальнейшему движению лодки соответствует движение фазо- вой точки по фазовой траектории из этого начального состояния. Как видно из рис. 4.15, а, б, фазовая точка смещается в верхнюю' полуплоскость и затем движется по фазовой траектории в направле- нии увеличения угла <р, но угловая скорость <р при этом уменьшается и стремится к нулю, т. е. фазовая точка приближается к некоторому, уже новому состоянию равновесия. Это новое состояние равновесия также соответствует прямолинейному движению лодки, но по другому направлению. Итак, неуправляемая лодка, лодка «без руля и без ветрил», не обладает целенаправленным поведением. Она может плыть прямоли- нейно по любому направлению. А если ее движение что-то изменит, она покрутится немного и снова придет к прямолинейному движению, но уже, вообще, по другому направлению. Но не все лодки обладают таким поведением. И те, кто любит ло- дочные прогулки и ездил на разных лодках, знают это. Вот, например,, шлюпка. Если ее толкнуть прямо, она прямо и движется. Но есть дру- гие лодки. Одну из них хорошо знают волгари. Это такая красивая лодка с высоким носом. Ее называют великоовражкой по названию одного из красивых волжских мест под городом Горьким. Если такую лодку толкнуть, то она моментально начинает куда-нибудь поворачи- ваться, либо вправо, либо влево. Прямо она не идет никогда. С чем это связано? Как объяснить такое несколько неожиданное поведение?' Давайте возьмем то же самое уравнение (3.2), но будем считать, что А<0. Что это означает? Мы знаем, что когда /С>0, то, если даже- лодку крутнуть, ее вращение замедляется. Это связано с тем, что при h>Q момент —/гф — демпфирующий и поэтому противодействует любому движению лодки, отличному от движения по определенному курсу. Если же /КО, то момент —/гф направлен в ту же сторону, куда направлена угловая скорость. Следовательно, если возникает угловая скорость ф, то этот момент не уменьшает ее, не демпфирует, а, наобо- рот, увеличивает. Пока лодка плывет прямо — ничего не происходит. Но если ее чуть-чуть отклонили от курса, то это отклонение не умень- шается, а, наоборот, увеличивается. Причем, если вначале лодка от- клоняется медленно, то потом отклоняется все быстрее и быстрее. И тот, кто плавал на такой лодке, знает, что нельзя давать ей сильно отклоняться. А если прозевал, то с ней уже очень трудно справиться.
128 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Таким образом, лодкам типа шлюпок отвечают /г>0, а лодкам типа великоовражки /i<0. Теперь рассмотрим случай, когда /г<0. Фазовое пространство то же самое. Уравнение фазовых траекторий то же: /ф+/гф=с. Только теперь на развертке цилиндра это уравнение прямых с положитель- ным коэффициентом —hl/>0 (рис. 4.16, а). На фазовом цилиндре эти траектории имеют вид винтовых линий, изображенных на рис. 4.16, б. Если при /г>0 фазовая точка по траекториям приближается к отрезку 00j, то теперь при /г<0 она удаляется от него, и тем быстрее, чем даль- ше от него находится. Точки отрезка 00j — по-прежнему состояния равновесия, только теперь это совсем другие состояния равновесия. Если при h>0 это были настоящие реальные равновесия, то сейчас это какие-то «призрачные» состояния равновесия. Потому что, если вы чуть тронете лодку, то она уже не придет к состоянию равновесия, а будет поворачиваться. Такие состояния равновесия называют не- устойчивыми. Практически же их как равновесных режимов нет. Лишь с точки зрения фазового портрета они имеют смысл; в данном случае как разделители вращений в одну сторону от вращений в дру- гую. Итак, мы познакомились с объектом — лодкой без управления в двух случаях, когда /С>0 и когда /i<0. В первом случае объект ус- тойчивый, можно сказать, «послушный». При /г<0 объект неустойчи- вый, «непослушный». Однако и в том и в другом случае лодка сама по себе не может обеспечить поддержание заданного курса. Ею нужно управлять. Но управлять «послушной» лодкой, по-видимому, легче и проще, чем «непослушной». «Послушную» лодку нужно только направлять куда надо, а «непослушную» нужно не только направлять, но и справляться с ее плохим «характером», с ее «желанием» все время вертеться.
§3. АВТОРУЛЕВОЙ 129 Представим себе, что лодка, уклонившись от заданного, курса на некоторый угол <р0, еще и начала вращаться в ту же сторону с угловой скоростью фо (рис. 4.17, а). Мы должны, поворачивая руль, т. е. меняя угол ф, привести ее к курсу и не только привести, но и удерживать на нем. Как это сделать? Считая начальным момент времени /=0, изобразим в системе координат (t, ф) начальное состояние лодки точ- кой и вектором (рис. 4.17, б). Точка определяет начальное отклонение лодки от курса, а тангенс угла наклона вектора к оси t равен ф0. Нам надо так менять ф, чтобы из начального состояния (ф0, ф0) перей- ти на прямую ф=0 и на ней остаться, т. е. перейти к состоянию ф=ф=0. 5) Рис. 4.17 Ясно, что это можно сделать разными способами, как, например, показано на рис. 4.17, б. Единственное естественное ограничение состоит в том, что график кривой ф (/) должен быть гладким. Действи- тельно, если есть точка нарушения гладкости, то в ней первая произ- водная меняется скачком, а следовательно, вторая производная бес-/ конечна. Но в силу уравнения (3.1), для того чтобы ф была бесконечна, надо, чтобы момент в правой части был бесконечен, а это невозмож- но — руль создает только конечные моменты. Пусть из всех законов приведения лодки к курсу нам понравился один: ф*(/). Как организовать управление, чтобы реализовать этот закон? Мы не знаем, как должен меняться угол ф поворота руля, но зато знаем, как должен меняться угол ф поворота лодки. Подставляя Ф*(0 в уравнение (3.1), получим для ф условие Г(0 = -|['ф* (04-Лф‘(0]- Посмотрим, как примерно выглядит ф*(/). Там, где выражение в скобках отрицательное, ф*(0 положительно, т. е. руль надо повора- чивать в положительную сторону, а там, где это выражение положи- тельное,— в отрицательную. Согласно рис. 4.18 вначале ф*(0 поло- жительно, а затем отрицательно. Как это можно понять? На первом
130 ГЛ. 4. УПРАВЛЯЕМЫЕ динамические системы участке мы поворачиваем руль так, чтобы tp уменьшалось, т. е. лодка приводилась к курсу. Эту фазу управления назовем «приведением». В процессе приведения лодка приобретает довольно большую угловую скорость, и если не принять меры, то она проскочит курс и отклонится в другую сторону. Для того чтобы этого не было, надо переложить руль в обратную сторону, т. е. надо как бы «одерживать» лодку. Эту фазу управления будем называть «одерживанием». Таким образом, если лодкой управляет опытный рулевой, то, увидев, что она откло- няется от курса, он сначала поворачивает руль так, чтобы лодка при- водилась к курсу, а затем, когда она начинает быстро приближаться к нему, поворачивает руль в обратную сторону, чтобы одерживать ее и не дать излишне повернуться. Управление, которое мы рассмотрели, называется программным. Это название в полной мере отражает суть рассмотренного способа управления. Действительно, сначала мы составляем программу или план своих действий, а затем находим управление, его реализующее. С такой ситуацией приходится встречаться довольно часто. Бывает, скажем, так. Вы спешите на работу или в университет, а на вашем пути препятствие — большая лужа, в которой кое-где разбросаны камеш- ки. Вы не идете как попало, а некоторое время смотрите на лужу, на камешки и вырабатываете план движения. Потом быстро его реали- зуете, уверенно перемещаясь с камня на камень. Так и в случае управления лодкой. У нас в руках руль. Лодка отклоняется от курса. Мы соображаем, как надо ее привести к курсу, и в соответствии с этим вырабатываем некоторый план управления. Задавая функцию ф*(0, мы программируем желаемый способ приве- дения лодки к курсу; <р* (t) — программа. Затем определяем, как надо поворачивать руль, чтобы реализовать принятую программу, т. е. определяем ф*(/) — программное управление.
§ 3. АВТОРУЛЕВОЙ 131 А теперь рассмотрим еще несколько вариантов программ приведе- ния лодки к курсу и способов их реализации. На рис. 4.19 приведены несколько кривых ф*(/) для различных начальных состояний лодки и примерные графики для соответствующих им функций ф*(/). Ради простоты пусть /г=0. Тогда программное управление имеет вид ф*(0 = —у/ф*(0- Кривые 1 рис. 4.19 описывают приведение лодки к курсу из начально- го состояния, когда лодка отклонена на некоторый угол ф0, но не вра- щается, т. е. фо=0. График функции ф* (/) обязательно имеет точку перегиба. До значения /п, соответствующего точке перегиба, ф* (/)>0 — это фаза «приведения», затем ф* (/)<Х) — фаза «сдерживания». Второй вариант начальных условий: лодка не отклонена, фо=0, но есть уг- ловая скорость фо>0. Этому случаю соответствуют кривые 2. Здесь опять есть фаза «приведения» и фаза «одерживания». Наконец, кривые 3 соответствуют случаю, когда лодка сильно отклонена от курса, но вращается по направлению к нему, ф0>0, Фо<0, т. е. сама к нему при- водится. В этом случае не надо приводить лодку к курсу, она сама к нему приходит. Надо ее слегка «одерживать», чтобы не дать ей пересечь курс и как-то плавно к нему привести. Таким образом, каждый раз, когда надо управлять лодкой, чтобы привести ее к курсу, это управле- ние должно состоять из двух этапов: этап «приведения» и этап «одер- живания». Нужно поворачивать руль так, чтобы добиться быстрого поворота лодки по направлению к курсу, а потом переложить руль в обратную сторону и нужным образом «одержать» ее. Всякий ли из запрограммированных законов управления можно выполнить? По-видимому, не всякий. И связано это прежде всего с ограниченными возможностями средств управления. Одно из та- ких ограничений мы уже рассмотрели. Оно связано с конечностью усилия, создаваемого рулем, и проявляется в том, что реализовать можно только гладкий закон управления. Это ограничение можно уточнить. Руль нельзя поворачивать на какой угодно угол, т. е. |ф* (/)|^ф0. Предельные углы —ф0 и ф0 поворота руля могут быть раз- личными, но ясно, что больше 90° они быть не могут. Ограниченность углов поворота руля означает, что в любой момент времени величина у |/ф* (/)-|-/1ф* (/) | должна быть меньше ф0, т. е. мы можем реализо- вать только те программы, для которых выполняется ограничение у | /ф* (/)4-Лф* (t) | =Сф0. Точно так же, когда, скажем, мы подходим к луже и видим, что она метра два с половиной шириной, то и мысли не возникает ее перешагнуть. Почему? Потому, что длина шага ограни- чена. Итак, мы можем реализовать различные движения лодки. Но ка- кое из них предпочтительнее? Какое является лучшим? Ответ на этот вопрос зависит от цели, которую мы ставим перед собой. Обычно,
132 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ когда мы стоим перед лужей, наши действия зависят от того, спешим мы или нет. В зависимости от этого мы принимаем ту или иную програм- му. Если спешим, то пойдем прямо по луже; если не спешим, то обой- дем ее, даже если расстояние, которое надо пройти, очень велико. Так и в случае управления лодкой. Для того чтобы сказать, какой спо- соб управления лучше, надо сфор- мулировать критерий того, что луч- ше, а что хуже. Один из самых ес- тественных критериев состоит в том, чтобы привести лодку к курсу как можно быстрее. Если есть два спосо- ба приведения лодки к курсу, как показано на рис. 4.20, то надо вы- брать первый, время /пр приведения лодки к курсу для которого мень- время сделать очень маленьким нель- Рис. 4.20 ЭТО шее. Нетрудно понять, что зя, так как при этом ф* (/) должно быть большим и может нарушиться условие у1 /ф* (/) -J- Лф* (/) | ф,,. Итак, для данного критерия цели задача программирования движения состоит в выборе кривой ср* (/), соединяющей точки (ф0, <р0) и (ф(/пр)=0, ф(/пр)=0), для которой /пр принимает минимальное значение при условии, что для всех про- межуточных значений времени выполняется условие | /ф* (/) + 4-/1Ф* (ОКФо- Могут ли быть другие критерии? Могут. Скажем, мы хотим, что- бы лодка приводилась к курсу достаточно быстро и чтобы приведе- ние осуществлялось комфортабельно. Что здесь имеется в виду? Скажем, вы едете в трамвае. Трамвай трогается с остановки. Водителю хочется ехать быстро, чтобы не выбиться из графика. Он резко вклю- чает полный ток. Пассажиры падают, ругаются. Зато он выдерживает график. Даже, может быть, очень хорошо. За что и получает премию. А другой водитель ток включает плавно. Трамвай идет спокойно. Пас- сажиры не чувствуют неудобства. Но он, конечно, проигрывает во времени. Так и в случае управления лодкой. Вы хотите управлять ею плавно, чтобы никто не ушибся и не упал за борт. В чем состоит кри- терий комфортабельности? Оказывается, он состоит в том, чтобы вто- рая производная от угла поворота лодки менялась медленно, т. е. чтобы ф(/) была невелика: |ф*(/)|<е. Ну, а если мы, кроме того, хотим, чтобы приведение было не слишком долгим, то программу ф*(0 надо выбирать так, чтобы было минимальным /пр при условии 4|/Ф*(0 + /1Ф*(0| |ф*(0|<е.
§3. АВТОРУЛЕВОЙ 133 Могут быть и другие критерии, например энергетические, когда надо выбрать программу из условия минимума энергетических зат- рат, т. е. когда вы хотите достичь цели, затратив для этого наименьшую энергию. Во всех случаях, когда программируемое движение объекта определяется из условия минимума или максимума некоторого кри- Рис. 4.21 терия цели, его называют опти- мальным. Управление, реализую- щее оптимальное программирован- ное движение объекта, называют оптимальным программированным или программным управлением. Разберемся в том, что нужно знать, чтобы реализовать оптималь- Рис. 4.22 ное программное управление. Пусть Ф={ф (t), — множество программных движений объекта, определяемое начальным ф0, фо и ко- нечным ф1, ф1 его состояниями и некоторыми естественными ограни- чениями. Так, в случае управления лодкой эти ограничения связаны с ограниченностью угла поворота руля. Есть некоторый критерий цели управления, который представляет собой функционал Е(ф(/)), задан- ный на множестве Ф. Надо выбрать программное движение так, чтобы для него функционал принимал наименьшее значение, т. е. надо выбрать <р*(/)£ф так, чтобы У(ф* (/))^У(ф (/)) для всех ф(/)£Ф. Функция <р*(0 является оптимальной программой. По ней затем нужно найти оптимальное программированное управление ф* (/). Значит, для того чтобы реализовать оптимальное программное управление, надо решить задачу оптимизации и найти оптимальную программу ф* (/), затем найти оптимальное программное управление ф* (/), где-то его записать и в соответствии с ним осуществлять управление (рис. 4.21), т. е. чтобы реализовать оптимальное управление, надо знать его для всех моментов времени. Но интуитивно ясно, что такое знание является лишним. Ведь в каждый момент времени нам нужно знать не всю кривую ф*(/), а лишь то, на какой угол мы должны повернуть руль именно в этот момент, т. е. фу (рис. 4.21). А что было до этого момента и что будет потом, нас не интересует. Так вот, оказывается, что это дейст- вительно так, и нет необходимости определять и запоминать всю кри- вую ф*(0, а можно действовать значительно проще. Для того чтобы
134 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ понять это и разобраться в том, что нужно знать для реализации оп- тимального программного управления, рассмотрим следующее ут- верждение: пусть <р* (/) — оптимальная программа; тогда, если мы реализовали ее до некоторого значения ср* (Q в момент времени tu то оставшаяся часть программы должна быть также оптимальной. Проиллюстрируем это утверждение на примере. Пусть надо пе- рейти из города А в город В, а из него в город С (рис. 4.22), и сделать это за наименьшее время. Утверждается: для того чтобы перейти из города А в город С за наименьшее время, необходимо переходить из города В в город С за наименьшее время. Если tAB — время перехода из А в В, a tBC — время перехода из В в С, то если время /ав+^вс перехода из А в В — минимальное, то тогда и tBC — минимальное, т. е. нельзя перейти из В в С быстрее. Действительно, если существует способ перехода из В в С за меньшее время t'BC<ZtBC, то все время /ав+^вс не будет минимальным. Почему требуется минимальность времени только на последнем участке пути, ведь минимизируется сум- ма Gb+^bc? Дело в том, что слагаемые в этой сумме зависимы, причем tBC за- висят от tA в, а не наоборот. Это хорошо видно на таком примере. Как опытный спортсмен строит график бега на длинную дистанцию? Пер- вую половину, а может быть, даже 3/4 дистанции он не стремится бе- жать за минимально возможное для себя время, зато оставшуюся часть дистанции он бежит изо всех сил, на пределе своих возможностей, т. е. за минимальное время, а вот неопытный спортсмен иногда сразу начинает вести бег на пределе своих возможностей, и хотя он преодо- левает часть дистанции за минимальное "время, на оставшуюся часть дистанции сил у него не хватает. Он либо прекращает бег, либо про- бегает дистанцию не за оптимальное для себя время. Таким образом, необходимым условием оптимальности програм- много движения является оптимальность любого последнего участ- ка движения. Это условие, как было уже сказано, сформулировано американским математиком Р. Веллманом в виде так называемого принципа динамического программирования. Почему так названо это условие? Потому что речь в нем идет об оптимальном программиро- вании движения динамической системы. А теперь постараемся увидеть, что принцип динамического про- граммирования непосредственно связан с понятием состояния динами- ческой системы. Вернемся к задаче об управлении лодкой. Пусть из начального состояния ф0, фо в момент времени t=0 мы хотим привести лодку к курсу, причем так, чтобы время Т приведения было минимальным. Кроме того, надо учесть ограничение на поворот руля |/ф* (/)+ +Лф* (/)|^Фо- Для отыскания нужного нам управления надо сначала решить оптимизационную задачу и найти оптимальную программу Ф*(0- Чем определяется эта функция? Опа определяется только на-
§3. АВТОРУЛЕВОЙ 135 чальными условиями ф0, фо и ограничениями. Теперь рассмотрим какой-нибудь промежуточный момент времени tr (рис. 4.21). В этот момент времени ф становится равным ф1, а ф — равной qjj. Так как вся кривая ф* (/) — оптимальная, то и ее часть от tr до Т — тоже оптимальная. Но ведь функция ф* (/) на этом участке полностью опре- деляется значениями ф1 и ф^, т. е. начальными условиями на этом участке. И хотя вся оптимальная программа ф*(/) однозначно опреде- ляется начальными значениями ф0 и ф0, ее часть от tr до Т определяется только значениями ф^ и ф^ и не зависит от того, что было раньше, т. е. от ф0 и ф0. Это так потому, что все, что нужно знать о системе в данный момент времени, и все, что нужно знать, чтобы определить, как она будет двигаться дальше, сосредоточено в величинах ф и ф, т. е. в ее состоянии. В этом смысле можно смотреть на принцип дина- мического программирования как на естественное следствие понятия состояния. Оптимальная программа ф* (/) определяет закон изменения поло- жения руля, т. е. ф*(/). При функция ф* (t) зависит только от ф! и фъ значит, и функция ф* (t) при зависит только от ф^ и ф^. Значит, в частности, ф*(/) в момент времени определяется только значениями ф^ и фр Но так как — это любой промежуточный мо- мент времени, то отсюда следует, что в каждый момент времени откло- нение руля есть функция значений ф и ф в тот же момент времени, т. е. ф*(С=/(ф(0, ф(0)- Вот к какому удивительному результату привел нас принцип динамического программирования. Он показал, что не нужно программировать всю оптимальную программу ф* (7), не нужно ее запоминать, а нужно лишь обладать некой функцией от состояния и в соответствии с ней выбирать положение руля. Такая функция от состояния объекта называется стратегией управления. Так вот оказывается, что оптимальное программное управление можно реа- лизовать, обладая оптимальной стратегией управления по заданному состоянию, т. е. ф*=/(ф, ф). Итак, что означает — обучиться хорошо управлять лодкой? Это значит: во-первых, понять, что такое состояние лодки, и научиться определять его, т. е. измерять угол ф отклонения лодки от курса и скорости ф его изменения; во-вторых, нужно выработать оптимальную стратегию управления, т. е. выработать такую функцию /(ф, ф), которая позволила бы по ф и ф найти оптимальный угол поворота Руля. Как найти оптимальную стратегию? Это сложный вопрос. По- смотрим, как это делает человек. Скажем, приходит он в спортзал. У него хорошие данные. Он без особой подготовки преодолевает план- ку на высоте 140 см. Тренер его замечает и начинаете ним заниматься. Он обучает его оптимальной стратегии, поведения. Спортсмен прыгает на 160 см, затем выше, но где-то после 190 см происходит заминка.
136 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Проходит год, два, он начинает прыгать выше и достигает своего луч- шего результата. Причем надо сказать, что в разное время потолок результатов различен. Скажем, лет 30—35 тому назад он был где-то вблизи 180—190 см. Очень многие показывали такие результаты, а выше прыгали лишь единицы. Сейчас потолок возрос до 200—210 см, выше двух метров прыгают уже очень многие спортсмены. С чем это связано? Связано это с тем, что совершенствуется стратегия и, как следствие, улучшаются результаты. Значит, у человека выбор опти- мального поведения осуществляется путем индивидуального и коллек- тивного обучения. Все учатся, а потом передают опыт друг другу. В результате этого формируется оптимальная стратегия. Самые жиз- ненно важные оптимальные стратегии заложены в генетических про- граммах нашего поведения. Так, в частности, в инстинктах заложено много программ оптимального поведения. А как найти оптимальную стратегию в нашей задаче об управле- нии лодкой? Мы теперь знаем, что она есть функция состояния лодки. Это, безусловно, большой успех. Но все-таки функция нам неизвест- на. Как ее выбрать? К этому вопросу мы еще вернемся, а сейчас пой- дем по другому пути. Зададимся несколькими конкретными стратегия- ми управления и посмотрим, как будет осуществляться процесс уп- равления лодкой. Сначала возьмем простую стратегию в виде линейной функции от состояния объекта, т. е. ф=аф+Ьф. Это стратегия простейшего линейного авторулевого. Тогда процесс управления движением лодки описывается уравнением (3.1) объекта и уравнением авторулевого /ф + /1ф = — ф = аф + Ьф. (3.3) Сначала рассмотрим простейший случай Ь=0. Поставив ф в уравнение лодки, получим уравнение для изменения ф: /ф + /1ф4-£аф = 0. (3.4) Решение уравнения (3.4) имеет вид Ф (^) = 4-с2еХ2С где Ci и с2 — произвольные постоянные, определяемые из начальных условий, a Xi и Х2 являются корнями характеристического уравнения I№ + h^ + ka = 0. (3.5) Как ведет себя решение с увеличением времени? Здесь возможны два качественно различных случая в зависимости от знаков вещественных частей М и Х2. Если вещественные части обоих корней отрицательны, т. е. Re M<0 и Re А,2<0, то всегда при любых с± и с2 ф при Если хотя бы у одного корня вещественная часть положительна, на- пример, Re/.^O, то возможно, что ф(/)~>-оо при t-+oo. Но по самой сути управления лодкой надо, чтобы с возрастанием времени всегда угол ф(0~>0. А значит, надо, чтобы выполнялись условия Re/.^O и ReX2<0. Условия, обеспечивающие отрицательность вещественных
§3. АВТОРУЛЕВОЙ 137 частей корней характеристического уравнения, очень просты и следу- ют непосредственно из формул для корней квадратного уравнения. Они состоят в том, что все коэффициенты характеристического уравнения должны быть положительными, т. е. Z > О, /г>0, fea>0. (3.6) Коэффициенты I и k положительны по физическому смыслу. Значит, должны выполняться условия й>0 и а>0. Что они означают? Условие /i>0 означает, что управлять можно только «послушной» лодкой. «Непослушной» с /i<0 лодкой так (Ь=0) управлять нельзя. Условие а>0 означает, что руль надо перекладывать в ту же сторону, куда отклонилась лодка. Действительно, если лодка отклонилась влево, то <р>0, тогда при а>0 ф — тоже по- ложительное; если ф<0, то ф<0. Это слишком простая стратегия. Ее простота в том, что рулевой следит лишь за углом отклонения лодки от курса и в зависимости от его величи- ны поворачивает руль в сторону от- клонения лодки. Быстро или медлен- но крутится при этом лодка возле курса —• его не интересует. Такая стратегия достаточна для «послуш- ной» лодки с /г>0, однако при /i<0 она не приводит к цели. Авторулевой Рис. 4.23 с такой стратегией слишком прямоли- нейный. Но, несмотря на его прямолинейность, при /г>0 он позво- ляет поддерживать требуемый курс движения лодки. Какие изменения происходят в фазовом портрете лодки, если ею управляет авторулевой? Для выяснения этого представим уравнение (3.4) в виде системы ф = г/. У= - -^-(hy + aktf). (3.7) Точка ср, у фазового цилиндра — состояние системы. Состояния рав- новесия — это точки, где ф=0 и г/=0 одновременно. Из (3.7) следует, что у лодки с авторулевым всего лишь одно состояние равновесия Ф=0, г/=ф=О. Если выполнено условие а>0, то у «послушной» (/г>0) лодки состояние равновесия устойчивое, у «непослушной» (/г<0) лодки состояние равновесия неустойчивое. Действительно, так как у «послушной» лодки все решения ф(/) и y(t) системы (3.7) стремят- ся к нулю при возрастании времени, то движение фазовой точки по фазовым траекториям происходит примерно так, как показано на рис. 4.23, а. Фазовая точка приближается к состоянию равновесия. У «непослушной» лодки фазовая точка, наоборот, удаляется от состоя- ния равновесия (рис. 4.23, б).
138 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Для того чтобы справиться с «непослушной» лодкой, усложним стратегию управления и возьмем ф=аф4-Ьф, т. е. учтем, кроме угла ф поворота лодки, еще и скорость ф ее поворота. Тогда уравнение для лодки с авторулевым будет иметь вид /ф + (/г-|-^)ф4-а^Ф = 0. (3.8) Его характеристическое уравнение запишется так: A2 + (/i + fefe)X + afe = 0, (3.9) а условие отрицательности вещественных частей его корней будет / > 0, h + bk>Q, ak>Q. (3.10) Первое неравенство выполняется. Третье неравенство ничего нового не дает. Оно уже было (3.6), а старый опыт не заменяется новым — он сохраняется. Новым является второе неравенство. Для его выпол- нения надо, чтобы коэффициент b был больше, чем —h/k, т. е. Ь>—Wk. Если Л>0, то это условие выполняется при любых неотрицательных Ь, и, в частности, при Ь=0, но если /г<0, то для его выполнения надо, чтобы b было положительным и не просто любым положительным, а большим Ь*=—h/k. Разберемся, что это значит. Представим себе, что лодка в некий момент времени t~0 имеет состояние ф>0 и ф<0. При стратегии уп- равления ф=аф мы не обращаем внимания на ф и поворачиваем руль в сторону отклонения лодки, т. е. влево: ф>0. При второй стратегии ф=аф+Ьф, если скорость поворота ф отрицательна и достаточно ве- лика, то руль надо повернуть не влево, а, наоборот, вправо, т. е. надо не приводить лодку к курсу, она сама к нему приводится, а одер- живать ее. Причем чем больше величина /г, тем больше Ь*, и, следо- вательно, интенсивнее нужно одерживать лодку. Таким образом, учет скорости внес в стратегию управления лод- кой, кроме понятия приведения лодки к курсу, понятие одерживания. Если вы управляете «непослушной» лодкой, то вы должны хорошо делать две вещи: во-первых, не давать ей сильно уклоняться от курса; во-вторых, когда она уклонилась от курса и быстро к нему приводит- ся, то надо ее одерживать. Такая тактика, состоящая в разумном сочета- нии приведения и одерживания, является, как видите, уже достаточ- ной, чтобы управлять «непослушной» лодкой. Итак, авторулевой, реализующий стратегию управления ф=аф+ +Ьф при выполнении условий (3.10), обеспечивает движение лодки по заданному курсу и возвращение на него после любых отклонений. С точки зрения фазового портрета это означает существование единст- венного устойчивого состояния равновесия, к которому стремятся все фазовые траектории системы (рис. 4.23, а). Различие в поведении фа- зовых траекторий может состоять лишь в характере их приближения к состоянию равновесия. То, как фазовая точка приближается к состоя- нию равновесия системы, описывается решением ф (0 = с^ 4- с2е^1, Ф (/) = с^е^ 4- c2k^.
§3. АВТОРУЛЕВОЙ 139 Это решение зависит от корней Xt и Х2 характеристического уравне- ния (3.9). При выполнении условий (3.10) вещественные части корней характеристического уравнения отрицательны, т. е. Re Х±<сО и ReX2<0. Рассмотрим два основных случая: 1. Корни Xt и’Х2— действительные и отрицательные. 2. Корни Xt и Х2 — комплексные сопряженные, т. е. X^a+ifJ и Х2=а—ф, причем а<0. Если Xt и Х2 — действительные, то ф(/) и ф(/) меняются плавно без колебаний (рис. 4.24, а). В этом случае процесс перехода лодки из начального состояния к курсу называют апериодическим. Если Xj и Х2 — комплексные, то процесс колебательный. Лодка приводится к курсу, совершая колебания возле него. Приходя к курсу, она проска- кивает его и поворачивается в другую сторону, затем опять приводится и проскакивает и т. д. (рис. 4.24, б). Условие, при котором Хх и Х2 — комплексные, имеет вид (h-\-bk)2—Mka < 0. Итак, теперь мы знаем, как надо управлять лодкой, чтобы обес- печить устойчивое движение ее по курсу. Но устойчивость состояния равновесия лодки с авторулевым гарантирует поддержание курса лишь по отношению к начальным возмущениям, т. е. возмущениям, действующим кратковременно. На самом же деле возмущения, такие, скажем, как ветер, волны, течение и т. д., действуют на лодку по- стоянно. Как будет вести себя лодка с авторулевым при постоянно действующих возмущениях? Возмущения могут быть любыми, во- обще говоря, случайными. Однако мы рассмотрим одно из самых простых — постоянное возмущение. Как его можно себе представить? Скажем, до некоторого момента на лодку не действовали никакие возмущения, но, начиная с этого момента, подул ветер и дует с по- стоянкой скоростью. Это соответствует тому, что возмущение появ- ляется в момент времени /=0 и его величина после этого постоянна и равна некоторому Л40. До этого момента времени возмущений не было и лодка плыла по курсу, т. е. при /=0 ф=0 и ф=0. При £>0 уравнение движения лодки будет иметь вид /ф + (h + bk) ф + aktf = A40. (3.11)
140 'ГЛ. 4. управляемые динамические системы Его решение при нулевых начальных условиях /=0, <р=0, <р=0 имеет вид Ф (0 = сге^- + с2е^‘ + ^, Ф (/) = , где Xj и Х2 — корни характеристического уравнения, а постоянные Ci и с2 равны „ __ М0Х2 Л40А.1 1 ’ 62 — akfa—Х2)’ Посмотрим, как ведут себя ф(/) и ф(/) при увеличении времени. При t -> оо слагаемые с и стремятся к нулю, так как Re Х2<; Рис. 4.25 <0, ReX2<0 и ф-^ф*=А40/(аХ), ф-> 0. Что это означает? Под воз- действием момента /Ио у лодки с авторулевым появилось новое со- стояние равновесия. Без постоянного возмущения состояние равно- весия было ф=0, Ф=0, а теперь состоянием равновесия является <р=А40/ (ak), ф=0. Чем отличается фазовый портрет в этом случае от предыдущего? Раньше состоянием равновесия была точка ф=0, Ф=0, а теперь точка ф=А40/(ak), ф=0 (рис. 4.25, а). Все остальное остается таким же, как и прежде, т. е. характер приближения фазо- вых траекторий к состоянию равновесия не меняется по сравнению с рис. 4.23, а. Теперь посмотрим, как в соответствии с фазовым портретом будет двигаться лодка (рис. 4.25, б). Лодка движется по курсу до того момента времени, когда на нее стал действовать момент Л40, т. е. ее фазовое состояние изображалось точкой ф=ф=0. Угол начинает возрастать, затем убывать и т. д., и лодка приходит к новому курсу. Появляется установившаяся ошибка в курсе, и она равна ф=Л40/(а6). Лодка плывет не туда куда надо. Однако все же она с управлением ведет себя лучше, чем если бы этого управления не было. Действи- тельно, без авторулевого лодка под действием постоянного момента просто вращалась бы и не придерживалась бы никакого курса. Если
§3. АВТОРУЛЕВОЙ 141 же есть авторулевой, то лодка не вращается, но и не плывет точно туда куда нужно, появляется ошибка. Естественно стремиться к тому, чтобы сделать эту ошибку как можно меньше. Для этого надо увеличивать ak. Что это означает? Прежде всего, k — это коэффи- циент пропорциональности между поворотом руля и моментом, ко- торый он вызывает, т. е. величина k характеризует, насколько сильно влияет поворот руля на лодку. Величина k зависит от очень многих факторов, в частности, ясно, что чем больше руль, тем больше k. Если руль — маленький, то k — маленькое, и таким рулем ничего нельзя сделать против ветра, т. е. руль должен быть достаточно боль- шим. Но сделать руль больше лодки нельзя, он должен быть много меньше лодки, поэтому k имеет вполне определенные пределы. Его можно увеличивать, но слишком большим сделать нельзя. Следова- тельно, остается возможность уменьшать ошибку только за счет увеличения а. Что такое а? Это коэффициент стратегии управления ф=аф+&ф. Казалось бы, ничего нам не мешает взять а достаточно большим. Условия устойчивости а>0 и Ь>—h/k при этом не наруша- ются, и, увеличивая а, можно добиться сколь угодно малой устано- вившейся ошибки. Этот вывод совершенно точно следует из рассмот- ренной нами модели. Но что означает большое а, скажем, а~106? Это значит, что ф«?106ф, и если лодка отклоняется от курса за одну секунду на угол ~1°, то угол поворота руля должен быть »(106)°, т. е. руль надо поворачивать по кругу более 2000 раз. Но это бес- смысленно. Руль по кругу вращать нельзя. Более того, известно, что руль можно поворачивать только в ограниченных пределах |ф|<?фо. С другой стороны, стремление увеличить а, чтобы уменьшить устано- вившуюся ошибку, ставит вопрос о возможности реализации стра- тегии управления в том виде, как мы ее написали, т. е. ф=аф+Ьф. Более того, если, скажем, аа 100, то при ф~0,5° надо повернуть руль на угол «50°. Но для того, чтобы повернуть руль на такой угол, нужно время. Ведь повернуть руль мгновенно нельзя. Можно поворачивать достаточно быстро, но мгновенно нельзя. Любой при- вод всегда имеет конечную мощность. Значит, мы не только не можем поворачивать руль на любые углы, но и не можем поворачивать его сколь угодно быстро. Поэтому реализовать стратегию управления в виде ф=аф+Ьф невозможно. Это идеальный рулевой. Чтобы пост- роить более точную и реалистическую модель авторулевого, разбе- ремся подробнее, что он собой представляет. Вернемся вновь к постановке задачи об управлении курсом лодки. Есть лодка, у нее есть руль. Этот руль поворачивается либо непо- средственно человеком, либо рулевой машинкой. Лодка может ук- лониться от курса. Это отклонение характеризуется углом ф. Но откуда он берется? Значит, должны быть какие-то измерительные устройства, которые измеряют ф. Кроме того, для реализации стра- тегии управления нужно знать ф, которую можно получить либо дифференцированием ф, либо непосредственным измерением.
142 ГЛ. 4. управляемые динамические системы Рулевая машинка поворачивает руль, реализуя стратегию уп- равления, но делает это не сама по себе, а по команде, зависящей от того, что надо получить. А нужно в соответствии с выбранной стратегией получить поворот руля, равный ф=аф+Ьф. Значит, должно быть устройство, которое фор- мирует такую команду. Итак, реальный авторулевой представляет собой довольно сложную систему, состоящую из нескольких устройств, каж- дое из которых выполняет свои вполне определенные функции. Судно и авторулевой представ- ляют собой систему автома- Рис. 4.26 тического управления, которую схематически изобразим на рис. 4.26. Здесь судно и каждый функциональный блок авторулевого изо- бражены в виде прямоугольников со входящими в них и выходя- щими из них стрелками. Входящие стрелки соответствуют входным переменным блока; выходящие — выходным. Начнем рассмотрение схемы на рис. 4.26 с судна. Мы управляем курсом судна, поэтому естественно назвать его объектом управления. Чем он характеризуется? Углом ф, и это есть выход объекта. Управ- ляем мы поворотом руля, т. е. углом ф, и это есть вход объекта. Ка- кова' цель управления? Цель управления — обеспечить ф=0, т. е. движение судна по заданному курсу. Ясно, что это идеальная цель, и реально достичь ее невозможно; естественнее определить цель, скажем, так: обеспечить |ф|^6, где 6 мало. Дальше идет измерительное устройство, которое, воспринимая поворот судна, выдает значения ф и ф. Это выходы измерительного устройства. Измеренные значения ф и ф поступают на блок, который формирует в соответствии с выбранной стратегией командный сигнал о для рулевой машинки, скажем, о=аф+Ьф. Рулевая машинка испол- няет команду и поворачивает руль. Именно по такой схеме осуществ- ляется реальное автоматическое управление курсом судна. В ней отражен смысл того, как это происходит на самом деле. Такая схема называется структурной. Но это еще не математическая модель. Чтобы ее получить, надо выяснить, что представляет собой каждый из этих «ящиков», надо найти, как у них связаны выход со входом. Прежде всего, объект управления. Его мы будем по-прежнему описывать уравнением /ф + /гф = —£ф. Это и есть связь между углом ф отклонения руля и углом ф откло- нения судна от курса.
§3. АВТОРУЛЕВОЙ 143 Измерительное устройство. Это сложное устройство. Мы пока не будем описывать его детально, а учтем только простейшую не- приятность, которая с ним связана. Дело в том, что результаты из- мерения выдаются с некоторым запаздыванием. Скажем, если мы просто смотрим на компас и снимаем с него данные, то нужно время, чтобы установилась стрелка, нужно их как-то записать и передать. Кроме того, если угловая скорость не измеряется, а определяется дифференцированием, то для этого надо накопить значения угла отклонения. Для всего этого также требуется время. Поэтому в мо- мент времени t измеритель определяет не <р и ср, а ф=ф (t—т) и ф=ф (t— —т), где т — некоторое время запаздывания. Ранее рассмотренный авторулевой соответствует идеальному измерителю, для которого <р=Ф, ф=ф- Но учет одного только запаздывания при описании из- мерителя, конечно, очень грубое приближение. В действительности все обстоит много сложнее. Далее идет устройство, которое по данным измерителя формирует командный сигнал о=аф+Ьф для рулевой машинки. В соответствии с командным сигналом рулевая машинка должна обеспечить поворот руля на угол ф=о. Но мгновенно выполнить команду может только идеальная рулевая машинка. На самом деле никто и ничто не может обеспечить мгновенную перекладку руля. Для этого нужно время. Если, скажем, до прихода командного сигнала ф=0, и командный сигнал равен о0, то идеальная рулевая машинка осуществляет мгно- венный перевод руля из положения ф=0 в положение ф=о0- Реально же изменение угла происходит не скачком, а плавно, как, скажем, показано на рис. 4.27. Здесь кривая 1 отвечает идеальной рулевой машинке, а кривые 2 и 3 описывают, как реально изменяется угол ф поворота руля. Причем переход руля из положения ф=0 в положение ф=о0 по кривой 2 происходит быстрее, чем по кривой 3. А теперь построим некоторую математическую модель рулевой машинки, учитывающую, что руль мгновенно повернуть нельзя. Если урав- нение идеальной рулевой машинки ф=о, То реальную опишем так: 7’ф + ф = о>. Покажем, что такой закон связи командного сигнала с углом поворота руля действительно отражает тот факт, что руль мгновенно повернуть нельзя. Пусть до момента /=0 командный сигнал равен а=0 и угол поворота руля равен нулю, ф=0. В момент /=0 пришел командный сигнал о=о0- Тогда, в соответствии с уравнением Тф+ф= = о0, изменение угла ф будет происходить следующим образом: ф= =о0(1—e~i/T). График этой функции изображен на рис. 4.28. На рисунке изображено несколько кривых, отвечающих различным значениям параметра Т. Чем меньше Т, тем быстрее руль приходит к значению о0; чем больше Т, тем медленнее происходит поворот руля, т. е. величина Т является характеристикой того, насколько
144 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ быстро рулевая машинка исполняет команду. Действительно, при £=7 значение угла уже будет ty=o0(l—е-1), т. е. команда почти выполнилась. Параметр Т обычно называют постоянной времени. Это характерный параметр, означающий быстроту, с которой испол- нительное устройство выполняет командный сигнал. Если, скажем, 7=10 с, то это означает, что для выполнения команды нужно при- мерно 10 с. Так, если мы управляем шлюпкой, то для поворота руля нужно 0,5—2 с. Если же мы управляем большим судном, то Т может быть порядка 10—20 с и более. Теперь мы можем записать математическую модель системы уп- равления судном на курсе, более полно учитывающую то, что про- исходит на самом деле. Правда, измеритель будем по-прежнему счи- тать идеальным: /<р-4-Дф = — Лгф, Г"ф-|-4': = |2ф + Ьф. (3.12) При 7=0 получаем идеальное исполнительное устройство и прихо- дим к прежним уравнениям (3.8). Значит, уточненная модель вклю- чает как частный случай первоначальную модель. Исследование модели с идеальной рулевой машинкой показало, что установившуюся ошибку авторулевого можно сделать сколь угодно малой за счет увеличения а. Будет ли это сохраняться для уточненной модели? Прежде всего рассмотрим вопрос об устойчиво- сти авторулевого. Изменение угла ср отклонения судна от курса в этом случае получается как решение уравнений (3.12) и имеет вид Ф (/) = -|- с3е^, где съ с2, с3 — постоянные, зависящие от начальных условий, a и Х3 — корни характеристического уравнения. Характеристиче- ское уравнение системы запишется так: 1П2 + /й k I — а — Я ТЦ-1Ги- Его можно переписать в виде кубического уравнения /7V + (I + Th) X2 4- (h + bk) /. + ak = 0. (3.13)
§3. АВТОРУЛЕВОЙ 145 Устойчивость авторулевого означает, что <р -> 0 с увеличением вре- мени. Для этого нужно, чтобы у всех корней характеристического уравнения (3.13) вещественные части были отрицательными, т. е. ReXi<0, ReX2<0, ReX3<0. Уравнение (3.13) — это алгебраическое уравнение третьей степени, установление знаков действительной части его корней — задача не очень сложная, но и не очень простая. Поэтому мы просто сформулируем условия, при которых все три корня имеют отрицательные действительные части. Пусть дано уравнение X3 tzpX2 -|- п2Х ф- <23 = 0. Для того чтобы все корни этого уравнения имели отрицательные действительные части, необходимо и достаточно выполнение следую- щих неравенств: аг > 0, а2>0, аз > 0 и ага2—а3 > 0. (3.14) Запишем эти условия в нашем случае. Сначала запишем простые условия положительности коэффициентов характеристического урав- нения IT>0, I+hT>0, h-\-kb>0, ak>0 и посмотрим, что они озна- чают. Первое неравенство выполняется по физическому смыслу, третье и четвертое нам хорошо знакомы по предыдущей модели и ничего нового не дают. Из них следует а>0 и Ь>—h/k. Второе неравенство новое. При /г>0 оно выполняется и никаких новых ограничений на параметры не дает. Но если /г<0, то оно выполняется при условии Т<—I/h. Что это значит? Это значит, что если судно «норовистое» (й<0), то команды управления надо выполнять достаточно быстро. Если, скажем, вы обладаете очень плохой реакцией, то лучше в «но- ровистую» лодку рулевым не садитесь, управлять ею вы не сможете. Теперь рассмотрим последнее неравенство (3.14). Оно имеет вид (/ + Th) (Л + kb) — ITak > 0. Разделим неравенство на IT и перепишем в виде h^kba~ Т’ (3.15) Построим в плоскости параметров а и 1/Т область, где выполняются все условия устойчивости (3.14). Неравенства а>0 и 1/Г>0 вместе с (3.15) определяют эту область. Она называется областью устой- чивости. На рис. 4.29, а показана область устойчивости при й>0, а на рис. 4.29, б — при /г<0. Как следует из рисунков, при любом конечном Т существует критическое значение а=акр(Т), больше ко- торого брать а нельзя ввиду появления неустойчивости. Следова- тельно, при Ту=0 условие устойчивости налагает ограничение на зна- чение а, и неограниченно увеличивать а нельзя. С уменьшением Т критическое значение акр(Т) увеличивается.
146 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Итак, какое бы ни было Т, пусть даже очень маленькое, всегда существует порог для значений а, поэтому есть порог для значения установившейся ошибки. Этот порог можно уменьшить, если умень- шать Т, но сделать его равным нулю нельзя. Сделаем некоторые выводы из результатов исследования дина- мики управления судном на курсе. Модель авторулевого при Т=0 (идеальное исполнительное устройство) дает следующие условия Рис. 4.29 ми б) а устойчивости: а>0, Ь>—h/k. Модель при (учитывается постоян- ная времени исполнительного устройства) дает такие условия устой- чивости: h (^+h}(h+kb) а > 0, & > —4 , Th +1 > 0, а < -----L-------. ’ k 1 Ik Если в условиях для второй модели устремить Т к нулю, то они пе- реходят в условия первой модели. Значит, обе модели согласованы. Выводы, полученные из более простой модели, следуют из выводов более полной. Но полная модель дает нечто новое; Она, во-первых, показывает, что' нужно обладать достаточно хорошей реакцией, чтобы быстро исполнять команды, и, во-вторых, что нельзя выбирать а произвольно, надо, чтобы а было меньше некоторого акр(Т). Учтем теперь неидеальность измерительного устройства, а ру- левое устройство будем считать идеальным. Чистая задержка в из- мерениях означала бы, что ф(/)=ф(7—т), где т — время задержки. Наличие инерционности в измерителе можно отразить так же, как это было сделано для рулевой машинки, т. е. принять, что Тф + ф = ф. (3.16) Принимая (3.16), придем к следующим уравнениям авторулевого: 7ф-(-йф = —М л|) = а, G = al + bt, т| + В = ф. Первое уравнение — это уравнение объекта управления, оно связывает курс лодки ф с углом поворота руля i|>. Второе уравнение —
§3. АВТОРУЛЕВОЙ 147 это уравнение идеального исполнительного устройства, идеальной рулевой машинки. Третье уравнение отражает принятую стратегию управления. В нем £ — другое обозначение для измеренного значения Ф угла <р. Наконец, последнее уравнение отражает динамику про- цесса измерения отклонения корабля от курса. Устойчивость единственного состояния равновесия ф=ф=ф=о= =|=0 зависит от корней характеристического уравнения |П2 + /й ka + kbl\ „ I -1 U+l | — U’ или Ix№ Ц- (I -f- т/i) X2 + (h -|- kb) X -|- ak = 0. Это характеристическое уравнение имеет с точностью до замены Т на т такой же вид, как характеристическое уравнение (3.13) в ранее рассмотренной математической модели авторулевого, учитывающей динамику рулевой машинки. Поэтому все выводы, сделанные ранее с учетом замены Т на т, относятся и к рассматриваемой сейчас модели авторулевого, в которой учитывается динамика измерительного процесса. В частности, остаются в силе выводы, что необходимо до- статочно быстро измерять и что а>0 не может быть слишком большим, а также то, что упрощенная стратегия с Ь=0 возможна только при /г>0. Учтем теперь неидеальность как измерителя, так и исполнитель- ного устройства. Это приведет к следующей системе уравнений: /ф4-/ир = — &ф, 71ф4-ф = о, о = at,-)-bl, т£ + ? = ф. Составляя обычным образом для этой системы линейных дифферен- циальных уравнений характеристическое уравнение в виде опреде- лителя JM+M, 0 k 0 П+1 — a — Ь/. = 0 — 1 0 тХ+1 и раскрывая его, найдем, что им является уравнение уже четвертой степени вида /7ЧХ4-|-[/ (Т + т) 4-йТт] Х3 + [/ + й(Т4-т)] № + (kb + h)k + ka = 0. Выяснение для него условий устойчивости — это уже довольно слож- ная задача. Ее постановка еще в прошлом веке связана с зарождаю- щейся тогда теорией автоматического регулирования. Была эта за- дача в общей постановке для уравнения произвольной степени ре- шена независимо и в различных формах Раусом и Гурвицем. Раус нашел алгоритмическое ее решение, а Гурвиц—в виде конечных детерминантных неравенств. Сейчас эти условия широко известны й именуются условиями устойчивости Рауса— Гурвица. Позднее мы с ними познакомимся. А сейчас постараемся понять, что в первую
148 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ очередь нам от этих условий нужно. Точнее, не нам, а конструктору и, возможно, наладчику авторулевого. Обычно лодка (судно или корабль), на которой хотят поставить авторулевой, уже имеется. Поэтому параметры I, h и k имеют какие-то определенные значения, не подлежащие изменению. В несколько меньшей мере заданы и по- стоянные времени т и Т. На корабле уже есть рулевая машинка, не человек же поворачивает его громадный руль, и имеются сконструи- рованные ранее измерительные системы. Так что основное внимание конструктора, естественно, уделяется выбору параметров а и Ь. Как бы он их ни выбирал, он обязан их выбрать так, чтобы авторулевой был устойчив, т. е. параметры а и b должны выбирать- ся из некоторой области на плоскости а, Ь, именуемой областью устойчивос- ти. Эта область устойчивости не оп- ределяет, какие нужно взять значения для параметров а и b стратегии управ- ления, она лишь указывает, среди че- го их можно выбирать. Вернемся к идеальному авторулевому. Пусть в начальный момент времени t=0 судно отклонено от заданного курса на Рис 4 3Q угол фо и продолжает уходить от него с начальной скоростью ф0. Мы хотим при- вести судно на заданный курс и сделать это как можно быстрее, т. е. за минимально возможное время т. Попробуем, основываясь на ин- туиции и на том, что любая стратегия управления судном на курсе реализует этапы приведения и сдерживания, понять, какова оптималь- ная стратегия в этом случае. Ясно, что вначале мы должны повер- нуть руль так, чтобы с максимальной скоростью приводить судно к курсу. Для этого надо отклонить руль на максимально возможный угол и так держать его (рис. 4.30). Но если долго держать руль в крайнем положении, то скорость приведения станет нарастать и судно проскочит курс. Значит, нужно вовремя переложить руль и одерживать судно. Но чтобы выполнить этот этап как можно быстрее, нужно его выполнять с максимальной интенсивностью, т. е. руль надо переложить в другое крайнее положение. Интуитивно ясно, что именно такая стратегия, когда руль перекладывается из одного край- него положения в другое крайнее положение, является оптимальной. На самом деле так оно и есть. Оптимальная стратегия характеризуется тем, что угол поворота руля принимает лишь два крайних значения фо и —ф0- Учитывая, что оптимальная стратегия есть функция со- стояния судна и принимает только два значения ф0 и —фо, можем записать ф=ф0 sign о, где о=й’(ф, ф)- Для отыскания функции о= —£(ф, ф) нужно решать специальную оптимизационную задачу.
§3. АВТОРУЛЕВОЙ 149 В настоящем параграфе мы не будем заниматься такой задачей, а возьмем о=аф-|-Ьф и посмотрим, как будет управлять судном такой двухпозиционный авторулевой. Уравнения, описывающие изменение угла <р поворота судна, уп- равляемого двухпозиционным авторулевым, запишутся так: Ар + /кр = — fe^0signo, о = аф + Ьф. (3.17) Параметр а в стратегии управления будем считать положительным, <2>0. Это условие, как следует из анализа авторулевого с линейной стратегией, обеспечивает правильное направление поворота руля на этапе приведения в ту же сторону, куда отклонено судно. Будем изучать возможные движения судна по изменению состояния (ф, ф) в фазовом пространстве. Фазовым пространством здесь будет дву- мерный цилиндр, развертку кото- рого будем рисовать в виде пло- скости. Проведем на этой плос- кости прямую о=0 (рис. 4.31). Она разделяет плоскость на две ча- сти: Ф+, где о>0, иФ", где о<0. В каждой из них уравнения движе- ния линейные вида /ф4-/1ф = —/гф0 в Ф+, (з /ф4-Лф = 6ф0 в Ф_, которые легко могут быть проинте- грированы. Заметим еще одну осо- бенность системы уравнений (3.17). При замене ф на —ф и ф на —ф уравнения (3.17) не изменяются, т. е. фазовые траектории симмет- ричны относительно начала координат, и поэтому их достаточно изучить, скажем, только на полуплоскости Ф + . Посмотрим, как ведут себя фазовые траектории в Ф+ и, в част- ности, вблизи прямой о=0. Уравнение движения в Ф+ имеет вид 7ф + /гф = — &ф0. (3.19) Найдем, как меняется вдоль фазовых траекторий величина о=аф+Ьф. Считая ф решением уравнения (3.19), получим, что о = — (3.20) Пусть a~>bhH. При ф=ф*=6Ьф0/ (1а—bh) имеет место о=0. Если Ф<Ф*, то о<0, а если ф>ф*, то о>0. Так как в Ф+ значение о — положительное, то при ф>ф* фазовые траектории уходят от прямой о=0 в направлении увеличения о. При ф<3р* фазовые траектории
150 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ идут в направлении уменьшения о и втыкаются в прямую о=0. На полупрямой <р=ф*, оОО значение о вдоль фазовой траектории до- стигает своего максимума. Если еще учесть, что полупрямая ф =—ktyjh, оОО является фазовой траекторией в Ф+ и что выше этой прямой Ф<0, т. е. ф уменьшается, а ниже этой прямой фОО, т. е. ф увеличи- вается, то приходим к качественному виду поведения фазовых тра- екторий, показанному на рис. 4.31. При этом фазовые траектории на полуплоскости Ф“ изображены по соображениям их симметрии от- носительно начала координат траекториям на полуплоскости Ф+. Здесь, кроме указанных уже предположений а>0, fc>0, al — bh>Q, считается, что ф*<7гф0//г. Из рис. 4.31 видно, что на прямой о=0 есть отрезок АА' (с коор- динатами концов Л(—Ьф*/а, ф*) и A'(b<f*/a, —ф*)), в который фазо- вые траектории втыкаются с двух сторон, как из полупространства Ф + , так и из Ф'. Вне отрезка АА' фазовые траектории втыкаются в прямую о=0 в одной полуплоскости и уходят с нее в другой. Что будет на самой прямой о=0, неясно, так как значение правой части уравнения (3.17) в этих точках не определено. Но дело не только в том, что правая часть уравнения (3.17) на прямой о =4=0 не определена и неизвестно, как должна двигаться попавшая на нее фазовая точка. Дело еще и в том, что на этой прямой правая часть дифференциаль- ного уравнения (3.17) испытывает разрыв непрерывности и не удов- летворяет хорошо известным условиям существования решения. Разрыв непрерывности правой части влечет разрывность второй производной ф, но скорость при этом должна меняться непрерывно/ так как скачок скорости требует бесконечной величины момента силы. Таким образом, дифференциальное уравнение (3.17) по меньшей мере нельзя назвать полной математической моделью авторулевого. Попытаемся доопределить модель, определяя поведение фазовой точки на прямой о=0 на основе понятия состояния и фазового порт- рета. Так как состояние (ф, ф) системы со временем изменяется не- прерывно, то фазовые траектории должны быть непрерывными ли- ниями, и поэтому естественно доопределить поведение фазовой точки на прямой о=0 вне отрезка А А' по непрерывности. В этой части прямой о=0 фазовая точка переходит с фазовой траектории одного полупространства на фазовую траекторию другого, и при этом про- исходит мгновенная перекладка руля из одного крайнего положения в другое. Иногда в таком случае говорят, что фазовые траектории сшиваются по непрерывности. На отрезке А А' дело обстоит значительно сложнее. Здесь фазовые траектории втыкаются в прямую о=0 с обеих сторон. Такое пове- дение фазовых траекторий возможно, если все точки А А' являются состояниями равновесия. Но здесь этого нет. В точках отрезка АА', за исключением одной точки О(ф=0, ф—0), значение ф не равно нулю, т. е. состояние должно меняться. Но как? Ведь фазовая точка
§3. АВТОРУЛЕВОЙ 151 не может уйти ни в полупространство Ф+, ни в полупространство Ф Значит, остается одно: она остается на прямой о=0. Следовательно, имеет место уравнение аф+Ьф=0, решение которого ф=фОе"(а/6)/ означает, что фазовая точка движется по отрезку А А' к точке О с координатами ф=ф=0. Доопределение поведения фазовой точки на прямой о=0 завер- шает построение фазового портрета системы в рас- смотренном случае. Как следует из рис. 4.31, любая фазовая траектория после конечного чи- ела пересечений прямой о=0 приходит на отрезок \ \ А А' и дальнейшее движение фазовой точки про- \м) исходит по нему к точке О. Это означает, что \/ и_ после некоторого переходного процесса судно при- * ходит к заданному курсу и на нем удержива- (’ \ •ется. \и+ чЛ Итак, мы построили фазовый портрет уп- \ \ равления судном двухпозиционным авторуле- рис 432 ъым, реализующим стратегию, при которой руль в зависимости от командного сигнала о находится то в одном крайнем положении ф0, то в другом —ф0. При о=0 происходит мгно- венная перекладка руля из одного крайнего положения в другое крайнее положение. После конечного числа перекладок руля автору- левой переходит в режим, когда о все время равно нулю. В таком режиме судно монотонно приближается к курсу и на нем удержи- вается. Этот последний режим называют скользящим. Ясно, что этот скользящий режим движения авторулевого находится в противо- речии с тем, что руль может быть только в двух крайних положениях •фо и —ф0- Ни при ф=ф0, ни при ф=—ф0 фазовая точка не движется по линии о=0. Фазовая точка А4(ф, ср), лежащая на отрезке сколь- зящих движений АА', движется при ф=ф0 с фазовой скоростью v+, а при ф=—ф0 — со скоростью v_ (рис. 4.32). Ни скорость v+, ни v_ не направлены вдоль линии о=0. Что же происходит на самом деле? Чтобы это понять, следует учесть конечность времени перекладки руля из одного крайнего положения в другое. Пусть точка А4 (ф, ф) приходит на отрезок скользящих движений А А' со скоростью v+. Руль начинает перекладываться, в соответствии с чем скорость v+, меняясь, становится равной v_. При этом фазовая точка успевает пересечь линию п=0 и после окончания перекладки руля снова дви- жется к линии о=0, пересекает ее и так далее. Таким образом, фа- зовая точка, колеблясь возле линии о=0, движется к точке 0. Эти колебания тем более быстрые, чем быстрее происходят перекладки руля. В пределе они совершаются бесконечно быстро и фазовая точка движется по отрезку скользящих движений. Ясно, что такой харак- тер управления, связанный с мгновенной перекладкой руля, может осуществляться только идеальным авторулевым и реально реализо- ван быть не может. Поэтому важно выяснить, насколько математиче-
152 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ ская модель адекватна тому, что происходит на самом деле. Для этого надо обратиться к реальному авторулевому и детальнее разо- браться, как он реализует двухпозиционное управление. Рассмотрим одну из возможных систем, реализующих поворот руля из одного крайнего положения в другое. Схематически такая Рис. 4.33 система изображена на рис. 4.33. Руль поворачивается электромо- тором с помощью червячного редуктора. Мотор — реверсивный, Рис. 4.34 питается от источника постоянного тока. Он может вращаться в обе стороны в зависимости от знака прикладываемого напряжения. Один полюс источника присоединен к общему контакту О. Другой полюс через реле переключателя П и контакты С и D ограничителя пово- рота руля может подключаться либо к контакту А, либо к В. В за- висимости от того, к каким контактам подводится напряжение, мотор поворачивает руль либо вправо, либо влево. Реле переключателя управляется командным сигналом о. При о=0 якорь реле занимает нейтральное положение. Мотор выключен. Как только появляется командный сигнал, скажем, о>0, переключатель П подключает мо- тор к контактам ОВ, и мотор начинает вращаться, поворачивая руль в крайнее, например, правое положение ф0. Как только руль упрется в упор, фиксирующий положение ф0, размыкается контакт С, двига- тель перестает вращаться и поворачивать руль. Аналогично проис- ходит поворот руля в крайнее левое положение при о<0. Посмотрим, как реально происходит изменение положения руля с течением времени, если о меняет знак. Кривые изменения o(t) и ф(/) изобразим на рис. 4.34. Пусть при t<Z.t-L командный сигнал о — отрицательный и руль занимает крайнее левое положение ф=—фо. В момент времени 1± командный сигнал обращается в нуль, o(t1)=Q, и затем становится положительным. Переключатель П включает мотор на поворот руля вправо, однако происходит это не в момент времени t±, а чуть позже, в момент времени /i+б. Это происходит из-за того, что в переключателе есть зазор и нужно время, чтобы его выбрать. Значит, до момента времени /i+б руль будет находиться
§3. АВТОРУЛЕВОЙ 153 в положении —ф0. Затем с момента Zi+б мотор начнет быстро, но не мгновенно поворачивать руль до положения ф0, так что на некотором интервале времени от /i+б до /i+А функциях])(0 меняется непрерывно от значения —ф0 до значения ф0. Далее, при />/1+А до момента вре- мени t2, когда о (0 вновь меняет знак, ф(^)=ф0. После смены знака о(/) произойдет аналогичный процесс перекладки руля. Теперь сравним закон х|) (t) =ф0 sign o(Q изменения угла поворота руля, который принят в математической модели авторулевого, с тем, как он меняется на самом деле. Математическая модель правильно отражает реальную ситуацию, за исключением малых промежутков времени длительности А, когда руль переводится из одного крайнего положения в другое. Идеализация состоит в том, что мы пренебрегаем реальным поведением авторулевого на этих интервалах времени длительности А, считая, что руль мгновенно перекладывается из одного крайнего положения в другое. Но чтобы идеализированная модель отражала поведение реального авторулевого при о=0 и, в частности, учитывала, что при перекладке руль может занимать лю- бое положение между —ф0 и ф0, мы во всяком случае должны дооп- ределить модель так, чтобы при о=0 угол ф мог принимать любое значение между —ф0 и ф0. Тогда идеализированную модель двухпо- зиционного авторулевого можно записать так: J Фо sign о 1 —Фо<Ф при при сг=/=О, о = 0. (3.21) <Фо Можно ли двухпозиционное управление описать более точно? Можно, например, принять, что мотор поворачивает руль с постоян- ной скоростью и. Тогда скорость изменения угла поворота руля оп- ределяется следующим образом: ( со, если о > 6, ф < ф0, { —и, если о < — б, ф>— фо, ( 0, если —б < о < б, ф = ф0, о > 0; ф = — ф0, о < 0. Это уже более точное описание. Но и оно не полное. Ведь, если мо- тор включается, то его скорость не сразу становится равной и или —й. Значит, надо учесть время разгона двигателя и написать урав- нение Тф-|-ф = и, если о > б, ф < фо, —й, если о <—б, ф>—ф0, О, если —б < о < б, ф = ф0, о > 0; ф = —ф„, о < 0. Но и это еще не все. Можно учесть еще действие пружины огра- ничителя и то, что мотор останавливается не сразу, и т. д. и т. п. До каких же пор уточнять? Ведь каждое уточнение усложняет модель и требует более сложного исследования. Поэтому нужно выбрать та-
154 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ кую модель, чтобы она, во-первых, была адекватна тому, что есть на самом деле, и, во-вторых, не была очень сложной, чтобы в ней можно было разобраться. Поэтому попробуем ограничиться уточнением, даваемым формулой (3.21). Достаточно ли этого для полного описания всех возможных движений авторулевого? В какой мере эти движения соответствуют реальным движениям авторулевого, точнее, его дви- жениям при условии, что перекладки руля происходят очень быстро? В идеализации — бесконечно быстро. Постараемся ответить на эти не очень простые вопросы. Они не очень просты уже потому, что ответы на них были получены далеко не сразу. Итак, пусть фазовая точка М (ф, ср) приходит на линию переклю- чения о=0 ради определенности с полуплоскости Ф_. Пока она дви- жется на полуплоскости Ф~, имеем ф=—ф0, как только она попадает на линию о=0, угол ф нам неизвестен, но —фо^ф^фо- В соответствии с этим скорость движения фазовой точки М, пришедшей на линию о=0, заключена между скоростями ее при ф=—ф0 и ф=ф0 и, следо- вательно, пересекает линию о=0, переходя с полуплоскости Ф- на полуплоскость Ф+. Это дает полное обоснование сшивания решений на о=0 вне отрезка АА'. Рассмотрим теперь, что происходит, если фазовая точка М (ср, ф) приходит на отрезок АА'. Согласно принятой идеализации на отрезке АА' движение авторулевого описывается уравнением /ф + /1ф = — 6ф, (3.22) где—фо^Сф^фо, пока о=0. Нетрудно видеть, что эти условия однозначно определяют воз- можные значения угла ф. Действительно, из уравнения (3.22) нахо- дим, что о = аф-|-Ьф = аф4-Ь — уф—А ф^) = (а—yj ф—уф. (3.23) Мыслимы три возможности: о>0, о<0 и о=0. Две первые отпадают. Поскольку, например, из о>0 следует о>0 и, следовательно, ф=ф0. Но при ф=ф0, согласно (3.23), о<0. Так что остается только возмож- ность о=0. Из нее, согласно (3.23), находим, что । а ( г bh\ • Ч’- Таким образом, ф найдена и движение фазовой точки подчиняется уравнению (3.22) с этим значением ф. Из него следует, что или афДЬф = О,
§3. АВТОРУЛЕВОЙ 155 что означает движение фазовой точки М(ф, ср) по отрезку АА' сколь- зящих движений к точке О по закону ф = фое-(а/6> ф =-------2. фо^ - (а/Ь) Итак, уточненная математическая модель полностью определяет изменение фазового состояния авторулевого как при о=^0, так и о=0. Однако соответствует ли она реальным движениям авторулевого? На этот вопрос нельзя дать однозначный ответ, поскольку он за- висит от того, как же на самом деле работа- ет рулевая машинка, как она выполняет ко- манды управления о. Примем, что полная перекладка руля при смене знака о проис- ходит достаточно быстро, но все-таки за не- которое конечное время. Тогда фазовая точ- ка, пришедшая на отрезок скользящих дви- жений АА', его пересечет, немного удалится от него, затем станет снова к нему прибли- жаться, пересечет его, немного удалится, потом будет приближаться и так далее (рис. 4.35). При этом до тех пор, пока пересека- ется отрезок АА', фазовая точка не может от так что выполняется условие <т = аф + Ьф = е (t), него уйти далеко, (3.24) где |е (0|^е и е-> 0 вместе со стремлением к нулю времени перекладки руля. Из (3.24) находим, что t ф (/) = фое-("/Ь)Л _|_2-J е-(а/6) (/ — т) е о и, следовательно, t | ф (/) —ф0е_<а/6)''/1 < у J e-(“/W (z-x> dx < у . о Таким образом, предельное при е-> 0 изменение фазовых пере- менных ф и ф уточненная модель также описывает верно. Осталось установить, верно ли она описывает изменение угла поворота руля. Как и прежде, из соотношения (3.24) и уравнения движения (3.22) находим, что Ч =у(— Zip—Лф) = ^( —Лф) = <3-25>
156 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Это соотношение не позволяет найти ф, поскольку из малости е вовсе не следует малость е(/). Однако все же некоторые сведения о ф из него извлечь можно: ф(/) может представлять собой быстро осцил- лирующую функцию, размах колебаний которой лежит между —ф0 и фо- Но усредненное значение ф будет медленно меняющейся функ- цией. Именно, из (3.25) находим, что /+ т Ф = §г ( ф(т)бгт= t'-T ф(т)4т kt) 2Т <т) d-1 и, следовательно, Или, выбирая время усреднения Т = Ке, получим При е О Ф Ф, и поэтому (3.26) Таким образом, уточненная модель не дает, вообще говоря, правиль- ного представления о том, как меняется угол поворота руля ф, по- скольку (3.26) дает не сам угол поворота ф(/), а его скользящее сред- нее значение ф. Теперь перейдем к детальному изучению фазового портрета судна, управляемого идеальным двухпозиционным авторулевым. Но прежде чем построить фазовый портрет, разберемся с зависимостью его от параметров системы. Как следует из (3.17), динамика судна с авто- рулевым зависит от шести параметров: I, h, k, ф0, а, Ь. Каждый из них имеет вполне определенный реальный смысл. Такие параметры называют физическими. Когда их много, задача построения и ис- следования фазового портрета становится очень сложной. Поэтому нужно стремиться по возможности уменьшать число параметров. Па- раметры, от которых зависит фазовый портрет, называют сущест- венными. Найдем их для этого конкретного примера. Изменим мас- штаб времени и масштаб измерения угла, т. е. введем новые перемен- ные: х=М и ф = р,фи. Тогда уравнения (3.17) перепишутся так: rf2<pH I h dq>H _ *Фо f /„. dr2 П dx ~ П2ц' 1 h o = aiMf„ + bkiid-S?,
§3. АВТОРУЛЕВОЙ 157 где I sign а при а Ф О, \—1^/(0)^ 1 при о = 0. Выберем масштабные множители так, чтобы максимально уменьшить число параметров: K=I/\h\, р.=/Х2/(&ф0). Так как функция f(o) за- висит, по существу, от знака а и не меняется при умножении о на любое положительное число, можно умножить о на 1/(ар.) и тем самым довести число параметров до одного: х= (b/d)/(I/\h\). Если производные по новому времени т обозначать снова точками и опу- стить индекс у нового значения угла, то уравнения, описывающие динамику судна с идеальным релейным авторулевым, запишутся в виде ф±ф =— /(а)> о = ф+хф. (3.27) Знак плюс в уравнении (3.27) нужно брать, когда /С>0, и знак минус, когда h<ZQ. Итак, в нашем примере фазовый портрет зависит лишь от одного существенного параметра х. Перейдем к построению фазового портрета. Будем считать судно послушным с /г>0 и поэтому в уравнении (3.27) возьмем знак плюс. Сначала рассмотрим х>0. Качественно вид фазовых траекторий в этом случае мы уже изучили (они приведены на рис. 4.31). Прямая о=ф+хф — назовем ее прямой переключения — делит фазовое про- странство на две части: Ф+, где о>0, иФ“, где о<0 (рис. 4.36). В каж- дой из них движение фазовой точки описывается, согласно (3.18), линейным дифференциальным уравнением. Фазовые траектории в Ф~ симметричны относительно начала координат траекториям в Ф+. На прямой переключения существует отрезок АА' скользящих движений, на который фазовая точка приходит как из Ф+, так и из
158 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Ф . В дальнейшем она движется по отрезку А А' в направлении к состоянию равновесия <р=0, ф=0, асимптотически к нему приближа- ясь. Этим движениям отвечает скользящий режим авторулевого. Координаты точек А и А’ следующие: А — 1-----> 1--- и А 1--------, —5----- . \ 1—X 1 — X J —X 1—X J На рис. 4.36 изображен случай, когда 0<х< 1. Вне отрезка АА' фазовые траектории пересекают прямую переключения, сшиваясь по непрерывности. Фазовая точка, двигаясь по такой траектории, переходит из одного полупространства, скажем, Ф_ в Ф^. В полу- пространстве Ф+ есть траектория, уравнение которой <р = — 1. В Ф_ есть симметричная ей траектория <р = 1. Анализ изменения величины о = ф4-хф вдоль фазовых траекторий, скажем, в Ф+, где о > 0, по- казал, что при ф>х/(1— х) величина о возрастает и достигает своего максимального значения при ф = х/ (1—х). После этого, т. е. при ф<х/(1—х), значение о убывает вплоть до нуля на прямой переключения. Качественный вид фазовых траекторий показан на рис. 4.36. Чтобы детально изучить фазовый портрет, воспользуемся методом точечных преобразований. В чем он состоит? По существу, он состоит с изучении смены состояния непрерывной во времени динамической системы по изменению состояния (ф, ф) в определенные дискретные моменты времени. Как этот метод реализуется в нашем конкретном примере? Из качественного хода фазовых траекторий следует, что все они попадают на прямую переключения и затем вновь и вновь ее пере- секают до тех пор, пока, может быть, не попадут на отрезок скользя- щих движений. Будем интересоваться последовательностью точек пересечения фазовой траектории с прямой переключения. Каждая точка пересечения характеризуется одной переменной, скажем, ф. Чтобы отличить от других, обозначим ее буквой s. Фазовая траектория, выходящая из точки s, например, в Ф+ пересекает линию переключе- ния в точке, которая также характеризуется значением ф, обозначим ее s. Так вот, метод точечных преобразований состоит в следующем вместо того чтобы изучать, как движутся фазовые точки по траекто- риям и как фазовые траектории пересекаются с линией переключения, мы будем изучать, как эти точки пересечения переходят друг в друга. Точка s при этом называется предыдущей, as — последующей. Зави- симость s от s, т. е. s=f(s), называется функцией последования и яв- ляется оператором точечного отображения, порождаемого на линии переключения фазовыми траекториями системы. Оказывается, зная эту зависимость, мы, по существу, знаем, как происходит движение нашего судна, т. е., зная значение угла и скорости в моменты переклад- ки руля, мы знаем, как судно движется.
§3. АВТОРУЛЕВОЙ 159 Итак, вместо того чтобы смотреть весь фазовый портрет, мы будем смотреть только состояние нашей системы в момент перекладки руля. Именно в этом состоит идея секущей поверхности, которую впервые в прошлом веке применил Анри Пуанкаре (1854—1912). Теперь найдем эту функциональную связь s=f(s) в нашем случае. Интегрируя уравнение (3.27) при оОО и начальных условиях <р=—xs, cp=s, получим s = e~x-s—(1 —е~х), где т — время движения фазовой точки по траектории из точки $ в точ- ку s, которое определяется из уравнения (1— х)(1 — е~т) (s+1)—х = 0. Исключить х из уравнения для времени не удается, и поэтому мы представим зависимость s=f(s) в параметрическом виде: S = — 1 *(!— х)(1— e-t) ’ s = ~1 +(1-х) (ет—1) ’ (3-28). причем х меняется от 0 до сю. Итак, (3.28) задают точечное отображение линии переключения в себя, порождаемое фазовыми траекториями полупространства Ф + . Фазовые траектории полупространства Ф_(о<С0) также порождают точечное отображение линии переключения в себя. Причем, в силу центральной симметрии фазовых траекторий, оно такое же, как (3.28),. но только с заменой s и s на —$ и —s. Если выбрать направления от- счета s и s противоположными, скажем, s — вверх по линии переклю- чения, as — вниз, то оба отображения запишутся одинаково в виде S = — 1 + (1—x)(l-e-t) > S=1 (1—х)(ет—1) ’ (3‘29) Теперь будем изучать отображение (3.29) при различных значениях параметра х. Начнем со случая 0<х<1. Графики функций (3.29) по- казаны на рис. 4.37. При х=0 s(0)=x/(l—х) и s(0)=—х/(1—х). При т->+оо s (т)4-оо, a s(x)->l. Функции s(x) и s(x) при возрастании х монотонно возрастают и не пересекаются, так как s(t)—s(x)<0 для всех т>0. Значения s, s £ I—х/(1—х), х/(1—х)1, отвечают отрезку сколь- зящих движений авторулевого. Возьмем любое исходное значение s=s0. По нему найдем время Xj и отвечающее этому времени значение s=Sj. Следующееs получим, выбирая исходное s=Sj и т. д. Получаем последо- вательность s0, Si, ... точек пересечения фазовой траектории с линией переключения и последовательность хъ х2, ... времен, по истечении ко- торых фазовая точка вновь попадает на линию переключения. Последо- вательность s0, Si, $2, ... отвечает состояниям авторулевого в моменты Перекладки руля, а последовательность т1г х2, т3, ... — промежуткам времени от предыдущей перекладки руля до следующей. Как следует
160 ГЛ. 4. управляемые динамические системы из графика функции последования, в случае 0<х<1 (рис. 4.37), каким бы ни было исходное положение точки, после конечного числа переходов или, как говорят, итераций точечного отображения она приходит на отрезок скользящих движений. А следовательно, любая фазовая траек- тория после конечного числа пересечений линии переключения вты- кается в отрезок скользящего движения (рис. 4.36). Дальнейшее дви- жение фазовой точки происходит по отрезку скользящих движений 'к состоянию равновесия. Таким образом, действительно, точечное ото- бражение s=/(s), порождаемое фазовыми траекториями на прямой переключения о=0, определяет фазовый портрет системы. В случае 0<к<1, как следует из рис. 4.36, авторулевой после конечного числа переключений руля переходит в скользящий режим, при котором судно апериодически приближается к курсу. График изменения угла отклонения от курса судна, управляемого таким авторулевым, пока-
§3. АВТОРУЛЕВОЙ 161 зан на рис. 4.38. Сначала характер приведения судна к курсу коле- бательный. Затем после конечного числа колебаний, когда авторуле- вой переходит в скользящий режим, судно монотонно приближается к курсу. Причем чем меньше х и, следовательно, меньше отрезок АА' скользящего движения, тем большее число колебаний совершает судно, Рис, 4,41 но при этом увеличивается скорость приведения судна к курсу в сколь- зящем режиме. Если х увеличивается, то число колебаний уменьшает- ся. Авторулевой быстрее входит в скользящий режим. Но скорость приведения в скользящем режиме уменьшается и переходный процесс удлиняется. На рис. 4.36, 4.37 изображены фазовый портрет и функция последования в случае 0<х<1/2. Если 1/2^х<1 и х>1, функция последования и фазовые портреты показаны на рис. 4.39 и 4.40. В этих случаях авторулевой входит в скользящий режим не более чем при второй перекладке руля, но приводится судно к курсу медленно.
162 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Теперь посмотрим случай х^О. В этом случае авторулевой правиль- но реализует этап приведения, т. е. перекладывает руль в сторону отклонения лодки, но либо не реагирует на скорость приведения (х=0), либо реагирует, но неправильно, т. е. перекладывает руль после прохождения судном курса. Как ведет себя судно, управляемое та- ким авторулевым? Рассмотрим сначала случай х<0. Качественный анализ фазовых траекторий показывает, что они, как и в случае х>0, вновь и вновь а) пересекают линию переключения о=0, но уже нет отрезка скользяще- го режима. Фазовые траектории уходят с отрезка АА' как в Ф+, так и в Ф~ (рис. 4.41, б). Посмотрим, как выглядит точечное отображение в этом случае (рис. 4.41, а). Теперь график $(т) начинается в точке х/(1—х)<0, а график s(x) — в точке—х/(1—х)>0. Графики функ- ций $(т) и s(t) всегда пересекаются в некоторой точке, назовем ее s*. т*, которая определяется из уравнения $(т)=$(т). Это неподвижная точка отображения. Любая последовательность s0, $i, $2, ... итераций точечного отображения и соответствующая ей последовательность времен Xi, т2, т3, ... сходятся соответственно к $* и т*. Фазовый порт- рет системы в этом случае определяется глобально устойчивым пре- дельным циклом (рис. 4.41, б), отвечающим неподвижной точке s*. Предельному циклу отвечают автоколебания судна с авторулевым. Судно вместо того, чтобы идти по курсу, совершает периодические ко- лебания возле него с периодом, который определяется из уравнения •£cth£= 1 — х. С уменьшением х уменьшается амплитуда колебаний, уменьшается значение $* и уменьшается период автоколебаний. В предельном слу-
§4. МАКСВЕЛЛ И ВЫШНЕГРАДСКИЙ О РЕГУЛЯТОРАХ 163 чае х=0, когда авторулевой перекладывает руль только в зависимости от угла <р поворота судна и не следит за скоростью ср его изменения, вид точечного отображения и фазовый портрет изображены на рис .4.42. В этом случае время между последующими перекладками руля Рис. 4.43 уменьшается, уменьшается и амплитуда рыскания. Авторулевой при- водит судно к курсу, все чаще и чаще перекладывая руль. На рис. 4.43 показано, как меняется угол <р отклонения курса судна, управляемого таким авторулевым. § 4. Исследования Максвелла и Вышнеградского систем прямого регулирования Сейчас рассмотрим некоторые проблемы управления на примере классической задачи, с которой фактически началась теория автома- тического регулирования. Это задача о стабилизации скорости враще- ния вала паровой машины. Различные регуляторы были известны давно. На древнем Востоке, в Египте, Греции и древнем Риме использовались различные регули- рующие устройства. Но первые теоретические исследования, давшие начало теории автоматического регулирования, относятся к середине XIX века и связаны с остро стоявшей проблемой регулирования угло- вой скорости вращения паровой машины. Изобретенные в конце XVIII века паровые машины широко внедрились в различные области жизни. Для того чтобы паровая машина вращалась плавно, со ско- ростью, мало зависящей от нагрузки, на вал насаживался маховик, увеличивающий инерционность, и применялся регулятор. Таким ре- гулятором в то время был центробежный регулятор, изобретенный Д. Уаттом (1736—1819). Сначала регуляторы Уатта работали хорошо. Но техника развивалась, появлялись более мощные и скоростные ма- шины. Повысились требования к точности регулирования. Более тща- тельно стали изготовляться регуляторы. И вот тогда все чаще и чаще стали проявляться случаи, когда регуляторы не справлялись со своей задачей. Вместо того чтобы обеспечивать постоянство скорости, они вызывали колебания ее, которые зачастую приводили к авариям. Почему хорошо работавшие регуляторы вдруг стали плохими? В чем
164 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ здесь дело? Возникла проблема, которая долгое время была тормозом технического прогресса. Решением ее занимались многие ученые и инженеры. Но наиболее существенный вклад был сделан физиком Д. К. Максвеллом (1831—1879) и профессором Петербургского тех- нического института И. А. Вышне- градским (1831—1895). Именно они впервые привлекли к решению ин- женерных задач регулирования теорию колебаний в виде теории малых колебаний Лагранжа, именно они поставили и дали ответы на ряд вопросов применительно к регу- лированию скорости вращения, ко- торые на долгие годы определили направление теории автоматического регулирования, ныне называе мое классическим. Занимаясь одной и той же задачей, они получили диаметрально противоположные результаты. Но оба были по-своему правы. Так, оказывается, бывает. Мы рассмотрим их исследования, но прежде попробуем разобраться в самой проблеме регулирования ско- рости вращения паровой машины. Паровую машину схематически изобразим, как показано на рис. 4.44. Вал машины, к которому прикладывается нагрузка Л4Н, приводится в движение за счет подводимого пара. Нужно обеспечить постоянство угловой скорости (0=<р и независимость ее от нагрузки. Рассмотрим сначала паровую машину без регулятора. Уравнение ее движения можно записать в виде Ар = Л1д(р, ф)—Ми. (4.1) Здесь I — момент инерции, приведенный к валу, /Ид(р, ср) — движу- щий момент, который зависит от величины р подачи пара в цилиндр машины и от угловой скорости <р вращения ее вала. В уравнение (4.1) не входит угол <р поворота вала, такую переменную в механике приня- то называть циклической. Поэтому в качестве фазовой переменной можно рассматривать только одну переменную <р, а за фазовое про- странство принять прямую, на которой откладываются значения <р. Следует отметить, что уравнение движения паровой машины в виде (4.1) является следствием идеализации, пренебрегающей зависимостью вращающего момента 7ИД от угла поворота вала машины и положения поршня в цилиндре. Такая идеализация предполагает достаточно бы- строе вращение паровой машины, при котором с хорошим приближе- нием допустимо их усреднение. Вместе с тем это говорит о том, что урав- нение (4.1) справедливо не при всех <р, а лишь не очень маленьких. Заб- вение этого факта приводит к неправильным представлениям о поведе- нии паровой машины при малых скоростях вращения.
§4. МАКСВЕЛЛ И ВЫШНЕГРАДСКИЙ О РЕГУЛЯТОРАХ 165 Движущий момент Мл (р, ф), естественно, возрастает с увеличе- нием подачи пара и падает с ростом скорости вращения ф, так как при увеличении скорости вращения давление пара, поступающего в цилиндр, не успевает достигать своего максимального значения. Фиксируем величину подачи пара и изобразим на плоскости <р, М график зависимости М = Л1д(р, ф) от угловой скорости ф. Пере- сечем этот график прямой М = М„. При значении <р = со*, отвечаю- щем их точке пересечения, правая часть уравнения (4.1) обраща- ется в нуль, т. е. скорость вращения ф = и* является равновесной. При <р > со* правая часть отрицательна и происходит убывание ф вплоть до <р = (1)*, а при <р < со*, напротив, возрастание <р вплоть до Ф = и*. Таким образом, фазовый портрет, отражающий динамику паровой машины, состоит из состояния равновесия 0(<р = ®*), к ко- торому все остальные фазовые точки асимптотически приближаются (рис. 4.45). Это состояние равновесия отвечает равномерному вра- щению паровой машины, а его устойчивость означает, что со вре- менем любое другое вращение паровой машины переходит в равно- мерное вращение, отвечающее этому состоянию равновесия. Теперь увеличим нагрузку, произойдет изменение равновесной скорости — она уменьшится. Как сделать, чтобы равновесная скорость враще- ния осталась прежней? Оказывается, можно так изменить величину р подачи пара, что кривая Л4=Л1д(р, ср) вновь пересечется с прямой нагрузки при том же значении ф=и* равновесной скорости вращения. И это понятно: если мы идем или едем на велосипеде по прямой дороге, а затем в гору, не меняя усилий, то скорость движения уменьшается. Но если мы, как говорится, «нажмем на педали», то скорость снова возрастет и при под- ходящем большем усилии примет прежнее значение. То же самое и с паровой машиной. Но для того чтобы так делать и таким образом доби- ваться постоянства угловой скорости вращения, необходимо знать, как меняется момент нагрузки Л1Н и насколько следует изменить пода- чу пара, чтобы компенсировать это изменение момента нагрузки. Ос-
166 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ новная проблема здесь в том, что мы не знаем нагрузку Ми и не знаем, как она меняется. Как же обеспечить постоянство угловой скорости вращения паровой машины, не зная нагрузку Л4Н? Решается эта проб- лема с помощью принципа обратной связи. Как он применяется в этом конкретном случае? Изобразим паровую машину в виде кружка (рис. 4.46). На нее дей- ствуют два входных воздействия, р, — подача пара и М„ — момент на- грузки. Выходом является угловая скорость вращения вала. Прямая связь состоит в том, что изменение подачи пара меняет угловую ско- рость. Обратная связь состоит в том, что изменение угловой скорости меняет подачу пара в паровую машину. Этой зависимости в самой па- ровой машине нет. Ее нужно привнести и сделать такой, чтобы добить- ся постоянства угловой скорости вращения.. Именно путем реализации обратной связи с помощью центробежного регулятора Уатт решил задачу стабилизации скорости вращения вала паровой машины. Од- нако во времена Ползунова и Уатта такого способа рассуждений не было. Не писались уравнения, не было никакого принципа обратной связи. Поплавковый регулятор Ползунова и центробежный регулятор Уатта были изобретениями, не являющимися следствиями научных представлений того времени. Поэтому примем регулятор Уатта таким, как он был изобретен, и проанализируем его работу, следуя Максвел- лу и Вышнеградскому. Схематически паровую машину с регулятором Уатта можно изо- бразить, как показано на рис. 4.47. Изменение нагрузки приводит к изменению угловой скорости вращения вала машины и оси центро- бежного регулятора, соединенного с валом при помощи шестеренча- того редуктора. При изменении скорости вращения расходятся или опускаются шары центробежного регулятора, поднимая или опуская муфту, которая с помощью механической передачи связана с дроссель- ной заслонкой паропровода. Увеличение угловой скорости приводит к опусканию дроссельной заслонки и уменьшению подачи пара, умень- шение угловой скорости — к подъему дроссельной заслонки и увеличе- нию подачи пара. В этой системе центробежный регулятор играет
§4. МАКСВЕЛЛ И ВЫШНЕГРАДСКИЙ О РЕГУЛЯТОРАХ 167 роль измерителя угловой скорости паровой машины и одновременно исполнительного устройства, перемещающего дроссельную заслонку. Позднее системы регулирования, в которых регулятор выполняет роль измерительного и исполнительного устройства, стали называть систе- мами прямого регулирования в противовес системам непрямого ре- гулирования, где имелись специальные устройства, перемещающие дроссельную заслонку в зависимости от данных изме- рителя. Таким образом, логику работы регуля- тора угловой скорости вращения паровой машины можно представить следующим об- разом: Асо > 0 —* Ар < 0 —Асо < О, Асо < 0 —Ар > 0 —Ай > 0. Эта логика безупречна. Почему же, вопре- Рис. 4.48 ки этой логике, регуляторы могут не ста- билизировать угловую скорость вращения, а, наоборот, приводить к нарастающим колебаниям ее, как это показано на рис. 4.48? По- нять причину такого явления непросто. Для этого нужно было иссле- довать динамику системы, состоящей из паровой машины и регуля- тора, и выработать эквивалентные ей общие представления. Составим математическую модель системы и проведем ее исследо- вание примерно так, как делали это Максвелл и Вышнеградский. Прежде всего, система «паровая машина с регулятором» — механиче- ская. Значит, ее фазовые переменные — угол <р и угловая скорость <р поворота вала, угол ft и угловая скорость ft расхождения шаров ре- гулятора. Кинетическая энергия системы имеет вид где /(&) — момент инерции вращающихся частей машины и регулято- ра, приведенный к валу машины, А — момент инерции шаров регуля- тора относительно оси их вращения. Момент обобщенных сил, отнесен- ных к углу поворота вала машины, равен Q<p = Aln(ft, <р)~Л1Н, где A4a(ft, ср) — движущий момент, зависящий от угла расхождения шаров О и угловой скорости ф, Мн — момент нагрузки. Относительно оси поворота шаров регулятора учтем момент силы вязкого трения Qo =—hb и момент силы тяжести, равный —дУ/дЬ, где V(ft) — потен- циальная энергия, зависящая от угла расхождения шаров. Уравнения Лагранжа для системы записываются в виде /(й)Ф+4(й)&Ф=л1д(ф, ft)—ми, 42 4ft — V2 (ft) ip2 + V" (ft) = — hft. '
168 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Переменная ф является циклической, и поэтому за фазовые перемен- ные можно взять <р, $ и 4, т. е. фазовое пространство трехмерное. Урав- нения (4.2) описывают движение системы «паровая машина — регуля- тор». Но что с ними делать? Проинтегрировать уравнения (4.2) и найтн их общее решение нельзя. Их нельзя было проинтегрировать в прош- лом веке, когда возникла эта задача, их нельзя проинтегрировать и сегодня. Можно, конечно, получить численные решения, но это будут лишь отдельные частные решения. Как же быть? Давайте посмотрим, что, собственно, нас интересует. Нас интересует, когда будет устойчивым процесс регулиро- вания. Что это означает? Это означа- ет, что должно существовать решение, для которого <p=const, и это решение должно быть устойчивым. Из уравне- ний (4.2) следует, что cp^const отвечает ft^const, ^=0, т. е. в фазовом про- странстве режиму вращения вала с постоянной скоростью отвечает состояние равновесия. Будем обозначать координаты состояния рав- новесия <p=Q, 0=0, Д=0. Это состояние равновесия должно быть устойчивым, т. е. все соседние с ним фазовые траектории должны приближаться к нему (рис. 4.49). Итак, вопрос об устойчивости процесса регулирования свелся к тому, что фазовый портрет паровой машины с регулятором должен иметь состояние равновесия с требуемым значением ф=£2, и к тому, что эго состояние равновесия должно быть устойчивым. Кроме этого, нас будет интересовать вопрос о том, как зависит равновесная ско- рость Q от нагрузки. Равновесное значение фазовых переменных определяется, если под- ставить в уравнение (4.2) решение вида ф = й = const, 0 = 0 = const. Подстановка приводит к уравнениям МЯ(Й, 0) — Л1н = 0, — 4^'(©)P-2 + V'(0) = O. (4.3) Второе уравнение (4.3) определяет зависимость угла 0 равновесного отклонения шаров регулятора от равновесного значения скорости Q вала паровой машины. Первое уравнение с учетом того, что 0 — функ- ция Q, дает зависимость Q от нагрузки 2ИН. Найти явно эту зависи- мость нельзя. Но можно найти производную dQ/dM„, которая харак- теризует, насколько быстро меняется от изменения нагрузки равно- весная скорость вращения паровой машины, и называется дифферен- циальной неравномерностью. Из (4.3) получаем dQ_________________________________1_____ dM„ d& ’ (4.4)
§4. МАКСВЕЛЛ И ВЫШНЕГРАДСКИЙ О РЕГУЛЯТОРАХ 169 где de _ I'Q dQ -l/''Q2+r (4.5) Величина dQ/dQ характеризует зависимость угла 0 от скорости £2, т. е. чувствительность измерителя. Чтобы ответить на первый вопрос и выяснить условия устойчиво- сти состояния равновесия, линеаризуем уравнения (4.2) в окрестности состояния равновесия <p=Q, 0=0 и рассмотрим движения близких к нему фазовых точек. Для этого положим <p = Q-f-g, О = 0 + т]> 0 = т] и запишем уравнения движения (4.2) в новых переменных £, т] и т]. Переменные £, ц, т] называют возмущениями, а уравнения их измене- ния — уравнениями в возмущениях. Разложим в ряды Тейлора по воз- мущениям все нелинейные функции в уравнениях и, рассматривая малые возмущения, сохраним в уравнениях только линейные члены, все же остальные: квадратичные, кубичные и т. д., т. е. члены более высокого порядка малости, отбросим. Получим линейные или, как их чаще называют, линеаризованные уравнения, которые приближенно описывают исходную систему в малой окрестности состояния равно- весия: 4-1'Йт| = £ + Мдап, Л’п-Ш] — — у ГП2) п = 0- (4.6) Действительно, состояние равновесия £=0, т|=0, г|=0 линеаризован- ной системы отвечает состоянию равновесия ф=й, 0 = 0, г]=0 исход- ной системы. Оказывается, устойчивость состояния равновесия ли- неаризованной системы и исходной имеет место одновременно. Этот факт доказан многими|разными способами, но первое общее доказа- тельство дано 'А. М. Ляпуновым (1857—1918). Состояние равновесия линеаризованной системы будет устойчиво, когда решения уравнений (4.6) будут стремиться к нулю при возрастании времени, т. е. £(/)->0, т](/)->0 при £->оо. Это будет иметь место, когда корни характеристиче- ского уравнения системы линейных уравнений (4.6) имеют отрицатель- ные вещественные части. Характеристическое уравнение системы (4.6) имеет вид /'ЙХ4-Л4Д<> — 1'0 ЛХ2 + ЙХ+Г—у Z"Q2 = 0.
170 ГЛ. 4. управляемые динамические системы Раскрывая определитель, получим MV+(- AM'- + Ih)M+ Г/ (V'-lra) -hM + пт I \ у пт I + Кр (I /"Q2 —г)-/'ЙМд<> =0. (4.7) Это алгебраическое уравнение 3-й степени. Если записать его как А.3-|-а1Х2-|-а2Х-|-аз = 0, (4.8) то условия устойчивости, как уже говорилось при изучении авто- рулевого, имеют вид aj>0, а3>0, at’a2—а3>0. Эти неравенства яв- ляются необходимыми и достаточными условиями того, что все корни алгебраического уравнения третьей степени (4.8) имеют отрицатель- ные действительные части. Максвелл и Вышнеградский успешно спра- вились с этой задачей. Но они понимали, что третьей степенью дело не ограничивается. Чуть посложнее задача — и будет 4-я степень, 5-я и т. д. В связи с этим на одном из заседаний Лондонского математическо- го общества Максвелл поставил задачу об отыскании необходимых и достаточных условий отрицательности действительных частей всех корней алгебраического уравнения n-й степени. Через несколько лет эта задача была решена молодым английским математиком Раусом сначала для уравнений 4-й и 5-й степеней, а затем и полностью. Раус дал алгоритмическое решение задачи, где последовательно через ко- эффициенты уравнения выписываются условия отрицательности дей- ствительных частей корней уравнения. Независимо от Рауса и немного позже его эта задача была решена немецким математиком А. Гурвицем (1859—1919), который получил эти условия в виде детерминантных неравенств, составленных из коэффициентов уравнения. Гурвицу эта задача была предложена видным специалистом в области теории регулирования А. Стодолой (1859—1942), который был хорошо знаком с работами Вышнеградско- го и пользовался его приемами при работе с кубическими уравнениями, но отчетливо понимал важность этой проблемы для уравнений более высоких степеней. Позже было обнаружено, что результаты Рауса и Гурвица одинаковы, но имеют разную форму, и с тех пор условия, полученные Гурвицем, стали называться критерием Рауса — Гурвица. Применительно к нашей задаче условия Рауса — Гурвица имеют вид -AM^A-Ih > 0, м;- (1/"Й2-Г)-7'ЙМДф > 0, (- AM'^ + Ih) [/ (V"-| П2] - >0. (4.9)
§4. МАКСВЕЛЛ И ВЫШНЕГРАДСКИЙ О РЕГУЛЯТОРАХ 171 Теперь перейдем к анализу того, что сделали Максвелл и Вышне- градский. Начнем с Максвелла. Он был физиком и хотел создать тео- рию совершенных идеальных регуляторов, которые были бы способны поддерживать постоянной угловую скорость независимо от нагрузки. Рис. 4.50 Поэтому он считал, что любое трение в измерителе может только ухуд- шить работу регулятора и с ним надо неукоснительно бороться. По- этому в уравнениях у него /i=0. Далее, согласно (4.4), чтобы равно- весная скорость Q не зависела от Мн, надо, чтобы дифференциальная неравномерность d£i!dMa была нулевой. Но для этого надо, чтобы d0/dQ=oo, т. е. регулятор обладал бесконечной чувствительностью. Итак, чтобы сделать регулятор с нулевой дифференциальной не- равномерностью, нужно сделать измеритель с бесконечной чувстви- тельностью. Согласно (4.5) условие бесконечной чувствительности измерителя можно записать в виде ^_[V(0)_|/(0)Q2]=O. (4.10) Максвелл записывает это условие и дает рекомендации, как его вы- полнить. Давайте разберемся, что представляет собой измеритель — регу- лятор Уатта. Это, по существу, физический маятник, подвешенный на вращающейся с угловой скоростью Q оси (рис. 4.50, а). Под дей- ствием центробежных сил маятник отклоняется на некоторый угол 0. Во вращающейся вместе с осью регулятора плоскости х, у груз маят- ника движется по окружности. Максвелл предположил: а нельзя ли, отказавшись от физического маятника, подобрать так кривую x=x(fl), у=у($), по которой будет двигаться груз, чтобы выполнялись условия (4.9) (рис. 4.50, б)? В случае произвольной кривой x=x(fl), у=у($} потенциальная энергия У(&) равна V(b)—tngy(b) и момент инерции /(&) равен /($)— =1/2тх2. Условие (4.9), которое теперь записывается в виде [mgy (fl) —mx2Q2j> = 0,
172 ГЛ. 4. УПРАВЛЯЕМЫЕ динамические системы будет выполнено, если в качестве этой кривой взять параболу Максвелл понимал, что такой идеальный регулятор будет работать только при выполнении условий устойчивости. И он выписал эти уело-' вия в предположении /г=0 и dQ/dMH=0, т. е. нет трения в измерителе и отсутствует дифференциальная неравномерность. При этих предполо- жениях линеаризованные уравнения (4.6) несколько упрощаются и принимают вид Д-Ли£4-ГЙП-Л1д<Р1 = 0, An—т = (4.11) Это приводит к соответствующим упрощениям характеристического уравнения (4.7) и условий устойчивости (4.9), которые в силу /г=0 и V"—y/"Q2=0 (так как dQM'4H=0) принимают вид — АМ^>0, — 4(0)ЙМ;<>(Й, 0) > О, —Мда(й, 0) 7^(0)£2-(-7Л1д«(й, 0) > 0. Для выполнения первого неравенства требуется, чтобы ЛГДф(й, 0) было отрицательным. Это условие не относится к регулятору, это огра- ничение на объект. Не для каждой машины оно выполняется, а лишь для такой, у которой состояние равновесия устойчиво и без регулятора, причем для паровой машины оно выполняется (рис. 4.45). Машины, обладающие таким свойством, называются машинами с саморегулиро- ванием. Второе неравенство выполняется, так как /#(0)>О и Л4до(й, 0)<О: при увеличении угла расхождения шаров регулятора момент инерции I возрастает и подача пара в машину уменьшается. В третьем неравенстве первое слагаемое положительное, а второе от- рицательное. Чтобы выполнялось это условие, надо сделать так, чтобы по величине первое слагаемое было больше второго. За счет чего? За счет увеличения /*(0), т. е. надо делать шары достаточно массив- ными, возможно, даже соизмеримыми с маховиком. Вот что получил Максвелл. А рекомендации он выдвинул такие: можно построить идеальный регулятор, для этого надо построить измеритель с бесконечной чувствительностью и обеспечить указанные условия устойчивости. Теперь перейдем к рассмотрению исследования Вышнеградского. Оно проведено столь же безукоризненно, каки у Максвелла, но делал его уже инженер, а не физик. Прежде всего он считал, что основная проблема состоит в обеспечении устойчивости регулирования, и пони- мал, что трение в регуляторе может только способствовать этому. Поэтому он в уравнениях (4.6) учитывал член —h'}, причем не просто учитывал, а ввел новый конструктивный элемент — катаракт — кото- рый обеспечивал эту силу трения. Затем Вышнеградский детально
§4. МАКСВЕЛЛ И ВЫШНЕГРАДСКИЙ О РЕГУЛЯТОРАХ 173 проанализировал уравнение машины. Слагаемое А4дф в уравнении машины — это изменение движущего момента, связанное с изменени- ем ее угловой скорости. Этот момент характеризует способность маши- ны самой восстанавливать свою скорость при неизменной подаче пара. Если Л1дф(й, 0)<О, то машина обладает таким свойством и это ма- шина с саморегулированием. Именно такой должна быть машина у Максвелла. Но Вышнеградский — инженер. Он понимает, что ма- шины могут быть разными и устойчивости надо добиваться не за счет свойств самой машины, а за счет правильно построенного регулятора. Поэтому он рассматривает худший случай, когда нет саморегулирова- ния и Л1дф =0. Слагаемое ТИд^т] в уравнениях (4.6) представляет со- бой изменение движущего момента за счет изменения подачи пара. Этот момент основной. На него вся надежда. Именно за счет изменения подачи пара нужно обеспечить регулирование. Наконец, слагаемое —7'(0)йт]. Это момент, противодействующий изменению угловой скоро- сти вращения вала машины за счет того, что изменяется приведенный к валу машины момент инерции при изменении положения шаров регу- лятора. Масса шаров регулятора—это ничтожная доля от общей массы маховика паровой машины, т. е. этот момент мал, и делать ставку на него в обеспечении устойчивости инженер не может. Поэтому Вышне- градский не учитывает его в уравнениях (4.6) и в результате записывает их в виде = 0, Лц—1гЯа)т] + Лп = 0. (4.12) После чего условия устойчивости принимают вид Ih > 0, — /'(0)м;#(й, 0) > 0, AQI' (S2)Af^(Q, 0) + 7й(Г—>0 и существенно отличаются от того, что получил Максвелл. Первое условие выполняется, если /г>0, т. е. наличие вязкого тре- ния необходимо для устойчивости регулирования. Второе условие выполняется, поскольку Л1дв. (Q, 0)<О. Основным является третье условие. Перепишем его в другом виде, используя выражение (4.4) для дифференциальной неравномерности. У Вышнеградского оно имеет вид Г(0)—4-/" (9) й2 dQ 2 dM„~ й/'(е)Мд#(й, 9) • Тогда третье условие запишется так:
174 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Вот к такому условию устойчивости пришел Вышнеградский. Из усло- вия (4.13) следует, что для устойчивости регулирования необходимо, чтобы дифференциальная неравномерность была не равна нулю, при- чем dQ/dM„ должна быть отрицательная, т. е. равновесная скорость машины должна уменьшаться с увеличением нагрузки. Вышнеградский дал условиям устойчивости Jhk Л V////////////////////7 наглядную геометрическую интерпретацию в плоскости параметров IdQ/dMJ и IhlA, плоскости параметров |dQ/dMH| и IhlA, построив знаменитую диаграмму Выш- неградского (рис. 4.51). Над гиперболой, уравнение которой определяется гра- ницей неравенства (4.13), расположены параметры, где неравенство (4.13) вы- полняется. Это область устойчивости. Чтобы регулятор управлял вращением вала паровой машины, надо, чтобы па- раметры регулятора были выбраны из области устойчивости. В соответствии с этим чем меньшую дифференциальную устойчивости Рис. 4.51 неравномерность регулирования мы хо- тим получить, тем большее трение в регуляторе должен обеспечивать катаракт. Окончательные выводы Вышнеградский сформулировал в виде знаменитых тезисов. 1. «Регулятор, не снабженный катарактом, какова бы ни была при этом его конструкция, не может хорошо работать...» 2. «Изохронный регулятор не сможет хорошо работать, даже если он снабжен катарактом, сколь бы эффективным он ни был...» Изохрон- ный регулятор — это регулятор без неравномерности, тот самый, ко- торый предлагал Максвелл. Итак, Максвелл и Вышнеградский получили диаметрально проти- воположные выводы. Максвелл сказал, что можно построить идеаль- ный регулятор, и дал для этого рекомендации. Вышнеградский же сказал, что нет регулятора без дифференциальной неравномерности, нет идеального регулятора. Кто же прав? Ведь оба они не сделали ни- каких ошибок. Рассудила сама жизнь. В то время, безусловно, был прав Вышнеградский. Его исследование было направлено целиком на решение кризисной ситуации, которая возникла в регуляторострое- нии. Он объяснил, почему с увеличением мощности машин и улучше- нием конструкций регуляторов (в частности, увеличением чувствитель- ности) нарушалась их работа, и дал конкретные рекомендации, как надо выбирать параметры, чтобы регулирование было устойчи- вым. Регуляторы, которые строили бы по рекомендации Максвелла, не могли бы работать, потому что при их тогдашней конструкции невоз- можно было обеспечить выполнение условий устойчивости. Но лет через 20—30 стало ясно, что и Максвелл был прав. Его идея идеального регулятора была совершенно верна, но нужно было конструктивное изменение регулятора, при котором условия устойчивости стали бы
§4. МАКСВЕЛЛ И ВЫШНЕГРАДСКИЙ О РЕГУЛЯТОРАХ 175 реализуемыми. Такой конструктивный элемент был изобретен и был назван изодромом. Таким образом, история рассудила так: применительно к системам регулирования, которые были в те времена, прав был Вышнеградский, а Максвелл был неправ. Вышнеградский дал практические указания, как надо конструировать регуляторы. И.поэтому результаты его ис- следований прочно вошли в инженерную практику. Но с точки зрения перспективы развития регуляторостроения был прав и Максвелл, и даже более прав, чем Вышнеградский, потому что осветил дальнейший путь регуляторостроения, ориентировал его на «синюю птицу». Детальным знанием истории возникновения теории автоматического регулирования и тем, что забытые работы Максвелла и Вышнеградско- го вновь увидели свет, мы обязаны усилиям А. А. Андронова и И. Н. Вознесенского, которые провели анализ многих работ того вре- мени, выделили среди них наиболее важные исследования и издали их в серии «Классики науки», снабдив их подробными комментариями, написанными с точки зрения современного состояния теории. Скру- пулезный анализ работ на эту тему позволил им «из многих сотен уче- ных и инженеров, работавших в XIX веке над вопросом теории регу- лирования машин...» выделить троих: Максвелла, Вышнеградского и Стодолу, заложивших фундамент науки, которая сейчас называется теорией автоматического регулирования. Чтобы завершить рассказ о начале теории автоматического регули- рования, пожалуй, следует еще сказать, что же такое изодром и каким образом с помощью этого устройства удалось преодолеть противоре- чие, которое так четко выражено в знаменитой диаграмме Вышнеград- ского (рис. 4.51), между стремлением уменьшить неравномерность регулирования и обеспечить его устойчивость. Появление изодрома — это не научное открытие, оно возникло не в результате теоретического исследования. Это было инженерное изо- бретение, подготовленное естественным ходом событий. Следующим шагом этого естественного хода событий был переход от систем прямого регулирования, в которых совмещены функции измерителя и исполнительного устройства, к системам непрямого ре- гулирования, в которых эти функции были разделены. Системы не- прямого регулирования возникли в связи с тем, что для перемещения дроссельной заслонки стало не хватать усилий, развиваемых центро- бежным регулятором угловой скорости вращения. Нужен был усили- тель мощности. Он появился в виде гидравлического сервомотора. Муфта центробежного измерителя скорости перемещала легкий поршень золотника сервомотора, а поршень сервомотора двигался под действием жидкости, поступающей в него под большим давлением через золотник (рис. 4.52). Такая система сама по себе неустойчива. Для придания ей устойчивости необходимо вовремя сдерживать дви- жение поршня, быстрее чем это происходит в результате изменения скорости вращения паровой машины. Этого достигли с помощью обрат-
176 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ ной связи, возвращающей поршень золотника обратно, непосредствен- но вслед за перемещением дроссельной заслонки (рис. 4.53). При этом процесс регулирования выглядел следующим образом. Пусть возросла нагрузка Л4Н. Это вызвало падение скорости вращения <р. Уменьшение скорости вращения вызвало опускание т] муфты центробежного из- мерителя и перемещение поршня золотника, в результате которого поршень сервомотора начал увеличивать подачу пара и одновременно, перемещая точку А вверх, возвращать золотник в исходное положе- ние. Этот процесс заканчивался новым равновесным состоянием, в ко- тором скорость вращения уже была несколько иной. Причину того, что в новом равновесном положении скорость оказалась другой, мож- но было видеть в том, что точка А занимала другое положение и, следо- вательно, для отключения золотника, т. е. возврата его в исходное положение, необходимо и новое положение муфты регулятора. В со- ответствии с этим рассуждением, для того чтобы скорость вращения паровой машины вернулась к прежнему значению, нужно, чтобы
§4. МАКСВЕЛЛ И ВЫШНЕГРАДСКИЙ О РЕГУЛЯТОРАХ 177 в прежнее положение вернулась точка А, после того как ее поднял кверху поршень сервомотора. Этого можно достичь, если соединить поршень сервомотора с точкой О стержнем переменной длины, ме- няющейся так, чтобы вернуть точку А в исходное положение. Именно это и делала изодромпая обратная связь, которая представляла собой стержень, способный сравнительно медленно менять под влиянием растягивающего или сжимающего усилия свою длину, и пружину, которая возвращала на прежнее место точку А (рис. 4.54). Все это, конечно, наглядные и недостаточно обоснованные сообра- жения. Но они могут быть уточнены. Как и в случае рассмотренной системы прямого регулирования, можно построить математическую модель в виде динамической системы, описываемой дифференциаль- ными уравнениями, исследовать зависимость ее положения равновесия от нагрузки Л1И и указать условия устойчивости. При этом оказывает- ся, что равновесная угловая скорость вращения <р не зависит от нагруз- ки Мн и что параметры изодромного регулятора можно выбрать так, чтобы состояние равновесия было устойчивым. Диаграмма, аналогич- ная построенной Вышнеградским, для этой более сложной системы была найдена значительно позднее, уже в середине XX века. Изодром был инженерным изобретением. Естествен вопрос: а мог бы он быть открыт с помощью теоретического исследования? На этот во- прос, пожалуй, следует ответить так: тогда — нет, сейчас — да. Дело в том, что и Максвелл, и Вышнеградский (да и все исследователи того времени) исходили из определенной конструкции регулятора, и хотя они пришли к несколько разным математическим моделям (4.11) и (4.12) и связали с ними новые конструктивные элементы (измеритель с бесконечной чувствительностью у Максвелла и катаракт у Вышне- градского), идея об общем виде математической модели регулятора и о том, каким должен быть в ней оператор, осуществляющий обратную связь, еще не созрела. Это произошло значительно позднее.
Я 78 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ § 5. Системы гироскопической стабилизации Гироскоп (рис. 4.55) — это осесимметричное твердое тело, быстро вращающееся вокруг своей оси симметрии, называемой обычно осью собственного вращения. Быстрое вращение наделяет его удивительным свойством активно сопротивляться действию моментов внешних сил. Широко известна иллюстрация этого свойства гироскопа с помощью обыкновенного детского волчка. Нераскрученный и поставленный на ун конец оси, он падает под действием силы тяжести. Z Если же его быстро раскрутить, то он не падает, х. т а спокойно балансирует на конце оси. Объясняет- ся это свойство возникновением момента инерцион- ных сил> называемого гироскопическим, противо- действующего внешним моментам. Количественной \ \ / х, характеристикой сопротивляемости гироскопа внеш- ним моментам является кинетический момент //= = CQ, ГДе С— момент инерции гироскопа относи- /у тельно оси собственного вращения, Q — угловая /' скорость собственного вращения. Чем больше Н, тем Рис. 4.55 больший гироскопический момент он развивает. Поэтому в устройствах, использующих стабилизи- рующие свойства гироскопа, его обычно выполняют в виде массивного плоского диска, называемого ротором гироскопа. Угловая скорость Q собственного вращения ротора поддерживается постоянной специаль- ными моторами. Замечательные свойства гироскопа были известны давно. Однако использовать их на практике стали лишь в конце XIX века, после зна- менитых опытов Л. Фуко, результаты которых были изложены в док- ладах Парижской академии наук. Гироскопы стали основой ряда тех- нических устройств, в частности навигационных приборов — гиро- компасов, гировертикалей и тому подобных приборов для определения местонахождения на Земле движущихся объектов. Непосредственное использование стабилизирующих свойств гироскопа было впервые осуществлено лишь в начале XX века для успокоения качки морских судов. С этой целью применялись огромные гироскопы с диаметром ротора до нескольких метров, которые устанавливались в трюме суд- на. Чуть позже гироскопы предполагалось использовать для обеспе- чения устойчивости вагонов однорельсовой железной дороги, идея создания которой была в то время очень популярна.-Но для стабили- зации крупных объектов нужны были гироскопы, способные развивать большие гироскопические моменты. Поэтому нужны были массивные, хорошо сбалансированные, быстро вращающиеся роторы. В техни- ческом плане эта задача была очень сложной и, казалось бы, ограничи- вала возможности стабилизации с помощью гироскопов. Но в 1924 г. инженер С. А. Ноздровский предложил принцип силовой гироскопиче- ской стабилизации, где стабилизирующие свойства гироскопа сочета- лись с возможностями принципа обратной связи. Предложенная им
§ 5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 17» система стабилизации была, по существу, системой автоматического ре- гулирования. В ней гироскоп служил не только для непосредственной стабилизации объекта, но и был чувствительным элементом управляю- щей системы, позволяющей за счет внешних источников энергии раз- вивать моменты, достаточные для стабилизации крупных объектов. Такая идея композиции непосредственной гироскопической стабили- зации и автоматического регулирования оказалась столь плодотворной, что силовые гироскопические стабилизаторы позже нашли очень ши- рокое и разнообразное применение. Рассмотрим детальнее одноосный силовой гироскопический стаби- лизатор, предназначенный для стабилизации положения объекта от- носительно некоторой оси. Схематически он изображен на рис. 4.56. Его основу составляет гироскоп, закрепленный в так называемом кар- дановом подвесе. Карданов подвес состоит из двух рамок, внешней и внутренней. Внутренняя рамка может поворачиваться вокруг оси т), опоры которой закреплены во внешней рамке. Внешняя рамка может вращаться вокруг оси £ в опорах, закрепленных в некотором основа- нии, которым может быть судно, самолет, космический корабль и т. д. Оси | и т] подвеса взаимно перпендикулярны. Ось собственного вра- щения закреплена в опорах во внутренней рамке и перпендикулярна оси т]. Обычно внутренней рамкой является кожух, в котором нахо- дится ротор гироскопа. Объект, положение которого надлежит ста- билизировать, либо служит внешней рамкой подвеса гироскопа, либо жестко с ней соединен. Будем в дальнейшем называть внешнюю рамку подвеса гироскопа рамой гиростабилизатора. Объект вместе с рамой может поворачиваться вокруг оси |. Гиростабилизатору надлежит ста- билизировать положение объекта относительно этой оси. Поэтому ось £ называют осью стабилизации.
380 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ При действии на объект внешних моментов, направленных по оси •стабилизации, кожух с гироскопом начинает поворачиваться вокруг оси т]. Это движение называется прецессией, и поэтому ось т] называют осью прецессии. Прецессия происходит в направлении совмещения (по кратчайшему пути) вектора собственного кинетического момента гиро- скопа с направлением вектора внешнего мо- мента. При этом возникает гироскопический момент, приложенный к раме и направленный против внешнего момента. Так происходит непосредственная гироскопическая стабилиза- ция. Если обозначить угол поворота гироста- билизатора вокруг оси стабилизации через а, а угол поворота гироскопа с кожухом вокруг оси прецессии через 0, то динамические свя- зи при непосредственной гироскопической схематически изобразить, как показано на стабилизации можно рис. 4.57. Внешний момент Л4В вызывает поворот рамы с угловой скоростью а, что приводит к появлению угловой скорости р прецессии гироскопа с кожухом и гироскопического момента А4Г, стабилизирующего дви- жение рамы. Наличие цикла свидетельствует о том, что здесь реализо- ван принцип обратной связи. Он реализован самим гироскопом за счет свойств, которыми его наделила природа. Гироскоп в этом контуре обратной связи исполняет роль чувствительного элемента и исполни- тельного устройства. Контур обратной связи, предложенный С. А. Ноздровским (рис. 4.56), реализуется управляющей системой, состоящей из датчика угла поворота гироскопа вокруг оси прецессии, усилителя и испол- нительного устройства. В зависимости от угла (3 поворота гироскопа вокруг оси прецессии управляющее устройство вырабатывает команд- ный сигнал исполнительному устройству, развивающему момент от- носительно оси стабилизации, противодействующий моменту внешних сил. В этом контуре гироскоп выполняет роль только чувствительного элемента. Будем изучать собственные движения одноосного гиростабилиза- тора, установленного на неподвижном основании. Тогда объект с ра- мой, гироскоп и управляющую систему можно рассматривать как одну изолированную динамическую систему, ввести для нее состояние, за- писать оператор и изучать изменение состояния в фазовом простран- стве. В зависимости от предположений и уровня идеализаций можно построить различные математические модели одноосного гиростабили- затора. Сначала введем два предположения, влияющие на выбор фа- зовых переменных. Первое— будем считать, что ротор гироскопа вра- щается вокруг собственной оси вращения с постоянной угловой ско- ростью Q, поддерживаемой специальным мотором. Второе — будем
§ 5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 181 рассматривать гиростабилизатор, у которого постоянные времени управляющей системы малы по сравнению с характерными временами угловых колебаний объекта с рамой и гироскопа. При таком предполо- жении динамические процессы в управляющей системе происходят значительно быстрее угловых колебаний. Если в каждый момент вре- мени положение объекта с рамой и гироскопа описать углами a, р и <р, где <р — угол поворота ротора гироскопа относительно кожуха, то введенное предположение позволяет разделить движения гиростабили- затора на медленные изменения углов а, р, <р и быстрые изменения переменных управляющей системы. Это разделение фазовых переменных на быстро и медленно меняющиеся аналогично тому, что было в задаче об автоколебаниях генератора с неоновой лампочкой, рассмотренной в § 2 гл. 3. В случае гиростабили- затора с малыми постоянными вре- мени управляющей системы мед- ленные изменения углов а, Р и <р оказываются устойчивыми по от- ношению к быстрым процессам в управляющей системе. Поэтому мо- жно пренебречь быстрыми процес- сами и изучать только медленные движения объекта с рамой и гиро- скопа. Для составления уравнений дви- жения гиростабилизатора восполь- зуемся формализмом Лагранжа. Л(Р) — приведенный момент инерции объекта и всех подвижных ча- стей гиростабилизатора относительно оси стабилизации, В — момент инерции гироскопа с кожухом относительно оси прецессии, С — момент инерции ротора относительно оси его собственного вращения. Зависи- мость А от Р объясняется тем, что при повороте гироскопа с кожухом вокруг оси прецессии изменяется их положение относительно оси ста- билизации. Будем отсчитывать угол Р от положительного направления оси перпендикулярной плоскости рамы (рис. 4.58). Тогда Л(Р) является четной функцией от р. Угловая скорость поворота гиростабилизатора вокруг оси стаби- лизации— а. Угловая скорость поворота гироскопа с кожухом вокруг оси прецессии — р. Угловая скорость Q ротора относительно оси соб- ственного вращения складывается из угловой скорости <р ротора отно- сительно кожуха гироскопа и проекции угловой скорости а на ось собственного вращения (рис. 4.58) и равна Q=<p—asinp. Запишем выражение для кинетической энергии системы 7’=|л(р)а2 + |вр2 + |С((р-аз1пР)2 (5.1)
182 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ и в соответствии с ним уравнения Лагранжа второго рода -^-[Л(Р) а — С (<р —а sin0) sinP] = Ma, Bp—у Л' (P)a2-f-C(q>—asin0)cosP-a = M₽, (5.2> -^-С(ф—asinP) = M<p, где Ма, Л4р, 7ИФ — моменты внешних сил относительно оси стаби- лизации, оси прецессии и оси собственного вращения ротора соответ- ственно. В соответствии со сделанным предположением Мф=0 и С (ср—-a sin[J) = CQ = Я и const, (5.3} где Н — собственный кинетический момент гироскопа. Условие (5.3) устанавливает связь между переменными а, р и <р. Лишь две из них независимы. Пусть это будут а и р. Тогда при учете условия (5.3) уравнения (5.2) перепишутся в виде А (Р)a-f- А' (Р)ар—НcosP-P = 2Wa, Вр—1л'(Р)^-)-Ясозр.а = Л1р. (5‘4> Момент 7Иа обобщенных сил относительно оси стабилизации скла- дывается из момента Л1“р (а) сил трения в опорах оси и момента Л4у (Р), развиваемого исполнительным устройством управляющей системы. Будем считать, что стабилизируемому положению объекта отвечает значение р = 0. В этом положении отсутствует управляющий момент, т. е. А4у(0) = 0. Момент Л4р определяется только силами трения в опорах оси прецессии и Л4р = Л4?р(р). Трение в опорах осей ком- бинированное— как вязкое, так и сухое. Моменты сил вязкого тре- ния будем считать пропорциональными с коэффициентами ha и скоростям аир соответственно, а моменты сил сухого трения будем описывать кулоновской характеристикой FTp(v), где v—относи- тельная скорость трущихся поверхностей (рис. 4.59). Согласно такой модели при и 7^=0 величина момента сил сухого трения постоянна,
§5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 183 а его направление противоположно направлению относительной ско- рости. При и = 0 момент трения может принимать любые значения, от —F до F. Функция, описывающая кулоновскую характеристику трения, является бесконечнозначной и может быть представлена таким образом: J — F sign и при v#=0, —F<FTP<F прн ц = 0. Что касается управляющего момента, то он зависит от характеристик управляющей системы. Мы рассмотрим два типа управления: линей- ное, когда управляющий момент пропорционален углу поворота гироскопа вокруг оси прецессии, т. е. А4у(Р)=МР, причем Л4>0 определяет коэффициент усиления управляющей системы, и релейное, характеристика которого изображена на рис. 4.60; здесь М — мак- симальное значение управляющего момента, 2£о — величина зоны нечу вствительности. Задача исследования уравнений (5.4) необычайно сложна. Поэтому мы упростим их, поступая так же, как в задаче регулирования угловой скорости паровой машины в предыдущем параграфе. Будем рассмат- ривать малые отклонения гиростабилизатора от стабилизируемого по- ложения, т. е. будем предполагать, что Р и а малы. Тогда, линеари- зуя левую часть уравнений (5.4) в окрестности значений Р=0 и а=0, получим Xi-/7p + <p(a)H-My(P)=0, 55 Вр + Яа+М|р(0) =0, ' где А — момент инерции гиростабилизатора относительно оси стаби- лизации при Р=0. Таким образом, мы получили линеаризованные уравнения соб- ственных движений одноосного гиростабилизатора при учете сил сухо- го и вязкого трения в опорах осей. Не останавливаясь на деталях ис- следования уравнений (5.5), будем интересоваться общим видом фазо- вого портрета собственных движений гиростабилизатора, его структур- ными особенностями и физической интерпретацией. Прежде всего заметим, 'что а в уравнения (5.5) не входит, а следо- вательно, за состояние динамической системы можно взять а, Р и р. Кроме этого, можно уменьшить число параметров, выделив существен- ные. Для этого введем новое время и произведем замену переменных: T = -^L=t, u=V~a~, У=/вр. Введем обозначения для параметров: - _ Н _ h _ hfj K = V^' Па~~^А' П?==Тв’ La=-^~, 1^=-Ц=, т = Мг^, Д = /вро. А,2 А р в W^AB
184 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Производную по новому времени т будем, как и прежде, обозначать точкой. Тогда уравнения (5.5) в новых переменных запишутся так: й = w—паи + mg (v)—Laf (и), v — w, (5.6) w = — и—n^w—Ltf (w). Смысл переменных и и и очевиден: и ~ а и v Параметры па и характеризуют моменты сил вязкого трения в опорах осей, a La и Lp пропорциональны максимальным значениям моментов сил сухого- трения. Параметр т пропорционален коэффициенту усиления управ- ляющей системы. Функция f(x) определяется условиями: f(x) = signr при х#=0 и —1 «Сf (0)«С 1 при х = 0. Функция g(v) определяется так: g(v') = v при линейном управлении и g(v) = —1 при v <—А, 0 при —А < v < А, 1 при v > А при релейном управлении. Первой рассмотрим математическую модель гиростабилизатора с линейным управлением в двух частных случаях, когда сухое трение учитывается либо только в оси прецессии, либо только в оси стабили- зации. Кроме того, будем считать, что вязкое трение в опорах оси пре- цессии отсутствует, т. е. в уравнениях (5.6) положим пр равным нулю. Начнем с частного случая, когда сухое трение учитывается только в оси прецессии. Полагая в (5.6) La=0 и опуская индексы у парамет- ров, запишем уравнения рассматриваемой модели в виде u = w—nu-j-mv, v — w, w = — u—Lf(w), (5.7) где у Lp опущен индекс. Параметры п, т и L положительны. Лишь два из них существенны: п и т, так как L можно удалить из уравнений заменой переменных u = Lu, v = Lv, w — Lw. За фазовые переменные выберем и, v и w. Фазовое пространство, обозначим его буквой R, трехмерное. Его общий вид показан на рис. 4.61. Особенность уравнений (5.4) состоит в том, что при ау>0 и w<0 они являются линейными дифференциальными уравнениями с по- стоянными коэффициентами. В соответствии с этим пространство R разделяется плоскостью да=0 на два полупространства R+(w>0) и R_(w<.0), в каждом из которых движение фазовой точки легко опреде- ляется интегрированием уравнений (5.7). Кроме того, в силу ин- вариантности уравнений (5.7) относительно замены и, v, w на —и, —v и —w фазовые траектории симметричны относительно начала ко- ординат — точки и=0, и=0, ау=О. Этот факт упрощает исследование
§ 5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 185 фазового портрета, позволяя ограничиться рассмотрением фазовых траекторий в одном из полупространств, скажем, /?+. Полупространства R+ и R_ примыкают друг к другу по плоскости а»=0. Как ведут себя фазовые траектории на ней? Из уравнений (5.4) при и=0, п=0 и to=0 следует, что в плоскости ш=0 есть целый отрезок OiO2 (пи—mv=0, —L^us^L) состояний равновесия. Что будет в дру- гих точках плоскости ау=О, уравнения (5.7) не определяют из-за раз- рывности и неоднозначности функции f(w)' при ау=О. Однако можно разумно доопределить поведение фазовой точки на плоскости, если рассмотреть ход фазовых траекторий в ее окрестности и использовать свойство непрерывности изменения состояния. Как следует из (5.7) и показано на рис. 4.61, плоскость ау=О разбивается двумя прямыми Г+(и=—L) и T_(u=L), проходящими через концевые точки Oi и О2 отрезка состояний равновесия, на три области: две полуплоскости G+(u<—L) и G+(u>L), в окрестностях которых фазовые траектории подходят к плоскости о>=0 в одном полупространстве и уходят от нее в другом, и полосу G(—L<u<jL), где фазовые траектории подходят к плоскости ау=О из обоих полупространств. Такой ход фазовых тра- екторий в окрестности плоскости позволяет доопределить поведе- ние фазовой точки на ней следующим образом: в областях G+ и G_ фазовая точка переходит через плоскость о>=0 с траекторий одного полупространства на траектории другого, которые в точках плоскости сшиваются по непрерывности, в полосе G фазовая точка остается на плоскости либо в состоянии равновесия, либо совершает сколь- зящее движение по плоскости в соответствии с уравнениями (5.7), доопределенными условием ау=О, ау=О. Скользящие движения уже знакомы нам из задачи о релейном авторулевом. Но в этом случае они появляются не из-за идеализаций в математической модели, а возни-
186 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ кают в связи с разрывностью и многозначностью характеристики сухого трения и поэтому специфичны для систем с сухим трением. Уравнения скользящих движений в соответствии с*(5.7) и условия- ми и?=0, щ=0 имеют вид У = Ц)> т U =---V п 0 ГП \ -nt un-—v0}e (5-8) где u0 и и0 — начальные значения при /=0 координат фазовой точки на полосе G. Как следует из (5.8) и показано на рис. 4.61, фазовая точка, двигаясь по траектории скользящего движения, либо асимпто- тически при t-^-oo приближается к одному из состояний равновесия, а это означает, что отрезок 0i02 состоит из устойчивых состояний рав- новесия, либо за конечное время приходит на границу полосы G и затем покидает ее, входя в R+ с Г+ и в R_ с Г_. В соответствии с общим видом фазо- вого пространства фазовые траектории полупространств R+ и R_ порождают то- чечные отображения Т+ и Т_ плоскости ау = О в себя. Отображение Т+ определено для точек области G+ и преобразует их в точки области С_ и полосы скользящих движений G. В силу центральной симмет- рии фазовых траекторий отображение Т _ преобразует область G_ в С+ и G. Точки полосы скользящих движений переходят либо в точки отрезка состояний равновесия, либо в точки границ полосы, к которым применимы преобразования Т+ и Т_. Введенные преобразования плоскости ®=0 в себя позволяют в рассматриваемом случае полностью исследовать ход фазовых траекто- рий и выяснить все особенности фазового портрета. Перейдем к рассмотрению структуры фазового портрета и зависи- мости ее от существенных параметров п и т. На рис. 4.62 изображено разбиение пространства n>0, т>0 параметров на области й2, й3, которым отвечают качественно различные фазовые портреты. Прямая /1 с уравнением т—п и кривая /2, разделяющие эти области, являются бифуркационными. Для параметров из области (щ, включая прямую разбиение фа- зового пространства R на траектории полностью определяется отрез- ком 0i02 устойчивых состояний равновесия, который в этом случае является глобально устойчивым. Почти все фазовые траектории попа- дают на полосу G в область притяжения состояний равновесия. Исклю- чение составляют траектории, приходящие из R+ и R_ непосредствен- но в состояния равновесия. Когда параметры принадлежат области й2 или й3, а также кривой /2, отрезок OjO2 по-прежнему состоит из устойчивых состояний рав- новесия, но его область притяжения не совпадает со всем пространст-
§ 5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 187 вом R. Ограничение области притяжения связано с наличием в фазовом пространстве неустойчивого предельного цикла седлового типа (рис. 4.63). Характерной особенностью такого предельного цикла является то, что через него проходят две сепаратрисные поверхности S+ и S". Поверхность S+ состоит из фазовых траекторий, асимптотически при- ближающихся к предельному циклу при £->4-оо, a S-— из траекто- рий, асимптотически приближающихся к нему при/-*—оо,т. е. на по- верхности S~ фазовые траектории удаляются от предельного цикла с Рис. 4.63 возрастанием времени. Сепаратрисные поверхности отделяют (сепари- руют) области фазового пространства с различным поведением траек- торий. Так, поверхность S+ ограничивает область й притяжения сос- тояний равновесия. Траектории в ней приходят к состояниям равно- весия точно так же, как для параметров из области Вне области й фазовые траектории, вновь и вновь пересекая плоскость щ=0, уда- ляются от поверхности S+, уходя с возрастанием времени в бесконеч- ность; при этом они асимптотически приближаются к сепаратрисной поверхности S-, которая является глобально устойчивым интеграль- ным многообразием. Проследим, как изменяется фазовый портрет при переходе пара- метров из области ю2 в й3. Для этого фиксируем один из параметров, например п, а т будем увеличивать от значения т=п. При т=п отре- зок состояний равновесия глобально устойчив. При увеличении т появляется из бесконечности седловой предельный цикл, сшитый из участков траекторий полупространств /?+ и R_. Его сепаратрисная поверхность S+ ограничивает область й притяжения состояний рав- новесия. При дальнейшем увеличении т размеры предельного цикла
188 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ уменьшаются, уменьшается и область Q. Когда параметры отвечают точ- ке на кривой /2, предельный цикл проходит через края полосы G. Далее, когда параметры переходят в область со3, у предельного цикла появля- ются участки траекторий скользящих движений (рис. 4.64). Теперь он сшит из двух участков траекторий в R+ и и двух участков траек- торий скользящих движений. С увеличением т размеры предельного цикла продолжают уменьшаться, уменьшается и область Q притяже- ния отрезка состояний равновесия. Рис. 4.64 Посмотрим, как в соответствии с фазовым портретом меняются переменные состояния динамической системы и какие при этом движе- ния совершает гиростабилизатор. Начнем с состояний равновесия. В состояниях равновесия фазовые переменные не изменяются и опреде- ляются соотношениями щ = 0, —пи—mv — Q. В соответствии со смыслом фазовых переменных (и~а, ®~Р) состояниям равновесия отвечают равномерные вращения рамы гиростабилизатора при неподвижном относительно оси прецессии гиро- скопе. При этом ось гироскопа отклонена от перпендикуляра к плос- кости рамы на любой угол, при котором гироскопический момент не превосходит максимального значения момента сухого трения. Такое установившееся движение гироскопических устройств называется соб- ственной прецессией. В данном случае оно связано с наличием сухого трения в опорах оси прецессии. Теперь — скользящие движения. Для них характерна неизмен- ность v, а и изменяется в соответствии с (5.8). Гироскоп оказывается как бы «заклиненным» силами сухого трения, а рама поворачивается
§ 5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 189- в одну сторону до тех пор, пока гироскопический момент, действующий по оси прецессии, станет больше максимального значения момента сухо- го трения и освободит гироскоп. Если это происходит, то гиростабили- затор выходит из скользящего режима; если нет, то приходит к одному из установившихся движений. Фазовым траекториям, сшитым по плоскости щ=0 и переходящим из R + в R_ и обратно, отвечают колебательные движения рамы и гиро- скопа. Когда параметры п и т принадлежат области colt колебания, затухают при любых начальных состояниях. Если параметры из й2. или <»!, то затухание будет лишь при начальных состояниях из области-. Q. При других начальных состояниях колебания нарастают. Теперь рассмотрим случай, когда сухое трение учитывается только> в оси стабилизации. Согласно (5.6) и сделанным ранее предположениям уравнения собственных движений гиростабилизатора в этом случае имеют вид u = w—nu-{-tnv—Lf(u), v = w, w= — и. (5.9) Фазовые переменные — и, v и w, фазовое пространство — трехмерное. Опуская анализ, который можно провести аналогично случаю, рас- смотренному первым, дадим описание общего вида фазового простран- ства R в соответствии с его изображением на рис. 4.65. Плоскость и— =0 разбивает пространство R на два полупространства R+ и /?_, где изменение состояния описывается линейными дифференциальными уравнениями. Прямые Г+(щ + /ии—L = 0) и Г_ (tt>-f-mu-f-L = 0) разделяют плоскость и=0 на три части: области G+, G_, где фазовые- траектории переходят из одного полупространства в другое, как пока- зано на рисунке, и полосу G скользящих движений. Уравнение сколь- зящих движений йу = щ0, v — v^ + wj, (5.10)
190 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ где да» и и0 — начальные значения w и v прн Z=0. На полосе G имеется •отрезок 0х02 (гзу=О, —Lim<Zv^Lltn) состояний равновесия. Поведение фазовых траекторий зависит от двух существенных пара- метров п и т. В плоскости (п, т) им отвечает первый квадрант, где п>0 и т>0. Прямая /1(хи=п) и кривая /2 разбивают его на три области g»i, <в2 и <в3 (рис. 4.66), отвечающие качественно различным фазовым портретам. Если т^п, то отрезок состояний равновесия глобально асимптоти- чески устойчив, как и в ранее рассмотренном случае математической модели гиростабилизатора при учете сухого трения только в оси пре- цессии. Однако в характере приближения фазовых траекторий к отрез- ку состояний равновесия есть существенное отличие, связанное с тем, что в рассматриваемом случае отрезок 0i02 состоит из неустойчивых состояний равновесия, но тем не менее представляет собой притяги- вающее множество траекторий системы. В зависимости от параметров могут быть различные способы приближения фазовых траекторий к от- резку состояний равновесия, один из которых показан на рис. 4.67. Фазовые траектории, как бы наматываясь на отрезок 0i02, асимпто- тически приближаются ко всему отрезку состояний равновесия, а не к отдельным его точкам. Когда параметры переходят через прямую в область со2, в фазовом пространстве из бесконечности появляется седловой предельный цикл, •сшитый из участков траекторий в R + и R_, сепаратрисная поверх- ность S+ которого ограничивает область притяжения отрезка состоя- ний равновесия. При приближении пара- метров к кривой /2 уменьшается размер пре- дельного цикла и уменьшается область притяжения состояния равновесия. Когда параметры отвечают кривой /2, предельный цикл проходит через границу полосы G. Кроме него существует континуум замкну- тых траекторий, сшитых из траекторий в R+, R-, и траекторий скользящих движе- ний (рис. 4.68). Это фазовый портрет в би- фуркационном случае. Когда параметры переходят в область й3, все замкнутые траектории исчезают, а отрезок состоя- ний равновесия становится неустойчивым. Рассмотрим интерпретацию фазового портрета с точки зрения из- менений фазовых переменных и движений гиростабилизатора. Состоя- ниям равновесия отвечают состояния покоя гиростабилизатора, но они физически неосуществимы из-за неустойчивости. Траекториям в полосе G отвечает скользящий режим работы гиростабилизатора, при котором, в силу (5.10) и смысла фазовых переменных, рама неподвиж- на и как бы зажата силами сухого трения, а гироскоп поворачивается с постоянной скоростью вокруг оси прецессии в одну сторону. В ка- кую сторону поворачивается гироскоп — определяется знаком ау0.
§ 5. гироскопическая стабилизация 19» Скользящее движение заканчивается, когда сумма гироскопического момента, действующего по оси стабилизации, и управляющего момента становится равной максимальному значению момента сухого трения. Рама освобождается, и дальнейшее движение происходит в соответст- вии с изменениями фазовых переменных на траекториях полупрост- ранств 7?+ или R_. Траекториям, переходящим из R+ в R_ и обратно» Рис. 4.67 отвечают колебательные движения рамы и гироскопа. При т^п коле- бательные движения затухают при любых начальных состояниях. Ес- ли параметры принадлежат области й2, то колебательные движения затухают только для начальных состояний из области притяжения от- резка состояний равновесия. При этом они переходят в движения, фа- зовый портрет которых в частном случае изображен на рис. 4.67. За- тухающие колебания рамы в этом случае чередуются с зонами застоя» а гироскоп колеблется около перпендикуляра к плоскости рамы, при- чем размах колебаний стремится к удвоенному значению отклонения»
192 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ при котором управляющий момент равен максимальному значению момента сухого трения. Если начальное состояние находится вне об- ласти притяжения отрезка состояний равновесия, то колебания рамы и гироскопа неограниченно нарастают. Для параметров из области со3 колебанияАнеограниченно нарастают при любых начальных состоя- ниях. Рассмотренный фазовый портрет собственных движений одноос- ного гиростабилизатора с учетом вязкого и сухого трения в оси стаби- лизации имеет отношение к задаче Вышнеградского о сходимости про- цесса прямого регулирования. Впервые эта задача при учете вязкого и сухого трения в регуляторе была поставлена И. А. Вышнеградским и им же решена в линейном случае отсутствия сухого трения. Он увидел связь сходимости процесса регулирования с устойчивостью состояния равновесия системы «машина — регулятор» и построил знаменитую диаграмму (рис. 4.51), выделяющую в плоскости существенных пара- метров А и В (впоследствии их стали называть параметрами Вышне- градского) области сходимости и расходимости процесса регулирова- ния. Параметр А пропорционален дифференциальной неравномерности системы «машина—регулятор», а В — коэффициенту вязкого трения. Кроме того, Вышнеградский дал практические рекомендации кон- струирования регуляторов в виде знаменитых тезисов, один из кото- рых о том, что без катаракта (специального устройства, создающего вязкое трение) невозможно регулирование, вызвал ожесточенные споры и впоследствии даже дал повод говорить об «ошибке Вышнеградского», якобы отрицавшего роль сухого трения в обеспечении сходимости про- цесса регулирования. На самом деле у Вышнеградского ошибки не было. Это выяснили А. А. Андронов и Й. Н. Вознесенский. В истори- ко-научном исследовании возникновения теории автоматического ре- гулирования они показали, что И. А. Вышнеградский отчетливо по- нимал роль сухого трения в обеспечении сходимости процесса регули- рования, но считал его вредным фактором, с которым надо неукосни- тельно бороться, так как сухое трение приводит к появлению у регуля- тора зон застоя и снижению из-за этого его чувствительности. Именно поэтому и возник тезис о катаракте. Тем не менее в конце прошлого века и начале нынешнего появилось множество работ с исследованиями влияния сухого трения в регуляторе на сходимость процесса регули- рования. Рассматривался как частный случай учета только сухого трения, так и общий в постановке И. А. Вышнеградского. Ученые раз- ных стран занимались этой важной для теории регулирования зада- чей. Было получено много частных результатов. Но в общей постановке она оставалась нерешенной более 50 лет. И лишь в 1945 г. впервые были опубликованы результаты полного исследования задачи Вышне- градского, выполненного А. А. Андроновым и А. Г. Майером. Вернемся к выяснению того, как связан фазовый портрет гироста- билизатора со знаменитой задачей Выщнеградского. Если учесть су- хое трение в регуляторе, то уравнения динамики системы прямого ре- гулирования угловой скорости машины в постановке Вышнеградского
§ 5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 193 в соответствии с (4.12) примут вид /< = Л4е-П, Cn-m + (V'—(5.11) где и т] — отклонения угловой скорости машины и угла отклонения шаров центробежного регулятора от их равновесного значения Q и 0, L/(t]) — момент сухого кулоновского трения, функция f (ц)=sign ц при т]#=0 и —1 <С/(О)<С1 при т]=0, L — максимальное значение момен- та сухого трения. 1/ 1'Q I Ml I Введем новое время т=Х/, где X — у ---, новые пере- менные О.2 1'0 t *=—п, у=—1 и обозначим производную по новому времени точкой, тогда уравнения (5.11) перепишутся в виде x = z, у =— х, г — — Ах-\-у—Вг—f(2). (5.12) Знак минус во втором уравнении получается потому, что Al^CO при правильно включенном регуляторе. Постоянные д = (V—1/"Q2) /сх2, B=hic\ являются параметрами Вышнеградского. По физическому смыслу па- раметр В — неотрицательный, В2>0. Параметр А связан с дифферен- циальной неравномерностью системы «машина — регулятор». Чтобы увидеть эту связь, преобразуем А с помощью (4.5) к виду Л = —-^-П. Таким образом, мы привели уравнения (5.11) к виду (5.12). Именно в таком виде рассматривали задачу Вышнеградского А. А. Андронов и А. Г. Майер. Перейдем к описанию фазового портрета системы (5.12) и зависи- мости его от параметров. Поэтому вместе с фазовым пространством пе- ременных х, у, г будем рассматривать полуплоскость парамет- ров А и В. Фазовое пространство — трехмерное. Плоскость г=0 раз- деляет его на два полупространства г>0 и z<0, в каждом из которых движение фазовой точки описывается линейными дифференциальными уравнениями с постоянными коэффициентами. В плоскости z=0 сты- ковки полупространства z>0 и г<0 имеется полоса G скользящих движений —1 г;' у—1, в которой движение фазовой точки описывается уравнениями х = 0, у——х.
194 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ В полосе скользящих движений расположен отрезок 0г02 состояний равновесия, уравнение которого х = 0, —1 1. В соответствии со смыслом фазовых переменных точкам отрезка состояний равновесия отвечают различные неизменные значения ско- рости машины при одном и том же положении регулирующего органа (муфты в случае центробежного регулятора Уатта). Движению фазовой точки в полосе скользящих движений соответствует равномерное уве- личение скорости машины при неизменном положении муфты регуля- тора. Регулятор не реагирует на изменения скорости машины. Это происходит из-за сухого трения, которое как бы заклинивает муфту, вызывая застои регулятора. Выход регулятора из зоны застоя проис- д ходит, когда фазовая точка, достигнув 1 границы полосы скользящих движений, Ц покидает ее, уходя в полупространства \\ г>0 или z<0. \\ Поведение фазовой точки на плоское- 2 ’ \\ ти г=0, вне полосы скользящих движе- \ у ний, доопределяется по непрерывности. 1 \ Здесь фазовые траектории, сшиваясь по \ непрерывности, пересекают плоскость э5 2=6, переходя из одного полупростран- •—-----р4----£---------ства в другое. На рис. 4.69 изображен рис 4 70 общий вид фазового пространства. Перейдем к описанию фазового портрета и его зависимости от пара- метров. В полуплоскости В О параметров А и В кривые .2\ и выделяют области <&2 и (рис. 4.70), соответствующие качественно различным разбиениям фазового пространства на траек- тории. Параметрам из области &)х отвечают глобально устойчивые
§ 5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 195 системы прямого регулирования. В этом случае отрезок состояний равновесия глобально асимптотически устойчив, т. е. его областью притяжения является все фазовое пространство. Процесс регулиро- вания сходится при любых начальных состояниях. Кривая огра- ничивающая область ^)х, имеет уравнение ДВ = 1. Это знаменитая гипербола в диаграмме Вышнеградского (рис. 4.51). Области @)3, ограниченной кривой =2% и частью оси В = 0, отвечают неустойчи- вые системы. В этом случае поведение фазовых траекторий опреде- ляется неустойчивым отрезком состояний равновесия. Процесс регу- лирования расходится для любых начальных состояний. Область ,®2 соответствует условно устойчивым системам. Отрезок состояний рав- новесия в этом случае устойчив, но его областью притяжения яв- ляется только часть фазового пространства, ограниченная S+—сепа- ратрисными поверхностями седлового предельного цикла. При всяких начальных состояниях из области притяжения отрезка состояний равновесия процесс регулирования сходится; при других—расхо- дится. Область З)3 условно устойчивых систем является тем новым, что привнес в диаграмму Вышнеградского учет сухого трения в регулято- ре. Сухое трение увеличивает область сходимости процесса регулиро- вания и даже обеспечивает сходимость при отсутствии вязкого трения катаракта. На рис. 4.70 области сходимости процесса регулирования при отсутствии катаракта отвечает часть оси А правее точки пересе- чения ее с кривой Теперь сравним общий вид фазового пространства на рис. 4.69 и описание фазового портрета задачи Вышнеградского с общим видом фазового пространства на рис. 4.65 и описанием фазового портрета собственных движений гиростабилизатора. С удивлением замечаем, что они качественно одинаковы. Это говорит о том, что динамические процессы в них протекают одинаково, подчиняясь одним и тем же за- кономерностям, а также о том, что фазовый портрет является адекват- ным их описанием. Это наталкивает на мысль о том, что должны су- ществовать преобразования, переводящие одну задачу в другую. И дей- ствительно, такое преобразование есть. Если сделать замену перемен- ных x=—y/mw, У = у tn2v, z = u и параметров Д = (т)-2'/з, В = п то уравнения (5.9) перейдут в уравнения (5.12), а диаграмма, изобра- женная на рис. 4.66, в диаграмму задачи Вышнеградского. Этот пример поучителен тем, что наглядно показывает, что разные системы с разными физическими смыслами фазовых переменных и параметров могут иметь одинаковые фазовые портреты и, следователь- но, обладать в этом смысле одинаковыми свойствами и динамическим поведением.
196 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Следующей рассмотрим математическую модель собственных коле- баний одноосного гиростабилизатора с релейным управлением. Такой закон управления довольно распространен в различных системах и, в частности, в гироскопии. Дело в том, что он позволяет даже при малых командных сигналах получать максимальные управляющие воздей- ствия. Модель, которую мы рассмотрим, описывается уравнением (5.6). Мы рассмотрим ее вариант, когда из сил трения учитывается лишь сухое трение в оси прецессии, т. е. на=пр = 0 и La—Q, и от- сутствует зона нечувствительности в управляющем устройстве, т. е. Д = 0. Тогда после замены переменных u — L^u', v = L$v', w = L$wr и параметра m = L$m' с последующим опусканием штрихов урав- нения (5.6) перепишутся следующим образом: u = w4-mg (v), v = w, Wes— u—fjw), (5.13) где g(v)=sign v и f(w)=sign w при w^=0, — 1^/(0)^1, а параметр m пропорционален отношению максимального значения управляющего момента к максимальному значению момента сил сухого трения. За фазовые выбираем переменные u, v, w. Фазовое пространство R — трехмерное. Разбиение его на траектории для различных значе- ний параметра т приведено на рис. 4.71, 4.72. На плоскости w=0 расположена полоса скользящих движений. Уравнения скользящих движений получаются из (5.8) при доопределении их условиями w=0, ау=0 и имеют вид и=и0 и п=п0+т/, где и0, и0—начальные значения и, v на полосе скользящих движений. Знак плюс берется при v0>Q, знак минус — при о»<0. Скользящим движениям отвечает режим работы гиростабилизатора, когда гироскоп неподвижен, а рама поворачивает-
§5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 197 ся вокруг оси стабилизации с постоянным ускорением т в одну сто- рону при v0>0 или в другую при vo<0. На полосе скользящих движений расположен отрезок 0±02 состояний равновесия. Состояниям равнове- сия соответствуют равномерные вращения рамы стабилизатора^при неподвижном относительно оси прецессии гироскопе. При т=0,78 в фазовом пространстве существует единственный гло- бально устойчивый симметричный относительно начала координат пре- дельный цикл Г (рис. 4.71). Предельный цикл состоит из двух участков траекторий полупространств ш>0 и w<0 и двух участков скользящего движения. Областью притяжения предельного цикла является все фа- зовое пространство; при этом отрезок состояний равновесия неустой- чив. Фазовые траектории, начинающиеся в любой конечной части фа- зового пространства, например, при и>0, образуют как бы обмотку скручивающихся цилиндрических поверхностей и идут к плоскости п=0. После первого пересечения плоскости и=0 они вновь и вновь ее пересекают, асимптотически приближаясь к предельному циклу. При увеличении т уменьшаются участки скользящих движений предельного цикла, а его размеры увеличиваются. Когда т=т*, участки скользящих движений исчезают, и предельный цикл проходит через границы полосы скользящих движений. При дальнейшем уве- личении т вплоть до единицы размеры предельного цикла увеличи- ваются, и при т=1 он уходит в бесконечность. При т>1 все фазовые траектории, вновь и вновь пересекая плоскость и=0, уходят в беско- нечность (рис. 4.72). Какие же движения гиростабилизатора отвечают рассмотренным фазовым портретам? При т<1 у системы есть единственное установив- шееся движение. Им является автоколебание, отвечающее устойчиво- му предельному циклу. Автоколебание устанавливается при любых начальных состояниях. Характер изменения состояния при автоколе- бании зависит от параметра т. Если т</п*, то автоколебание содер- жит участки скользящих движений. Зависимости и и v от времени для
198 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ этого случая изображены на рис. 4.73, а. Прямолинейные участки на графике u(t) и v(t) соответствуют скользящим движениям, период ав- токолебаний больше периода нутационных колебаний свободной гиро- скопической системы и при т^-1 стремится к нему. Когда Рис. 4.73 то скользящих движений нет; изменение и и и от времени показано на рис. 4.73, б. Если m^l, то движения гиростабилизатора представляют собой колебания рамы и гироскопа со все увеличивающимися раз- махами. Последней рассмотрим математическую модель одноосного гиро- стабилизатора с релейным управлением, но при учете только сил сухого трения в опорах оси стабилизации, т. е. па —п.^ =0, Ер =0. В этом случае система (5.6) после замены переменных u = Lau', v = Lav', w = Law' и параметра tn = Latn' и опускания штрихов запишется так: й = w + mg (v)~ f(u), v = w, w = — u, (5.14) где /(u)=signu при u=^0 и —1</(0)<1, функция g(v) определяет- ся выражением ( —1 при v < —А, g (у) = 0 при — А < v < А, + 1 при v > А. Параметр т равен отношению максимального значения управляющего момента к максимальному значению момента сил сухого трения, а па- раметр А характеризует зону нечувствительности управляющей сис- темы. Сначала будем считать А=0. Фазовый портрет системы зависит от одного параметра т. Когда т<1, система имеет целую прямую состоя- ний равновесия (рис. 4.74). На плоскости имеются две полуполосы скользящих движений (т—1) ^u)^(/n+l), v<0 и (—т—(—т+ 1), v>0. Траектории на них определяются из (5.14) при условии ы=0, и=0 и имеют вид w=w0, v=vB+wBt, где vB, wB — начальные значения v и w в области скользящих движений при t=Q. При m<gl фазовая точ- ка за конечное время попадает в область скользящих движений на по- лосу т— 1^Си> —т+1 и далее движется по траекториям скользя- щих движений, уходя в бесконечность либо при у<0, либо при и>0, как показано на рис. 4.74.
§5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 199 При т=\ прямая состояний равновесия является частью границы области скользящих движений. Плоскость и—и=0 является интеграль- ной, заполненной замкнутыми траекториями — окружностями с цент- ром в начале координат. Замкнутые траектории, проходящие через точки — 2^ю^2 оси w, образуют притягивающее множество S. Фа- зовая точка из любой конечной части фазового пространства приходит Рис. 4.74 в область скользящих движений и дальше по траектории скользящих движений на замкнутую кривую множества S. Исключение составляют лишь состояния равновесия и замкнутые траектории, не принадлежа- щие S. Но они все неустойчивые. Фазовая точка, выведенная сколь угодно малым возмущением из любого такого состояния, попадает в область притяжения множества S (рис. 4.75). Таким образом, при и<1 прямая состояний равновесия притяги- вает к себе все фазовые траектории, но каждое состояние равновесия оказывается неустойчивым. Фазовая точка уходит из окрестности любого состояния равновесия. Случай т=1 является граничным би-
200 ГЛ. 4. управляемые динамические системы фуркационным, разделяющим фазовые портреты системы для и /п>1. Когда /и>1, у системы имеется лишь одно состояние равновесия в начале координат (рис. 4.76). Это состояние неустойчивое, фазовые траектории из любой конечной части фазового пространства приходят к плоскости и=0, пересекают ее и затем, пересекая ее вновь и вновь, уходят в бесконечность. А теперь дадим интерпретацию фазового портрета системы с точки зрения ее движений. Состояниям равновесия отвечают состояния по- коя гиростабилизатора, когда рама и гироскоп неподвижны. При т^1 таких состояний бесконечно много. Это связано с тем, что рама оказы- вается как бы «заклиненной» силами сухого трения, а управляющий момент мал, он меньше момента сил сухого трения, и поэтому при от- сутствии гироскопического момента не может вывести раму из состоя- ния покоя, каким бы ни было положение гироскопа. Если т>1, то состояние покоя одно — когда рама неподвижна, а' гироскоп занимает такое положение, при котором нет управляющего момента. Траекториям области скользящих движений соответствуют движе- ния гиростабилизатора, при которых рама неподвижна, а гироскоп поворачивается вокруг оси прецессии с постоянной угловой скоростью в направлении уменьшения угла прецессии. Когда угол прецессии ста- новится равным нулю, переключается реле управляющей системы, и гиростабилизатор выходит из скользящего режима. При m<Zl траек- ториям в полосе —т+1 (рис. 4.74) соответствуют движения, при которых сумма гироскопического момента и управляющего момен- та не превышает максимального значения момента сил сухого трения в опорах оси стабилизации. В этом случае рама «заклинивается» си- лами сухого трения, а гироскоп прецессирует с постоянной скоростью. Из любого начального состояния гиростабилизатор приходит к движе- ниям с «заклиненной» рамой. Если т>1, то рама и гироскоп соверша- ют колебания около среднего положения со все увеличивающимися размахами.
§5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 201 Таким образом, при релейном управлении гиростабилизатором су- хое трение в оси стабилизации не обеспечивает устойчивых установив- шихся режимов работы. т*1 а) т<1 А теперь посмотрим, как изменяется фазовый портрет системы, ес- ли мы учтем нечувствительность управляющей системы, Д=^0. Прежде всего отметим, что в фазовом пространстве появляется область — слой — Д^и^Д, который отвечает зоне нечувствительности управ- ляющей системы. К скользящим движениям добавляется еще одна об- ласть G: и=0, —Д^и^Д, —1<и<1, траектории в которой соответст- вуют движения с «заклиненной» рамой, но уже при отсутствии управ- ляющего момента. Вид областей скользящих движений при различных значениях параметра т приведен на рис. 4.77. Мы видим, что при структура областей скользящих дижений существенно не изменилась,
202 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ лишь появились участки движений по траекториям области G. Как и в случае Д=0, в области скользящих движений расположена пря- мая — ось v состояний равновесия. При т>\ есть существенные изменения. Здесь уже не одно состоя- ние равновесия, а целый отрезок. И это понятно, так как состояние покоя гиростабилизатора при «заклиненной» силами сухого трения раме возможно при тех положениях гироскопа, когда отсутствует управляющий момент, а он как раз и отсутствует при —Д^и^Д. Разбиение фазового пространства на траектории при т<1 по су- ществу ничем не отличается от фазового портрета системы при т<1, Д=0. Из любого начального положения фазовая точка за конечное время приходит на полосу т— /и+1 в области скользящих движений и дальше движется по траектории скользящего движения вдоль прямой состояний равновесия вправо, если w>0, или влево, если w<Q, т. е. точно так же, как при Д=0. При т=1 уже есть некоторые отличия в фазовом портрете. В фазо- вом пространстве нет интегральной поверхности, заполненной замкну- тыми траекториями. Существует лишь континуум S замкнутых траек- торий, состоящих из полуокружностей в полуплоскостях и — v=—Д при и^гД и и—о=Д при —Л. проходящих через точки и=0, и=Д, — и п=0, о=—Д, —1 1, и участков траекторий скользя- щих движений в области G (рис. 4.78). Это множество замкнутых траек- торий устойчиво. Фазовая точка, двигаясь по любой траектории, попа- дает на полосу —области скользящих движений и затем по траектории скользящего движения проходит на замкнутую траекто- рию. Исключение составляют лишь траектории, попадающие непо- средственно в состояние равновесия. Состояния равновесия неустой- чивы, так же как и в случае Д=0. Если с помощью сколь угодно мало- го возмущения вывести фазовую точку из состояния равновесия, то
§5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 203 она по траектории скользящего движения придет на множество замкну- тых траекторий. Наиболее существенные изменения в фазовом портрете происходят при /т£>1. В этом случае отрезок состояний равновесия по-прежнему неустойчив. Но в плоскости параметров т и А появляется область, назовем ее областью С, при значениях параметров из которой в фазо- вом пространстве существует конечная замкнутая область 2 притяже- ния фазовых траекторий (рис. 4.79). Сама область 2 заполнена траек- ториями, которые ее не покидают, в частности, в области 2 находится отрезок состояний равновесия и область скользящих движений G. Рис. 4.79 Поэтому, если фазовая точка попала в область 2, то по траекториям системы покинуть ее она не может. Характерной особенностью области 2 является то, что в ней нет элементов притяжения фазовых траекто- рий. Все траектории в ней неустойчивы, и фазовая точка, двигаясь по фазовым траекториям, как бы блуждает по области 2, никогда не пов- торяя своего движения, за исключением, может быть, замкнутых тра- екторий, которые могут быть сколь угодно сложными, но обязатель- но неустойчивыми. Такие установившиеся движения называют сто- хастическими автоколебаниями. Если смотреть изменение фазового портрета при непрерывном изме- нении параметра т, то легко заметить, что область 2 образуется из множества S замкнутых траекторий при т=1. Все траектории в облас- ти 2 обязательно проходят через отрезок /: 0 оси w,n поэтому их изучение может быть сведено к исследованию точечного отображения отрезка I в себя. Если обозначить через w исходную точку, а через w точку, получающуюся после применения отображения, то функция последования w=f(w) выглядит, как показано на рис. 4.80, а. Из гра- фика функции последования видно, что последовательные итерации отображения I в себя блуждают по отрезку, не покидая его. Как интерпретируются стохастические автоколебания с точки зре- ния движения системы? Им отвечают нерегулярные колебания рамы и
204 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ гироскопа, в которых нет никакой детерминированной закономернос- ти. Они не повторяются, но все же размахи колебаний и скорости ос- таются ограниченными. Вся остальная часть фазового пространства делится на область притяжения стохастических автоколебаний и область, где движения гиростабилизатора неустойчивы, к е. где фазовые траектории уходят в бесконечность. При тех значениях параметров А, т, когда функция последования w=f(w) отображения отрезка I в себя имеет вид, показанный на рис. 4.80, б, в фазовом пространстве нет элементов притяжения фазовых траекторий, Все они, за исключением отрезка состояний равновесия, уходят в бесконечность (рис. 4.81). Фазовым траекториям в этом слу-
§6. АВТОКОЛЕБАТЕЛЬНАЯ ДВУНОГАЯ ХОДЬБА 205 чае соответствуют колебания рамы и гироскопа с увеличивающимися разМахами. Итак, сухое трение в оси стабилизации может обеспечить устано- вившиеся движения в виде стохастических автоколебаний. § 6. Управляемая автоколебательная двуногая ходьба Ходьбу человека рассматривал уже Леонардо да Винчи (1452— 1519). Его интересовали условия равновесия, и он понял^ что ходьба возникает тогда, когда они нарушаются, и человек начинает падать и, чтобы не упасть, подставляет ноги и движется вперед. Такой же схе- мы ходьбы придерживался физиолог П. Бер (1833—1886) в своих из- вестных и неоднократно переиздаваемых (1882, 1891, 1897, 1904) в России лекциях по физиологии. В прошлом веке для изучения ходьбы В. Брауном и О. Фишером создавались специальные измерительные приборы. Особый интерес ходьба приобрела в последнее время в связи с проб- лемами создания шагающих автоматов. Определенный интерес к ней вызван проблемами протезирования нижних конечностей и спорта. Очень детальное изучение ходьбы человека проводил Н. А. Бернштейн. В изданной под его редакцией книге подчеркивается необычайная сложность ходьбы и высокая координированность ее движений. Действительно, ходьба очень сложна, в ее организации участвуют ноги, корпус, руки, десятки мышц. Как все это описать, как все это повторить в автомате? Нужно множество сенсорных (измерительных) систем, их данные необходимо обрабатывать и по ним принимать реше- ния о движениях. Эти движения все время должны корректироваться. Все это едва ли под силу современной ЭВМ, во всяком случае она не сможет все это сделать с требуемой быстротой или, как говорят, в ре- альном масштабе времени. Но ведь мы ходим, ходим, не задумываясь. Так что как-то мы это делаем. Можно предположить, что все происходит по отработанной за- ранее программе. В какой-то мере это, конечно, так. При ходьбе по пересеченной местности мы уже не столь свободны, наш мозг занят, и мы не очень можем отвлекаться посторонними делами. И все же прос- тота и легкость, с которой мы ходим, не может не натолкнуть на мысль, что природа нашла какие-то другие способы организации сложных движений, отличные от управления ими во всех деталях и взаимосвя- зях, от непосредственной и прямой организации всего этого гармонич- ного оркестра движений. Воспользуемся и продолжим аналогию с ор- кестром. Представьте себе, что дирижер вздумал бы в буквальном смыс- ле управлять каждым оркестрантом. Ясно, что эта безумная затея не имела бы успеха. Каждый из оркестрантов сам управляет своими дви- жениями, а дирижер лишь координирует и задает эти управления: он определяет темп игры, громкость звучания, акценты, окраску звуча- ния, иногда моменты вступления тех или иных групп инструментов, длительности пауз. Он лишь дирижер оркестра, где каждый оркест-
206 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ рант играет сам. Может быть, и отдельные элементы ходьбы так же организованы, так же локализованы отдельные функции, которые в свою очередь координируются «дирижером»? Попробуем эту общую и несколько расплывчатую идею реализовать и то, что у нас получится, назовем шагалкой. Шагалка должна передвигать ноги, они вовремя должны быть в нужных положениях. Это поручим одному из оркестрантов. Пусть это он делает сам, подчиняясь требованиям дирижера. Далее мы отталкиваемся ногами от земли, работаем стопами ног — это еще один оркестрант. Мы поддержи- ваем при ходьбе определенное по- ложение корпуса — еще оркест- рант. Пока хватит. Уточним их функции и механическую модель шагалки, поймем место и роль ди- рижера. Механическую часть шагалки представим в видедвух ног, которые могут переставляться и немного ме- нять свою длину, и корпуса. Корпус и ноги соединены в некотором месте и могут двигаться мышцами от- носительно друг друга. Уточним и идеализируем наши представления. Ноги — это невесомые стержни, корпус — тоже стержень, его массу т сосредоточим на его конце. Стержни ног и корпуса шарнирно соеди- нены в одной точке. Все это изображено на рис. 4.82. Буквы Hi и Н2 обозначают ноги, буква К — корпус. Буква О означает шарнир, сое- диняющий корпус К и ноги Нх и Н2. Напомним, что ноги Н2 и Н2 — невесомые, а масса корпуса ради простоты сосредоточена в одной точ- ке. Шагалка имеет исполнительные устройства (мышцы), которые мо- гут создавать моменты Mi и М2 между корпусом и ногами Hi и Н2 со- ответственно. Специальной мышцы, создающей момент между ногами Нх и Н2, нет. Ноги могут удлиняться, реализующую это удлинение силу обозначим R. Отметим, что ноги человека не могут удлиняться, но зато они имеют коленные суставы и стопы. Функции коленного сустава и стопы мы схематизируем и представим в виде невесомого стержня, могущего поворачиваться вокруг точки О и менять свою дли- ну. (Это делается ради упрощения, можно было бы взять и более близ- кую к ноге схему. Это мы сделаем несколько позднее, когда заинтере- суемся работой оркестранта ног.) Итак, механическая часть шагалки описана, реализующие ее дви- жение моменты и силы указаны. Надо дать задания оркестрантам. Но прежде чем их сформулировать, представим себе ту симфонию, ко- торую они должны исполнять. Движение шагалки — это периоди- ческий процесс. Каждый период этого процесса распадается на фазы. Эти фазы для ходьбы и бега — разные. Ограничимся ходьбой. В ней
§6. АВТОКОЛЕБАТЕЛЬНАЯ ДВУНОГАЯ ХОДЬБА 207 Рис. 4.83 можно выделить две фазы: фазу перекатывания на опорной ноге и фазу смены опорной ноги. Фаза смены опорной ноги предполагает не- которую подготовку к ней и, наконец, смену опорной ноги. Наблю- дение за ходьбой человека показывает, что фаза переката на опорной ноге, когда человек опирается только на одну ногу и, вращаясь вокруг точки опоры, переносит свое тело вперед, занимает основное время движения, примерно 4/5 его части. Напротив, фаза смены опорной ноги, при которой он опирается на землю обеими ногами, сравнитель- но короткая, порядка 1/5 общего времени. На рис. 4.83 схематически изображены эти фазы движения. Во второй фазе в течение не очень длительного времени происходит пе- ренос тяжести тела с ноги Hj на ногу Н2 (смена опорной ноги), после этого происходит перекат на ноге Н2, затем снова смена опорной ноги, пе- рекат и так далее. По возможности упростим эту схему движения. Примем, что пере- кат на опорной ноге происходит при ее неизменной длине. Смена опор- ной ноги пусть происходит мгновенно. Она сопровождается толчко- вым импульсом задней ноги и мгновенным перемещением вследствие этого веса тела на другую, своевременно выставленную вперед ногу. Итак, симфония описана. Скорее это уже не симфония, а адапти- рованная простенькая пьеса для начинающих. В оркестре три музы- канта. Один должен переставлять свободную ногу так, чтобы она была впереди опорной и составляла с ней угол 2а. Второй должен поддер- живать положение корпуса так, чтобы он все время составлял некото- рый угол Р с вертикалью. Наконец, третий оркестрант должен перед моментом смены опорной ноги совершить толчок опорной ногой. Без третьего оркестранта можно обойтись: и без него будет происхо- дить смена ног и ходьба. Мелодию играет не он, он лишь аккомпани- рует, но и аккомпанемент важен. Сначала разыграем мелодию с дву- мя оркестрантами, двухголосную фугу, в которой один голос перепле- тается с другим, и все повторяется и повторяется. 1. Исследование движений [шагалки без толчкового импульса. Шагалка, как уже говорилось, состоит из трех стержней, два из которых длины I имитируют ноги, а третий длины К — корпус. В точке О они соединены шарниром, поз- воляющим им вращаться вокруг нее. Вся масса шагалки сосредоточе- на на конце стержня, изображающего корпус. Перемещение шагалки плоское, такое, что во время него она опи- рается концами стержней, изображающих ноги, о некоторую прямую L. Эта прямая L наклонена к горизонту под углом 6. Положительному 6 соответствует подъем, отрицательному — спуск (рис. 4.82). Во время перемещения по прямой L шагалка опирается о нее попе- ременно то одной, то другой ногой. Ногу, на которую она в данный мо-
208 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ мент опирается, назовем опорной. Угол опорной ноги с вертикалью обозначим через ср. Пусть if — угол корпуса с вертикалью. Углы ср и if задают положение шагалки с точностью до параллельного переноса вдоль прямой L. Шарнир 0 снабжен устройством, способным создавать моменты между корпусом и каждой из ног. Шагалка имеет управляющее устройство. Осуществляемое им управ- ление предполагается таким, чтобы свободная нога находилась перед опорной и образовывала с ней угол 2а и чтобы угол наклона корпуса if все время равнялся некоторому заданному углу (3. Таким образом, первый уровень управления шагалки должен стабилизировать наклон корпуса и выводить свободную ногу перед опорной, образуя с ней определенный угол. Величины угла р наклона корпуса и угла 2а шага определяются следующим, вторым уровнем управления. Рассмотрим движение шагалки, предполагая, что первый уровень управления справляется со своей задачей и поддерживает заданные вторЫМ'уровнем величины управляющих параметров аир. Для составления уравнений движений используем формализм Лаг- ранжа. Возьмем систему координат Оху. Ось х горизонтальна, у вер- тикальна. Координаты х и у массы т равны х = -f-1 cos ф + К cos if, у = у0 +1 sin ф + К sin if, где х0, ул — координаты точки опоры шагалки. Теперь непосредственно находим кинетическую Т и потенциальную V энергии массы т шагалки: Т = -^ {/2Ф2 + К2ф2 + 2К7фф cos (ф—if)}, V = mg (/ cos ф + К cos if). Виртуальная работа момента М между корпусом и опорной ногой равна 6 Л = Л16 (ф—if) = А4бф — А46ф. В соответствии с этим уравнения Лагранжа записываются в виде d dT dT dr м d дТ дг I ду . , М dt dq ‘dip ' dt dxjj dif ' dif Подставляя в них выписанные выше выражения для функций Т и V, придем к уравнениям вида т/2ф-f-mK/if cos (ф—if) + mK.1 sin (ф—if) — mgl sin ф = М, (6.1) тК2ф-|-/пК/фсоз (ф—if)—tnlK sin (ф—if) — mgK sin if = —M. Момент M системой управления шагалки выбирается так, чтобы if Учитывая это, т. е. то, что угол if в уравнениях (6.1) постоянен и равен
§6. АВТОКОЛЕБАТЕЛЬНАЯ ДВУНОГАЯ ХОДЬБА 209 Р, запишем их в виде m/2<p—mg/sin(p = 44, mKJq — m/CZcp2sin(<p—[}) — mg/(sinP = — М. Эти уравнения позволяют найти закон изменения угла ср и найти управ- ляющий момент М. Уравнение для <р имеет вид [1 + х cos (ср—Р)] ср—хер2 sin (ср—р)—св2 sin ср—хсо2 sin 0 = О, (6.3) где х=О и <o2=g7Z. Это уравнение (6.3) имеет первый интеграл, который записывается в виде f(cp)cp2—F (ср) = const, (6.4) где f (ф) = [1 4-х cos (ср—Р)]2, F (ср) = 2 (со2 sin ср-}-хсо2 sin(3) (ср) dcp. При не очень больших ср и Р, когда х(1— cos (ср—Р))<^1, он приобре- тает вид 1+^ ср2+®2 COS ср—хсо2 sin Р = const. (6.6) Заметим, что (6.6) можно непосредственно получить из уравнения (6.3), если принять cos (ср—Р) = 1 и отбросить член с ср2. В дальнейшем ин- теграл (6.6) будет использоваться для получения приближенных оце- нок и упрощения вида формул. Фазовый портрет, отвечающий уравнению (6.4), изображен на рис. 4.84. Точка О(ср=сро, ср=О) отвечает седловому равновесию. Через нее проходят сепаратрисы, разделяющие различные типы движений. Пе- рекатыванию через опорную ногу соответствуют фазовые траектории, находящиеся в верхнем угле между сепаратрисами S+ и S-. Пусть cpt, cpi и сра, ср2 — начальные и конечные состояния шагалки в фазе перекатывания на опорной ноге. Из геометрических соображе- ний видно, что ср!=—а—6, а ср2=а—6. Соответствующий чертеж фазы смены ног представлен на рис. 4.85. Для осуществимости фазы пере- катывания точка срг=—а—6, срг должна лежать выше сепаратрисы S+ (рис. 4.84), и реакция опоры должна соответствовать неудерживаю- щему характеру связи. Из (6.4) находим, что -2 , Г (-a-6)-F(a-6) ^2 /(а—6) Ч’! + /(а — 6) (6.7) В момент смены ног новая опорная нога получает импульсный толчок, после чего повторяется фаза перекатывания, для которой начальными условиями будут ф!=—а—6 и фх. Начальная скорость <pi может быть найдена общим образом из уравнений импульсных движений, но в
210 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ данном случае ее можно получить, проектируя вдоль направления от массы т к точке опоры старую скорость на новое ее направление, что приводит к соотношению <рх = <7<р2, <7 = cos2aH-tgxsin2a, (6.8) где х — угол между опорной ногой и направлением от точки опоры к массе т. Из соотношений (6.7) и (6.8) следует, что рассмотрение движений шагалки приводится к точечному отображению прямой в прямую вида ы = д2и-|-д2/'_1(а—6) [F (— а—6)—F (а—6)]~ » cos2 2а (ха sin₽—sinasin6)J , (6.9) 92 = ?7(—a—6)f-1(a—6), где а=ф2 и а=ф2. К этому следует добавить, что (6.8) имеет место толь- ко при uk<Z.u<Zuk, где uk и uk находятся из условия осуществимости переката, т. е. скорость и должна быть не менее некоторой, иначе не произойдет перекат, и, с другой стороны, она должна быть не настоль- ко большой, чтобы произошел отрыв от опоры. Из уравнения (6.4) uk равно —a—6) Г шах F ((f)—F(—a — 6)"| , (6.10) — 1_ф1<Ч><ф2 J и из условия неосвобождаемости ukvgU. График точечного отображения (6.9) изображен на рис. 4.86. Из него следует, что) шагалка имеет при <у2<С 1 устойчивый периодичес- кий режим — автоколебание, отвечающее и=иг, и что такое автоколе- бание возникает при любом начальном uk<g.u<guk. При автоколе- бание возникает и с нулевой начальной скоростью.
§6. АВТОКОЛЕБАТЕЛЬНАЯ ДВУНОГАЯ ХОДЬБА 21Г Значение и* (квадрат угловой скорости непосредственно после- смены опорной ноги), отвечающее автоколебаниям, согласно (6.9), равно и* = f.~Г?/7 —тт— ~ 4<о2 (ха sin Р—sin а sin 6) ctg22a. (6.11 > f (а—б)— q2f (—а — о) х 1 ' ® х ’ На первый взгляд этот результат неожиданный. Из него следует, что скорость шагалки растет с уменьшением угла шага 2a. Можно убе- диться, что это так и есть, поскольку при наклоненном вперед корпусе уменьшение угла шага 2a приводит к стремительному движению, при котором мы едва успеваем переставлять ноги. Из формулы (6.11) следует еще, что ско- рость движения шагалки растет с уве- личением наклона корпуса Р, что она уменьшается с ростом угла подъема до- роги 6. Рассмотрим еще ходьбу по наклону вниз. Такая ходьба возможна и при Р=0 и даже отрицательном 0. Управ- лять скоростью спуска с горы при фик- сированном Р можно, меняя 2a. Увеличивая угол 2a шага, можно замедлить движение и даже прекратить его. Остановка происходит при где uk определяется формулой (6.9). Спуска- ясь с не очень крутой горы, мы поступаем именно так. Конечно, при этом у нас в резерве есть еще и управление углом р. Уменьшение угла Р и. переход на отрицательные углы также замедляет спуск и может при- вести к остановке. 2. Ш а г а л к а с толчко вым импульсом. Снабдим теперь шагалку толчком задней опорной ноги в момент непосредст- венного перехода опоры на выставленную вперед ногу. Этот толчок может изменить характер походки и ее убыстрить, однако он не дол- жен переводить ее в бег. Толчок будем считать происходящим от очень быстрого, но незначительного удлинения опорной ноги. В связи с этим теперь конфигурация шагалки описывается тремя переменными ф, фи г, где г — длина опорной ноги, а ф и ф, как и прежде, углы с верти- калью опорной ноги и корпуса соответственно. Фазовыми переменными теперь будут ф, ф, ф, ф, г и г. Управление, как и прежде, будет состоять в стабилизации корпуса, т. е. в поддержании равенства ф=р, и в вы- ставлении свободной ноги вперед на угол 2a к опорной. В соответствии с этим теперь кинетическая энергия Т, потенциальная энергия V и обобщенные силы Q<p, Qt и Qr примут вид Т [г2ф24-К2ф24-2Кгфф соз (ф —ф) + 2Кгф sin (ср —ф)], V = mg(r cos ф-f- К cos ф), <2ф = Л4—-gK, _ м—, Qr = R.
212 ГЛ. 4. УПРАВЛЯЕМЫЕ динамические системы Перемещение шагалки будем представлять в виде трех фаз: такой же, как и раньше, фазы переката на опорной ноге от угла <р=—а—б до угла <р=а—б; фазу же смены опорной ноги ради удобства разобьем на две следующие друг за другом мгновенные фазы: фазу толчка опор- ной ноги и фазу перехода на новую опорную ногу. В первой фазе г= I, а изменение ф и момент М, как и ранее, определяются уравнения- ми (6.2). В частности, изменение <р приближенно описывается диффе- ренциальным уравнением (6.6). Во второй фазе, одновременно с им- пульсным толчком R, для соблюдения условия Дф=0 необходим им- пульсный момент М. При этом имеют место уравнения Д-^- = тДг = 7?, А-^- — тг2 Дф = Л4, ат дг . (6.12) Д-^=ш ГАДг sin (ф—Р) +Аг Дф cos (ф —ф)] = —М. дф Уравнения (6.12) могут быть получены из соответствующих урав- нений Лагранжа интегрированием их по исчезающе малому времени толчка опорной ноги. Так, например, из уравнения d дТ дТ „ дУ dt дг дг — дг ’ интегрируя его по времени толчка от t до t+r и устремляя т к нулю, непосредственно приходим к первому из уравнений (6.12). При этом /+т R = lira Rdf. (6.13) т -> 0 t Аналогичный смысл имеет и импульсный момент t+x М = lira ( М dt'. t-*-o / Из уравнений (6.12) с учетом того, что ф=а—б, находим Дг = 1 Дф =__________sin (a~P-6)_____ м =______________. m ’ ™ ml [1 -у-х cos (а—₽ —6)] ’ l-|-xcos(a—0 — 6) (6.14) Скорость массы m после толчка будет иметь следующие компоненты: и5 = /(ф4-Дф) sin 2a — Дгсоэ2а, (6 15) = I (ф -|- Дф) cos 2а + Дг sin 2а вдоль осей 0g и Огр показанных на рис. 4.87 (начало координат взято в точке О шарнирного соединения, ось 0| направлена по новой опорной ноге, а ось От] ей ортогональна). Описанный толчок не будет приводить
§6. автоколебательная двуногая ходьба 213 к отрыву от опоры новой опорной ноги, если Ugcosx+Ц) sinx>0. При выполнении этого условия новая угловая скорость cpi вращения возле точки опоры новой ноги будет равна <Pi=7(^+^tgX) = cos (2а—х) Д , д [ . xsinfa—В —S’) cos 12а—7)1 —7^7?— ----S sin (2a — x)-A— , a . cos X m/cos% ( ' N1 l-|-xcos(a—0 — 6) J 9 (6.16) где <p2 — угловая скорость непосредственно до толчкового импульса и смены опорной ноги. Мгновенность фазы толчка— лишь идеализация процесса, занима- ющего некоторое время. Приземление на опорную ногу — значитель- но более быстрый процесс, который в соответствии со сказанным со- провождается импульсом П, равным тт /’ • /л . \ пГ /о , \ । xsin (а—р —6) sin (2a + x) I П = т/ф2 sin (2а + х) -R [cos (2а + х) +-Г+~х соГ(^-Р-6) J • (6.17) Этот толчок II при приземлении новой ноги зависит от толчка R задней опорной ноги. Походку шагалки с П = 0 можно назвать мягкой. Она имеет место при R = ^cp2, (6.18) где значение непосредственно следует из (6.17). Соотношение (6.16) между скоростями Ф2 и до и после смены опорной ноги при наличии толчка R заменяет имевшее ранее место соотношение (6.8). Как след- ствие этого, точечное отображение’ (6.9) теперь запишется в виде <р = A+q Кф2-|-В , (6.19) где <р и <р—угловые скорости после следующих друг за другом смен опорных ног, А - —5— Fsin (2a —х sin (a —р —6) cos (2a —х) ] m/cosxL 1 " 1 + x cos (a-p-6) J’ В = f-1 (—a —6) (F (— a — 6) —F (a — 6)), (6.20) ^527os7'Z) ЛМ-а-б)Г1/г(^-6).
214 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Точечное отображение (6.19) имеет неподвижные точки Ф*=(1-92)-1[Д+(Л« + (1-?2)В)’М- (6-21) Неподвижная точка ф* устойчива, если для нее |Ф*((ф*)2_|_ В) 1/2^/< 1. (6.22) Нас интересуют устойчивые неподвижные точки, для которых ф*>0. Именно таким неподвижным точкам может соответствовать автоколе- бательная ходьба. Можно заметить, что при положительных А, В и <7<1 такая неподвижная точка имеется и она единственная. Соответст- вующее этому случаю точечное отображение (6.19) представлено гра- фиком (рис. 4.88). Для мягкой походки значение толчкового импульса К должно быть согласовано со значениями параметров а и р. Из П = 0 сле- дует согласно (6.18), что R = З^ф, и согласно (6.20), что Д = аф. Теперь из (6.19) непосредственно находим, что -2- (6-23) ' (1 — a)2—q Пусть и <?<1. Тогда при д2<(1—а)2 мягкая походка воз- можна и устойчива. Особый интерес представляет случай, когда В и (1—а)2—</2 одновременно близки к нулю. В этом случае ходьба очень чувствительна к изменению параметров при сохранении устой- чивости. Небольшие их изменения могут вести как к остановкам, так и к переходу в бег. Это соответству- ет комфортабельной и хорошо управ- ляемой ходьбе. 3. Локализованные уп- равления корпусом и ногами. Управление шагалкой состоит в реализации локализован- ных целей поддержания угла Р на- клона корпуса и выставления впе- ред свободной ноги на требуемый угол 2а с опорной. При походке с толчком предполагается управление и этим параметром. Оно может, например, исходить из цели минимизации толчка при смене опорной ноги. Реализация требуемого угла шага 2а в принятой идеализации носит бессиловой характер. Напротив, поддержание угла наклона р корпуса и осуществление толчка R требуют силовых воздействий. Величина момента М определяется уравнениями (6.2) и_ (6.14), из
§6. АВТОКОЛЕБАТЕЛЬНАЯ ДВУНОГАЯ ХОДЬБА 215 которых следует, что в фазе перекатывания на опорной ноге М = l+xTos(y-pj EsinP—cos (ср—Р) sin ф + <о~2 sin (ср—Р) ф2] « ~S(sin₽~ sin<P) (6-24) 1 л и в фазе перехода с одной ноги на другую М. = — рт--------з—г- л? j—— . (6.25) l-|-xcos(a—р — 6) 14-х v ' Однако организация управления наклоном корпуса может отличаться от той, при которой требуемый момент определяется в соответствии с (6.24) и (6.25). Эта организация может основываться на обычном управ- лении по рассогласованию ф и р. В качестве одного из таких управле- ний укажем следующее: М = i+xc^s(<p—ф) [Хф2sin (ф —Ф)—®2cos(ф—ф) sinф + (02хsin ф] + + mPbty + ml2a (ф—Р), (6.26) где а и b — параметры управления наклоном корпуса. При таком управлении из уравнений движения шагалки (6.1) находим, что угол ф меняется в соответствии с уравнением _х251п2(ф—ф)_ - /b_2^sin_2,(<p-ip)_ \ • g 14-xcos (<р —ф) 2 + 2xcos(<p—ф)/ф^ При подходящих достаточно больших положительных а и b и при х<1 из (6.27) следует, чтоф асимптотически стремится к Р, причем область притяжения возрастает с ростом а и Ь. Действительно, приняв £=ф—р, запишем уравнение (6.27) в виде е(0!+Й0В + ^ = 0, (6.28) где 2 2 Нужно установить, при каких условиях и какие решения диффе- ренциального уравнения (6.28) стремятся к нулю при возрастании вре- мени t. Особенность этой задачи состоит в возможности обращения в нуль коэффициента е(/) при старшей второй производной. Это соот- ветствует возможности бесконечно больших ускорений |. Для решения поставленного вопроса об устойчивости прибегнем к прямому методу Ляпунова, взяв в качестве функции Ляпунова положительно определенную функцию вида V=max{a2g2,P2^2, (^4-vg)2}, (6.29)
216 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ где — а а = V---------, ц max b S - mmb р = а--- 1 ац а Т • Н> 1, v = Линии уровня У=С функции V образуют семейство вложенных друг в друга замкнутых кривых, составленных из отрезков прямых. При стремлении постоянной С к нулю эти замкнутые ломаные стягиваются к точке £=|=0. Согласно прямому методу Ляпунова нам надлежит найти производ- ную по времени от функции V и установить условия, при которых эта производная отрицательна, т. е. условия, при которых фазовые траек- тории, отвечающие решениям уравнения (6.28), пересекают линии уровня функции V снаружи внутрь и тем самым стремятся к точке £= = |=0. Простые, но несколько длинные вычисления дают, что 2а .у . ( 2а 2 /,- minb\ У min •'----------- ,------о----------, I 8 \ У / 1 \ v 1 v / ца max b J ')+4=lk. _1_ ( и2 у у 8 \2(1—х) цар max b q Г 1 ( х2 К7 2а I 8 к 2(1—х) ар2 ’ (6.30) Из этого видно, что в области V^y2 при достаточно больших под- ходящих значениях параметров управления а и b и некотором о>0 имеет место оценка V < — <зУ, означающая, что все решения уравнения (6.28) с начальными условия- ми £о и |0, для которых шах(а2^, Ж (Ы,)’} при t-^-oo стремятся к нулю. Рассмотрим теперь задачу локализованного управления движением ног. Ранее ноги имитировались безмассовыми стержнями длины /, скрепленными шарнирами с корпусом в точке О. При этих предполо- жениях реализация требуемого движения ног не требует никаких си- ловых воздействий и не учитывает динамики их движения. Поэтому сейчас примем, что они имеют малую массу, настолько малую, что обратным влиянием движения ног на движение корпуса можно прене- бречь. Теперь нога — это по-прежнему стержень длины I, но с момен- том инерции I относительно точки О, массой п и расстоянием V от точ- ки О до центра масс. В точке О этот стержень прикреплен к корпусу, и между ним и свободной ногой приложен управляющий момент Jf, призванный реализовать требуемое перемещение на угол 2а за время т между двумя последовательными сменами опорных ног. За это вре-
§6. АВТОКОЛЕБАТЕЛЬНАЯ ДВУНОГАЯ ХОДЬБА 217 О Рис. 4.89 мя т неопорная (свободная) нога должна повернуться вокруг точки О из начального положения, при котором ее угол 6 с вертикалью равен —а, к конечному положению, при котором угол 6=а. Прежде всего выясним, возможно ли, чтобы свободная нога без вся- кого управления (Jf=O) совершила такое перемещение. На первый взгляд это кажется невозможным уже потому, что в силу затухания стержень, отклоненный на угол —а, не может затем кач- нуться на угол а. Однако на самом деле все несколь- ко сложнее, так как точка О движется, способствуя увеличению отклонения ноги вперед. Пусть vx(t) и vy(f) — компоненты на оси ОХ и 0Y скорости движения точки О, причем момент времени t=Q соответствует смене опорной ноги. Оси ОХ и OY выбраны, как показано на рис. 4.89: ось ОХ — гори- зонтально вперед по движению, ось 0Y — вертикаль- но вверх. Следующий за t=0 момент смены опорной ноги будет при t=x. В системе 0XY, движущейся поступательно, уравнения движения свободной ноги на промежутке времени от момента /=0 до /=т с уче- том затухания имеют вид Z6 + hb + (ngl' + nl'Vy (t)) sin 6 + nl'vx (/) cos 6 = 0. (6.31) В начальный момент t = 0 Г1 n vx (0) 6 = — a, 6 =-------cos a. (6.32) Дифференциальное уравнение (6.31) не допускает непосредствен- ного интегрирования. Поэтому ограничимся приближенным его рас- смотрением, которое все же позволит достаточно хорошо понять качественную сторону рассматриваемой задачи локализованного управления движением свободной ноги. Примем следующие упрощающие предположения: угол 6 не очень велик и sin6~6, cos6«l; членом nl'vy sin 6 пренебрежем, скорость vx(t) будем считать постоянной. При этих упрощениях придем к при- ближенному описанию движения свободной ноги линейным дифферен- циальным уравнением с постоянными коэффициентами вида l'b+hb + ngl'b = O. (6.33) Начальные условия (6.32) при i—Q в соответствии со сделанными упрощениями будут 6 = — а, 6 =—vx/l'. (6.34) Фазовый портрет дифференциального уравнения (6.33) изображен на рис. 4.90. На нем все фазовые точки при Z-^+oo по спиралям стре- мятся к состоянию равновесия, изображаемому точкой 6=0, 6=0.
218 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Начальное положение фазовой точки изображается точкой М с коор- динатами, определяемыми формулами (6.34). Нас интересует приход фазовой точки на прямую 0=а. Как видно из рис. 4.90, это возможно, несмотря на наличие затухания, ведущего к скручиванию фазовых траекторий к со- стоянию равновесия. Перепишем дифференциальное уравне- ние (6.33) в виде $+2е&Н-П2а = 0, (6.35) где &=hl2I, &=пё1'Ц. Его решением, удовлетворяющим на- чальным условиям (6.34), является 9=(^— acosQ'Z — sinQ't'j e~st, (6.36) где й'=(й2—e2)1/* и при небольшом затухании близко к й. В зависимости от значений параметров а, й', vx, Г фазовая траекто- рия, выходящая из точки А4, либо пересекает прямую 6=а, либо ее не пересекает (рис. 4.90). Пожалуй, наиболее интересен граничный случай, когда фазовая траектория касается прямой 9=а; при этом 9(т) = (—асоэй'т—^у7 3шй'т)(? ЕТ = а, \ v > (6.37) 9 (т) = а (й' -)-е) sin й'т 4--ут- (1 4-s) cos й'т = 0. При выполнении этих условий требуемое перемещение свободной ноги осуществляется само собой, и, кроме того, в момент приземления свободной ноги ее скорость 9 (т) равна нулю. При выполнении только первого из условий (6.37) происходит требуемое перемещение ноги, но ее скорость в момент приземления отлична от нуля. Безусловно, малость скорости ноги в момент приземления облегчает управление длиной шага и правильность смены опорной ноги. Из второго условия (6.37) следует соотношение = <6.38) указывающее на то, что частота колебаний свободной ноги как маятни- ка, подвешенного в точке О, близка к частоте шагов и несколько пре- восходит ее. Таким образом, при выполнении некоторых условий возможна ходьба, при которой ноги сами переставляются нужным образом. В воз- можности такой ходьбы можно убедиться на собственном опыте, вы- брав походку, при которой для перестановки ног не прикладываются усилия; ноги при этом переставляются как бы сами собой. При несоблюдении условий (6.37) требуемое перемещение ног мо- жет быть достигнуто с помощью надлежащего управляющего момента
§6. АВТОКОЛЕБАТЕЛЬНАЯ ДВУНОГАЯ ХОДЬБА 219 с/f. При этом к правой части уравнения (6.31) добавляется член <№(/). Это же уравнение (6.31) с добавленным членом может служить для определения требуемого управляющего момента. Из него управляю- щий момент (t) находится неоднозначно, так как можно взять лю- бую функцию 6(0, удовлетворяющую краевым условиям 6(0) = — а, 6(0) = —-у-, 6(т) = а, 6(т) = 0, и из (6.31) с прибавленным к его правой части членом найти о№(0. Остающаяся свобода выбора может быть использована для уменьшения энергозатрат или удовлетворения каких-нибудь других условий. При выполнении условий (6.37) среди возможных управлений есть и управ- ление с off (0=0. При небольшом нарушении этих условий требуемый управляющий момент может мало отличаться от нулевого. Однако наряду с таким силовым управлением возможно и совсем другое управление за счет движений таза. Сказанное ранее естествен- но наталкивает на такую мысль. Именно движение таза сделало воз- можным движение ног без дополнительных силовых воздействий. В эффективности такого управления перестановкой ног легко убедить- ся на себе и заметить, что в той или иной мере мы к нему прибегаем. 4. Бенефис шагалки. Теоретическое рассмотрение шагал- ки закончено: указаны локализованные управления положением кор- пуса и движениями ног. Установлено, что при этих локализованных управлениях в двуногом шагающем аппарате возникают периодичес- кие автоколебания, соответствующие ходьбе. Осталось посмотреть, как шагалка ходит, если не в натуре, то хотя бы в рисунках на бумаге. Для этого была написана программа для ЭВМ, моделирующая путем решения соответствующих дифференциальных уравнений движение шагалки. Результаты счета выводились на бумагу графором в виде по- следовательных положений ног и корпуса. На рис. 4.91 представлены кинограммы, соответствующие движению шагалки по профилю доро- ги, изображенному на рис. 4.92: сначала шагалка шла по ровной до- роге, потом стала подниматься в гору и затем спустилась с нее. Нача- ла движение шагалка из неподвижного положения и в дальнейшем меняла значения управляющих переменных в соответствии с графи- ками рис. 4.93. В начале движения она несколько наклонялась вперед. Затем сначала частично, а потом и полностью выпрямилась, но при этом начала отталкиваться задней ногой при сменах опорной ноги. Для того чтобы подняться в гору, она опять наклонилась вперед, а спускаясь, отклонилась назад и прекратила толчки. Меняла она и дли- ну шага: поднимаясь в гору,-несколько уменьшала ее, а спускаясь, увеличивала. Начала движение она с небольших шагов. Последовательные положения шагалки показаны на рис. 4.91 че- рез времена Д/=0,1 с. Конструктивные параметры шагалки (длина ног, корпуса, масса) выбраны близкими к их значениям у среднего человека. Средняя скорость движения шагалки указана на рис. 4.91. Она близка к обычным скоростям ходьбы. На рис. 4.93 приведен так-
220 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Е Рис. 4.92
§7. УПРАВЛЕНИЕ И ИНФОРМАЦИЯ 221 же график изменения угла наклона корпуса ф. Как видите, шагалка ходит и может изменять походку по своему желанию и в соответствии с дорогой. Демонстрация этих возможностей получена И. А. Григорьевой, которая составила программу движения шагалки, подобрала пара- метры а и b управления положением корпуса, обеспечивающие устой- •’ивое его положение, и провела расчеты на ЭВМ. § 7. Управление и информация Конкретная задача, которая будет рассматриваться,— это задача управления движением транспорта на перекрестке. Основная труд- ность, которую нужно преодолеть при таком управлении, состоит в том, что, пропуская автотранспорт в одних направлениях, мы вынуж- дены задерживать его проезд в других. Поэтому цель управления долж- на состоять в том, чтобы разрешать проезд одним потокам и запрещать другим так, чтобы общие задержки и наносимые ими потери были воз- можно меньшими. Таким образом, задача управления движением тран- спорта на перекрестке или любом другом скрещении дорог состоит в наилучшем разрешении конфликтных условий переезда перекрестка автомашинами различных потоков. Непосредственно ясно, что именно такая проблема стоит перед управлением и при организации работы вычислительных комплексов, массового производства, ремонтных ра- бот, медицинского обслуживания, посадки и взлета самолетов на аэро- дроме и многого другого. Так что задача об управлении движением транспорта на перекрестке — это типичный представитель таких конф- ликтных задач массового обслуживания, задач обслуживания при ог- раниченном ресурсе его возможностей.
222 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ системы Как подступиться к решению этой задачи? Естественно, следует на- чать с математической формализации ее постановки. Что, собственно, нужно формализовать? Характеристики потоков автомашин, пропуск- ные способности перекрестка в разных направлениях, наши сведения о приезжающих автомашинах, общий вид допустимого управления, критерий качества управления. Именно все это требует описания и формализации. Однако основное внимание ниже будет уделено пробле- ме информации, по которой возможно и следует управлять, тому, как зависит качество управления от информации, по которой оно осуще- ствляется. В некотором смысле это центральный вопрос организации любого управления. Его решение определяет принципиальные возмож- ности управления, пределы его возможностей. Ясно, что, располагая недостаточной информацией об управляемом объекте и его текущем состоянии, нельзя им хорошо управлять. Сколько же нужно этой ин- формации, насколько полной и точной она должна быть для возмож- ности организации хорошего управления? Это очень важный и очень непростой вопрос. Особенно он не прост для сложных объектов. Он уже непрост и в задаче об управлении движением транспорта на пере- крестке. Последующее имеет целью рассмотрение вопроса об «информа- ции и управлении» в некоторой связи с этой конкретной задачей управ- ления. Вернемся к ее рассмотрению. Начнем с формализации цели управле- ния, т. е. критерия его качества. В качестве такого критерия можно принять среднее время задержек автомашин на перекрестке, но, воз- можно, важно не только это среднее время, но и число вынужденных остановок (торможений) перед перекрестком. Во всяком случае, по- видимому, десять ожиданий по секунде хуже, чем два ожидания по пять секунд. Учесть это можно, приняв в качестве критерия некото- рую свертку O+kT из среднего времени ожидания О и среднего числа торможений Т. Смысл такой свертки состоит в том, что остановка ма- шины по нежелательности приравнивается дополнительному простою какой-нибудь машины в течение времени k. Перекресток может пропускать одни потоки автомашин и задержи- вать другие в нескольких различных сочетаниях. Каждый из этих вариантов характеризуется тем, какие потоки пропускаются и какие задерживаются. Будем рассматривать их как состояния управляющей системы Аи А2, . . ., Ат. Кроме этих состояний, у управляющей сис- темы по соображениям безопасности движения должны быть переход- ные состояния А и, подготавливающие переходы из одного состояния At в другое состояние А}-. В простейшем случае перекрестка с двумя пересекающимися потоками имеются два основных состояния А2 и два переходных Д12 и Л21. В состоянии Л1 пропускается, допустим, первый поток и задерживается второй, второе состояние А2 соответст- вует задержке первого потока и пропуску второго. В переходном сос- тоянии А12 разрешается только закончить переезд машинам первого потока, а в состоянии А21 — только второго потока. Все остальные автомашины в это время через перекресток переезжать не могут. Вре-
§7. УПРАВЛЕНИЕ И ИНФОРМАЦИЯ 223 мена соответствующих состояний и т2 могут назначаться любыми. Напротив, времена т12 и т21 должны быть такими, чтобы автомашины успели освободить перекресток. Теперь можно определить, в чем состоит управление. Оно состоит в задании последовательности смен состояний системы управления и указании времен, в течение которых они имеют место. Или, короче, Рис. 4.94 в задании состояния в каждый момент времени t. При этом должны соблюдаться некоторые правила перехода из одних состояний в дру- гие. Эти правила можно задать с помощью графа смен состояний. При этом каждое из состояний изображается вершиной графа, а смены сос- тояний — направленными ребрами, соединяющими соответствующие вершины. На рис. 4.94, а и б изображены графы смен состояний для описанного выше перекрестка. Они отличаются тем, что в первом слу- чае (рис. 4.94, а), перейдя из состояния /П (Д2) в А12 (Л21), дальше уп- равляющий светофор должен перейти только в состояние в то время как при втором графе разрешен возврат в исходное состояние ^1(Я г)- Охарактеризуем теперь возможности переезда перекрестка автома- шинами в каждом из состояний управляющей системы. Эти возмож- ности могут быть описаны предельными пропускными способностями перекрестка в каждом из разрешенных направлений переезда. Пре- дельная пропускная способность — это число машин, которое может переехать через перекресток при наличии в этом направлении ожидаю- щих переезда автомашин. Вместе с тем в быстроте переезда^перекрес- тка имеется и элемент случайности. Кроме того, время переезда зави- сит от того, переезжает ли его остановившаяся перед перекрестком автомашина или она переезжает его без остановки. Потоки прибывающих автомашин, как правило, случайные,-хотя возможна и регламентация потока прибывающих машин, например, за счет периодической работы светофора на предшествующем сосед- нем близко расположенном перекрестке. Мы можем располагать сведе- ниями о статистических характеристиках потоков автомашин, но воз- можно, что такие сведения отсутствуют. Очень часто потоки автома- шин считают пуассоновыми. В некоторых случаях поток автомашин близок к пуассоновому, но это далеко не всегда так. Напомним, что поток автомашин называется пуассоновым, если временные интервалы между прибытиями автомашин к перекрестку распределены по показа- тельному закону, т. е. плотность вероятности длительности v времен-
224 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ ного интервала между двумя последовательными прибытиями к пере- крестку автомашин равна е~>л’. Наконец, перейдем к центральному вопросу, рассматриваемому в этом параграфе, к вопросу о том, по каким сведениям и данным нужно определять управление, как от этих сведе- ний и данных зависит его качество. Каково предельно возможное ка- чество управления, т. е. какова наименьшая величина потерь управле- ния, которой можно достигнуть, строя управление по разным данным и сведениям? И вообще, как зависят возможности управления от наших сведений о состоянии объекта управления? В какой мере эти возмож- ности возрастают с появлением данных не только о текущем состоянии, но и тех, которые наступят? Коротко все эти вопросы можно сформули- ровать как вопрос о том, как зависит управление от информации об объекте управления. Заметим, что управление можно трактовать как последовательное принятие решений для наилучшего достижения его цели. Так что во- прос сводится к тому, как зависит эффективность принятия решения -от используемой для этого информации. Начнем с простого примера. Пусть нам нужно указать, в каком из закрытых ящиков спрятана кошка. В случае правильного указания места расположения кошки наши потери равны нулю, а при непра- вильном указании они +1. Пусть этих ящиков пять, и мы не распо- лагаем никакими сведениями ни об этих ящиках, ни о том, в каком из них находится кошка. Ясно, что в этом случае нам не остается ничего другого, как наугад назвать один из ящиков, и математическое ожида- ние потерь при этом равно 4/5. Возможен другой крайний случай, когда кошка мяукнула и мы услышали, в каком она ящике. В этом слу- чае ожидаемые потери равны нулю, поскольку мы после этого пра- вильно указываем, где находится кошка. Между этими двумя крайними случаями могут быть всевозможные промежуточные случаи, когда на основе тех или иных сведений мы, полностью используя их, достигаем той или иной промежуточной меж- ду нулем и 4/5 величины ожидаемой потери. Сведения, которые мы по- лучаем в этом случае, служат оценками для выбора ящика, вероятность нахождения кошки в котором наибольшая. В первом случае эти ве- роятности были равны для каждого из ящиков 1/5. Во втором она для одного из ящиков равнялась единице, а для всех остальных — нулю. В промежуточных случаях эти вероятности pi, р2, р3, pt и р5. Теперь мы можем оценить полезность сведений, на основе которых получены эти вероятности. Пусть среди величин pi, р2, р3, pt и р3 psбольше или равна любой из остальных. Указывая s-й ящик, мы угадываем с ве- роятностью ps и не угадываем с вероятностью 1 — ps. Ожидаемые по- тери при этом равны 0-ps+l-(l— ps). Разность 4 ,, х 1 -g — (Ч — max рЛ = max — у можно назвать полезностью сведений (информации).
§7. УПРАВЛЕНИЕ И ИНФОРМАЦИЯ 225 Усложним немного нашу задачу. Пусть за неугадывание при ука- зании разных ящиков назначаются разные штрафы. Пусть при указы- вании i-ro ящика и отсутствии там кошки штраф равен wt (ранее все эти штрафы равнялись единице). Какой должен быть указан ящик, чтобы в этих измененных условиях ожидаемые потери были наимень- шими? Ожидаемые потери при указании i-ro ящика равны ^•(1— Pi)- Поэтому наименьшими ожидаемые потери будут, когда указывается ящик, для которого эта величина минимальна. Если одна из вероят- ностей pt равна единице, то минимальные потери уже не могут быть уменьшены никакими дополнительными данными. Такие сведения или такую информацию назовем полной. Таким образом, информация о системе является полной, если на ее основе может быть принято решение, которое не может быть улучше- но никакими дополнительными сведениями. Если рг=1, то следует указывать i-й ящик. Потери при таком решении равны нулю, и они не могут быть меньшими. Может показаться, что полной является только та информация, которая полностью определяет объект, т. е. в рассматриваемом слу- чае, только если одно из рг равно единице. Но это не так. В рассматри- ваемом смысле полной информацией будет и та, при которой некоторое где Pi = —i—— С 1, Шtrunks s Ф i т. е. полной в сформулированном смысле может быть и информация, которая оставляет неопределенность в состоянии системы, но устране- ние этой неопределенности уже не может ничего добавить к возмож- ности улучшения принимаемого решения. В рассматриваемом случае это вызвано тем, что КУ/ (1 — Pi) < гшпш5(1 — ps) s i при любых pi, рг, рз, pt и р5, если только pi^pi. Рассмотрим еще вопрос о полезности сведений, согласно которым вероятности нахождения кошки в ящиках 1, 2, 3, 4 и 5 равны соответст- венно ри р2, рз, pt и рз. При различных wt ответ на этот вопрос не так прост и однозначен, как в случае и»1=и»2=а)3=и;4=и>8=1. Это услож- нение вызвано тем, что при неизвестных pt и равных между собой wt нам представляется очевидным, что нет лучшего решения, чем указа- ние наугад любого из ящиков. В случае же разных wt наилучшая стра- тегия неочевидна. Прежде всего уточним, что значит указать любой из ящиков нау- гад. По-видимому, имеется в виду, что мы указываем ящики с вероят- ностями <71=<72=<7з=<74=<75= 1/5. При различных wt назначим вероят- ности qx, q2, q3, qtn q$ и попробуем сделать это так, чтобы потери были
226 ГЛ. 4. управляемые динамические системы возможно меньшими. Ожидаемые потери при такой стратегии равны 2 <7,(1 — Pi)Wi и зависят не только от выбираемых вероятностей qlt q2, q3, qt и </5, но и неизвестных вероятностей ри р2, р3, pt и ръ. Если бы вероятности были известны, то задача решалась бы очень просто. Как быть при неизвестных вероятностях pt? В этой неопределенной ситуации можно исходить из соображений гарантированного уменьшения потерь или из уменьшения средних потерь, но при этом необходимо располагать сведениями о вероятностях величин pt. Рассмотрим последовательно каждую из этих возможностей. В пер- вом случае мы хотим, чтобы при любых ри р2, р3, р4 и р3 величина по- терь была возможно меньшей, заведомо меньшей некоторой величины £, которая должна быть по возможности меньшей, т. е. мы хотим вы- брать qt так, чтобы при любых рг 2 <7,да,—2 <7,-/?,да,- < £ и чтобы величина £ была наименьшей из всех возможных. При выб- ранных qt наибольшее значение £ равно С = max £ = 2 ?,да, —|min q-w;. pi 1 Оно зависит от вероятностей qt. Теперь выберем эти вероятности qt так, чтобы £ была наименьшей: min (J) q^i — min q,-w^ . Ясно, что этот минимум достигается при qiW1=q2w2=q3ze)s=q4wi=q5w5, т. е. при ™ s \ w4 ' w2 w3 w4 w5 J При равных wt приходим к интуитивно очевидному результату qi= = ?2 = <7з = <74:=?5=1/5. При неравных wt ответ уже не так очевиден. Согласно проведенному рассмотрению требуемые qt находятся из условия min <7 где _ £ = max (2 <7/^—2 QiPiwt)f Ps т. е. из условия минимакса min max 2 (<7Z^Z—<7,-р,да,-)- (7.1) <7 ps Рассмотрим теперь вторую возможность. Она предполагает извест- ными вероятности значений pt. В силу этого для любых выбранных
§7. УПРАВЛЕНИЕ И ИНФОРМАЦИЯ 227 Qi, Qi, Чз, q*, qs, может быть найдено математическое ожидание потерь 2 q^i^pi). Далее следует выбрать qt из условия минимума математического ожи- дания потерь, т. е. из условия min S <qiwi—q^t^pi) = min wi (i —Mpt). (7.2) <?; i Если этот минимум достигается при i=s, то qs= 1, а остальные qt равны нулю. Сопоставим оба изложенных подхода к выбору стратегии принятия решения в ситуации неопределенности. Первый подход не предпола- гает никаких сведений о том, где находится кошка, и поэтому оказы- вается возможным только обеспечить потери ниже некоторой границы. Ничего другого обеспечить нельзя. Далее, естественно эту границу по возможности уменьшить. Все это вместе приводит к условию мини- макса (7.1). Второй подход предполагает наличие некоторых сведений о вероятностях величин ри р2, рз, pt, рь. Более того, может оказаться, что достаточно располагать только некоторыми оценками их математи- ческих ожиданий. Действительно, выбор вероятностей qt исходит из ’условия (7.2), которое определяет qs=1, если только ws(l — AAp,)<w,.(l—Mpi) (7.3) для всех i=^=s. Остановимся теперь подробнее на вопросе о том, что такое допол- нительные сведения и в чем их отличие от новых сведений, которые мо- гут противоречить прежним, что для дополнительных сведений не до- пускается. Ясно, что такое отсутствие сведений. Это полное неведение в отно- шении того, в каком ящике находится кошка. Ясно и что такое пол- ные сведения. Это такие сведения, которые позволяют достигнуть ми- нимальных потерь, которые уже не могут быть уменьшены никакими дополнительными сведениями. Между двумя этими крайними случаями возможны промежуточные. Что же они из себя представляют? Как про- исходит переход от одного крайнего случая к другому? В теории вероятностей есть понятия априорной и апостериорной вероятностей. Вторая получается изменением первой в результате не- которого эксперимента. В рассматриваемом случае это не уточнение уже имеющихся сведений, а их изменение. Это новые сведения. Что такое расширение сведений? Это случай, когда новые сведения не противоречат прежним, а уточняют, детализируют их. Изложенную классическую схему теории вероятностей можно подвести под понятие расширения сведений, если ввести с самого начала в нее результаты эксперимента. Тогда вначале они были неизвестными, могли быть лю- быми, а после эксперимента эта неопределенность устранена. Раньше мы располагали неопределенным результатом эксперимента, затем ре- зультат эксперимента стал известен, и в соответствии с этим априор-
228 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ ные вероятности заменились на апостериорные. Это уже уточнение све- дений. Пусть сведения задаются ограничениями на какие-то параметры или функции. Будем говорить, что произошло уточнение, если эти огра- ничения сужены, т. е. расширение сведений — это сужение неопреде- ленностей на описывающие систему величины, функции или пара- метры. Применим эти общие соображения к рассматриваемому примеру. Пусть, например, вначале было неизвестно, в каком ящике нахо- дится кошка, а потому удалось узнать, что в первом ящике ее нет. Это уточнение. Пусть стали известны вероятности рг#0 и р2 пребыва- ния кошки в ящиках 1 и 2. Это уточнение. Если же после этого станет известно, что в первом ящике ее нет, то это не уточнение, это новые сведения. Они новые потому, что противоречат прежним: теперь ве- роятность р± нахождения кошки в первом ящике равна нулю, в то вре- мя как ранее Как уже отмечалось, можно расширить систему и тогда эти новые сведения можно будет трактовать как расширение сведений. Расширение сведений — это сужение неопределенности, это суже- ние множества всевозможных систем, к которому на самом деле при- надлежит рассматриваемая сйстема. Пусть G — множество всевозмож- ных систем. Получение сведений о системе равносильно сужению мно- жества G до Gi; получение дополнительных сведений — сужению Gi до 62. Это продолжается до некоторого множества Gs систем, в отно- шении которых описание уже является полным (по отношению к рас- сматриваемой задаче принятия решения или управления). Сама систе- ма может при этом оказаться не полностью определенной. Множество G может быть разбито по отношению к поставленной за- даче принятия решения или управления на множества, всем точкам каждого из которых отвечает одно и то же наилучшее решение или управление. Каждое из таких множеств обозначим через Gn. Поэтому, если неопределенность в информации о системе такова, что соответст- вующее ей множество систем содержит несколько (возможно, и бес- конечно много) множеств Gn, то получение наилучшего решения со- пряжено с некоторым компромиссом между наилучшими решениями в каждом из этих множеств Gn. В соответствии со сказанным ранее этот компромисс может быть основан на желании получить гарантийно наилучший результат — это принцип минимакса — либо на желании получить результат, наилуч- ший в среднем, если, конечно, для этого есть необходимые сведения о вероятностях недостающих данных. Компромиссное решение для каждого из составляющих множеств G„, вообще говоря, не является наилучшим. В лучшем случае оно с ним совпадает. Но совпадение более чем в одном случае быть не может, так как такое со впадение означало бы, что эти множества составляют одно и то же множество G„.
§7. УПРАВЛЕНИЕ И ИНФОРМАЦИЯ 229 Подведем итог. Расширение сведений — это либо сужение области рассматриваемых систем, либо введение в ней некоторого распределе- ния вероятностей. При всяком расширении сведений потери наилуч- шего управления из раз навсегда фиксированного класса могут только уменьшиться. После того как расширение сведений привело к сужению множества рассматриваемых систем до одного из множеств Gn, даль- нейшее расширение сведений о системе не может улучшить управления. Этот простой вывод очень важен. Он говорит о том, что не всегда сле- дует стремиться к возможно более полной, сложной и точной модели, к возможно более полному знанию ее состояния, может оказаться, что и очень простая и неточная модель совершенно достаточна для полу- чения максимально возможного эффекта, для достижения минималь- ности или квазимннимальности потерь управления. Перейдем теперь к исходной задаче управления движением транс- порта на перекрестке. Начнем с вопроса: какая информация для при- нятия решений об управлении движением на перекрестке является полной? Единственная неопределенность, которая осталась в данном выше описании,— это моменты прибытия автомашин к перекрестку. После их задания система полностью определена, и поэтому ее описа- ние является полным по отношению к любому классу управлений. Какие различные классы управлений мыслимы в этой задаче? Это, прежде всего, самое простое и обычно используемое управление с по- мощью светофора с фиксированным ритмом переключений. Его опти- мизация состоит в выборе времен зеленого и красного цветов в цикле периодически повторяющихся смен, при котором достигается минимум потерь. Возможны управления по числам ожидающих переезда автома- шин, по суммарным или средним задержкам автомашин по потокам, наконец, по прогнозируемой последовательности прибытий автомашин к перекрестку. Все виды управления, перечисленные в последней фра- зе, можно рассматривать как управления по разным сведениям о си- стеме. Рассмотрим сначала задачу об оптимальном светофоре с фиксиро- ванным ритмом. Примем, что потоки прибывающих к перекрестку ав- томашин равномерные с интенсивностями и Х2. Пусть Xj, х12, т2, т21— выбранный ритм переключений светофора. В идеализации потоков автомашин непрерывными потоками имеем —а»! при пТ < t^.nT-{-i1 и хг > О, О при пТ</^п7' + т1 и хх — 0, (7.4) при nT-f-Xj < t 1) Т, 'К ^2 <*>2 О при пТ—х21< i ^п7’4-т1 + х12, При nT-f-Xi-f-Xja < t ^nT’ + Xj + Xja + Xa И Х2 > О, при nT-f-Xj-f-x12 <[/^пТ + х1 + х12 + х2 и х2 = 0. В этих уравнениях Xj и х2 — числа автомашин, скапливающихся перед перекрестком в первом и втором направлениях, и Х2 — интенсивности
230 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ прибытия автомашин к перекрестку, toj и <о2 — предельные пропуск- ные способности перекрестка и Т=т14-т12+т2+т21— период работы светофора. Пусть хи х2 и xlt х2 — числа автомашин, скопившихся перед перекрестком в два последовательных момента времени пТ и (п+1)7\ Из формул (7.4) находим, что = Ж —(“г—ЧЮ 4А *2=f ta + MTl+Tj — (®2 — Ь)4-^2Т21» где f(x) означает функцию, равную х при х^О и равную нулю при х<0. На рис. 4.95 изображены графики зависимостей Xi от хх и х2 от х2 в предположении достаточных пропускных способностей перекрест- ка, т. е. при < (о^!, ТХ2 < <о2т2. (7.6) Согласно этим графикам вне зависимости от начальных значений хх и х2 спустя некоторое время устанавливаются постоянные значения xj и х2. По этим значениям хх и х*2 могут быть сосчитаны числа оста- новок по каждому из потоков и общие времена ожидания. Заметим, что при несоблюдении какого-нибудь из условий (7.6) соответствующий график на рис. 4.95 изменяется так, что последовательные значения Xi или соответственно х2 неограниченно растут. Пусть процесс переезда автомашин через перекрестки со светофо- ром с фиксированным ритмом переключений уже установился. Тогда в момент появленйя зеленого света по Первому потоку скопилось хх автомашин. К концу зеленого света они все переедут через перекресток и затем к следующему появлению зеленого света их снова накопится Xj. Подсчитаем число остановок перед перекрестком и общее время ожидания переезда через него для машин первого потока. Очередь ис- чезает после появления зеленого света через время хх/(«1—XJ, так что не ждут переезда автомашины первого потока только в течение времени ту—(xj/(®x—Хх)). Все остальное время они вынуждены оста- навливаться перед перекрестком. Останавливаться перед перекрестком
§7. УПРАВЛЕНИЕ И ИНФОРМАЦИЯ 231 будет часть машин, равная Л \ ~~ I Аналогично, по второму потоку число остановок равно \ W2 '“2 / Относительное число остановок автомашин по обоим потокам равно (1-»1,(1+гД) + (|-^)х1(|+гЛс). (7.7) Задача оптимизации управления перекрестком по критерию числа остановок сведена к задаче минимизации функции (7.7) по временам Ti и т2 (следует иметь в виду, что 7’=т1+т12+т2+т21). Нетрудно ви- деть, что оптимальная стратегия неприемлема, поскольку она реко- мендует пропускать все время один из потоков и не пропускать дру- гой, хотя именно такая стратегия обеспечивает наименьшее число оста- новок. Общее время задержки, отнесенное к единице времени, . как нетрудно найти, равно А [(7-г,)" I, ( 1 +^) + (?-,,)• 7., (I + -Al.) ] . (7.8) Минимизация функции (7.8) по параметрам Tj и т2 дает стратегию, оптимальную по критерию общего времени ожидания среди всевоз- можных стратегий с фиксированным ритмом и заданными временами желтого света т12 и t2i. В рассматриваемой модели управления движением транспорта на перекрестке прибытие автомашин к перекрестку и переезды через него имели детерминированный характер. Примем теперь, что потоки авто- машин случайные пуассоновы с интенсивностями и Х2. Все остальное оставим без изменения. Переход от математической модели с равно- мерными детерминированными потоками к модели со случайными пуассоновыми потоками не есть уточнение — это другая модель. Если на самом деле потоки автомашин распределены по закону Пуассона, то прежнюю модель можно трактовать как упрощенную, но нельзя трактовать как модель, в которой учитывается меньшая информация. В прежней модели описание полное, и к нему нельзя ничего добавить. Итак, потоки автомашин пуассоновы, так что за время v в потоке с интенсивностью X прибывает к перекрестку т] автомашин с вероят- ностью (уд) г)! х ' Пусть pi (х, t) — вероятности того, что в i-м направлении в момент времени t перед перекрестком скопилось х машин(х=0, 1,2,...). Най-
232 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ дем вероятность pf (х, Z+т), если в течение времени v проезд автомашин i-ro потока не разрешался и разрешался. В первом случае p,-(x, t + v)= £ Pi(x—, (7.10) Т)= О а во втором случае pz (х,/-f-v)= У Pi(x—T)4-(ozv, (х=#0), п=о (7.П) Pi (o, 14- V) = > ; Pi (1], t)e~ Ki\ T)=0 Пусть в момент времени t=Q заданы числа Xi и х2 ' ожидающих переезда через перекресток автомашин. Тогда формулы (7.10) и (7.11) позволяют шаг за шагом находить вероятности pt(x, t) в моменты вре- мени тъ Т14-Т12, Ti+t12+t2) Ti+ti2+t21-|-t22=t, т4-Т1, т4-Т1+Т12 и по- следующие. Как оказывается, вычисляемые таким образом вероятно- сти либо все стремятся к нулю, что соответствует неограниченному нарастани очереди и имеет место при <dztz < Xzr, (7.12) либо стремятся к некоторым пределам pz (х), что имеет место при нера- венстве, обратном (7.12). Эти предельные вероятности соответствуют установившемуся случайному процессу управляемого переезда авто- машин через перекресток. В установившемся состоянии по вероятно- стям pl (х) могут быть найдены математические ожидания времен ожидания переезда и вероятности торможений. Путем не очень простых вычислений можно найти оптимальный ритм переключений светофора, т. е. найти, при каких Tj и т2 математическое ожидание времени переез- да через перекресток минимально. Такие вычисления были продела- ны. Они позволяют указать по параметрам Хъ Х2, coj, со2, т12 и т21 наилучшие значения времен Xi и т2, а также найти соответствующее наименьшее возможное среднее время ожидания переезда. Сравнение моделей с равномерными и пуассоновыми потоками с равными сред- ними числами Xj и Х2 прибывающих за единицу времени автомашин по- казывает, что расхождения в оптимальных стратегиях могут быть зна- чительными, что учет случайности потоков существен. Расширим теперь класс допустимых стратегий управления. Примем, что светофор может менять свое состояние через времена т. Потоки автомашин случайные, случаен и переезд автомашин через перекре- сток. Управляющий автомат (светофор), как и ранее, может нахо- диться в состояниях А1г Д12, А2 и Д21. В качестве цели управления, как*и прежде, примем достижение возможно меньших значений сред- его времени ожидания переезда через перекресток. В качестве ин-
§ 7. УПРАВЛЕНИЕ И ИНФОРМАЦИЯ 233 формации, по которой через каждый промежуток времени т принимает- ся решение о выборе состояния А управляющего автомата, примем чи- сла ожидающих переезда автомашин. Тогда решающее правило при- нятия решений на каждом такте будет вида Д"+1 = £(Д”; xvx2). (7.13) Это значит, что состояние управляющего автомата определяется по его состоянию на предшествующем такте и числам х, и х2 ожидающих переезда через перекресток автомашин. Пусть р'г(А; хх, х2) — вероят- ность того, что в конце n-го такта управления управляющий автомат находится в состоянии Див очередях стоит хх и х2 автомашин. Тогда по формуле полной вероятности р»+10; хг, х2) = ^^рп(В; П1, х2 + %2—Л2)Х Хр(В; £х, E2/xx-Hi. *2 + Up(ni. Л2), (7-14) где суммирование производится по всем состояниям В управляющего автомата и всем £2, гц и г]2, для которых g(B; x1 + g1— г],, х2 + %2—я2) = А, (7.15) р(Л1> Лг) — вероятность того, что за время т подъезжает к перекрестку по первому и соответственно второму направлениям гц и т]2 автома- шин, g(B; Bj, £2/xi+£i, *2+£2) — вероятность того, что при состоя- нии В управляющего автомата через перекресток за время т переедет в первом и втором направлениях £х и соответственно £2 автомашин при условии, что ожидало переезда через перекресток соответственно Х1+51 и х2+^2 автомашин. Действительно, спустя время т перед пере- крестком может оказаться хх и х2 машин соответственно по первому и второму направлениям, если в начале такта их было Xj+^j—гц и х2+£2—Ла и в течение такта прибыло и убыло соответственно rj!, т]2 и gi, £2. Уравнения (7.14) и (7.15) при заданной стратегии управления (7.13) позволяют шаг за шагом находить вероятности рп(А; хъ х2) (га=1,2,...). В зависимости от стратегии управления, как и в ранее рассмотренном более простом случае, вероятности р"(Д; хх, х2) либо стремятся к ну- лю, и тогда происходит неограниченное нарастание одной из очередей, либо стремятся к некоторым конечным положительным пределам p*(A;Xi, х2). Предельные значения р* (Д; хъ х2) соответствуют вероятностям состояния А и длин очередей хх и х2 в установившемся режиме. По этим предельным вероятностям могут быть найдены потери управления по формуле вида 2 г (А; х]( х2)р*(Д; хх, х2), (7.16) где г(Д; хх, х2) — математическое ожидание общего времени переезда через перекресток, включая время ожидания его, отнесенное к одному такту длительности т в случае, когда на рассматриваемом такте управ-
234 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ ляющий автомат находится в состоянии Див начале такта в очередях стоят Xi и х2 автомашин. Задача оптимизации управления теперь мо- жет быть сформулирована как поиск стратегии (7.13), для которой величина (7.16) минимальна. Формулы (7.14) и (7.15) определяют динамическую систему. Это так называемая управляемая марковская система. Ее состояниями, яв- ляются всевозможные комбинации A, Xi и х2. Вероятности этих состоя- ний преобразуются линейно по формулам (7.14), причем коэффициенты этих линейных преобразований образуют стохастическую матрицу и зависят от стратегии управления (7.13). Управляемая марковская система представляет собой один из Важнейших типов управляемых динамических систем. В дальнейшем в гл. 6 им будет уделено значительное внимание. В частности, там бу- дут указаны практически осуществимые пути поиска их оптимальных стратегий. Сейчас же остановимся на сравнении управления с помощью светофора с фиксированным ритмом изменения цветов и рассматривае- мого управления. Пусть в обоих случаях потоки автомашин пуассоно- вы, одинаковых интенсивностей. Пропускные способности перекрестка также одинаковы. Спрашивается, какое из управлений лучше? Без- условно, лучшим может быть только рассматриваемое управление, поскольку управление с фиксированным ритмом изменения состояния управляющего автомата является одной из стратегий вида (7.13). К такому же выводу можно прийти, если заметить, что управление с фиксированным ритмом использует только величины интенсивностей потоков автомашин и пропускные способности перекрестка, в то время как в рассматриваемом управлении учитываются еще и числа автома- шин, ожидающих переезда. Таким образом, рассматриваемое управле- ние осуществляется по более полному описанию управляемой системы. Количественное сравнение потерь показывает, что разница между ними может быть довольно значительной. Но все же и в этом случае информация, по которой происходит управление, не является полной. Для того чтобы расширить эту ин- формацию, предположим, что мы располагаем прогнозом реализации случайных потоков автомашин на некоторое время тп. Ясно, что если бы такой прогноз был возможен на неограниченное время, т. е. если бытп = оо, то информация о прибывающих потоках автомашин была бы полной. По отношению к информации с т„ = оо знание моментов прибы- тия к перекрестку автомашин за конечное время тп является частичным. С увеличением тп это описание расширяется и при тп=оо становится полным. Поэтому потери Q оптимального управления с ростом т„ могут только уменьшаться и при тп=оо достигают своей наименьшей величины, которая уже не может быть уменьшена. Это означает, что потери Q являются монотонно убывающей функцией времени прогно- за, и поэтому эти потери имеют предельное наименьшее значение Q*. Это означает еще, что существует некоторое т*п такое, что увеличение тп сверх х*п не может дать сколько-нибудь значительного уменьшения потерь управления Q.
§7. УПРАВЛЕНИЕ И ИНФОРМАЦИЯ 235 Перейдем к вопросу о стратегии управления при наличии прогноза приезда автомашин к перекрестку на время тп. Практически такой прогноз можно осуществить, наблюдая движение автомашин в неко- тором отдалении от перекрестка. Пусть светофор находится в состоянии А/, xt и х2 — числа автомашин, ожидающих переезда, и известно, что В первом и втором потоках автомашины будут прибывать в моменты времени t{, t2, . . . и соответственно в моменты времени t{, t2, ... (й^тп)- Стратегия управления теперь состоит в том, чтобы по этой ' информации принять решение о том, какое состояние должен иметь светофор на следующем такте ““ это нужно сделать так, чтобы гарантировать возможно мень- шие потери. Это очень слож- ная задача, ее точное решение достаточно трудно. Опишем сравнительно простое, интуи- тивно приемлемое и, как пока- зывает эксперимент, доста- точно хорошее решение. Идея его состоит в том, чтобы найти наилучшее уп- равление на время тп и в соответствии с ним назна- чить состояние управляющего автомата на следующем такте длительности т. Затем по истечении этого такта длительности т снова найти оптимальное управление на проме- жутке тп и в соответствии с ним выбрать состояние управляющего ав- томата на следующем такте и т. д. Такую стратегию управления можно было бы назвать стратегией наилучшего решения по имеющейся ин- формации. При этом все, что неизвестно, не учитывается, точнее, ис- ключается из рассмотрения. Мы ищем оптимальное решение не на всем промежутке времени, а только на промежутке времени длительности тп, на котором все полностью определено. Ясно, что такое рассуждение предполагает т<т„. Перейдем к описанию алгоритма отыскания наилучшего управления на промежутке времени тп. Пусть время тп кратно т так, что 1х=т„; пусть еще ради простоты и времена желтого света т12 и t2i кратны т. В этих предположениях нетрудно построить дерево всевозможных стратегий на промежутке времени тп. Каждому пути по дереву от корня до конца ветвей отвечает некоторая допустимая последователь- ность состояний светофора. На рис. 4.96 показано дерево всевозможных стратегий при тп=4т и т12=т21=т и начальном состоянии Аи При этом принято, что после состояния Л12 должно следовать Л2, а после А21—А. Каждому пути от корня до конца ветвей этого дерева соответствует некоторая страте- гия управления и некоторая величина его потерь. Эти потери нахо- дятся однозначно, поскольку известны числа Xi и х2 автомашин, ожи- управления длительности т. А. А А А. А, А12 Ац Иг А. А11 Аг ,Л2г Рис. 4.96 A2f А. 'А, а. At
236 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ дающих переезда, и известно, в какие моменты времени подъезжают новые автомашины. Возьмем путь, для которого эти потери минимальны. Пусть это путь Xi, Д12, А2, А2. Тогда в качестве управления на следующем такте вы- бирается состояние At. Затем строится новое дерево с корнем At и вновь находятся потери по всевозможным путям. Выбирается путь с наименьшими потерями. Пусть это путь Д12, А2, Д21, At- Тогда за следующее состояние управляющего автомата берется Дщ и так далее. Заметим, что строить каждый раз заново все дерево всех возможных стратегий нет необходимости. Достаточно ограничиться достраиванием его ветвей, связанных с новым корнем. Нет необходимости и пересчи- тывать потери на всех путях. Достаточно лишь добавить к ранее най- денным потерям потери на достраиваемых ветвях и вычесть потери пройденной ветви дерева. Описанный алгоритм может быть программно реализован. Можно создать и имитационную программу перекрестка: потоков прибываю- щих автомашин и переезда их через перекресток. После этого можно ис- следовать, как будет осуществляться управление движением транспорта на перекрестке. Результаты такого эксперимента несколько удиви- тельные. Оказывается, что т„ весьма невелико. Это очень важный факт, по- скольку из него следует возможность хорошего локализованного управления уличным движением транспорта, т. е. управления, при котором каждый из перекрестков или небольшие группы перекрестков управляются независимо от других, и нет необходимости созда- вать сложные системы координации ра- боты отдельных перекрестков. Нет не- обходимости в создании централизован- ных систем сбора данных и выработки по ннм управляющих решений. На рис. 4.97 приведены графики зависимости среднего времени ожида- ния от тп. Для всех этих графиков Т12=т21=т=3с, ю=1. Интенсивности пуассоновых потоков автомашин различные, соответственно рав- ные Х!=0,1, Х2=0,05; Хг=0,15, Х2=0,2; ^=0,35, Х2=0,2 и ^=0,4, Х2=0,2. Как видно из этих графиков, т„ колеблется в пределах от 9 до 15 с. При скорости 50—60 км/ч это означает наблюдение автомашин за 120—240 м до перекрестка. Увеличение тп сверх г*п не дает уже зна- чительного уменьшения среднего времени ожидания переезда через перекресток. Значения потерь, соответствующие почти горизонталь- ным участкам кривых на рис. 4.97,— это минимально возможные по- тери. Интересно сравнить их с оптимальными потерями при управле- нии светофором с фиксированным ритмом и по числам ожидающих
§7. УПРАВЛЕНИЕ И ИНФОРМАЦИЯ 237 переезда автомашин. При тп^т„ потери управления оказываются мень- шими в пределах от 10 до 50 процентов (по сравнению с управлением по числам автомашин). Отметим еще, что рассмотрение более сложных транспортных узлов, чем перекресток, например площади со многими приходящими и ухо- дящими потоками, приводит к еще большему уменьшению потерь (по сравнению с фиксированным ритмом) при меньших упреждениях — всего 6—9 секунд. По-видимому, это вызвано еще большим разнообра- зием возникающих ситуаций и поэтому еще меньшей пригодностью управления светофорами с фиксированным ритмом переключения. Подытожим рассмотрение задачи управления уличным движением городского транспорта. Это управление возможно на двух уровнях: на уровне задания правил движения по улицам, перекресткам и пло- щадям и на уровне управления порядком переезда пересечений дорог. Дороги города образуют некоторую сеть, узлами которой являются их скрещения. Пути между скрещениями можно изобразить ребра- ми, а скрещения — вершинами графа сети дорог городского транспор- та. Каждое из ребер соответствует возможности проезда в одном на- правлении. «Проезд» автомашин по этим ребрам требует определенного вре- мени, случайного в некоторых пределах. Основные ограничения на пропускную способность сети дорог связаны с переездом через пере- крестки. Управление на верхнем уровне должно обеспечивать (в некоторой мере) возможность проезда автомашин по желаемым маршрутам. Этот верхний уровень управления не рассматривается, он принимается за- данным. Перед нами задача управления вторым уровнем порядка проезда через перекрестки. Эта задача очень сложная. Ее упроще- ние — идеализированная задача управления движением на одном от- дельном перекрестке. Простейшая модель — равномерные потоки автомашин, заданные детерминированные пропускные способности проезда перекрестка. Оптимальным режимом в такой модели является постоянный периодический ритм смен разрешенных направлений про- езда. Затем усложнение модели — потоки прибывающих к перекрест- ку автомашин случайные, но ритм переключения светофора по-преж- нему не меняется. Его нужно раз навсегда выбрать. Сравнение ре- зультатов численного моделирования обнаруживает не очень большие, но все же значительные различия с предыдущей моделью. Следующая модель — это модель, в которой смена цветов свето- фора определяется числами автомашин, ожидающих переезда через перекресток,- Эта модель — управляемая марковская система с дохо- дами. Здесь за счет управления с обратной связью удается значительно снизить потери, но возможности решения задачи оптимизации управ- ления весьма ограничены. Ограничения вызваны быстрым ростом числа состояний с увеличением числа управляемых потоков. При двух по- токах их порядка сотни, при четырех — тысяч, при десяти — невооб- разимо много — порядка 108—1010. Решение таких задач не под силу
238 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ даже самым современным вычислительным машинам, не говоря уж о не- обходимости их решения в реальном масштабе времени. Выход нужно искать в изменении постановки задачи, в ее кардинальном упрощении. Он приходит с выяснением быстрого достижения предельных возмож- ностей управления за счет дополнительной информации о временах прибывающих к перекрестку автомашин. Оказывается, что достижение практического предела потерь происходит уже при прогнозе времен приезда автомашин на 2—4 такта желтого света. Сам факт насыщения можно было предвидеть из общих соображений, но то, что насыщение происходит так быстро,— это экспериментальный факт, это особен- ность конкретной задачи, особенность системы обслуживания, если задачу формулировать в понятиях систем массового обслуживания. Из этой особенности вытекает возможность локализованного управ- ления отдельными перекрестками и группами перекрестков по инфор- мации, поступающей с этого и соседних перекрестков или с еще более близких датчиков на дорогах. И это не только теоретическая возмож- ность. Алгоритм управления движением автомашин при этом доста- точно прост. Он легко реализуем в реальном масштабе времени для десятка и более потоков. А больше и не нужно, поскольку управление может быть и должно быть локализовано по отдельным перекресткам или их небольшим группам. Сказанное перекликается с рассмотренной выше задачей об управ- лении двуногой ходьбой, с его локализацией на ряд подзадач: управле- ние положением корпуса, перестановкой ног, их толчками. Только там эти подзадачи были разные, а теперь они все одинаковые, но для раз- ных перекрестков. Укажем еще на связь между локализованным управлением и организацией движения автомашин типа «зеленой волны», когда фор- мируются пачки автомашин, которым все время дается свободный проезд. Движение типа «зеленой волны» (когда оно выгодно) должно возникнуть при локализованном управлении. И при определенных условиях оно возникает как некий аналог хорошо известного явления синхронизации. Если есть превалирование одного потока над его пересекающими, то возникает синхронизация управления перекрест- ками вдоль этого потока. § 8. Минимаксная стратегия поиска минимума функции одной переменной То, о чем мы собираемся здесь рассказать, относится к задаче на- хождения минимума функции в заданной области. Мы- увидим, что решение этой основной задачи математического программирования иногда оказывается весьма целесообразным организовывать в виде некоторого процесса поиска, которым можно управлять, используя ту информацию, которая имеется в нашем распоряжении, т. е. в виде некоторого управляемого поискового процесса. Естественно, что при этом встает вопрос о выборе такой стратегии управления поисковым
§8. МИНИМАКСНАЯ СТРАТЕГИЯ ПОИСКА МИНИМУМА 239 роцессом, чтобы он был в некотором смысле наилучшим. Примером акой стратегии и является минимаксная стратегия Кифера, но чтобы ней рассказать, введем основные понятия, связанные с задачей на- хождения минимума функции. Говорят, что точка х* сообщает минимум функции Q(x) в области S), если неравенство Q(x)^Q(x*) справедливо для любой точки х из области S). К настоящему времени имеется достаточно много мето- дов решения задачи отыскания точки минимума. Каждый из этих ме- тодов предполагает определенный набор сведений о функции Q(x) и области S) (например, непрерывная дифференцируемость функции Q(x), выпуклость функции Q(x) и области © ит. д.). Если предполо- жить, что о функции Q(x) мы ничего не знаем, а только можем подсчи- тать ее значение в любой наперед заданной точке, то естественно орга- низовать поиск точки минимума таким образом, чтобы на каждом этапе учитывать имеющиеся к данному моменту времени результаты вычис- лений. Так возникли алгоритмы поисковой оптимизации. Будем говорить, что сформулирован детерминированный алгоритм Э( поисковой оптимизации, если определены два правила: правило назначения следующей точки xfc вычисления функции Q(x) по ре- зультатам предыдущих вычислений: хй = /(хх, Q(x1); Xй"1, Q(xk~1)) (8.1) и правило остановки процесса поиска точки минимума в виде нера- венства ^(х1, Q (х1); ...; хй, Q (х*)) > 0. (8.2) Если при некотором k=N условие остановки (8.2) процесса поиска выполнено, алгоритм выдает приближенное значение минимума Q(x5) = min{Q(x1), Q(x2); Q(xw)}. (8.3) Обсудим такую организацию процесса поиска минимума. Допустим, что в нашем распоряжении N вычислений значений функции. Поиск минимума функции Q(x) в области можно было бы организовать и способом, отличным от изложенного. Например, задать сразу все N точек и среди вычисляемых значений функции выбрать наимень- шее. При этом, естественно, следует задать эти N точек Xх, х2,. . . . . . ,хЛгтак, чтобы достигнуть наибольшей близости к искомому миниму- му. Интуитивно ясно, что этот способ, вообще говоря, должен приводить к худшему результату, чем хорошо организованный способ последо- вательного назначения точек х1, х2,. . .,хЛГ, учитывающий результаты предшествующих вычислений значений функции. Он уже не лучше потому, что определяемая им стратегия поиска есть частный случай стратегии поиска с последовательным выбором. Как мы увидим, ин- туиция нас не подводит, и стратегия последовательного назначения действительно вообще несравнимо лучше стратегии разового назна- чения.
240 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Возможно, здесь полезно вспомнить об игре в отгадывание заду- манного слова с помощью некоторого числа вопросов, на которые за- гадавший это слово отвечает только «да» или «нет». Можно задать сразу все вопросы, столько сколько разрешается, и, обдумывая ответы на них, пытаться угадать задуманное слово. А можно задавать вопросы последовательно, в зависимости от ответов на предыдущие вопросы. Ясно, что второй способ много эффективнее, что, задавая сразу все, допустим, десять вопросов, как правило, нельзя угадать задуманное слово, в то время как при последовательных десяти вопросах это обычно удается. Процесс отгадывания задуманного слова — это управляемый процесс, целью которого является отгадывание, а управ- ление состоит в задаваемых вопросах. Ясно, что и поиск минимума также можно трактовать как управляемый процесс, цель которого со- стоит в возможно более точном определении минимума, а управление — в назначении точек, в которых следует вычислить значение функции, минимум которой ищется. С этой точки зрения предпочтительность последовательного выбора точек можно считать следствием общего принципа, согласно которому управлять следует по максимально до- ступной полезной информации. Обсудим теперь правило остановки (8.2). Его выполнение может, например, означать, что минимум уже найден с точностью, не меньшей некоторого е>0. При таком смысле правила остановки естественно требовать от алгоритма поиска, т. е. правила (8.1), чтобы для любой допустимой функции Q(x) и любого е>0 наступил останов при неко- тором конечном числе шагов. При этом это необходимое число шагов зависит не только от заданной точности е, но и от функции Q (х) и от алгоритма 31 поиска, определяемого (8.1), т. е. N=N(e, 31, Q). Это же требование можно сформулировать и как достижимость сколь угодно большой точности поиска минимума, если только N выбрано достаточно большим. Точность поиска е зависит от числа шагов поиска N, алго- ритма поиска 31 и функции Q(x), т. е. е=е(А, 31, Q). Естественное тре- бование к алгоритму поиска, о котором шла речь, означает, что е->0 при А->оо. Это эквивалентно тому, что N(е, 31, Q)<oo при любом е>0. Теперь перейдем к вопросу об оптимальности алгоритма поисковой минимизации. Это довольно сложный вопрос. Его сложность прежде всего в том, что один алгоритм может быть хорош для одних функций, а другой — для других, один может быть лучше на первых шагах поиска, а другой — на последних. Как же в этом случае их сравни- вать? Поэтому будем сравнивать алгоритмы при фиксированном заданном числе шагов, чтобы избавиться хотя бы от второй из названных труд- ностей. Затем ясно, что следует как-то фиксировать множество до- пустимых функций Q(x) и говорить лишь об оптимальности алгоритма на этом множестве функций. Можно определить оптимальный Д'-ша- говый алгоритм поисковой оптимизации следующим образом: это та- кой алгоритм 31*, который обеспечивает наименьшую погрешность
§ 8. МИНИМАКСНАЯ СТРАТЕГИЯ ПОИСКА МИНИМУМА 241 е, т. е. для любого другого алгоритма 31 и любой функции Q(x) Q)^e(N, SI, Q). (8.4) Беда, однако, состоит в том, что такого алгоритма, равномерно наилучшего на всем множестве различных функций Q(x), не сущест- вует. Действительно, для любого алгоритма 31, определяющего неко- торую последовательность точек х1, х2,. . ,,xN вычисления функции Q(x), всегда можно подобрать такую функцию Q(x) (например, (х— —Xs)2), что минимум находится точно в одной из точек х‘, i=l, W, по- этому справа в неравенстве (8.4) мы получим e(N, 31, Q(x)) = 0. В то же время абсолютно ясно, что, каким бы хорошим ни был алго- ритм SI*, он не может для любой функции обеспечить за N шагов точное нахождение точки минимума. Таким образом, к определению наилуч- шего алгоритма надо подходить обдуманно, ибо может оказаться, что наилучшего алгоритма не существует. В этом плане весьма плодотвор- ной идеей оказалась идея минимакса, которая состоит в том, что ищут алгоритм, лучший не во всех возможных ситуациях, а лишь в самой худшей ситуации. Что это значит? Возьмем некоторый AI-шаговый алгоритм поисковой оптимизации. Тогда погрешность e(N, SI, Q) нахождения точки минимума будет зависеть лишь от того, какова функция Q(x). Для некоторой («са- мой плохой» для алгоритма SI) функции эта погрешность будет наи- большей: е (N, SI) = maxe (N, 51, Q). (8.5) Если окажется, что такой «самой плохой» функции нет, то в фор- муле (8.5) шах следует понимать как sup. Можно сказать, что е(М, 31)— это гарантированная точность поиска точки минимума с помощью алгоритма 31, т. е. для любой функции Q(x) алгоритм 31 за N вычислений обеспечивает точность нахождения точки минимума не хуже, чем е(М, SI). Вот теперь уже можно определить наилучший минимаксный алгоритм 31* как алгоритм, для которого гарантиро- ванная точность будет наилучшей: е* (N) = е (N, SI*) min е (М, 31), (8.6) я или, что то же самое, е* (N) = min maxe (М, 31, Q). (8.7) Я Q Следовательно, М-шаговый алгоритм 31* находит минимум любой функции Q(x) с погрешностью, не превышающей величину е* (N): е (N, 31*, Q) max е (N, 3(*, Q) = е* (N). (8.8) Q Если же применить неминимаксный М-шаговый алгоритм, то по- грешность е(М) вычисления точки минимума может оказаться и мень-
242 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ ше, чем е* (N), и больше этой величины. Причем для неминимаксного алгоритма заведомо найдется такая функция Q(x), что погрешность е (N) превысит величину е* (N) (ибо в противном случае это уже будет минимаксный алгоритм). Попытка найти минимаксный алгоритм поисковой оптимизации для функций п переменных пока никому не удалась. А вот для функции одной переменной, рассматриваемой на заданном отрезке [а, bl и являю- щейся на нем унимодальной, это сделал Дж. Кифер еще в 1953 г. О-— . 6 О о----6.0 '^‘2. 312^ 31^ Ь< О) 6) Рис. 4.98 Унимодальность функции на отрезке [а, Ь] означает, что у этой функции имеется лишь один минимум в некоторой точке х* этого от- резка, причем слева от этой точки, т. е. на отрезке [а, х*], функция убывает, а справа, т. е. на отрезке [х*, bl, функция возрастает. В част- ности, выпуклая вниз функция заведомо будет унимодальной. Свой- ство унимодальности позволяет строить алгоритмы поиска экстремума, в основе которых лежит последовательное определение все меньшего и меньшего отрезка [аг, bj, содержащего точку минимума. При этом каждое новое вычисление позволяет произвести следующее сокращение отрезка lait bj. Проиллюстрируем этот факт на примере вычисления унимодальной функции Q(x) в двух точках Xi и х2 исходного отрезка [aj, 6J. В зави- симости от результатов вычисления мы сталкиваемся с одной из двух ситуаций: либо Q(x2)<Q(x1) (рис. 4.98, а), либо Q(x2)>Q(Xi) (рис. 4.98, б). В первом случае, опираясь на свойство унимодальности функции Q(x), можно утверждать, что точка минимума функции Q(x) располо- жена слева от точки хъ т. е. на отрезке [аъ xj. Во втором случае точка минимума будет располагаться на отрезке [х2, 6J. Таким образом, по мере вычисления функции Q(x) мы имеем возможность последова- тельно сужать отрезок, на котором располагается точка минимума. Сразу же возникает вопрос о том, как нам выбирать точки хъ х21. . . . . ,,xN, чтобы достигнуть как можно большего сокращения исходного отрезка, на котором мы ищем минимум функции Q(x), и тем самым минимизировать ‘ погрешность e(N) вычисления точки минимума. Мы уже видели, что абсолютно наилучшего алгоритма выбора точек хъ х2). . .,xN, который бы минимизировал погрешность e(N, 31, Q) для любой функции Q(x), быть не может. Что же касается минимакс- ного алгоритма 34*, минимизирующего гарантированную точность е (N, 34) подсчета точки минимума, то такой алгоритм, как мы сейчас увидим, существует для любого числа вычислений М = 1, 2, 3,...
§8. МИНИМАКСНАЯ СТРАТЕГИЯ ПОИСКА МИНИМУМА 243 Для того чтобы лучше понять преимущества, заключенные в самой процедуре алгоритма поисковой оптимизации, давайте посмотрим сна- чала, какой результат нам даст применение минимаксной стратегии в случае, если мы задаем сразу все точки хх, х2,. . .,xN. Пусть они рас- полагаются на исходном отрезке [аъ bj следующим образом: at<Z. Xi<x2<. . .<Хдг<Ь1. После подсчета функции Q(x) во всех этих .точках мы находим Q (xs) = min {Q (хх), Q (x2), ..., Учитывая унимодальность функции Q(x), мы можем утверждать, что точка минимума х* функции Q(x) на отрезке [од, bj располагается обя- зательно на одном из отрезков [х5-1, xj (если s= 1, то х0 означает а^; если s=N+l, то xN+1 означает bi). Таким образом, погрешность e(N) — \xs—х*| не превышает наибольшей из величин xs—xs-1 и xs+1—xs. Нетрудно видеть, что минимаксная стратегия в случае одновремен- ного задания всех точек хъ х2,. . ,,xN вычисления функции Q(x) будет состоять в том, чтобы выбирать точки xt на одинаковом расстоянии друг от друга: ^•+1—= т. е. + aj, i = TJt. При таком выборе точек х; гарантированная погрешность е* (N) — =|хя—х* | составит величину (Ьх—а1)/(У-|-1) и будет минимальна. Действительно, при любом другом распределении точек х; на отрезке [a,, bj гарантированная погрешность будет определяться как xJ+1—х5 = шах (х:+1—х^ и превысит величину (Ьх— ах)/(#4-1)» так как среди отрезков [х(-, х/+1] найдется хотя бы один, длина которого превосходит (Ьг — ajl(N 4- 1), а среди функций Q(x) найдется такая, что Q (xs) — min {Q (хх), ••,Q(xAr)}, а минимум ее располага- ется в точке х* сколь угодно близкой к точке xj+1. Теперь перейдем к изложению того способа нахождения точки мини- мума, который предлагается алгоритмом поисковой оптимизации. Как уже отмечено, результаты вычислений унимодальной функции в двух точках исходного отрезка [ах, ЬХ1 позволяют установить отрезок [а2, Ь21 меньшей длины, на котором располагается точка минимума, причем на отрезке [а2, Ь21 уже имеется одна точка, в которой вычисле- ние функции Q(x) произведено. Поэтому нам достаточно добавить еще одну точку вычисления функции и мы можем произвести дальнейшее сокращение отрезка, содержащего точку минимума. Рассмотрим этот процесс подробнее. Пусть на некотором шаге мы имеем отрезок [о6, bfc] с точкой хк, делящей отрезок [ак, Ьк] в отношении кк = (хк—ак) 1к\ 1к = Ьк—ак. Выберем еще одну точку хк+1. Пусть она делит отрезок \ак, хк] в отношении hk+1, т. е. хк+1 = ак-\-Хк+1 (хк — ак). В результате сравнения значений функции в точках хк и xfc+x мы придем либо к отрезку [afc, xj (если
244 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Qfo+iXQ (**))» либ° к отрезку [xfc+1, bk] (если Q (xfe+1) > Q (xk)). Если реализуется первый случай, то отрезок [ak+n который мы будем рассматривать на следующем шаге, характеризуется сле- дующими соотношениями: а) левый конец его совпадает с левым концом предыдущего отрезка, т. е. afe+1 = afe; б) длина его lk+1 определяется однозначно по следующей фор- муле: zft+1 = xfczk; в) точка xk+1, в которой уже произведено вычисление функции Q(x), делит отрезок [ak+1, Z?fe+1] в отношении Xft+1, т. е. длина отрезка [ak+1, xfc+1], прилегающего к левому концу ак+1, равна величине hk+1lk+i- Если же реализуется второй случай, то отрезок [afc+1, bk+1] можно характеризовать следующими соотношениями: а) правый конец его совпадает с правым концом предыдущего отрезка, т. е. bk+1 = bk; б) длина его Zfc+1 определяется однозначно по формуле lk+1 = = (1—XfcXft+1)Zfc (действительно, длина отрезка [xk+1, bk] равна длине lk отрезка [ak, Ьк] за вычетом длины Xft+1XftZfe отрезка в) точка xk расположена на отрезке (ak+1, ofc+1] таким образом, что длина отрезка [xfc, &k+1], прилегающего к правому концу bfc+1, равна величине. /fe+1 (действительно, длина отрезка [xfe, &k] равна После проведенного описания процесса поиска точки минимума функции Q(x) уже совсем нетрудно представить этот процесс как по- ведение некоторой управляемой динамической системы. Состоянием этой системы будем называть совокупность (Z, X) длины отрезка I и от- ношения X, в котором он разделен точкой, лежащей на отрезке. Таким образом, отрезок длины I разбит на два отрезка, один из которых имеет длину XZ, а другой (1—X)/. Управление этим динамическим процессом заключается в выборе отношения и, в котором делится новой точкой вычисления функции Q(x) отрезок, имеющий длину XZ. Поскольку за- ранее мы не знаем результата сравнения значений функции в двух точ- ках, то введем еще случайную величину £, которая может принимать два значения: £=—1, если в результате сравнения выделяется отрезок длины XZ; |=+1, если выделяется отрезок длины (1—Xu)Z. Тогда мож- но записать, что (Z? X) = /((Z, X), «Л), (8.9) т. е. новое состояние однозначно выражается через старое состояние системы, управление и и случайную величину Отметим здесь, что под новым отношением X, в котором отрезок длины Z делится на два отрезка оставшейся на нем точкой с вычисленным значением Q(x), мы понимаем в случае £ = — 1 отношение длины левого отрезка
§8. МИНИМАКСНАЯ СТРАТЕГИЯ ПОИСКА МИНИМУМА 245 к длине I (при этом Х = и), а в случае £ = +1 отношение длины правого отрезка к длине I ^при этом Х = • Такое определение отношения X окажется для нас наиболее удобным при изложении минимаксной стратегии управления динамической системой (8.9). Точка xfc+1 на отрезке \ак, была выбрана на его части [ак, xftj, составляющей Хй-ю часть от всего отрезка. Эти точки хк+1 могли быть выбраны и на отрезке [xfc, &fc]. Из последующего будет видно, да это н так очевидно, что точку хк+1 следует выбирать на большем из отрезков [afc, хк] и [xfc, &fc], Поэтому выбор действительно будет падать на отрезок [ак, xfc], если Xfc > 1/2. При £fc+1 = — 1 выбира- ется отрезок [ак, хк] и он делится точкой хк+1 в отношении Xfc+1 = — uk, которое тоже окажется больше 1/2. Напротив, при £fc+1 = 4-l выбирается отрезок [xfc+1, Ьк]. Точкой хк он делится на два отрезка хк+1, и [хл> Ьц]> причем большим среди них окажется отрезок хк, Ьк]. Именно с этим обстоятельством связано то, что за Xfc+1 в этом случае принимается отношение длины правой части [xft, Ьк] отрезка [xfc+1, к его длине, т. е. Хй+1 = (Ьк—хк)/(Ьк—хк+1). И при последующем выборе точки хк+2 она будет выбрана на отрезке Sxk+1, fyj» т- е- опять на части отрезка, которая составляет часть от общей длины. С учетом сказанного запишем теперь в явном виде формулу (8.9), связывающую два последовательных состояния (/, X) и (/, к): - ( X/ при s = —1, I (1—Хи)/ при £ = +1, (8.10) _ f X при £ = — 1, В чем состоит минимаксная стратегия? Во-первых, мы должны управ- лять системой (8.9) так, чтобы величина I на каждом шаге получала наибольшее гарантированное сокращение. Во-вторых, на последнем шаге мы должны получить отрезок (он будет иметь наименьшую гаран- тированную величину), разделенный оставшейся на нем точкой вычис- ления функции Q(x) пополам, т. е. в отношении 1/2. Только такое управление, обладающее обоими указанными свойствами, обеспечит нам в результате последовательного выбора N точек вычисления уни- модальной функции минимальную гарантированную погрешность е* нахождения точки минимума, и эта погрешность будет равна половине длины отрезка /х, полученной на последнем шаге управляемого про- цесса (8.9). Теперь нам предстоит найти это управление, и мы попро- буем это сделать. Как установлено, на каждом шаге мы от отрезка длины 1к приходим либо к отрезку длины /fc+i=Xfi,/A (если ^fc+i=—1), либо к отрезку длины 1к+1=(\—%кХк+1)1к (если £fc+1= + l). Изобра-
246 ГЛ. 4. управляемые динамические системы зим графики зависимости длины сокращенного отрезка от параметра Xfe в обоих случаях (рис. 4.99). Поскольку заранее значение случайной величины нам не- известно, гарантированное сокращение отрезка 1к до отрезка /й+1, содержащего точку минимума, будет определяться следующим об- разом: ^k+t — max (1 —^лЛй-и)lb}- (8-П) Если теперь мы посмотрим на график зависимости гарантиро- ванной длины 1к+} сокращенного отрезка I от параметра Xfc (см. рис. 4.99), то мы легко I увидим, что наибольшего гарантированного сокращения мы достигнем в том случае, s' если параметры Хй и Xfc+i связаны соот- ношением t.k = 1 XftXft+1, (8-12) / хк или, что то же самое, о 1 1 Рис. 4.99 Х*=1-Нй+-1‘ (8‘13^ Итак, если у нас есть отрезок [ак, bk] длины 1к, разделенный неко- торой точкой хк в отношении Xfc, и мы выбираем еще точку хк+1 на отрезке [ак, хк] так, что она делит его в отношении Xft+l, то наи- большее гарантированное сокращение отрезка [ак, Ьк] достигается при выполнении соотношения (8.13). При этом длина 1к+1 отрезка [«fe+i> &fe+i] как при £fc+1 = —1, так и при ^+1 = + 1 будет одной и той же: /fc+1 = X^ = (l—XftXfc+1)/й, а отрезок [aft+1, &fc+1] оставшейся на нем точкой будет-разделен в отношении Хй+1 как при ^+1 = —1 (это очевидно), так и при gft+1 = -|-l (в этом случае, как мы знаем, отношение длины правого отрезка к длине lk+1 будет равно -j—г . R , но эта величина совпадает с Xft+1, если выполняется условие (8.12)). Таким образом, соотношение (8.13) можно трактовать как связь между числом Xft, задающим отношение, в котором разделен отрезок [ак, Ьк], и числом Хк+1, задающим отношение, в котором будет раз- делен отрезок [ак+1, Ьк+1], если мы будем придерживаться минимак- сной стратегии. Но так как отношение Хд?, в котором должен быть разделен отрезок [ад?, Х’д] на последнем шаге согласно минимаксной стратегии, нам известно (Хд? = 1/2), то формула (8.13) позволяет нам найти все отношения X,-, i=l, /V, в которых должны быть разделе- ны отрезки на всех предыдущих шагах. Последовательные значения параметров Xz таковы: Хд, = 1 /2, Хдг_j = 2/3, . . •, Хдг _* = Fh+jjFк + 2, .. ., X, = Fn/Fn+±, где числа Fk — известные числа Фибоначчи (F1 = l, F2 = 2, Fk = = Fk_1-\-Fk_2 при fe = 3, 4, ...). Значения Xj, X2, .. ., Хд _J ЯВЛЯ-
§ 8. МИНИМАКСНАЯ СТРАТЕГИЯ ПОИСКА МИНИМУМА 247 ются фактически коэффициентами сокращения отрезка, содержащего точку минимума на первом, втором, ..., (М—1)-м шаге процесса поисковой оптимизации при минимаксной стратегии. Таким образом, длина отрезка будет равна 1 FN F.\r~i 2 I 2 , N~FN+1' Fn ’ ’ 3 ll~FN+ll" а так как последняя точка вычисления функции Q(x) будет располо- жена в середине отрезка (A.jV= 1/2), то минимальная гарантированная погрешность е* (N) нахождения точки минимума унимодальной функ- ции Q(x) на отрезке [аъ bj длины 1± определяется соотношением e*(2V)==^Z1' (8Л4) Интересно сравнить теперь результаты применения минимаксной стратегии при одновременном и при последовательном задании точек хх, х2). . ,,xN. В таблице 4 приведены значения минимальной гаран- тированной погрешности для обоих вариантов задания N точек на отрезке длины 1±. Таблица 4 Л'= 5 Л'=10 А=15 W = 20 W = 25 Значение е* при одно- временном задании N точек !' п'1 Тб11 1 z 26 11 Значение е* при после- довательном задании N точек Гз11 _LZ 144 11 _2_, 1597 1 h 17 771 G 196418 Мы видим, что уже при М>10 существует колоссальная разница в конечном результате при реализации этих двух различных подходов к решению задачи поиска точки минимума. Чем же, по существу, объясняется такая разница? За счет чего она возникает? Чтобы понять это, давайте посмотрим на обе эти проце- дуры с общих позиций управления. Что означает задание сразу всех точек, в которых мы должны вычислить значения функции Q(x)? Это означает, что’мы заранее спланировали всю нашу работу по отыс- канию точки минимума: вычисляем функцию в точках хъ х2,. . .,xN, а затем определяем приближенно точку минимума xs по правилу Q (х,) = min -jQ (хх), Q (х2), . .., Q (x,v)}. Программа действий здесь жестко определена с начала и до конца. На языке управления это называется календарным планированием
248 ГЛ. 4. управляемые динамические системы или программным управлением. Напротив, при последовательном выбо- ре точек каждая из следующих точек деления выбирается, опираясь на результат, достигнутый до этого выбора, и это соответствует опера- тивному управлению, учитывающему полученные в результате поиска значения случайной величины £ в соответствии с (8.10). Вернемся к соотношению (8.13). Его можно рассматривать как то- чечное отображение, преобразующее точку Xfc+1 отрезка [0, 1] в точку Xfc того же отрезка. График этого точечного отображения имеет вид, показанный на рис. 4.100. Это отображение Т имеет единственную устойчивую неподвижную точку X*, так что последовательные преоб- разования Хдг, . ., Х2, Xt к ней сходятся. Согласно (8.13) X* удовлетворяет уравнению X* = —5— 14-Х* ’ или (Х*)2-|-Х* —1 =0, (8.15) откуда X* = ^L+K£~o,62. На рис. 4.100 представлены последовательные преобразования kN, Как видно, они достаточно быстро приближаются к точке X*. Поэтому при больших N первые значения Хь Х2). . . близки к X* и сокращение длины отрезка, в котором находится минимум, на пер- вых п шагах примерно равно (Х*)п. Как показывает сравнение этого сокращения с оптимальными сокращениями, приведенными в таблице, оптимальная TV-шаговая стратегия лишь немногим лучше стратегии деления отрезка в отношении X*, которое называется золотым сече- нием. Это различие тем меньше, чем больше N. § 9. Поисковая глобальная оптимизация ео стохастической адаптивной моделью Задача отыскания минимума функции Q (х) по своей формулировке простая и частная. Однако простота и частность ее обманчивы. Это за- дача общая, можно сказать, всеобъемлющая и очень сложная. Всякую задачу можно сформулировать как задачу минимизации. Для этого достаточно под минимизируемой функцией Q(x) иметь в виду функцию, равную нулю для требуемого решения и положительную для всех остальных значений. При этом специфика различных задач будет на- ходить свое отражение в способах отыскания значений минимизируе- мой функции и соответствующих им ее свойствах. Это говорит о том, что f е может быть приемлемых для всех функций способов отыскания их минимумов, как нет общего метода решения всех задач, что методы отыскания минимума должны определяться способами определения и свойствами минимизируемых функций Q(x) и что поэтому постановка
§9. ПОИСКОВАЯ ГЛОБАЛЬНАЯ ОПТИМИЗАЦИЯ 249 задачи поиска минимума должна включать в себя задание свойств или класса рассматриваемых функций. Наименьшее значение функции Q(x) можно найти прямым перебо- ром. Перебор реализуем, если множество значений х конечно. При бес- конечном множестве значений перебор не- возможен, он практически невозможен и при очень большом числе элементов х. Та- ким образом, задачу поиска минимума мо- жно видеть в сокращении перебора, напри- мер, путем исключения заведомо непод- ходящих значений х. Опять простота об- манчива: нужно всего навсего сократить перебор. Но как это сделать? Мыслимы случаи, когда данные о фун- кции 'Q(x) позволяют с помощью цепи умозалючений найти ее наименьшее зна- чение. Это один крайний случай. Другой крайний случай—это когда возможно лишь определение значения функции Q(x) при любом конкретном х. В этом крайнем'случае нельзя придумать никакого сокращения прямого пере- бора. Между этими двумя крайними случаями лежат всевозможные промежуточные. Для них можно сформулировать алгоритм поисковой минимизации в следующем виде. Пусть функция Q(x) уже вычислена в точках х1, х2,. . ,,х" и Q1, Q2,. . ,,Qn — ее значения в них. Тогда следующая точка xn+1, в которой надлежит найти функцию Q(x), задается некоторым правилом x"+1 = f (х1, Q1; ...; хл, Q"). Поиск оканчивается, как только выполняется условие дфх1, Q1; ..х", Qf!) > О, (9.1) (9.2) и после остановки поиска в качестве наименьшего значения функции Q(x) предлагается величина Qmln = min {Q1, Q2, (9.3) а за точку минимума — точка xmin=x\ Таким образом, алгоритм поисковой глобальной минимизации определяется правилом выбора следующей точки (9.1) и правилом оста- новки (9.2). Правило выбора следующей точки и остановки, естественно, следует строить так, чтобы минимум с заданной точностью находился при воз- можно меньшем числе шагов. Однако, как можно заметить, эта естест- венная формулировка не вполне корректна, так как для каждой кон- кретной функции наилучшим поисковым алгоритмом является алго- ритм, указывающий в качестве первой точки точку ее глобального ми- нимума, и, следовательно, не может быть алгоритма, наилучшего в
250 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ указанном смысле, для всех функций Q (х). Выход из этого затруднения возможен на основе минимаксного подхода либо благодаря переходу к требованию минимальности числа шагов поиска в среднем. Первый, минимаксный подход гарантирует, что наибольшее число шагов поиска для самой «неудобной» для алгоритма функции будет самым маленьким. Однако при этом для дру- гих функций оно может быть неоправданно большим. Поэтому, если алгоритм применяется для смеси «плохих» и «хороших» функций, то для «хороших» функций он может быть очень плохим. Избежать этого можно было бы за счет достаточного сужения класса [рассматри- ваемых функций, но обычно необходимыми для этого данными о функции мы не располагаем. Исключение, может быть, составляют одномер- ные унимодальные функции, для которых Кифером был построен описанный выше минимаксный алгоритм. Од- нако всегда ли заранее известно, что функция унимодальна? Второй подход к формулировке оптимальности поискового алго- ритма основывается на критерии минимальности в среднем и требует знания вероятностей встречи с теми или иными функциями Q(x). Однако откуда эти вероятности взять? Но даже если бы они и были известны, все равно задача построения требуемого алгоритма представ- ляется необычайно сложной. Поэтому, по-видимому, следует искать другие пути формирования понятия оптимальности алгоритма гло- бальной поисковой оптимизации. Обратим внимание еще на существование очень «плохих» функ- ций. Простым примером могут служить функции вида Q (х) = <[ 0 при || х—а ||—г при ||х —а||>г, ||х—а||<г, заданные в области ||х|К7? при всевозможных значениях параметра а(||а|К7?) и фиксированном значении ’параметра г. Эта функция в двумерном случае имеет вид, показанный на рис. 4.101. Ее глобаль- ный минимум расположен в точке xmin=a. Ясно, что для всех таких функций последовательность точек х1, х2,. . ., определяемая правилом вида (9.1), до тех пор, пока ни одна из них не попадет в г-окрестность минимума, одна и та же. Поэтому, пока число этих точек n<Z. (Rlr)m, где т — размерность пространства точек х, существуют функции Q(x) в рассматриваемом семействе, для которых ни одна из точек х1, х2,. . ., хп не попала в r-окрестность точки х^, т. е. для отыска- ния точки минимума с точностью, хотя бы большей г, у любой из функ- ций Q(x) требуется число шагов, заведомо большее чем (7?/r)m. Это чис- ло шагов катастрофически растет с увеличением размерности прост- ранства т, так что уже при /и>10 и /?/г>10 практическое осуществле- ние поиска заведомо невозможно. Этот пример учит тому, что не еле-
§9. ПОИСКОВАЯ ГЛОБАЛЬНАЯ ОПТИМИЗАЦИЯ 251 дует стремиться находить глобальный минимум у любой функции, следует научиться это делать тогда, когда это возможно. Задача оптимизации функции — очень общая задача, поэтому поз- волим себе расширить трактовку процесса поиска. Будем его рассмат- ривать как взаимодействие среды (функции Q(x)) и субъекта (оптими- затора О). Это взаимодействие состоит в том, что оптимизатор «задает вопросы», а среда «отвечает на них», сообщая субъекту некоторые све- дения о себе (информацию /). Вопрос содержит указание точки х, а ответ — значение функции Q(x) в этой точке х. (Возможны, конечно, и другие вопросы и ответы.) Цель оптимизатора О состоит в отыскании минимума функции Q(x). Оптимизатор должен знать, какие вопросы следует задавать, чтобы среда своими ответами позволила достичь ему ’этой цели. Сегодняшнее понимание этой проблемы позволяет указать две общие возможности: 1) это делается в соответствии с некоторой структурой оптимизатора и его внутренним состоянием, которое в той или иной мере формируется на основе имеющейся и получаемой инфор- мации /; 2) это делается, исходя из модели среды, которая строится по имеющимся о ней сведениям и получаемой в процессе поиска инфор- мации 1. Во втором подходе и общей модели поисковой оптимизации опти- мизатором, кроме задачи определения значения Q(x) на следующем шаге (имеющей целью поиск точки xmin), решается еще и новая внут- ренняя подзадача формирования модели среды (функции Q(x)). Отли- чие этого второго подхода от первого состоит в том, что в нем эта под- задача приобретает самостоятельность в том смысле, что субъект «заин- тересован» в получении информации, не только той, которая нужна для сиюминутного определения следующего шага, но и той, которая способствует формированию модели среды. Конкретными примерами реализации первой возможности являются всевозможные алгоритмы последовательного уменьшения достигнутого значения функции Q(x), в частности алгоритмы градиентной оптими- зации, алгоритмы случайного поиска и автоматной оптимизации. Идея градиентного спуска состоит в том, что следующая точка хп+1 выбирается по предыдущей в направлении наибыстрейшего убы- вания функции, указываемого вектором, противоположным направле- нию градиента VQ(xra) в точке х". В соответствии с этим х«+1 = х«_ еп+1 VQ(x,!), где en+1 — некоторое положительное число, определяющее величину шага поиска. При достаточно малых e'i+1 заведомо Q(xra+1)<;Q(xn). Однако при малых en+1 нельзя ожидать значительного уменьшения величины функции Q(x). В связи с этим величина шага выбирается из тех или иных дополнительных компромиссных соображений. Например, в алгоритме наискорейшего спуска ега+1 выбирается из условия мини- мума функции Q(x”—en+1 VQ(x)) ’по скалярной переменной en+1. Однако это правило выбора величины шага вовсе не обеспечивает наи-
252 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ быстрейшего приближения к точке минимума. В некоторых случаях лучший результат достигается при несколько меньших шагах. Следующая точка поиска хп+1 может выбираться случайным обра- зом. Если новое значение функции Q(xn+1) окажется меньшим пре- дыдущего значения Q(x"), то такой шаг удачен и он используется. В противном случае он отвергается и заменяется другим шагом. Мож- но, например, заменить его на противоположный либо повторять слу- чайные шаги до удачного шага. Имеются и значительно более изощрен- ные способы последовательного уменьшения значений функции Q(x). Отметим еще вкратце простейший оптимизатор, организуемый кол- лективом независимых автоматов. Каждый из автоматов такого опти- мизатора весьма прост. Это может быть, например, уже знакомый нам автомат с линейной тактикой с двумя действиями +1 и —1 или авто- мат с тремя действиями —1,0 и +1. Графы допустимых переходов этих автоматов изображены на рис. 4.102. Числа состояний могут быть не только такими, как на этом рисунке, но й другими, большими. В сим- метричном случае их может быть соответственно 2т и 3m, где т — \, 2,. . .; т=1 соответствует случаям, изображенным на рис. 4.102. Действия, отвечающие различным состояниям автоматов, показаны цифрами при кружочках, изображающих состояния автоматов. Пере- ходы из одних состояний в другие носят в общем случае случайный характер. Вероятности этих переходов зависят от внешнего воздейст- вия на автомат. Таких внешних воздействий два: «поощрение» (+1) и «наказание» (—1). Вероятности смен состояний таковы, что при по- ощрении автомат с большей вероятностью сохраняет прежнее действие, чем его меняет. В этом смысле его поведение целесообразно, точнее, его поведение заведомо целесообразно в стационарной среде, когда повторение поощренного действия ведет к удаче. При повторных по- ощрениях он может укрепляться в правильности своих действий либо при нескольких наказаниях, напротив, переходить к другому дейст- вию. То, насколько быстро он это делает, зависит от числа т, которое в связи с этим можно назвать памятью. Если перенумеровать состоя- ния автомата, то закон их смены задается матрицами Р(—1) и Р (+1), элементами рц которых являются вероятности смены i-ro состояния на j-е состояние при наказании и соответственно при поощрении. Мат- рицы смен состояний для автомата с двумя действиями, показанного
§ 9. ПОИСКОВАЯ ГЛОБАЛЬНАЯ ОПТИМИЗАЦИЯ 253 на рис. 4.103, имеют вид Р(_1)=Гр ’!• где p>q. При р~\ и </=0 стохастический автомат превращается в зна- комый детерминированный автомат с линейной тактикой. Рис. 4.103 Простейший автоматный оптимизатор теперь строится следующим образом. Пусть Q(%i, х2,. . ,,хп) — минимизируемая функция п пере- менных х2>. . ., хп и Ai, А 2,. . ., Ап — автоматы со входами ?2,- . ., и выходами r]i, г]2). • ., Лп- Каждый из автоматов Л, незави- симо от других управляет значением соответствующей ему переменной Х( так, что xf+1 = xf-|-6(-Pi+1, (9.4) где 6t- — величина шага изменения i-й переменной х: и т|^+1 — выход- ное значение автомата Лг. Все входные значения gf, ..., авто- матов Л1( ..., Ап на s-м такте равны либо —1, либо -j-1 в зависи- мости от знака изменения функции Q(x), так что £f+1 = sign [Q (xi"1, ..., ^T1) — Q (x{, .... xs„)]. (9.5) Выход rji каждого из автоматов на каждом такте зависит от его со- стояния. Эта зависимость носит детерминированный характер. На- против, смена состояний каждого из автоматов Л; имеет случайный характер, организованный так, чтобы способствовать уменьшению значения функции Q(x) от такта к такту. В случае детерминированных автоматов эта случайность отсутствует и алгоритм поиска в целом так- же является детерминированным с правилом выбора следующей точки поиска, записываемым в виде (9.1). Однако в случае стохастических автоматов правило назначения следующей точки поиска не является детерминированным и не может быть записано в таком виде. Таким образом, поиск минимума коллективом независимых стохастических автоматов имеет более общий характер, чем детерминированная поис- ковая оптимизация. Оказывается, что поиск минимума стохастически- ми автоматами осуществляется для значительно более широких клас- сов функций, чем поиск детерминированными автоматами, так что применительно к автоматному поиску введение случайности в процессе поиска расширяет его возможности. Можно думать, что в условиях неопределенности, малой информативности об объекте, использование случайности расширяет и улучшает возможности поиска решения.
254 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Для автоматного поиска это так. Так ли это в общей постановке поис- ка решения — неизвестно. Хотя биологические системы поступают именно так: неопределенность ситуации влечет случайность ответной реакции, которая определяется по мере роста неопределенности все в большей и большей мере не рассудочным ответом, а возникающим эмоциональным состоянием. Описанный поиск минимума коллективом автоматов является при- мером, когда процесс поиска определяется структурой (устройством) поисковой системы. Опишем теперь алгоритмы поиска, основанные на модели среды. Какой должна быть модель среды, как нужно ее строить? На этот воп- рос трудно сейчас дать ответ. Можно лишь указать некоторые способы ее построения и подтвердить их приемлемость и эффективность. И это, конечно, только в рамках некоторых предположений, с изменением ко- торых должна быть изменена и модель. Построение модели, исходя из тех или иных предположений, очень непростая задача, решение кото- рой может оказаться неоправданно сложным, так что, возможно, сле- дует принять, что сама модель и есть эти предположения о среде. В си- туации неопределенности может оказаться, что исходная модель не так уж существенна и значительно важнее то, насколько хорошо учи- тываются в ней получаемые в процессе поиска новые данные. Хотя, конечно, и сам процесс уточнения данных тоже может происходить лишь на основе некоторой общей модели среды, некоторого общего о ней представления. Такой подход к поисковой оптимизации возник сравнительно недавно. Дальнейшее содержит теоретические соображения и некоторые ре- зультаты экспериментального опробования алгоритмов глобальной поисковой оптимизации, построенных на основе адаптивно подстраи- ваемых стохастических моделей оптимизируемой функции Q(x). Ниже описываются две такие конкретные модели. Одна строится только по значениям функции Q(x), находимым в процессе поиска. Вторая использует значения не только функции Q(x), но и ее градиен- та vQ(x). При этом предполагается, что наряду со значением функ- ции Q(x) в любой точке х может быть найден и ее градиент vQ(x). Отметим, что при достаточной плотности точек х с известными значе- ниями Q(x) приближенно градиент ?Q(x) можно находить по этим значениям функции. Однако ниже это не используется, а просто пред- полагается возможность точного вычисления vQ(x). Первая стохастическая модель минимизируемой функции состоит в том, что принимается формула вида п _ Р (Q(x) <Q/x.\ Q1; Q«)=Xcs(x)<p(-Q^j, (9.6) определяющая вероятность того, что в точке х функция Q(x) меньше Q при условии, что в точках х1, х2,. . .,хп она равна соответственно Q1, $2,. . ., Qn. В этой формуле стохастической модели функции Q(x)
§9. ПОИСКОВАЯ ГЛОБАЛЬНАЯ ОПТИМИЗАЦИЯ 255 <р(£) — некоторая заданная неубывающая функция, меняющаяся от О до 1 при изменении £ от —со до 4~оо, Cs(x) — функции х такие, что Cs(xk)=bsk и СДх)->0 при возрастании расстояния р, точки х от точки Xs, кроме того, в любой точке х их сумма нормирована к еди- нице, уДх)— возрастающая функция расстояния ps, например, Dsps, где Ds — коэффициент, оценивающий скорость изменения функ- ции Q(x) от точки х к точке Xs. В качестве конкретных видов функ- ций <р(£) и Cs(x) можно принять / » \ -1 СЛх) = РзД£р?^ , (9.7) при 1—при s>0. Формула (9.6) определяет функцию распределения вероятностей значений Q(x). Она такова, что в точках х1, х2,. . .,хп значения Q1, Q2,. . ., Qn принимаются с вероятностями единица. Вблизи точки Xs наиболее вероятные значения Q(x) близки к Q5. Расплывание распре- деления вероятностей по мере удаления точки х от точки Xs происходит тем быстрее, чем быстрее возможное изменение функции Q (х) от точки х к точке х\ учитываемое функцией уДх). Для точек х, близких к точке Xs и удаленных от остальных точек x‘ (i^=s), наибольшую роль в фор- муле (9.6) играет s-й член суммы. Это обеспечивается свойством коэф- фициентов Cs (x):Cs (х)->0 при р^-э-оо. Если точка х сравнительно близ- ка к точкам xs‘ ,. . .,xs/, а'Ът остальных значительно удалена, то ос- новную роль в сумме формулы (9.6) играют члены, отвечающие этим близким точкам. В любой точке х функцию распределения вероятностей значений Q(x) можно рассматривать как взвешенную с коэффициентами СДх) ("Q_________________ QS\ (~Q_ QS\ сумму функций ф J. Каждый из членов ф(^ у этой суммы при Q < Qs, как функция х в точке х=х*, равен нулю и по мере уда- ления от точки Xs возрастает до 1/2, причем это возрастание происхо- дит тем быстрее, чем быстрее предполагаемое возможное изменение функции Q(x), соответствующее этому изменению переменной х. Сделанное описание функции, определяемой формулой (9.6), по существу представляет собой описание предполагаемых связей неиз- вестных значений функции Q(x) в любой точке х с известными значе- ниями Q1, Q2,. . .,Qn ее в точках х1, х2,. . ., х". Эти предполагаемые связи для обычных гладких функций достаточно естественные и общие. Подчеркнем, что стохастическая модель (9.6) функции Q(x) вобра- ла в себя на основе этих общих априорных представлений о ее возмож- ном виде сведения, получаемые о ней после п шагов поиска. С каждым
256 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ следующим шагом поиска эта модель уточняется. Именно поэтому она названа адаптивной стохастической моделью. Вторая адаптивная стохастическая модель функции Q(x) предпо- лагает, что, помимо вычислений значений функции Q(x), вычисляется и ее градиент VQ(x). Она состоит в том, что Р (Q (х) < Q/x1, Q1, VQ1; ...; хп, Qn, \Qn) = -£С,Иф( (9.8) где функции <р(£) и Cs(x) такого же вида, как и в предыдущей формуле (9.6), а уДх) теперь, например, равна где — некоторая оценка скорости квадратичного изменения функции Q(x) от точки х к точке X'5. Перейдем к вопросу об использовании сделанных предположений о стохастической модели функции для организации поиска ее глобаль- ного минимума. Точное решение этой задачи наталкивается на очень большие трудности. Это заставляет искать приближенные решения на основе общих теоретических и эвристических соображений. Естест- венно, что при этом окончательное слово принадлежит эксперименту, который может опровергнуть или оправдать допустимость и приемле- мость такого приближенного решения. Ниже после постановки возникающей математической задачи и об- наружения трудностей ее прямого решения излагаются общие теоре- тические и эвристические соображения, приводящие к некоторой про- цедуре поисковой глобальной оптимизации. Эффективность этой про- цедуры подтверждается экспериментально. Помимо этой эксперимен- тальной проверки возможно теоретическое исследование этой проце- дуры вне зависимости от того, насколько теоретически обосновано ее получение. Это теоретическое рассмотрение обнаруживает ее сходи- мость и целесообразную организацию поиска. Исходя из адаптивной стохастической модели (9.6) оптимизируемой функции Q(x), можно найти вероятность того, что найденное наимень- шее значение Qmin==Q's является наименьшим не только в точках х1, х2,..., хп поиска но еще и в любых дополнительных точках xn+1, ... . . ., xN. Обозначим эту вероятность через Р( min Q(xO>Qroin = Qi/x1, Q1; ...; х», . (9.9) \/ = n+l.N J По этой вероятности (9.9) можно определить правило остановки алго- ритма поиска как требование того, что найденное наименьшее значе- ние Qmin отличается от минимального значения во всех точках х1, х2, . . ., xN не более чем на 6 с вероятностью, большей 1—е. Это пра- вило остановки состоит в выполнении неравенства Р( min Q(x>)>Qrain-6\>l-e. (9.10) V = n+1..N J
§9. ПОИСКОВАЯ ГЛОБАЛЬНА ОПТИМИЗАЦИЯ 257 Ясно, что выполнение условия (9.10) влечет выполнение и более силь- ного утверждения вида P(minQ(x)>Qmin-6-/(p)>l-P, (9.11) где К — константа Липшица функции Q(x), а р — максимально возможное расстояние от точки х до ближайшей из точек х1, х2,. . . ,xN. С ростом числа точек N при надлежащем их выборе проис- ходит неограниченное уменьшение числа р, и поэтому выполнение (9.10) с требуемыми 6 и е можно принять за правило остановки. Опишем путь получения вероятности (9.9). Сначала находится совместная плотность вероятности по формуле P(Q (xn+1) = Q,+1, ..., Q(xv) = Qv/x1, qi. xnf = = P (Q (xre+1) = Qr!+1/x1, Q1; ...; x", Qn), (9.12) P(Q](xn+2) = Q,+2/x1, Q1; ...; xn+1, Qn+1) ... .. .P(Q(xA') = QA7x1, Q1; ...; x*-1, Q4'"1), в которой стоящие в правой ее части плотности вероятности непосред- ственно находятся по принятой стохастической модели (9.6) оптими- зируемой функции Q(x). Затем, используя полученную плотность вероятности (9.12), по формуле Р( min Q(ху)>ёшы/х1, Q1; хя, Q"\ = y/ = n+ 1, .... A' J = $ P(Q(xn+1) = Qn+1, ...,Q(xiV) = & ^min = Qw/x1, Q1; xn, Qn)dQn+1 . .. dQN (9.13) находится искомая вероятность (9.9). Перейдем к центральному вопросу оптимизации поиска минимума функции Q(x). Задачу оптимизации можно видеть в стремлении выполнить крите- рий остановки (9.10) для возможно меньших значений 6, е и числа ша- гов поиска п. При этом можно фиксировать 6 и е и стремиться по воз- можности уменьшить число шагов. Можно фиксировать число шагов п и требуемую точность 6 и стремиться увеличить вероятность соблю- дения этой точности, т. е. стремиться к возможно меньшему значению е. Можно фиксировать число шагов поиска и вероятность 1—е и стре- миться к уменьшению ошибки 6. Можно формулировать и некоторые компромиссные цели. Все эти конкретные формулировки задачи опти- мизации поиска в общем близки и в некотором смысле сводимы друг к другу, так что достаточно было бы научиться решать эту задачу в какой-нибудь одной из этих формулировок (например, исходя из же- лания максимизации вероятности 1—е при заданных точности 6 и числе шагов п). Вероятность получения минимума после п шагов поис- ка с точностью 6 согласно (9.13) является функцией выбираемых точек х1, х2,. . ., х" и случайных значений Q1, Q2,. . ., Qn. При этом распре-
258 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ деление вероятностей Q1 зависит только от х1; распределение ве- роятностей Q2 зависит от х1, х2 и реализации случайного значения Q1; распределение вероятностей Q" зависит от всех точек х1, х2,... . . ,,х" и реализаций случайных величин Q1, Q2,. . Q"-1. Таким обра- зом, в конечном счёте искомая вероятность оказывается случайной величиной, зависящей от выбираемых точек х1, х2,. . .,хп. Это озна- чает, что результаты поиска имеют случайный характер, что можно лишь стремиться к увеличению вероятности желаемого результата. Обычно в такой ситуации, когда нельзя максимизировать саму вели- чину, максимизируют ее математическое ожидание. Автоматическое ожидание является функцией точек х1, х2,. . ., хга, и эти точки могут быть выбраны так, чтобы максимизировать математическое ожидание вероятности нахождения минимума с требуемой точностью 6. Можно поступить и иначе, например, максимизировать вероятность того, что требуемая вероятность больше некоторой устраивающей величи- ны р*. Однако можно заметить, что получаемые таким образом стратегии поиска могут не являться наилучшими, если на последующих шагах поиска допускается учет фактических реализаций предшествующих случайных значений Q1, Q2,. . . Общую причину этого можно видеть в том, что в первом случае при оптимизации поиска не используется информация о фактических реализациях случайных значений функ- ции Q. Более конкретно это обнаруживается следующим образом. В пер- вом случае оптимизируется математическое ожидание вероятности (9.10). Это математическое ожидание является функцией точек х1, х2,. . ., хп, которые выбираются из условия его максимума. Уже после выбора точки х1 становится известным значение случайной величины Q1, и то же математическое ожидание после этого оказывается, вообще говоря, функцией х1, х2, . . ., х", отличной от прежней. Поэтому опти- мальные значения х2, х?,. . ., х" уже не совпадают с теми, которые были получены ранее. Аналогично, после двух шагов становятся из- вестными два значения Q1 и Q2, а после s шагов — s значений Q1, Q2, . . ., Qs. Отыскиваемые при этом математические ожидания от шага к шагу как функции х1, х2,. . ., х" меняются. Точнее, они могут сов- пасть лишь при каких-то особых обстоятельствах. При этом значения переменных х2,. . ., х" после первого шага с точки зрения второго шага не являются оптимальными; значения x-s+1,. . .,хп, выбранные после s-го шага, не являются оптимальными на (з+1)-м шаге. Наконец, зна- чение х", выбранное на (и—1)-м шаге, не является оптимальным с точ- ки зрения имеющейся у нас информации после этого (и—1)-го шага. Из сказанного видно, что последовательный выбор точек при поис- ке минимума функции Q(x) можно трактовать как выбор управления, целью которого является максимизация случайного значения некото- рой вероятности. Правило назначения следующей точки поиска при этом является стратегией управления. Информацией, на основе кото- рой принимается управляющее решение на s-м шаге, являются ранее
§9. ПОИСКОВАЯ ГЛОБАЛЬНАЯ ОПТИМИЗАЦИЯ 259 выбранные точки х1, х2,. . х5 и найденные в них значения Q1, Q2,. . . .. .,QS функции Q(x). Эта задача управления очень сложна, прямое точное ее решение весьма затруднительно. Поэтому естественно прибегнуть к некоторым эвристикам, дающим приемлемое субоптимальное решение. Такой об- ходный путь тем более оправдан, что точное решение все равно осно- вывается на эвристических и приближенных представлениях о виде стохастической модели функций Q(x). Так что отказ от прямого точ- ного решения задачи максимизации вероятности Р(min Q(x)<Qmin— —6) по точкам х1, х2,. . ., х" может мотивироваться не только большой сложностью этой задачи, но и тем, что едва ли точное решение так не- обходимо, если исходная модель только приближенная. Поэтому пе- рейдем к поиску приближенной эвристической стратегии. К такой эврисуике можно прийти из следующих соображений. В пер- воначальной фазе поиска наибольшее значение, по-видимому, играет Возможно более быстрое уточнение стохастической модели оптимизи- руемой функции. Его можно получить, взяв достаточно представи- тельную выборку точек области поиска. Такие точки должны по воз- можности «равномерно» покрывать область поиска. Число точек не должно быть очень большим, но и не слишком маленьким. Далее, поиск должен быть непосредственно направлен на отыска- ние минимума. Конечно, получаемая при этом информация тоже долж- на использоваться для уточнения стохастической модели. Непосредст- венный поиск минимума естественно основывать на выборе в качестве следующей точки поиска точки х, для которой максимальна вероят- ность того, что в этой точке значение Q(x) меньше на величину г|>0 уже достигнутого до этого наименьшего значения Qmin. Таким образом, второй этап предполагаемого алгоритма поиска минимума функции Q(x) состоит в том, что после каждого шага поиска происходит уточнение стохастической модели функции и следующая точка х поиска находится по этой уточненной модели как точка, в ко- торой имеет место maxP(Q(x) < Qmln—т|). (9.14) X Естествен вопрос: в какой мере эти эвристические соображения, есте- ственные с точки зрения общей стратегии поиска решения, согласуют- ся со сформулированной выше целью оптимизации поиска минимума, т. е. с тем, в какой мере эти действия способствуют увеличению ве- роятности P(Q(x^)>Qmin-6, .... Q(x*)>Qmin-6)? (9.15) Грубой оценкой сверху этой вероятности может служить сумма S Р((2(х/)>Сю1п-б). (9.16) / = п + 1
260 ГЛ. 4. управляемые динамические системы Члены этой суммы сравнительно просто, согласно формуле (9.6), зависят от точек х1, х2, ..., х" и значений Q1, Q2, . .Q" функции Q(x) в них. Увеличение величин всех членов этой суммы может происходить за счет уменьшения Qmin. Увеличение возможно и за счет сравнительно с Qmin больших значений Q‘ для членов суммы, отвечающих точкам х', близким к точке хЛ В первом случае стрем- ление увеличить вероятность (9.15) непосредственно совпадает со стремлением получить возможно меньшее значение Qmin, т. е. с за- дачей поиска минимума. Во втором случае, напротив, происходит тем большее увеличение вероятности (9.15), чем больше значение функции Q(x‘) и чем для большего числа точек xn+1, ...,хлг точка х‘ является ближайшей или близкой. Второй способ увеличения вероятности наиболее эффективен, когда имеются большие пустоты в расположении точек х*, х2,. . .,хп или, что то же, при наличии областей, в которых стохастическая модель недостаточно уточнена. В некоторой мере это соответствует сформули- рованной эвристике. Однако это всего лишь упрощенные рассужде- ния, не учитывающие в должной мере многоэтапность процедуры по- иска, которая составляет основную трудность задачи. Но все же из этого простого рассмотрения сле- дует, что при выборе точек х1, х2,. . .,х'! нужно либо возможно быстрее уточнять стохастическую модель функции Q(x), либо стре- миться уменьшить достигнутое зна- чение Qmin. Когда нужно делать первое и когда второе — остается не вполне ясным. Интуитивно ясно, что в начале поиска наиболее важно накопить возможно более полные сведения о функции Q(x). В соответствии с этим поиск следует начинать с вычисления значений функции в некото- ром представительном множестве точек, после чего уже переходить к поиску минимума в соответствии с правилом максимума вероятности (9.14). В некоторой мере такой переход можно осуществить в рамках правила выбора следующего шага (9.14) за счет изменения параметра т), воспользовавшись тем, что увеличение параметра т] влечет глобали- зацию поиска, при которой происходит более значительное накопле- н данных о функции Q(x), чем при малых значениях параметра т), способствующих его локальной доводке. На рис. 4.104 изображены линии уровня функции двух перемен- ных. Помимо глобального минимума, отмеченного крестиком, она меет локальный минимум. В области поиска ее минимума зададим
§ 9. ПОИСКОВАЯ ГЛОБАЛЬНАЯ ОПТИМИЗАЦИЯ 261 равномерную сетку 20X20. Эта дискретная сетка содержит 400 то- чек, и поэтому прямым перебором наименьшее значение функции на ней находится с помощью 400 вычислений функции. Посмотрим теперь, насколько быстрее находится глобальный минимум, если прибегнуть к описанному алгоритму поиска. На рис. 4.105, а и б показаны последовательные точки поиска при различных начальных выборках в 12 и 15 точек. Отыскание глобаль- ного минимума на дискретной сетке в первом случае происходит на 29-м шаге и во втором случае на 15-м шаге. Это отличие объясняется тем, что вторая начальная выборка дает некоторую информацию о расположении глобального минимума, в то время как первая наводит на ложный след, направляя поиск вначале на локальный минимум (все 12 ее точек были взяты на диагонали области поиска). Как видно из рис. 4.105, а и б, поиск не носит характера последовательных при- ближений к глобальному минимуму. Так, оказавшись согласно рис. 4.105, б на 7—8-м шагах в непосредственной близости от глобального минимума, в последующих 10-й—14-й точках процедура оказывается вдали от него, а глобальный минимум находится на 15-м шаге. Отме- тим, что если выбрать параметр т] так, чтобы Qmin—т] было близким к истинному значению минимума, то и на первой неудачной выборке отыскание глобального минимума происходит не на 29-м шаге, а на 15-м шаге. Вернемся к рассмотрению метода. Покажем, что правило (9.14) выбора следующей точки поиска обеспечивает его сходимость и целе- сообразную его организацию, состоящую в том, что точки поиска в разных частях области поиска имеют разную густоту. Там, где уже найденные значения функции Q(x) больше и оценки у скорости ее из- менения меньше, они реже, а там, где значения функции Q(x) меньше
262 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ и оценки y скорости изменения функции больше, они чаще. Именно за счет этой различной густоты поисковых точек происходит сокращение перебора. Пусть область поиска ограничена и функция Q (х) имеет ограни- ченную константу Липшица. Пусть х1, х2, ..., х" —последователь- ные точки поиска и Q1, Q2, ..., Qn—значения функции Q(x) в них. Пусть Qmin — наименьшее из Q1, Q2, ..., Qn. С ростом п Q”in не возрастает, поэтому существует предельное значение Qmin- Если пре- дельное Q^in совпадает с глобальным минимумом Qmin функции Q(x), то имеет место сходимость поиска. В противном случае Qmin > Qmin сходимость поиска не имеет места. Покажем, что имеет место сходимость с вероятностью единица. Благодаря ограниченности области поиска расстояние точки хп до ближайшей к ней точки х'’ (i < п) стремится к нулю с ростом номера шага п. В силу этого и ограниченности у вероятность Р (Q (хп) < Qmin — ц) (ц > 0) также стремится к нулю с ростом номера шага п. В соответствии с выбором точки х" р (Q (Xя) < Q^-n) > Р (Q (х) < Qmli—п) (9.17) для любой точки х области поиска. Теперь, в силу ограниченности области поиска и ограниченности константы Липшица функции Q(x), отсюда следует, что при любом е>0 Нш Р (Qmin "С Qmin е) — 9. п со Таким образом, отсутствие сходимости поиска имеет нулевую вероят- ность. Перейдем к рассмотрению расположения точек поиска. Для этого рассмотрим вероятность р (Q (х) < te-n) = (X) Ф ( ) • (9.18) Основную роль в сумме (9.18) играют члены с номерами $, соот- ветствующими точкам Xs, наиболее близким к точке х. В силу нор- мировки суммы коэффициентов Cs(x) к единице эта сумма равна значению функции <р при некоторых промежуточных значениях Qs и (которые обозначим через Q(x) и у(х)), так что р (Q (х) te’-n = 0) = ф (. \ У (X) / Следующая точка поиска минимума выбирается из условия максималь-
§9- ПОИСКОВАЯ ГЛОБАЛЬНАЯ ОПТИМИЗАЦИЯ 263 ности вероятности (9.18), т. е. из условия max которое в силу вида функции ср эквивалентно условию . I Q — Q (х) | пип v ’1 . * у (х) (9.19) Согласно (9.19) каждая следующая точка поиска выбирается там, где расстояние до ближайших точек больше, величина Q(x) меньше и оценка у(х) скорости изменения функции больше. Это приводит к не- равномерности расположения точек, увеличивая их плотность в об- ластях меньших значений функции и быстрого ее изменения и умень- шая ее в областях больших ее значений и медленных изменений. Соот- ношение (9.19) проясняет отмеченную выше зависи- мость характера поиска от параметра т). Увеличение т] влечет увеличение числителя геличины (9.19) и смещение ее минимума в сторону точек х с большим значением рас- стояния от ближайших то- чек Xs в ущерб стремлению осуществления поиска вбли- зи известных самых малень- ких значений функции Q(x). До сих пор рассматри- вался поиск, организован- ный на основе стохастиче- ской модели оптимизируемой функции, определяемой фор- мулой (9.6). В основном все сказанное применимо и к стохастической мо- дели (9.8). Однако стохастическая модель (9.8) использует большую ин- формацию о функции Q(x), чем модель (9.6), и поэтому в принципе на ее основе поиск может быть более эффективен, чем на базе стохасти- ческой модели (9.6). Эксперимент подтверждает это предположение. Ясно, что такой эксперимент не может носить одиночного характера, он должен проводиться на некотором достаточно представительном мас- сиве тестовых функций. В качестве такого массива были взяты 60 слу- чайно выбранных тригонометрических полиномов от двух переменных и для них найдены зависимости числа успешных отысканий глобаль- ного минимума от числа шагов его поиска. Глобальный минимум счи- тался найденным, если полученное наименьшее значение Q"min функции отличалось от глобального минимума менее чем на один про-
264 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ цент и если дальнейший локальный поиск из найденной точки прибли- женного минимума приводит к глобальному минимуму, т. е. если эта приближенная точка уже попала в ямку глобального минимума. На графиках на рис. 4.106 изображены три кривые зависимостей относительных чисел успешных поисков р от числа шагов поиска N. Кривая а соответствует поиску, основывающемуся на стохастической модели (9.6) при постоянном значении параметра т]. Кривая б — поиску с той же стохастической моделью, но при уменьшающихся значениях параметра т). Кривая в— поиску, использующему стохастическую мо- дель (9.8), учитывающую градиент. Расположение этих кривых ука- зывает на то, что учет градиента ускоряет поиск минимума (кривая в расположена левее кривых б и а) и что существен своевременный пере- ход от стадии накопления данных о функции к поиску ее минимума по полученным данным (кривая б располагается левее кривой а).
ГЛАВА 5 МОДЕЛИ ОБУЧЕНИЯ, ПЕРСЕПТРОН И РАСПОЗНАВАНИЕ ОБРАЗОВ § 1. Простейшие модели обучаемого поведения, персептрон В жизни человека и животных обучение играет огромную роль. Конечно, природа заложила в человека многие инстинкты и врожден- ные стремления, но основные навыки и представления об окружающем мире человек приобретает в процессе обучения и воспитания, в про- цессе общения с окружающей средой. Вместе с совершенствованием организма от простейших одноклеточ- ных до человека в его жизни все большее и большее место занимает накопление и осмысление опыта и возникающее на их основе обучение. Это очень сложный и еще очень мало изученный процесс. В настоящее время в связи с проблемами создания интеллектуальных роботов и ав- томатизированных систем для управления сложными процессами и организации сложных действий явление обучаемости начало исследо- ваться не только физиологами, психологами и педагогами, но и мате- матиками и инженерами. Одной из первых, получивших известность, моделей обучения была модель Р. Буша и Ф. Мостеллера. Она по- явилась в 1951 г. и относилась к очень простым формам поведения. Одновременно с этим делалась попытка глобального осмысливания деятельности мозга (например, Р. Эшби «Конструкция мозга», 1952 г.) и построения описывающих ее моделей. Здесь в первую очередь следует указать на нейронные сети Макколока и Питтса, модели формирова- ния обобщенных образов Фэрли и Кларка (1955 г.) и персептроны Ро- зенблата (1957 г.). Персептрон Розенблата произвел ошеломляющее впечатление на современников. Он впервые указал на реальные возможности алго- ритмизации интеллектуальной деятельности и привел к созданию но- вого направления исследований, получившего наименование распо- знавание образов. Распознавание образов в свою очередь оказало су- щественное влияние на понимание и направления исследований про- цессов обучения и адаптации в биологии и технике. Несомненно, что значительный прогресс, который сейчас происходит в чисто техничес- кой области изучения и конструирования новых типов адаптивных управляющих систем, получил толчок именно от персептрона и от первых, пусть и неудачных, попыток понять устройство мозга и прин- ципы его деятельности. В первоначальной трактовке задача распознавания образов состоя- ла в построении решающих правил, позволяющих конкретные зри- тельные объекты относить к тем или иным геометрическим образам,
266 ГЛ. 5. РАСПОЗНАВАНИЕ ОБРАЗОЗ в частности, как по изображениям букв, печатным или рукописным, узнать, какие это буквы, как отличить треугольники от квадратов, как узнать человека по его фотографии, марку автомашины по ее силуэту и т. д. Затем распознавание образов стало пониматься шире. Под обра- зом стали понимать не только зрительные образы, но и слуховые об- разы и даже некие общие образы геологической ситуации, отвечающие наличию того или иного ископаемого, образы заболевания, отвечаю- щего той или иной болезни. Начали говорить и об образе той или иной поломки, аварийной ситуации, угрожаемого положения. Новое направление — распознавание образов — было призвано алгоритмизировать и поручить автоматам или вычислительным маши- нам'.узнавание обобщенного образа по описаниям конкретного объекта или ситуации. При этом предусматривались как привнесение обоб- щенного образа]извне неким учителем, так и его формирование автома- том на основе некоторых общих представлений о нем, естественно, также привносимых извне. Еще совсем недавно это считалось прерога- тивой интеллектуальной деятельности человека. Персептрон разрушил эти представления. Перейдем к его описанию. В основе персептрона лежит некоторая последовательность преоб- разований зрительного восприятия от ретины, напоминающей фасет- чатый глаз стрекозы, до выходного сигнала формального нейрона и некоторая процедура его обучения, основанная на поощрении и наказа- нии. Аналогичные последовательности преобразований рассматрива- лись до этого в нейронных сетях, ранее изучались и модели обучения с поощрением и наказанием. Персептрон их синтезирует и создает не- что качественно новое. Первоначальные модели обучения носили феноменологический ха- рактер, они только количественно описывали обучаемость, понимае- мую, например, как уменьшение числа ошибочных действий. В качест- ве типичного эксперимента можно привести обучение крысы выбору из двух кормушек кормушки с кормом. Эксперимент ставился сле- дующим образом. Время от времени одна и та же голодная крыса впускалась в ящик через дверцу Д. Попав в ящик, крыса могла пойти либо к кормушке А, либо к Б. Каждая из кормушек может быть с едой либо без нее. Попав к кормушке с едой, она расправлялась с не очень обильной пищей. Попав к пустой кормушке, она ничего не получала. Через некоторое время ее снова впускали в ящик через дверцу Д и так далее. Естественно думать, что крыса при первом по- падании в ящик выбирает кормушку случайно и равновероятно, а за- тем начинает делать это так, чтобы почаще не оставаться без пищи. Эксперимент можно проводить по-разному. Можно еду класть все время в одну и ту же кормушку, и тогда крыса должна научиться каждый раз выбирать именно ее. Можно время от времени менять кормушку с едой, и тогда крыса должна научиться как можно точнее отслеживать эти перемены. Первоначальные математические модели обучения состояли в том, что строились различные формулы для изменения вероятности ошибки
§ 1. МОДЕЛИ ОБУЧЕНИЯ, ПЕРСЕПТРОН 267 с числом последовательных запусков крысы в тех или иных усло- виях эксперимента. Затем изменения вероятностей различных дей- ствий крысы начали связывать с поощрениями и наказаниями (по- ела — не поела). Ниже описываются автоматные модели М. Л. Цетлина, где^обуче- ние вызывается поощрением и наказанием. В простейшем виде такая модель выглядит следующим образом. Крыса может находиться в одном из двух состояний Л и П. Состояние Л соответствует тому, что она пойдет налево; состояние П— направо. Если она поела, т. е. ее пове- дение получило поощрение, то она не меняет своего состояния, напро- тив, если она не поела и, следовательно, наказана, то она свое состоя- ние меняет. Ясно, что крыса с таким поведением, если еда все время в одной и той же кормушке, не более чем с одной ошибкой^ее’обнару- живает и затем уже не ошибается. Неплохо ведет себя крыса и в си- туации, когда время от времени, сравнительно редко, еда перестав- ляется из одной кормушки в другую. Однако, когда едой’’наполняется время от времени только одна кормушка, то такое поведение крысы не лучшее. В этом случае к лучшему результату приводит автоматная мо- дель с более чем двумя состояниями, имитирующими память крысы о прошлых результатах ее действий (не только последнем). В простейшем случае такой автомат имеет четыре состояния и соот- ветствует стратегии «памятливого простака» § 4 гл. 2 (рис. 2.4). Два левых состояния отвечают тому, что крыса направляется к левой кор- мушке, два правых — к правой. Смена состояний происходит в за- висимости от поощрения или наказания, как это показано на рис. 2.4 стрелками: справа при поощрении и слева при наказании. При такой модели отдельные пропуски пищи в кормушке не меняют поведения крысы. Она его изменяет лишь при двух наказаниях подряд. Число состояний автомата может быть увеличено, что можно интерпретиро- вать как увеличение продолжительности памяти о том, где была пища. В этих моделях обучение осуществляется через 'изменение состоя- ния обучаемого под влиянием поощрений и наказаний. Именно так происходит обучение персептрона распознаваникГобразов. Персептрон представляет собой устройство, которое в зависимости от того, что ему показано и в каком он находится состоянии, выдает ответ +1 или —1. Плюс единицу рассматривают как принадлежность изображения не- которому образу, минус единицу — как не принадлежность. Если персептрон при показе ему изображения отвечает правильно, он по- ощряется; если неправильно — наказывается. Поощрение и наказание влекут определенные изменения его состояния. Если в результате этих изменений персептрон перестает ошибаться, то говорят, что он обу- чился. Перейдем к более подробному описанию персептрона. На рис. 5.1 представлена схема одного из простейших видов персептрона. В нем зрительный образ отображается на ретине в виде значений’освещенно- стей xlt х2, х3,. . ., хп отдельных ее элементов (черно-белое точечное изображение). Числа Xi, х2, х3,. . ., хп могут изменяться непрерывно
268 ГЛ. 5. РАСПОЗНАВАНИЕ ОБРАЗОВ некотором диапазоне, а могут иметь только дискретные значения, например, освещен (+1) и не освещен (0). Таким образом, ретина пер- септрона преобразует зрительный образ в многомерный вектор х (хг, х2,. . ., хп). В одной из первых технически реализованных моделей персептрона ретина состояла из 104 (100X100) фотоэлементов. В следующем за ретиной слое элементов происходит формирова- ние по сигналам хи х2,. . ., хп не- которых новых сигналов i/i, у2>. . . .. ,,ут.В своем исходном виде эти элементы были формальными ней- ронами, к которым подавались по рис 5 1 случайно возникшим связям сиг- налы элементов ретины. В более общем виде связь между сигналами Xi, х2, . . хп элементов ретины и выходными сигналами ylt у2, . . . ..., ут элементов второго слоя персептрона записывается в виде = <Р/(хх, х2, ..., (/ = 1, 2, ..., т), (1.1) где <р; — некоторые функции от xlt х2,. . ., хп. Если элементы второго слоя представляют собой формальные нейроны, то фД*!, ..., x„) = sign(C1/x1H-...-l-C„/x„—0Z), (1.2) где sign о равен +1 при <т>0и—1 при о<0, 07- — порог возбуждения нейрона, Cij, C2J-,. . ., Сп} — некоторые неотрицательные числа. Если то сигнал /-го элемента ретины подается Has-й элемент второго слоя; если же Csj—Q, то он не подается. В силу этого случай- ность соединений элементов ретины с элементами второго слоя можно отразить случайным выбором коэффициентов Сг/(/=1, 2,. . ., п; / = = 1, 2,. . ., т). Следующий, третий слой элементов персептрона состоит из усилителей, так что связь между входом и выходом каждого из эле- ментов этого слоя имеет вид (/=1, 2, ..., т), (1.3) где Xj — коэффициент усиления /-го элемента третьего слоя персеп- трона. Затем все выходы третьего слоя подаются на формальный нейрон, выход w которого равен w = sign(z1 + z2+ ...+гт). (1.4) Как видно, схема персептрона навеяна соображениями о структуре мозга. Это естественно, поскольку Розенблат был физиологом, бесе- дующим с математиками. Ясно, что любое изображение, проектируемое на ретину персептро- на, приведет к некоторому ответу персептрона а>. Этот ответ — выход-
§ 1. МОДЕЛИ ОБУЧЕНИЯ, ПЕРСЕПТРОН 269 ной сигнал —равен либо +1, либо —1. Тем самым персептрон все показываемые ему изображения делит на два класса и представляет собою систему, которая разделяет (классифицирует) все геометрические плоские изображения на два класса. (Заметим, то что персептрон делит все изображения только на два класса не является существенным, поскольку любая классификация может быть представлена в виде ряда дихотомий.) То, как осуществляет персептрон эту классификацию, зависит от элементов его слоев и, в частности, от параметров Х2, . . ., Хт. Нетривиальный скачок мысли, связанный с персептроном, по- жалуй, состоит в том, что подбором коэффициентов А,ъ Х2>. . ., Хт мы можем получить требуемое узнавание образа и что этот подбор мож- но осуществить с помощью привычного метода поощрений и наказаний при обучении. Но прежде чем перейти к изложению этих неожиданных возможностей персептрона, постараемся осмыслить, что такое образ с точки зрения описаний вектором х конкретных изображений. Каждое конкретное изображение — это некоторый вектор х или точка х в пространстве X. X — это «-мерное пространство с коорди- натными осями Xi, х2, . хп. Образ — это некоторое множество точек в пространстве X, отвечающих всем возможным изображениям, вхо- дящим в этот образ. Если речь идет об образе буквы «А», то это мно- жество точек х, отвечающих всем возможным написаниям этой буквы. Ясно, что не всегда все точки этого множества просто указать, но мож- но указывать все большие и большие количества его точек. Что представляет собой это множество, какой у него вид? На этот вопрос трудно дать общий ответ. Можно лишь думать, что множества точек, отвечающие различным образам, лежат отдельно друг от друга, во всяком случае это должно быть так, если по изображению и его описанию Xi, х2,. . ., хп возможно сказать, к какому образу оно при- надлежит. Вернемся к персептрону. Как уже говорилось, персептрон все показываемые ему изображения делит на два класса, для одного класса г1 + г2+...4-гга>0, а для другого + • • 4*2Л» < 0. Выразим, согласно (1.3), гъ z2). .., zm через yt, у2,..ути yit у2,. .. . . ., ут, согласно (1.1), через хъ х2,. . хп. После этого мы придем к тому, что персептрон относит изображение к тому или другому клас- су в зависимости от знака величины *2, •••. хп). (1.5) Точки х, удовлетворяющие условию 2 (М> х2, ..., х„) = О, (1.6) составляют в пространстве X некоторую поверхность S. Поверхность S делит пространство изображений X на две части: в одной части вели- чина (1.5) положительна и для ее точек выход персептрона ц>= + 1, а в
270 ГЛ. 5. РАСПОЗНАВАНИЕ ОБРАЗОВ другой части величина (1.5) отрицательна и для ее точек w=—I. Классификация изображений, осуществляемая персептроном, соот- ветствует разделению пространства изображений X. на две части по- верхностью S. Эти простые общие геометрические соображения позво- лили по-новому взглянуть на сущность распознавания образов, узна- вания и всякой классификации, представив ее как некоторое разделе- ние некоторого многомерного пространства на части. Поверхность S, а следовательно, и осуществляемое ею разделение изображений на два класса зависят от параметров Х2, . . ., Хго. Меняя эти параметры, можно получать различные разбиения на два класса. Представим себе теперь, что персептрону последовательно пока- зывают изображения, каждое из которых принадлежит либо классу А, либо классу В. На каждый показ изображения персептрон дает от- вет w. Ответ считается правильным, если ю=1 и изображение принад- лежит классу А или если w=—1 и изображение из класса В. В про- тивном случае ответ считается неправильным. При правильном ответе персептрон поощряется; при неправильном — наказывается. Поощре- ние может означать передачу персептрону сигнала £=+1; наказа- ние— сигнала —1. Формирование нужного сигнала | осуществ- ляется, например, нажатиями соответственно красной или черной кнопки. Процесс обучения персептрона состоит в изменении его пара- метров Z.1, Х2, . . ., в зависимости от наказания или поощрения, т. е. от величины £ и того, к какому классу (А или В) поинадлежит по- казываемый объект х. Правило изменения параметров имеет вид = + (/=1, 2, .... т), (1.7) где — прежние значения параметров, Ху — их новые значения, величины определяются показываемым персептрону изображением, как это ранее было описано, а величина 6=0, если персептрон не ошибся, равна +1, если он ошибся их£ А, и равна —1, если персепт- рон ошибся и х£В. Может ли персептрон в результате достаточно длительных показов и изменения параметров согласно (1.7) перестать ошибаться? Когда возможно его обучение показами с поощрением и на- казанием в соответствии с правилом (1.7)? Экспериментальные данные были обнадеживающие: персептрон обучался распознаванию и делал это не очень плохо. Затем появилась теорема, которая устанавливала условия обучаемости персептрона и утверждала, что если возможно обучение, то оно происходит при ко- нечном числе ошибок, т. е. что персептрон может ошибиться не^более чем некоторое конечное число раз и после этого уже никогда не оши- бается. Не правда ли, весьма удивительный результат? Привычным и понятным он стал далеко не сразу. В чем же состоит условие обучаемости персептрона? Оно состоит в принципиальной возможности его обучения и в некоторой его грубо-
§ 1. МОДЕЛИ ОБУЧЕНИЯ, ПЕРСЕПТРОН 271 сти. Точнее, необходимо, чтобы существовали некоторые значения его параметров Хх, Х2, . . ., Хго, при которых персептрон правильно клас- сифицировал изображения, т. е. так же, как это делает показывающий эти изображения учитель. Ясно, что это требование необходимое. Оказывается, что оно и достаточное, если только правиль- ность ответов персептрона не нарушается от достаточно малых изменений его пара- метров Xi, Х2, . . ., Хщ, т. е. если он как распознающее устройство груб по этим па- раметрам. Что означает принципиальная возмож- ность персептрона осуществлять класси- фикацию так же, как и учитель? Пусть ХА и Хв — множества точек, отвечающие раз- личным классам А и В, на которые Согласно сказанному для правильной выполнялось изображение учитель. делит классификации нужно, чтобы 2 • • •> хп) > 0, если хСХл, 2 . хп) < °, если х€%я. (1-8) Для того чтобы это было возможно, необходимо, чтобы множества Хл и Хв не пересекались. Еще лучше, если они находятся на конеч- ном расстоянии друг от друга. Но если это так, то вопрос лишь в до- статочной полноте множества функций фъ <р2, . . ., <рт или достаточном разнообразии поверхностей S при всевозможных значениях парамет- ров . . ., Xm, настолько большом, чтобы среди всевозможных по- верхностей S была и поверхность, разделяющая множества ХА и Хв (рис. 5.2). Таков смысл условия теоремы об обучаемости персептрона. Рассмотрим теперь правило обучения (1.7). Его можно трактовать следующим образом. Если персептрон не ошибся, то его параметры остаются без изменений. Если же он ошибся, т. е. если величина =2 не имеет требуемого знака, то изменим параметры . . ., Хт так, что- бы приблизить значение z к требуемому. Именно, если х£Хл, то при ошибке г<0, а должно быть г>0. Изменим параметры так, чтобы z увеличилось, для этого, согласно (1.7), к Хя добавляется величина ys и z превращается в 2(^+^)^ = z + 2^’ т. е. возрастает на положительную величину. Если же показываемый объект х£Хв, то при ошибке z>0, а должно быть z<0. Согласно (1.7) в этом случае X, заменяется на 'ks—ys, а величина г — на мень- шую величину: 2(xs—УАУз=г~ 2^-
272 ГЛ. 5. РАСПОЗНАВАНИЕ ОБРАЗОВ Ясно, что при повторных показах одного и того же объекта х с некото- рого момента он будет распознаваться правильно. Но это вовсе не значит, что таким способом можно добиться того, чтобы все изобра- жения распознавались верно. Скорее даже кажется, что так вовсе' не будет: заставляя правильно распознавать одни изображения/ персептрон начнет неправильно ра- спознавать другие. Однако, как ока- зывается, это не так. Возможно, в процессе обучения такое и может быть, но закончится все тем, что будут правильно распознаваться все изобра- жения. Перепишем формулу (1.7), введя в нее явное выражение для величины 6. Нетрудно видеть, что S = (1.9) Напомним, что £ равно 1 или —1 в зависимости от того, правилен или неправилен ответ w персептрона. Ответ персептрона согласно (1.4) равен либо 1 либо —1 в зависимости от того, относит ли он классифи- цируемый объект к классу А или В. Укажем еще явную зависимость £ от классификации учителя и персептрона. Для этого введем переменную юучит, которая равна +1, если учитель относит изображе- ние к классу А, и равна —1, если он ее относит к классу В. Непо- средственно проверяется, что g = 1 —| ку—гщучнт (1.10) В самом деле, если учитель и персептрон одинаково классифици- руют показываемый объект, то w = щуЧит и В = +1, что соответствует поощрению, если же—по-разному, то —wучит| —2 и £ =—1, что означает наказание. Запишем теперь (1.7) в виде Y « Iw ^учит I /1 1 1\ S' = S-------2----(l •1S Из этого соотношения следует, что обучение персептрона можно трактовать как динамический процесс. При этом роль состояния играют параметры Д, Х2, ..., Хга, а щучнт является внешним воздей- ствием. Достижение персептроном обученности означает, что пара- метры Хг приобретают некоторые значения X*, при которых уже все время &y = ayy41!T. Таким образом, состояние обученности персептрона можно трактовать как его равновесное состояние, а сам процесс обучения — как приход фазовой траектории Х(о), Х(1), Х(2), ... к со- стоянию равновесия X* (рис. 5.3). Тем самым возникла задача иссле- дования равновесных состояний динамической системы, описываемой
§ 1. МОДЕЛИ ОБУЧЕНИЯ. ПЕРСЕПТРОН 273 уравнениями (1.11). Уже самого этого понимания достаточно, чтобы сравнительно просто и естественно найти доказательство теоремы об обучаемости персептрона. Для этого нужно лишь с некоторой изо- бретательностью воспользоваться прямым методом Ляпунова исследо- вания устойчивости. Особенностью рассматриваемой системы является не изолирован- ность состояний равновесия, а наличие некоторого их множества, образующего выпуклый конус .^Действительно, равновесные состоя- ния характеризуются тем, что Xz=Xj (/ = 1, 2, . . ., т), поэтому для У1, Уъ, • • •, Ут, отвечающих любой точке х из множества ХА или соответственно Хв, имеют место следующие неравенства: пРи х£Хл, 2*Л<0 при х^Хд. ' Если эти условия выполняются для некоторого вектора X (Xlf . . . . . ., Хт), то, очевидно, они выполняются и для вектора цХ при любом р7>0. Далее, если они выполняются для векторов Х(1) и Х(2), то они выполняются и для вектора цХ(1>4-(1—И)Х‘2> при любом 0<7р.?С1. Таким образом, состояния равновесия персептрона —• динамичес- кой системы, описываемой уравнениями изменения состояния (1.11),— образуют либо пустое множество, либо выпуклый конус Г (рис. 5.3). В первом случае персептрон не может осуществлять классификацию как учитель ни при каком К, во втором — может. Условие грубости будет выполняться в случае, если конус Г содержит внутренние точки, т. е. не вырождается в конус размерности, меньшей размерности про- странства параметров Хъ . . ., Хт. При наличии такой внутренней точ- ки X* g Г условия (1.12) выполняются не только для этой точки X*, но и любой точки Х*+бХ, если только добавок 6Х достаточно мал, т. е. если при некотором е>0 j]8X|i2 = 16X1 i2+ ... 4-| 6Xm |2 < в2. (1.13) Выполнение этого требования означает, что Рл = >nf 2 <Ps (Xi, .... xn) > 0, X£Xa vv / <114> Рв = — sup 2 Ms (A- • • •, xn) > 0, xe XB так как в противном случае всегда нашлись бы х из ХА или Хв и 6ХЪ . , ., 6Хт, удовлетворяющие условию (1.13), при которых для из- мененного вектора Х*4-бХ уже не выполнялось бы одно из условий (1.12). Пусть Y А и Yв — множества точек y(t/b . . ., ут) пространства У, отвечающих соответственно точкам множеств ХА и Хв. Поверхности
274 ГЛ. 5. РАСПОЗНАВАНИЕ ОБРАЗОВ •S, расположенной в пространстве X, в пространстве Y отвечает гипер- плоскость + • • •+\aZ/m = 0- (1.15) Если в пространстве X поверхность S разделяет множества ХА и Хв, то гиперплоскость (1.15) (назовем ее L) разделяет в пространстве Y множества YA и Yв. Именно этот факт выражают неравенства (1.12), а условия (1.14) означают, что разделяющая их гиперплоскость L отстоит от них на конечное (не нулевое) расстояние. Пусть теперь в процессе обучения вектор X принимает, начиная с начального его значения Х°, последовательно значения X1, X2, X3, . .. Рассмотрим, как меняется при этом значение функции 7(Х‘) = (Х*—X*,2, (1.16) где X* — внутренняя точка конуса равновесий Г, для которой, согласно (1.14), при некотором о>0 выполняется min (рл, рв) > oj|X*;!. (1.17) Для этого оценим разность ¥ (X*+1)—V (Xs) = (Х‘+1—X*)2 — (X* — X*)2 = = (V-(-6's+1ys+1 —X*)2—(Х*—X*)2 = = 263+1Ху+1 — 26i+1X*yi+1 + (63+!у5 + !)2. (1.18) При этом использовано, что, согласно (1.7), X^+1 = Xi4-6i+y+1. (1.19) Действительное изменение X происходит только, если персептрон ошибается и соответствующее 6 отлично от нуля. Будем предпо- лагать, что в последовательность Х°, X1, X2, ... включены только разные значения, н тогда переход от одного значения X5 к следу- ющему Х*+1 вызван несовпадением ответа учителя и персептрона. При несовпадении ответов персептрон «наказывается», | = —1, и, в соответствии с этим и формулой (1.9), знаки б54-1 и X5 у*4-1 — разные. Напротив, знаки 6i+1 и Х*у3+1 — одинаковые. В соответ- ствии с этим имеем (у^1)2 + 263+1Х^+1 —26J+1X*ys+1 < (у5+1)2—2 | X*yi+11. (1.20) Для дальнейшей нужной нам оценки учтем (или предположим), что векторы у, отвечающие классам А и В, ограничены, т. е. ||у||<7?, и что имеет место (1.17). Тогда (y-’+i)2—2|X*ys+1| <Я2—2о||Х*|1. (1.21) Осталось воспользоваться свободой выбора длины вектора X* и выбрать ее так, чтобы (1-22)
§ 1. МОДЕЛИ О5УЧЕНИЯ, ПЕРСЕПТРОН 275 После этого имеем оценку V (Xs+1) —V (Xs) < R2—2о 1| X*]| < 2/?2 = — R2. (1.23) Так как общее уменьшение функции V (Xs) не может быть больше V (Х°) (функция V неотрицательна) и при каждой ошибке это умень- шение не менее У?2, то отсюда следует, что общее число ошибок не превосходит V(k°)/R2. (1.24) В частности, при Х°=0 отсюда следует с учетом (1.22), что число оши- бок не более чем У(0)/£2 = (Х*)2//?2 = (Я/о)2. (1.25) Этим самым высказанное выше утверждение об обучаемости персеп- трона показами полностью доказано. В какой мере из этой теоремы следует обучаемость персептрона» т. е. приход его параметров к одной из точек конуса Г? Если обучаю- щая последовательность, пусть и бесконечная, исчерпывает все точки множеств ХА и Хв, то обязательно с некоторого момента персептрон окажется обученным, но при этом остается совершенно неясным, какое число показов для этого необходимо. (Речь идет не о числе совершае- мых персептроном ошибок, а об общем числе его ответов, среди кото- рых есть и правильные.) В частном случае, когда множества ХА и Хв конечны и целиком повторно показываются, число повторений до полного обучения не будет превосходить общего числа возможных оши- бок. Однако в обоих случаях порядок показа играет существенную роль и от него может сильно зависеть быстрота обучения персептрона. Практически обучение всегда происходит на некоторой конечной выборке (ее называют обучающей выборкой), и возникает трудный, но неизбежный вопрос: в какой мере эта обучающая выборка достаточна для обучения персептрона. Обычное требование к обучающей выборке состоит в ее представительности, под которой понимается, что она до- статочно хорошо представляет оба класса объектов. Смысл этого тре- бования можно геометрически интерпретировать как то, что точки обучающей выборки создают правильное представление о полных мно- жествах ХА и Хв. Этим интуитивным соображениям можно было бы придать точный смысл. Можно было бы дать более точное определение, что такое представительная выборка, но это не решает вопроса о ее представительности в конкретных случаях. Все равно в каждом кон- кретном случае приходится опираться на интуицию или принимать представительность выборки как рабочую гипотезу. Заключим рассказ о персептроне рассмотрением его функциональ- ной структуры, которая обнаруживает сходство персептрона с систе- мой управления с обратной связью. Прямая связь в персептроне — это цепь формирования его ответа w на показанный объект х в зависи- мости от значений параметров X. Обратная связь — это коррекция
276 ГЛ. 5. РАСПОЗНАВАНИЕ ОБРАЗОВ параметров X в зависимости от ответа персептрона w и указания учи- теля ауучит. Эги функциональные связи представлены на схеме рис. 5.4. В этой схеме «ретина» преобразует изображение в вектор х, пер- вый блок — вектор х в вектор у = ф(х), второй блок —вектор у в скаляр Ху, третий блок —скаляр Ху в w, равное в зависимости от знака Ху либо 4-1, либо —1, четвертый блок по полученным значениям у, w и указанию учителя луучит формирует, исходя из старого значения X, его новое значение X, равное Х = Х—^(ауучит—да)у. (1.26) Целью этой системы управления является достижение равенства = О-27) Ее стратегия — это стратегия обучения показами на основе поощре- ния и наказания, воплощенная в формуле (1.26). Напомним, что со- стоянием этой динамической управляемой системы является вектор X, и (1.26) является законом изменения этого состояния, а цель управле- ния (1.27) состоит в приходе состояния персептрона X к равновесному состоянию в конусе состояний равновесия Г. Что же принципиально нового в этом очень простом устройстве, именуемом персептроном? Почему он открыл новые горизонты перед человеческой мыслью? Прежде всего, следует иметь в виду, что пер- септрон возник не на пустом месте, он синтезировал и воплотил в себе весьма долгий и трудный путь человеческого познания. Персептрон — это те последние камни, которые превращают груду кирпичей в пре- красное здание. Возможно, что строители этого здания «видели» его и раньше, но для остальных оно до самого конца оставалось грудой камней, такой же, как и все другие. В персептроне заложены две идеи. Одна — это возможность ал- горитмизации узнавания, распознавания образов. Раньше эти процес- сы представлялись неформализуемыми, а это оказалось столь простым. Вторая—это принципиально новая возможность автоматизации, осно- ванная не на предварительной алгоритмизации того, что хотят автомати- зировать, а на основе обучения показами. Того самого способа обуче- ния, которому мы обязаны основными своими умениями, представле-
§ 2. СТАТИСТИЧЕСКАЯ ТЕОРИЯ ПРИНЯТИЯ РЕШЕНИЙ 277 пнями и знаниями. Мы учимся говорить, наблюдая, как это делают другие и показывают нам. Так же мы учимся писать, ходить, бегать, кричать, плавать, читать, вести себя в различных ситуациях, выпол- нять различные работы. Хирург должен видеть, как делаются опера- ции, пианист — как играют на рояле, токарь — как работают на станке. Так же мы научаемся узнавать предметы, понимать смысл слов и оборотов речи, понимать мимику лица и смысл жестов. Распознавание появляется уже на самых простейших уровнях жизни. Вирус узнает свою клетку — жертву и впрыскивает в нее свою ДНК- В нашей крови есть клетки, узнающие врагов и указывающие на них другим клеткам крови, которые их убивают и разрушают. Процесс синтеза белков тоже сопровождается узнаваниями. Но все это умеет делать живая природа, а персептрон — примитивный автомат. И вот сегодня мы можем научить вычислительную машину отыскивать полезные ископаемые, ставить диагнозы болезни, печатать текст с голоса, находить неисправности. Мы можем научить робота выполнять •сложные работы, показав ему, как это делается (узнать, взять и переместить нужным образом требуемую деталь и многое другое). А современная техника требует выполнения различных операций и это уже не под силу человеку: их подчас слишком много, они требуют недоступной точности, или быстроты действий, или недостижимых усилий. § 2. Распознавание образов как задача статистической теории принятия решений Если отвлечься от конструкции персептрона, то решаемую им за- дачу распознавания можно сформулировать на геометрическом языке как задачу построения поверхности, разделяющей в некотором много- мерном пространстве X некоторые множества точек ХА и Хв- С по- мощью этой разделяющей поверхности S(x)=0 решающее правило может быть записано в ’виде хеХл, если S(x)>0, ,2 .. xgXfl, если S(x)<0. ' ' ) В теории принятия статистических решений такая задача уже дав- но рассматривалась как задача обнаружения сигнала бедствия или тре- воги на фоне помех. Сигнал бедствия может подаваться колоколом или гудком корабля, терпящего бедствие в буре. Помехами при этом будет рев окружающей разбушевавшейся стихии. Этот сигнал может пода- ваться стрелками приборов, сигнализирующими об аварийной ситуа- ции, и тогда шумы — это погрешности их показаний и неаварийные ситуации, которые в некоторых случаях могут вызвать такие же от- клонения стрелок измерительных приборов. В любом случае сигнал вместе с шумами воспринимается как некоторая описывающая их точ- ка х в некотором пространстве возможных сигналов X и статистичес- кая теория указывает правило, когда эту точку х следует трактовать
278 ГЛ. 5. РАСПОЗНАВАНИЕ ОБРАЗОВ как сигнал бедствия или тревоги. Построение такого правила стати- стическая теория осуществляет на основе статистических описаний сиг- налов и помех. Такие описания в этой теории должны быть заданы. Пусть р (А) и р (В) — вероятности сигналов бедствия А и благополу- чия В. Пусть этот сигнал £ складывается с помехой ц так, что прини- маемый сигнал х = + (2.2) где если подается сигнал бедствия, и | = |s, если подается сигнал благополучия. Пусть р (ц) — плотность вероятностей помехи ц. Необходимо по принимаемому сигналу х принять решение о том, передается ли сигнал бедствия или сигнал благополучия Под- черкнем, что речь идет не о том, чтобы установить точно, какой сигнал передается. Это может оказаться невозможным. Речь идет о том, какое следует принять решение с вытекающими из него след- ствиями— организации или не организации спасательных работ. Принять решение—это значит по х указать, что имеет место А или В, т. е. нужно определить такую функцию %(х), что в зависимости от ее значения принимается либо А, либо В. Этими принимаемыми функцией х(х) значениями могут быть 4-1 и —1. Если бы не было помехи, то в пространстве X сигналу «бедствие» отвечала бы точка х = £л, а сигналу «благополучие»—точка x = |s. При наличии-помехи сигналу «бедствие» отвечает облако точек х = -|-т] при всевозмож- ных т]. Обозначим это облако точек через ХА. Аналогично и сиг- налу В отвечает при наличии помехи облако точек Хв. Если облака точек ХА и Хв не пересекаются, то построение решающего правила сводится к нахождению разделяющей их поверхности. А если они пересекаются, то разделяющую поверхность следует провести из дру- гих соображений, например, наименьших ожидаемых потерь. При неправильном решении возможны два типа ошибок: ошибка типа ложной тревоги, когда передавался сигнал В, а его приняли за А, и ошибка типа пропуска тревоги, когда передавался сигнал А, а его приняли за В. С каждой из этих ошибок связаны какие-то потери, какой-то урон. Пусть они допускают количественное выражение и равны соответственно СВА и САВ. Теперь можно подсчитать математическое ожидание потерь решаю- щего правила х(х). Оно равно Я = Р(Л) $ CABp(x/A)dx + p(B) $ CBAp(x/B)dx = Х(х)=-1 Х(х) = 1 = САВ $ р(х» A)dx + CBA J р(х, B)dx. (2.3) Х(х)= —1 Х(х)=1 Первый член — это математическое ожидание потерь при ошибке пер- вого типа, второй — при ошибке второго типа. Если решающее правило не может быть точным, то естественно по- требовать от него, чтобы наносимые его ошибками средние потери были
§3. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА 279 возможно меньшими. Итак, решающее правило следует принять из условия минимума величины R, определяемой формулой (2.3). Ука- зать решающее правило %(х) —это значит разбить пространство X на области ХА и Хв, где соответственно х(х) = 4~1 и х(х)=—1. Выясним, к какому из множеств ХА или Хв должна быть отнесена маленькая окрестность 6 для того, чтобы величина R была возможно меньшей. Если эта окрестность отнесена к ХА, то соответствующий ей член в R равен С за $ Р(*. B)dx-, (2.4) хе б если же к Хв, то он равен сав Р(х- A')dx- (2-5) хеб Ясно, что окрестность б следует отнести к множеству ХА или Ха, исходя из того, какая из величин (2.4) и (2.5) меньше. Это приво- дит к тому, что точка х относится к области ХА, если СваР (х> ^)<^Слв/’(х> ^)’ (2-6) и относится к множеству Хв, если ^влР(х> ^)>^лвР(х> ^)- (2.7) Это означает, что правило х(х), обеспечивающее наименьшие средние потери, следующее: I +1, если имеет место (2.6), \ —1, если имеет место (2.7). Таким образом, статистическая теория принятия решений решает задачу о разделении множеств ХА и Хв и делает это даже в более об- щей постановке, чем персептрон. Но для этого она использует не пока- зы, не обучение показами, а статистические описания различаемых объектов. В связи с этим естествен вопрос о возможности сближения этих различных путей решения одной и той же задачи. § 3. Минимизация эмпирического риска и стохастическая аппроксимация Можно ли соображения статистической теории принятия решений применить к задаче распознавания образов в постановке обучения по- казами? Попробуем это сделать. Основное в теории статистических ре- шений — это понятие потерь и идея их минимизации. Когда персепт- рон дает ответы w и они не совпадают с ответами учителя шучИ1, то это потери. Величину их можно определить. Можно принять, что эти потери при правильном ответе отсутствуют, а при ошибке^равны (2.8)
280 ГЛ. 5. РАСПОЗНАВАНИЕ ОБРАЗОВ + 1, т. е. равны (з.1> При этом пУучи-г есть некоторая функция х, a w—некоторая функция х и параметров X, именно, w = sign Хер (х). (3.2} Пусть р(х) — плотность вероятностей показа того или иного объекта х. Тогда математическое ожидание потерь при случайном выборе по- казываемого персептрону объекта х равно r=J ) р wdx; <3-3) X R —это математическое ожидание числа ошибок, т. е. примерно сред- нее число ошибок в серии большого числа испытаний. Число ошибок следует минимизировать, т. е. требуемый параметр X нужно выбирать из условия . n . f/“'учит “Sign Хф(х) \2 пип R = min (---------q------ I р (х) dx. (3.4) К Л •’ \ 2 / Л Это действительно решение задачи, но только откуда же взять требуе- мую для этого решения плотность вероятностей р (х)? Рассмотрим этот вопрос в более общей постановке. Нужно найти минимум функционала £(X)=$Q(x, k)p(x)dx (3.5) х по параметру X при неизвестной плотности вероятностей р(х). Ясно, что эта задача не может быть решена. Точнее, при полном отсутствии каких бы то ни было сведений о плотности вероятностей р(х) она не может быть решена. Но, может быть, все же какие-то сведения о ней у нас есть. Ведь персептрон все же решает эту задачу, пусть и в менее общей постановке. Для этого он пользуется обучением показами. Нельзя ли показы использовать для получения сведений о функции р(х)? Если предположить, что при обучении показами различные х показываются случайно в соответствии с этой самой плотностью вероят- ностей р(х), то такое действительно возможно. По показам можно найти эмпирическую функцию плотности вероятностей Рэм(х) = £1^1, (3.6) 8=1 которая с вероятностью единица в среднеквадратичном смысле схо- дится к функции р(х) при неограниченном возрастании, числа по- казов N. В формуле (3.6) х1, х2, ... —показываемые точки х,
§3. МИНИМИЗАЦИЯ ЭМПИРИЧЕСКОГО РИСКА 281 6(х—Xs)—6-функция от х—х\ W—общее число показов. Так что все же некоторые сведения обучающие показы о функции р (х) дают. Эти сведения недостоверны, но их достоверность по мере продол- жения обучения показами растет. После какого-то числа показов можно было бы в выражении функции потерь (3.5) заменить р(х) на рэм(х) и найти X из условия минимума эмпирических потерь Р 1 N Rn (М = J Q (X. Рэм (X) dx = У Q (Xs, X), (3.7) т. е. экспериментально обнаруженных средних потерь при N испы- таниях. Пусть минимум (3.7) достигается при X* = X*(Af). Следует ожидать, что при AZ—>-оо предельное значение X* дает минимум функционала (3.5). При благоприятных условиях этот минимум X* может быть найден методом градиента, основываясь на рекуррент- ной формуле V+1(A9 = X4^)-5VX (^£<2(V^), х3)} (3.8) и на том, что lim kk(M) = k*(N). (3.9) k -> со Таким образом, статистическая теория принятия решений указы- вает путь отыскания оптимальных решающих правил распознавания, заменяя требуемые ею вероятностные описания соответствующими эмпирическими данными, которые содержатся в обучающей выборке. Помимо рекуррентного процесса (3.8) с последующим отысканием предела К* (/V) при Л/->оо возможны и другие. Один из них, получив- ший название стохастической аппроксимации, представляет особый интерес. Он позволяет найти требуемое оптимальное X* путем не двух, а одного предельного перехода. Кроме того, он носит характер по- следовательных уточнений искомого значения X* по мере поступления новых и новых обучающих данных. Процесс стохастической аппрокси- мации основывается на рекуррентной формуле V+i^x5 — 6i+1V^Q(X3, X's+1). (3.10) При соответствующих условиях последовательные значения X1, X2, X3, . . . сходятся к значению X*, минимизирующему функционал (3.5). Стратегия изменения параметров, определяемая формулой (3.10), имеет такой же вид, как и стратегия обучения персептрона. Более того, оказывается, что при соответствующем выборе функции потерь Q(X, х) она с ней совпадает. Действительно, пусть Q(X, х) = ШуЧИТ — W Хф (х); 2
282 ГЛ. 5. РАСПОЗНАВАНИЕ ОБРАЗОВ тогда градиент этой функции по X равен V%Q(X, х) =-----g---ф(х) н алгоритм стохастической аппроксимации (3.10) при 65=1 принимает вид V+i = V+^p^q)(x^), что полностью совпадает с алгоритмом обучения персептрона. Это со- впадение все же только кажущееся. Алгоритм стохастической аппрок- симации для своего применения требует, чтобы значения б5 удовлет- воряли условиям 2б5 = оо, 2(^)2< + °°» чего в данном случае (6*=1) нет. Но такие совпадения не бывают случайными. Это и не есть случай. Просто сходимость у стратегии управления вида (3.10) может иметь место и при более общих условиях. Более того, как было показано Я. 3. Цыпкиным, идея минимизации потерь (3.5) при неизвестной функ- ции плотности вероятностей р(х) может служить основой для теории многих процессов обучения и адаптации автоматических систем, а ал- горитмы стохастической аппроксимации дают один из путей построе- ния стратегий обучения и адаптации.
ГЛАВА 6 ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ § 1. Постановка задачи управления В предыдущей главе мы увидели, что задача обучения может быть сформулирована как некоторая задача оптимизации. Вопрос, на кото- ром мы сейчас остановимся, таков: в какой мере другие задачи кибер- нетики, теории управления могут быть поставлены как задачи оптими- зации? Этот вопрос возникает не случайно, поскольку по самому смыс- лу задач теории управления идея того, что управлять нужно как можно лучше, является вполне естественной. Никакой инженер, конструируя систему управления, не будет делать ее хуже, если у него имеется воз- можность сделать ее лучше. Поэтому вопрос не в том, что у инженеров и конструкторов не было желания улучшить, оптимизировать систему управления, а в том, была ли возможность осуществить это. Мы сейчас проследим в историческом аспекте те задачи, которые были основными в различные периоды развития теории управления, и посмотрим, в какой же мере они формулировались как задачи оптимизации. С момента возникновения теории управления одной из основных задач, на решении которой формировались основные представления теории, была задача регулирования угловой скорости вращения вала паровой машины. Задача состояла в том, чтобы поддерживать на неко- тором постоянном уровне й0 угловую скорость й вращения вала. Если за выходную величину этого объекта управления принять отклонение й)=й—й0 от номинального (требуемого) значения Йо скорости враще- ния, то задача сводится к поддержанию режима й=0. И если паровая машина почему-то уклонилась от этого режима, она должна к нему возвратиться. Вот, собственно, какова была основная постановка зада- чи регулирования при зарождении теории управления в конце XIX ве- ка. Мы уже знаем, что решения этой задачи можно добиться путем вве- дения обратной связи по подаче пара (регулятор Уатта). Теоретически решение задачи сводилось к построению такой математической модели системы регулирования «паровая машина — регулятор» в виде соот- ветствующей системы дифференциальных уравнений, чтобы состояние равновесия этой системы, соответствующее требуемому режиму работы и=0, было устойчивым. При некоторых упрощающих предположениях мы построили в § 4 гл. 4 такую модель. Линеаризованные уравнения движения позволяют установить, что условие устойчивости состояния равновесия, соответствующего режиму работы <о=0, заключается в выполнении неравенства (4.13): —^то и есть Решение
284 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ поставленной задачи управления в рамках определенной идеализации; объекта. В качестве еще одной задачи такого типа можно привести задачу управления курсом корабля. Пусть ср — отклонение оси корабля от заданного курса. Нам нужно обеспечить, чтобы это отклонение было- равно нулю. Как это достигается? Тоже введением обратной связи в виде авторулевого. Задача, которую должен решать авторулевой, со- стоит в следующем: нужно поддерживать режим <р = 0, а если про- изойдет уклонение корабля от курса, то нужно, чтобы он опять вернулся на заданный курс. При некоторых упрощающих предположе- ниях мы написали (§ 3 гл. 4) уравнения движения системы «корабль - авторулевой» в виде ftp 4- hq> =— kty, 'ф = аф4-Ьф, (1.1) где ф — угол поворота руля. В этой системе фазовое пространство является двумерным цилинд- ром. Единственное состояние равновесия <р=ф=О как раз соответст- вует требуемому режиму движения корабля вдоль заданного курса. Были найдены также условия устойчивости этого состояния равнове- сия: а>0, h+bk>Q. Значит, в тех случаях, когда эта идеализация до- пустима для задачи «корабль — авторулевой», именно они, эти усло- вия устойчивости, и решают задачу об управлении курсом корабля. Ясно, конечно, что реальные системы управления очень быстро ста- новились более сложными (дизель, гидростанция, самолет и т. д.), да и паровую машину с регулятором или корабль с авторулевым далеко- не всегда можно так просто описать. Соответствующие математические модели тоже становились сложнее, это уже были системы дифферен- циальных уравнений, часто нелинейных, пятого-шестого порядка. Но постановка задачи вплоть до 40-х годов нашего века оставалась прежней: нахождение условий устойчивости состояния равновесия, соответствующего нужному режиму работы реального объекта управ- ления. Этот период развития теории управления принято называть периодом классической детерминированной теории автоматического регулирования. На рис. 6.1 показана принципиальная схема системы управления этого периода: она имеет лишь контур управления — обрат- ную связь. Входом в систему управления СУ служит выход х объекта управления ОУ, выходом СУ является управление и, которое поступает на вход ОУ. Надо сказать, что и в этот период классической детерминированной теории автоматического регулирования, кроме требования устойчи- вости, были и другие требования, которыми руководствовались кон- структоры систем управления, но они еще не имели четкой математи- ческой формулировки. Так, если, например, корабль должен был сме- нить прежний курс на новый, то происходил переход от одного устой- чивого состояния равновесия к другому. Этот переходный процесс может протекать по-разному: быстро или медленно, плавно или с боль- шими колебаниями. Ясно, что инженерам хотелось, чтобы переход
§ 1. ПОСТАНОВКА ЗАДАЧИ УПРАВЛЕНИЯ 285 Рис. 6.1 осуществлялся плавно и достаточно быстро. То же самое и у паровой машины: уже одна из следующих работ Й. А. Вышнеградского,' после того как он написал работу об условиях устойчивости, была посвящена выполнению условий, когда все корни характеристического уравнения действительны и, следовательно, переходный процесс не будет иметь колебательного характера. В 30—40-е го- ды вопросу о качестве переходного процес- са уделялось уже много внимания и появи- лось много методов, главным образом чис- ленных и «частотных» (т. е. основанных на рассмотрении амплитудно-фазовых частот- ных характеристик), которые позволяли качественно оценивать характер переход- ных процессов. Итак, в период классической детер- минированной теории автоматического регулирования, который охватывает время пр 40-е годы нашего века, основной задачей управления была задача устойчивости, к которой позднее добавилась, правда не полностью фор- мализованная, задача о качестве переходных процессов. Теоретическое исследование этой задачи состояло в следующем: нужно было написать с конца XIX века систему дифференциальных уравнений, описывающую поведение регу- лируемого объекта, потребовать, чтобы у этой системы было состояние равновесия, соответствующее нужному режиму работы регулируемого объекта, а также найти условия, при которых состояние равновесия было бы устойчивым, а решения системы дифференциальных уравнений обладали бы такими свойствами, которые обеспечивают хороший пере- ходный процесс. Именно в рамках решения этих задач и шло первона- чальное развитие теории управления. Дифференциальные уравнения, описывающие поведение объекта управления, становились все более- сложными, нелинейными. Для исследования устойчивости таких си- стем разрабатывались новые методы исследования устойчивости (мето- ды Рауса — Гурвица, Михайлова, Д-разбиений, Попова, Ляпунова). Позднее, кроме непрерывных систем управления, стали исследовать и дискретные (импульсные) системы. Однако постановка основной за- дачи управления оставалась неизменной вплоть до 40-х годов. Именно в эти годы возникли веские причины, которые привели к пересмотру и последующему изменению основной постановки задачи управления. Каковы эти причины? Мы это постараемся сейчас объяснить на двух характерных задачах того времени: задаче об автопилоте и задаче- радиолокационного сопровождения. Что такое автопилот? Он отличается от авторулевого в основном тем, что у авторулевого лишь одна задача — правильно поддерживать заданный курс, а у автопилота, кроме этой задачи, есть еще две: нуж- но, чтобы самолет не кренился и поддерживалась заданная высота по- лета, т. е. у автопилота три руля, а не один. Первоначальные разработ- ки автопилота проводились в соответствии с принятой теоретической
286 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ схемой построения такой системы регулирования объекта, которая обеспечивает устойчивость заданного режима движения. Оказалось, однако, что такие автопилоты не обеспечивали надежности полета, пи- лот не мог полностью довериться такому устройству и при малейшем ухудшении ситуации брал управление на себя. В чем же дело? А дело в том, что самолет при своем движении на- ходится в сильно и быстро изменяющейся воздушной среде, непредска- зуемые воздушные потоки его кидают и трясут. Если изобразить это движение в фазовом пространстве системы «самолет — автопилот», то изображающая точка не будет находиться в состоянии равновесия, она будет совершать некие хаотические движения в его окрестности. При этом ситуация такова, что для старых тихоходных самолетов эта окрестность «безопасного» блуждания около состояния равновесия довольно большая: как их ни бросает и ни крутит, они опять возвра- щаются к нормальному режиму полета. А вот для современных ско- ростных самолетов ситуация иная: вокруг состояния равновесия имеют- ся некие ограничивающие поверхности, выходить за которые изобра- жающей точке запрещено, ибо самолет попадает в такой режим, из которого он выйти практически не может. Значит, от автопилота тре- буется уже больше: нужно, чтобы он не только приводил самолет к за- данному режиму полета, но и, несмотря на помехи со стороны воздуш- ных потоков, обеспечивал полет в безопасной окрестности заданного режима, т. е. чтобы отклонения фазовых координат не превышали не- которых заданных значений. Чем современнее самолет и больше его скорость движения, тем эти требования безопасности полета стано- вятся жестче, и с некоторого момента уже становится невозможным обеспечить их выполнение, руководствуясь старой постановкой за- дачи. Еще острее необходимость изменения основной постановки задачи управления проявилась в задаче радиолокационного сопровождения. Эта задача состоит в том, чтобы направить ось радиолокатора на летя- щий самолет и затем «сопровождать» его, т. е. следить за ним осью ра- диолокатора. Такое слежение позволяет спаренной с радиолокатором зенитной батарее вести прицельный огонь по самолету. Казалось, для решения задачи достаточно построить следящую систему регулирова- ния, которая бы обеспечила наличие устойчивого состояния равнове- сия, когда отклонения двух углов, определяющих направление оси радиолокатора, от соответствующих углов, определяющих направле- ние на самолет, равны нулю. Но такая система работала очень плохо. Если в задаче об автопилоте систему регулирования, построенную на базе решения задачи устойчивости, еще можно было использовать при постоянном контроле со стороны пилота самолета (т. е. пилот должен был быть готов в критические моменты взять управление на себя), то в задаче радиолокационного сопровождения такая система вообще не выполняла своих функций. Почему это происходило? Это происходило потому, что измерение углов, определяющих направление на самолет, не.могло быть произ-
$1. ПОСТАНОВКА ЗАДАЧИ УПРАВЛЕНИЯ 287 ведено достаточно точно: измеряемые величины оказались сильно «за- шумленными», т. е. посторонние сигналы создавали настолько сильный фон, что выделить из него нужный, полезный сигнал было непросто. Помехи были настолько велики, что если их не учесть и не бороться с ними, то решать успешно задачу управления было невозможно. Вот те причины, которые вызвали необходимость изменения основ- ной постановки задачи в теории автоматического регулирования. Нужно учесть случайные возмущения, действующие на систему, и обеспечить хорошую работу в условиях постоянно действующих по- мех. Как же сформулировать по-новому задачу управления, чтобы ее решение позволяло создавать эффективные и надежные регуляторы в этих новых условиях, когда случайные воздействия на систему ока- зывают существенное влияние на ее функционирование? Давайте по- пробуем это понять на примере известной нам системы «корабль — авторулевой». При составлении уравнений (1.1), описывающих поведе- ние этой системы, нами предполагалось, кроме всего прочего, еще и отсутствие внешних воздействий. А ведь такие воздействия, как пра- вило, присутствуют (подводные течения, волны, порывы ветра и т. д.), и их скорее можно отнести к случайным, чем к заранее известным. С учетом этих случайных воздействий уравнения движения системы примут вид Ap-f-/iq> = — ф = аф-|-^ф, (1-2)> где £ — некоторая случайная величина в каждый момент времени t. Можно, например, представить себе эту случайную функцию времени как известную функцию £=£(/, при каждом значении параметра ю, который является случайной величиной с заданной плотностью вероят- ности /?(со). Если бы случайного воздействия £(/, со) не было, то все траектории системы (1.2) приводили бы (при выполнении, конечно, условий устойчивости) изображающую точку в . стояние равновесия Ф = Ф=0. С появлением же случайного воздействия фазовая точка на- чинает как-то хаотически перемещаться в окрестности этого состояния равновесия, т. е. решение системы (1.2) — это уже не только функция времени, но и случайного параметра и: ф=ф(/, со). Вообще говоря, этого хаотического перемещения при наличии слу- чайных воздействий избежать, конечно, нельзя. Но мы хотим, чтобы это перемещение происходило как можно ближе к состоянию равнове- сия, чтобы <р (/, св) как можно меньше отклонялась от нуля. Как это- требование сформулировать математически? Пусть процесс управле- ния курсом корабля происходит в течение заданного времени Т. Рас- смотрим величину т Q(a, b, а) = ~ У ф2 (/, a) dt. (1.3) о Для каждого значения со эта величина представляет собой средне- квадратичное уклонение корабля от заданного курса за время Т.
288 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ Хотелось бы эту величину сделать минимальной, но поскольку пара- метр со — случайная величина, то и Q(a, b, со) — случайная величина, т. е. мы ее заранее не можем подсчитать. Найдем ее математическое ожидание + 00 MQ = J — 00 Q (a, b, со) р (w) dco. (1.4) Это математическое ожидание уже является функцией / (а, Ь) парамет- ров а и b авторулевого. Если мы хотим минимизировать математическое ожидание среднеквадратичного уклонения от заданного курса, мы должны найти минимум функции Ца, Ь), т. е. должны решить задачу оптимизации. Ясно, что в качестве критерия того, что такое хорошо и что такое плохо для данной системы, можно брать и другие показа- тели. В достаточно общем виде этот критерий качества управления можно записать так: + 00 I (a, b) = jj F (ф (/, со)) р (со) dec, — 00 (1.5) где F(х) — некоторая функция. Например, если мы хотим, чтобы отклонение ф(£, ®) от курса не превышало заданного значения, (<р(£, ®)|^6, то функцию F (х) можно задать так: О, Е(х) = А (х—6)2, А (х + 6)2, х£[—-6, +$], X > 6, X < —6, (1.3) где А — достаточно большое положительное число. Итак, если мы хотим учесть случайные возмущения и хотим, чтобы система хорошо работала в условиях случайных помех, мы должны иначе формулировать задачу управления. При этом задача принимает вид задачи оптимизации, т. е. мы требуем, чтобы система не просто устойчиво работала; а чтобы она в условиях помех действовала, функ- ционировала наилучшим образом. При этом должен быть указан кри- терий оценки поведения системы. Задача оптимизации управления оказалась гораздо более слож- ной, чем задача устойчивости. Для ее решения потребовалась предва- рительная разработка целого ряда крупных теоретических вопросов. Первый вопрос — надо было научиться находить статистические опи- сания для случайных возмущений, т. е. научиться описывать довольно сложные случайные процессы. Это потребовало существенного разви- тия ряда разделов теории вероятности. Второй вопрос — нужно уметь находить решения систем дифферен- циальных уравнений, правые части которых содержат случайные функции. Это потребовало создания теории стохастических дифферен- циальных уравнений.
§ 1. постановка задачи управления 289 Кроме этого, появился класс новых задач, относящихся непосред- ственно к теории управления. Мы уже говорили, что объекты регули- рования со временем становились все более сложными. Если раньше проблема создания математической модели регулируемого объекта решалась относительно просто, то теперь записать дифференциальные уравнения, описывающие достаточно точно поведение объекта, часто становится совсем непросто. Иногда для создания такой математичес- кой модели приходится проводить большое число экспериментов (на- пример, модель самолета помещают в аэродинамическую трубу и с помощью установленных на модели датчиков снимают тысячи самых разнообразных показаний для различных скоростей воздушного по- тока). Так возникли задачи имитации и идентификации объекта управления. Задача имитации — это задача построения математичес- кой модели, т. е. задача составления уравнений, которые бы доста- точно полно описывали поведение объекта. В случае, когда уравнения известны, а требуется лишь найти значения параметров, которые бы соответствовали именно данному объекту регулирования, говорят о проблеме идентификации. Трудности решения задач имитации и иден- тификации часто связаны с тем, что далеко не всегда можно ставить эксперименты по определению тех или иных параметров объекта, на- пример, в тех случаях, когда речь идет о создании модели действую- щего непрерывного технологического процесса, остановка которого обходится чрезвычайно дорого (производство металла, работа прокат- ного стана, бумагоделательной машины и т. п.). Теперь представим себе, что модель объекта создана; возникает за- дача об автоматическом управлении этим объектом, т. е. об организа- ции обратной связи. Для этого надо в каждый момент знать состояние объекта, т. е. его выходные координаты. В простых объектах измере- ние выхода объекта не вызывает затруднений: в паровой машине цент- робежный регулятор Уатта измеряет довольно точно угловую скорость вращения вала, для определения курса корабля используется гиро- скоп и т. п. В более сложных системах, когда объект имеет несколько выходных координат и, возможно, находится на значительном уда- лении от системы управления, измеритель, имея на входе сигнал х с объекта управления, выдает некоторый сигнал у (например, лишь часть координат вектора х). Это, конечно, не значит сразу же, что та- кой измеритель негоден. Тут возможны два случая. Первый случай: имея в своем распоряжении результаты измерений у(т) до момента времени t управляющая система может восстановить состояние объекта x(f) в этот момент времени. Тогда говорят, что объект управ- ления наблюдаем. В противном случае объект управления ненаблю- даем, и вот тогда измерительная система, очевидно, неэффективна и нуждается в замене. Итак, в случае неполного измерения выходного сигнала объекта возникает проблема наблюдаемости. Далее, очень часто на вход измерителя поступает не только выход объекта х(/), но и некоторые помехи i](£) (например, в задаче о радио- локационном сопровождении самолета). В простейших случаях полез-
290 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ ный сигнал x(i) и случайные помехи т) (t) складываются и на вход из- мерителя поступает их сумма х(0+т](/). Но управлять-то объектом мы должны по полезному сигналу x(t), а не по помехе т|(/) Значит, мы должны при измерении научиться отделять полезный сигнал от помехи. Эта задача называется задачей фильтрации. Один частный случай задачи фильтрации вырос в отдельный раздел теории управления, который называется теорией передачи сообщений. Этот случай имеет место тогда, когда результаты измерений при пере- даче их в систему управления должны пройти через некоторый канал связи. Например, если космический корабль летит где-то около Марса или Венеры и передает на Землю телевизионное изображение, то эти сигналы должны преодолеть огромные расстояния, где имеются всевозможные помехи, мощность которых многократно превышает мощность полезного сигнала. И тем не менее мы должны выделить по- лезный сигнал. При решении этой задачи, кроме самой задачи фильтра- ции, т. ё. борьбы с помехами, решается и другая задача — о наилуч- шем, наиболее полном использовании канала связи. Это и есть отличительная особенность задачи о передаче сообщений. Пройдя через канал связи, данные измерений состояния объекта поступают в систему управления, которая должна сформировать управляющее воздействие на объект. На основании чего же формиру- ется управляющее воздействие? Самое первое, что здесь должно быть задано,— это цель управления, т. е. то, что мы хотим от системы. Мы уже видели, что,*когда объект управления функционирует в усло- виях случайных помех, цель управления естественно формулируется как задача оптимизации. Имеется некоторая оценка того, как функ- ционирует система в течение определенного отрезка времени, допустим, В общем случае эта оценка есть функционал, зависящий от выбора управления u(t), от того, каково будет поведение объекта х(/), а в условиях помех поведение системы, а зна- чит, и значение функционала будут зависеть еще и от конкретной реа- лизации случайного воздействия £(£), Итак, оценка поведе- ния системы есть функционал Q [х(£), u(Z), |(Z); Z0^^iJ, и цель управления состоит в том, чтобы его минимизировать, т. е. найти уп- равление u*(/), для которого значение функционала будет наименьшим. Однако заметим, что в такой постановке мы задачи не решим, ведь мы не можем заранее знать реализации случайного воз- действия £(/), Поэтому за критерий качества управления объектом берут не саму оценку Q, а ее математическое ожидание по всевозможным реализациям u(t); <Z1] = MQ[x(Q, u(t), I (/); Теперь функцию управления u(t) надо искать из условия минимиза- ции математического ожидания I. Такую задачу уже можно решить. Как это сделать, мы увидим в § 3 этой главы. Пусть, наконец, управляющая система сформировала управление и (/) и это управляющее воздействие передается (иногда тоже через не-
§ 1. постановка задачи управления 291 кий канал связи) на объект управления. Последний вопрос, который здесь возникает,— это вопрос об управляемости объекта. Речь идет о том, насколько эффективно воздействие нашего управления и (2) на поведение объекта. Можем ли мы перевести объект из одного состоя- ния в другое или это не всегда возможно? Говорят, что система пол- ностью управляема, если найдется такое управление, что объект за конечное время может быть переведен из любого начального состояния в любое конечное состояние. Это, конечно, очень сильное требование, и’оно, как правило, не выполняется, но, как мы увидим в §2, для некоторого класса систем можно установить условия полной управ- ляемости. Вот таков комплекс проблем, возникших на определенном этапе развития теории управления, нача- ло которого можно отнести к 40— 50-м годам нашего века. Этот вто- рой период развития теории управ- ления длится и по настоящее вре- мя и называется периодом класси- ческой стохастической теории ав- томатического регулирования. Давайте теперь опишем кратко общую схему системы управле- ния объектом, как она понимается в рамках классической стохас тической теории автоматического регулирования. Имеется объект управления ОУ (рис. 6.2). Входом объекта управления служит управ- ляющее воздействие и, а выходом—его состояние х. Кроме того, на ОУ действуют случайные воздействия £. Дальше есть измери- тельная система ИС, которая должна получить полные данные о состоянии объекта х, но это не всегда удается, и она измеряет лишь некоторую переменную у. Здесь тоже могут быть помехи, мы их обозначим через т). Измеренная величина у передается в систему управления СУ; если передача происходит через некий канал связи КС, то тогда к величине у добавляются помехи ? и на входе си- стемы управления будет величина у. Система управления, исходя из априорно задаваемой цели управления, должна сформировать управляющее воздействие и, которое поступает на объект управле- ния ОУ (при этом также не исключен случай, что управление и передается на ОУ через некий канал связи КС, и тогда на объект управления приходит искаженное помехой % управление и). Конечно, решение основной задачи теории управления в этой новой сложной постановке не было достигнуто сразу в общем случае. Сна- чала решались более простые задачи. Прежде всего надо было дать тео- ретическое решение задачи оптимизации управления при отсутствии помех. Когда аппарат для решения этих задач был развит, стали ду- мать над тем, можно ли его применить в условиях помех. Самый про-
292 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ стой путь преодоления помех состоял в том, чтобы постараться как-то нейтрализовать влияние случайных помех и подавать на вход системы управления уж если не само состояние объекта x(Z), то некоторую его статистическую оценку х(/). Тогда закон управления мы бы оставили прежним, как будто помех нет, но только вместо состояния x(t) ис- пользовали бы его оценку х(/). При этом, естественно, хотелось бы, чтобы эта оценка была наилучшая, т. е. отклонение оценки x(t) от реального состояниях^) было минимальным. Это отклонение можно измерять по-разному, например, с помошью интеграла ц (х (t)—х /о Вот так и возникла эта подзадача основной задачи управления — задача об оптимальной фильтрации, в которой из сигнала у, являю- щегося результатом прохождения сигнала х через измерительное уст- ройство, «отфильтровывается» снова х в виде его наилучшей статисти- ческой оценки х. Другая задача фильтрации имеет место уже в связи с прохожде- нием сигнала через канал связи. Она имеет свои особенности и, по существу, относится уже к теории передачи сообщений. В основе ре- шения ее лежат идеи, связанные с понятием информации. Таким образом, новая статистическая постановка задачи автомати- ческого управления выдвинула целый ряд теоретических вопросов, решив которые и соединив их вместе, можно было конструировать системы управления, способные работать в условиях помех. Но не только эти задачи характерны для второго периода классической тео- рии регулирования. Появились новые задачи, новые типы систем управления, про которые уже нельзя сказать просто, что на них дей- ствуют случайные помехи, нужно сказать, что условия их работы слу- чайны. Тем не менее основная постановка задачи теории автомати- ческого управления осталась прежней — это задача оптимизации управления, в том числе и чисто стохастическими системами, напри- мер, управление движением транспорта на перекрестке или на за- данной системе перекрестков, управление процессом обработки дан- ных в сложной ЭВМ, управление процессом обслуживания заявок на телефонной станции и т. д. Несмотря на сложность этих систем, не они привели к необходи- мости изменения основной постановки задачи в теории управления. К этому привели трудности решения задачи идентификации сложных объектов. Оказалось, что для сложных объектов, таких как современ- ное производство металла, проката, производство бумаги или единая энергосистема страны, решить задачу идентификации чрезвычайно сложно: нужно останавливать производство, делать специальные за- меры различных параметров, проводить эксперименты. Таким образом, решение задачи идентификации может обойтись дороже, чем сама
§ 1. ПОСТАНОВКА ЗАДАЧИ УПРАВЛЕНИЯ 293 система управления. Кроме того, статистику возмущений трудно по- лучить: сегодня возмущения имеют такой характер, а завтра неиз- вестно, какими они будут, т. е. мы не знаем точно, в каких условиях будут работать системы, которыми мы должны управлять. Например, запускают спутник в космическое пространство, а на спутнике уста- новлена разнообразная аппаратура, которой управляют с Земли. Как там будет функционировать эта аппаратура, какие на нее будут действовать возмущения? Точно этого сказать нельзя, а мы хотим чтобы аппаратура работала и работала хорошо. Первые идеи о том, что система управления должна как-то подстраи- ваться к изменяющимся условиям, в которых она функционирует, появились довольно давно, еще в 30—40-е годы. Именно этот смысл и вкладывался вначале в понятие адаптивная система: система управ- ления автоматически самонастраивалась, перенастраивалась под тот или иной режим работы. Однако с появлением сложных объектов ре- гулирования, когда не имеется полного описания объекта, т. е. мы'его знаем весьма приближенно, стали уже говорить не о том, чтобы регу- лятор подстраивался к изменяющимся условиям, а о том, что система управления должна быть работоспособной в условиях неполной ин- формации об объекте. Так начался лет 10—15 тому назад новый период развития теории управления. Именно к этому моменту появились новые возможности в решении задач управления — обучение показами. Это позволило по- новому поставить основную задачу управления: полного описания объекта нет, имеется лишь частичная информация о его поведении; нужно построить такую систему управления, которая в^процессе ра- боты обучается показами, накапливает информацию об условиях ра- боты ц, используя эту информацию как обучающий материал, стано- вится способной выполнять поставленную перед ней цель управ- ления. Рассмотрим более детально, в чем же состоит отличие адаптивной постановки задачи от предыдущих постановок задачи управления на примере задачи об авторулевом. Классическая детерминированная постановка задачи нам хорошо известна. Записывается уравнение дви- жения судна относительно отклонения курса корабля от заданного, выбирается некоторый закон управления рулем ф=а<р-|-Ьф, содер- жащий параметры а и Ъ, затем решается вопрос о том, как подобрать параметры а и Ь, чтобьГ была достигнута цель управления <р=0, т. е. чтобы корабль действительно придерживался заданного курса. Для этого параметры а и b должны удовлетворять условиям устойчивости а>0, h+bk^>Q, о которых шла речь в § 3 гл. 4. В классической стохастической постановке задачи в уравнениях движения корабля учитывается еще и случайное воздействие £. Для этого случайного воздействия находится статистическое описание 1=1 (t, со): всякая реализация случайного воздействия на объект управления есть функция времени, зависящая от случайной величины со, для которой известна плотность вероятности р(со). Тогда решение
294 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ уравнения, описывающее поведение корабля, также будет зависеть от случайной величины со и, конечно, от выбора параметров авторуле- вогсГа и Ь; <р=ср (/; а, Ь, со). Цель управления состоит в том, чтобы ми- нимизировать математическое ожидание от среднеквадратичного от- клонения т Q(a, b, <о) = -^У ср2(^, a, b, со) dt (1.7) о курса корабля от заданного за время управления Т. Поскольку рас- пределение плотности вероятности р(со) для случайной величины со считается известным, то это математическое ожидание I (а, Ъ) нами на- ходится (см. (1.4)) и мы можем теперь выбрать параметры а и & автору- левого из условия минимизации функции I (а, Ь). В адаптивной постановке задачи управления курсом корабля си- туация следующая. Мы не знаем, вообще говоря, каковы уравнения, которые описывают поведение корабля относительно заданного курса, или же уравнения эти есть, но относительно параметров, входящих в эти уравнения, у нас имеется лишь некоторая информация, например, />0, /г>0 и k>Q. Далее, статистического описания случайных воз- действий на корабль тоже нет, т. е. плотность вероятности р(со) для случайной величины со неизвестна. Тем не менее в этих условиях мы хотим создать регулятор, который бы решил задачу минимизации функ- ции I (а, Ь). В чем же существенная разница? Раньше, при классической детерминированной и стохастической постановках задачи, параметры регулятора а и b могли быть найдены заранее путем решения некото- рых математических задач (задачи устойчивости и задачи минимиза- ции). Теперь же, в адаптивной постановке задачи управления, мы не имеем модели, описывающей поведение объекта, и не знаем критерия качества управления (1.5), поскольку плотность р(со) нам неизвестна. Объект управления — это некий «черный ящик», внутреннее устрой- ство которого нам неизвестно, входом его является управление ф, а выходом — уклонение от курса <р. Кроме того, на объект действуют случайные помехи, но какие они, как они описываются, нам неизвест- но. Для управления объектом мы вводим контур управления с авто- рулевым; входом на него является отклонение от курса, а выходом — угол ф поворота руля. Но мы не знаем значений параметров авторуле- вого а и Ь. Задача состоит в том, чтобы уже в процессе функционирова- ння^этой системы «корабль — авторулевой» как-то суметь подобрать нужные значения параметров а и Ь. Кроме контура управления, реа- лизующего обратную связь, появилась необходимость еще в одном контуре, реализующем адаптацию системы. Таким образом, структур- ная схема адаптивной системы управления курсом корабля выглядит так, как это^показано на рис. 6.3. Контур адаптации, входами в который служат и уклонение от кур- са <р, и положение руля ф, реализует процесс обучения показами: авто-
§ 1. ПОСТАНОВКА ЗАДАЧИ УПРАВЛЕНИЯ 295 рулевой выдает управление хр, корабль имеет отклонение от курса ср — это и есть показ. На основе этого процесса обучения и вырабаты- ваются нужные значения параметров а и Ь. Так контур адаптации осу- ществляет по мере функционирования системы постепенную подстрой- ку параметров авторулевого. Надо сказать, что адаптивная постановка задачи управления сложным объектом управ- ления повлекла за собой и изменение многих частных подзадач теории управления, которые мы сформулировали, когда описывали период развития классической стохастической теории регулирования. Особенно это коснулось задачи оптимальной фильтрации и задач имитации и идентификации объекта управления. Как мы знаем, в сложных системах управления имеет- ся специальная измерительная система для оп- ределения выхода объекта х(/). На вход изме- рительной системы выходной сигнал х (I) посту- пает вместе с некоторой помехой т](/). Что мы хотим видеть на выходе? Ясно, что нам хотелось бы в идеале иметь на выходе x(f), т. е. построить такой фильтр, кото- рый бы убирал помеху !](/). Точно это сделать в общем случае нельзя, поэтому на выходе фильтра будет некоторая величина y(t). Возникает ошибка фильтра y(t)—x(t), которую желательно сделать как можно меньше. Как ставится и решается задача о построении такого опти- мального фильтра в классической статистической постановке? Нужно задать статистическое’описание случайной помехи, т. е. задать ее как функцию времени ю) и случайного параметра (о с известной плотностью вероятности Далее, надо задать структуру фильтра. Пусть его структура определится заданием совокупности параметров у. Тогда выход фильтра будет функцией времени y=y(t\ У, ®), а также случайного параметра <о и совокупности параметров фильтра у. Нужно оценить качество работы фильтра с помощью некоторого критерия. Таким критерием может быть математическое ожидание среднеквад- т ратичного уклонения Q (у, (0) = -^-^ [у (/, со, у)—x(t)]2dt на отрезке о [О, Т], т. е. функция + » / (у) = $ Q (у, ю) Р (®) da. — (1.8) Решив задачу минимизации функции /(у), мы найдем оптимальный фильтр, т. е. задача полностью математически поставлена. А в чем будет состоять адаптивная постановка задачи об оптимальной фильтра- ции? Вообще говоря, задача опять состоит в минимизации функции
296 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ. УПРАВЛЕНИЯ 7 (у), но мы не знаем статистического описания случайного воздейст- вия, т. е. не знаем ни р(а>), ни Q(y, ®), а значит, не знаем и функ- цию I (у). И все же надо эту функцию минимизировать. Как это сделать? Это можно сделать с помощью обучения путем показов, как в задаче обучения персептрона. В процессе этого обучения мы постепенно, шаг за шагом, узнаем функции Q (у, <»), р (<о) и мини- мизируем функцию I (у). Вот какова разница в постановке и в ме- тоде решения задачи об оптимальной фильтрации в классической статистической и в адаптивной постановках. Теперь о задаче имитации. Задача имитации объекта управления может быть сформулирована и в детерминированной постановке, и в классической статистической постановке, а также в адаптивной поста- новке. Сначала изложим суть этой задачи в детерминированной поста- новке. Имеется то, что сейчас принято называть «черным ящиком». Что внутри него происходит — мы не знаем. Мы можем лишь подавать на вход этого «черного ящика» какие-то воздействия х (/) и снимать его выход y(t). В чем состоит задача имитации? Мы хотим построить такую си- стему, которая определяется совокупностью параметров у, чтобы при том же входном воздействии x(t) на эту систему выход ее y(t, у) был максимально близок к выходу «черного ящика»у(/). Например, чтобы среднеквадратичное уклонение г Q(y)=y- j [у (*» V)—у(ОГ^ о было минимально. Нетрудно видеть, что в такой постановке задача эта хорошо известна, это — задача о среднеквадратичном приближе- нии из теории аппроксимации функций. Перейдем к статистической постановке задачи имитации. Име- ется статистическое описание «черного ящика»: если х(/, со)—отдель- ная реализация случайного воздействия на «черный ящик», то у (t, <о) — реализация соответствующего ему выходного сигнала, <о—случайный параметр с заданной плотностью вероятности р(ю). Теперь уже среднеквадратичное уклонение т Q(y, <о) = ^-f[y(/, у, ю)—у(/, «о)]2 dt о является случайной величиной, математическое ожидание которой можно найти: / (У) = J Q (У, ю) Р (®) — ® Статистическая постановка задачи имитации состоит в минимизации
§ 2. НАБЛЮДАЕМОСТЬ И УПРАВЛЯЕМОСТЬ 297 функции I (у), т. е. мы хотим, чтобы на всевозможных случайных входах х(/, <о) математическое ожидание среднеквадратичного укло- нения выхода имитатора от того, что выдает «черный ящик», было минимальным. Теперь уже понятно, как выглядит адаптивная постановка задачи имитации: статистическое описание входов х (/, <о) и выходов у (/, ®) «черного ящика» неизвестно, так что в минимизируемом функцио- нале I (у) неизвестны функции Q (у, <о) и р (со). Здесь для отыскания минимума 1 (у) надо прибегнуть к идее обучения путем показов. Коротко охарактеризовать современное направление в теории управления, связанное с понятием адаптация, можно, по-видимому, так: с одной стороны, задачи управления настолько усложнились, что мы вынуждены поставить вопрос об управлении в условиях неопреде- ленности; с другой стороны, появились и новые методы решения та- кого рода задач. Что же касается структуры системы управления, то в ней, кроме основного контура управления, появился еще контур адаптации. § 2. Наблюдаемость и управляемость Как мы видели, в том случае, когда контур управления содержит, кроме объекта управления ОУ и системы управления СУ, еще и изме- рительную систему ИС (рис. 6.4), которая, получив на входе состояние объекта х, выдает в СУ лишь некоторое у, возникает проблема наблюдаемости объекта. Она состоит в следующем: можно ли, наблю- дая в течение некоторого времени ве- личину у(т), установить состояние объекта х(/) в момент времени /? Если это возможно, то говорят, что объект управления наблюда- ем. Каковы же условия, которые гарантиру- ют наблюдаемость объекта управления, и ка- ков должен быть промежуток времени наблю- дения выхода у(т) измерительной системы, чтобы определить состояние объекта х(/)? Ответить на оба эти вопроса в общем случае до сих пор не удалось, да и вряд ли это возможно. А вот для частного случая, который мы сейчас рассмотрим, эта за- дача допускает сравнительно простое решение. Пусть объект управ- ления описывается линейной системой разностных уравнений x4+1 = AxJ+5и#, (2.1) где Xs —n-мерный вектор, описывающий состояние объекта в момент времени s, и*— m-мерный вектор, задающий управляющее воздействие на объект в момент времени s, А — квадратная матрица размерности пХп, В — прямоугольная матрица, у которой п строк и т столбцов. Что касается систем измерения, то они могут быть самыми разнооб-
298 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ (УПРАВЛЕНИЯ разными. Мы предположим, что функционирование системы измере- ния описывается достаточно простым соотношением ys = Hxs, (2.2) т. е. выход ys («/-мерный вектор) системы измерения есть линейная функция от входа х®. Матрица Н—это прямоугольная матрица с q строками и п столбцами. Итак, на вход системы управления поступают последовательно сигналы у0, у1, • •., у®, .. .В каждый момент времени s система должна выдать управляющее воздействие и® на объект. Для форми- рования этого воздействия система управления, как правило, должна знать состояние объекта х®. Если система управления сможет опре- делить состояние х®, имея результаты наблюдений у0, у1, ...,у®, то система измерения (2.2) делает наш объект наблюдаемым. Каковы же условия, которым должны удовлетворять объект (2.1) и система измерения (2.2), чтобы это осуществилось? И какой должна быть при этом «память» у системы управления, т. е. сколько предыдущих измерений у®, у®-1, ..., у®-* нужно ей иметь, чтобы гарантировать знание состояния объекта х®? Пусть система (2.1) уже функционирует k тактов: система управ- ления выдала управляющие воздействия и0, и1, ..., ufc-1, объект управления за эти k тактов из некоторого начального состояния х° перешел последовательно в состояния х1, х2, .. ., xfc. Но системе управления ни одно из этих состояний объекта пока неизвестно, она имеет в своем распоряжении лишь набор векторов у0, у1, ..., ук. Отметим теперь, что если набор векторов у0, у1, ..., у* позволяет определить одно из указанных состояний объекта, то тогда осталь- ные можно определить, пользуясь уравнениями движения объекта (2.1). Особенно это просто сделать, если известно начальное состо- яние объекта х°; остальные состояния, включая и состояние xfc, мы последовательно находим из формул х1 = Дх° + Ви°, х2 = Дх1 + Ви1 = А 2х° -|- ДВи° 4- Ви1, xfe = ДЙх° + Ак ’В^Ц-Д*1 2Вит4- ... -|-Bufe-1. Теперь, используя связь у® = /7х®, задаваемую системой измере- ния, и формулы (2.3), мы легко находим соотношения, связываю- щие начальное состояние х° объекта с результатами измерения У0, У1, • - , yk- у° = Нх°, у1 = Нх1 — Н Ах° + НВи°, (2.4) у2 = Нх2 = НА 2х° 4- НА Ви° + НВи1, ук = Нхк = НАкх° + НАк~1Ви<> -f-... 4- //Bufc-1.
§2. НАБЛЮДАЕМОСТЬ И УПРАВЛЯЕМОСТЬ 299 Соотношения (2.4) при заданных векторах у0, у1, у* и управ- ляющих воздействиях и0, и1, ufc-1 представляют собой линейную систему уравнений относительно компонент вектора х°: /7х° = Ь°, НАх^Ь1, НА2х° — Ь2, (2.5) НАкх° = bfc, где b° = y°, b1 = y1—Х/Ви°, Ь2 = у2—НАВиР—НВи1, bk=:yk—НAk~iBua—HAk~2Bu1—... —HBuk~l. Таким образом, вопрос о наблюдаемости системы сводится к воп- росу об однозначной разрешимости линейной системы (2.5) относи- тельно неизвестного вектора х°. Для этого, как известно, необходимо и достаточно, чтобы ранг основной матрицы системы (2.5) был равен числу компонент искомого вектора х°, т. е. (Н \ НА \ НА2 j = n. (2.6) НАк/ Обратим теперь внимание на структуру основной матрицы: число столбцов, т. е. число элементов в каждой строке, равно п; число строк равно (fe-|-l)<7; при этом первые q строк задаются матрицей Н, следующие q строк задаются матрицей НА и т. д. Теперь воз- никает вопрос: каким же нужно взять число X? Есть ли такое число, после которого прибавление в основную матрицу блоков вида HAk+\ HAk+2 и т. д. уже не может изменить ее ранг? Оказывается, такое число есть, и оно равно (и—1). Этот факт следует из теоремы Гамильтона—Кэли: матрица яв- ляется корнем своего характеристического многочлена. Характеристи- ческий многочлен квадратной матрицы А — это многочлен степени п относительно некоторого параметра X. Он определяется соотношением Е„(Х) = |ХЕ-Л|, (2.7) где |ХЕ—Л| — определитель матрицы ХЕ—Л. Так вот, согласно теореме Гамильтона— Кэли, если записать ха- рактеристическое уравнение в виде (X) = X* + а^~1 + ... + аи_^ 4-ап = 0 (2.8) и подставить вместо числового параметра X матрицу Л, то будет спра- ведливо соотношение An + a1A--^aiA"-2A-...A-an_1AA-anE^. (2.9)
300 ГЛ 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ Отметим, что в правой части соотношения (2.9) стоит нулевая мат- рица размерности пхп. Что же означает соотношение (2.9)? Оно означает, что любая строка (или столбец) матрицы А" есть линей- ная комбинация соответствующих строк (столбцов) матриц Д"-1, Л”-2, ..., А, Е. Легко видеть, что если матрица Ап есть линейная комбинация матриц Д'1-1, Дп“2, ..., Д, Е, то и каждая последу- ющая степень матрицы А также является линейной комбинацией указанных матриц. Например, Д«+1 = А• Ап = А (— о^Д"-1—а2Д"-2— • • • — а„-И— ааЕ) — — — а-^А"—а2Ап~1—... —ап_гА2—а„А = = — аг (— а1Ап~1—а2Ап~2—... —ап-1А—апЕ)— — а2Л"-1 — ... —alt_1A2—anA = (al — a2) Лв-14- + (а1а2—а3) А"~* + ... +(а1а„_1—ап) А+а^Е. Таким образом, добавление в основную матрицу системы (2.5) блоков вида НАп, НАпЛЛ и т. д. заведомо не изменит ее ранг, а потому условие наблюдаемости для системы (2.1) с системой изме- рения (2.2) принимает следующий окончательный вид: (Я \ НА \ НА2 1 = п. (2.10) НАп~х/ Еще один вопрос, который мы рассмотрим,— это вопрос об управ- ляемости системы. О чем идет речь? Пусть уравнения движения управ- ляемого объекта записаны в следующем виде: х”+1 = /(х,) и*). (2.11) Здесь вектор us означает управляющее воздействие на объект в неко- торый момент времени s. Изменяя его, мы изменяем состояние объекта х5+1 в следующий момент времени. Возникает вопрос: а насколько велика свобода, с которой мы можем изменять состояние x^+I объекта с помощью управляющего воздействия и5, т. е. насколько велико влия- ние управляющего воздействия на поведение объекта? Вот такую оценку эффективности управления и можно сделать с помощью поня- тия управляемости. Говорят, что система (2.11) полностью управляе- ма, если для любого начального состояния х° и любого конечного со- стояния хкон существует такой набор и0, и1,. . ., и5-1 управляющих воздействий, который позволяет перевести систему (2.11) из состояния х° в состояние хкоя. Мы видим, что требование полной управляемости системы является довольно сильным. При каких же условиях относи- тельно объекта (2.11) это требование будет выполнено? Ответить на этот вопрос в общем случае трудно, но для линейного объекта (2.1) можно найти необходимые и достаточные условия полной управляе- мости. Пусть нами выбрана некоторая последовательность управляю-
§2. НАБЛЮДАЕМОСТЬ И УПРАВЛЯЕМОСТЬ 301 щих воздействий и0, и1,. . и*-1. Тогда система, начиная с состояния х°, будет последовательно переходить в состояния х1, х2,. . Xs сог- ласно следующим соотношениям: хх = Лх°4-Ви°, х2 = Лх14- Ви1 = А 2х° 4* ЛВи° Ви1, х‘ = Л’х’ + Л^Ви0-!- ... 4-Ви*"1. Нужно так подобрать значения и0, и1, и*-1, чтобы состоя- ние объекта х* через s тактов совпало с требуемым конечным со- стоянием хкон. Для искомых значений и0, и1, ..., и*'1 получается следующая система линейных уравнений: Ви*-14-ЛВи*-24- • • • 4-Л*_1Ви0 = хкон—Л*х° = Ь. (2.13) Отметим, что число уравнений в системе (2.13) остается постоянным и равно размерности п состояния объекта х. А вот число переменных зависит от того, на сколько тактов вперед задано управление объектом (2.1), и равно ms. Необходимое и достаточное условие разрешимости линейной системы, как известно, состоит в том, что ранг основной мат- рицы должен равняться рангу расширенной матрицы. Структура ос- новной матрицы такова: она имеет п строк, каждая из которых имеет ms элементов, причем первые т элементов задаются матрицей В, вто- рые т элементов задаются матрицей ЛВ и т. д. Отсюда ясно, что ранг основной матрицы не может превышать число п. Если ее ранг будет меньше п, то тогда добавление к ней еще одного столбца b может при- вести к увеличению ранга расширенной матрицы по сравнению с ран- гом основной. Более того, это всегда можно сделать за счет специаль- ного подбора вектора Ь. Поскольку нам нужны условия разрешимости системы (2.13) для любого вектора b (ведь начальное и конечное со- стояния объекта х° и хкон могут быть произвольными), то отсюда вы- текает, что ранг основной матрицы должен быть равен п, т. е. rang (В, ЛВ.....Л*“1В) = п. (2,14) Осталось лишь выяснить вопрос о том, каким должно быть мак- симальное число «блоков» типа Л‘В, формирующих основную мат- рицу. На этот вопрос нам опять помогает ответить теорема Гамиль- тона— Кэли: поскольку А" есть линейная комбинация матриц Л"-1, Лл~2, ..., А, Е, добавление к основной матрице «блоков» АпВ, Ап+1В и т. д. уже не может изменить ее ранга. Поэтому необходи- мое и достаточное условие полной управляемости линейной системы (2.1) можно записать в виде rang (В, Л В, ..., Л"-1В) = п. (2.15) Отметим еще и такой интересный факт, вытекающий из этого условия полной уппавляемости: для полностью управляемой системы (2.1) пе-
302 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ ревод из произвольного начального состояния х° в произвольное ко- нечное состояние хкон можно осуществить за/ п тактов. В случае, когда поведение объекта управления описывается систе- мой линейных дифференциальных уравнений х = Дх-|-Ви, (2.16) свойство полной управляемости состоит в следующем: для любого начального состояния х° и конечного состояния хкон найдется такое управляющее воздействие u(Z), что соответствующее ему ре- шение х(0 системы (2.16), исходящее из точки x(t0)=x°, пройдет и че- рез точку хкон: x(/i) = xK0H. Необходимым и достаточным условием полной управляемости системы (2.16) будет опять условие (2.15). Не- смотря на то, что условие (2.15) не является слишком обременительным, реальных объектов, которые бы можно было назвать полностью управ- ляемыми, совсем немного. Дело в том, что при рассмотрении вопроса об управляемости объекта и, в частности, при выводе условия (2.15) полной управляемости объекта (2.1) мы предполагали, что управляю- щее воздействие может принимать любые значения, даже сколь угодно большие. На самом же деле в реальных системах управляющие воз- действия удовлетворяют различным ограничениям (например, сила тяги двигателя и его мощность могут меняться лишь в некоторых за- данных пределах, материальные и сырьевые ресурсы, используемые для некоторого конкретного производства, также ограничены и т. д.). Такие управляющие воздействия принято называть допустимыми управлениями. Ясно, конечно, что если теперь пользоваться лишь до- пустимыми управлениями, то мы можем и не перевести систему из лю- бого начального состояния в любое конечное состояние даже при выпол- нении условия (2.15) полной управляемости. Проиллюстрируем этот факт на одном простом примере. Пусть движение объекта описывается уравнением x-f-x = u(/), (2.17) где допустимое управление u(t) должно удовлетворять ограничению |и(01<1. Если ввести новую переменную у=х и рассмотреть уравне- ние (2.17) как линейную систему х=у, у = — у + и, (2.18) то сразу видно, что условие полной управляемости (2.15) для системы (2.18) выполнено: в = (j ) > А = (о _[) - rang (в- АВ) = rang (?_[)= 2. А как ведут себя траектории системы (2.18) при допустимых управле- ниях u(t): |«(0|<1? На рис. 6.5 изображен фазовый портрет системы (2.18) при максимально возможном значении управляющего воздейст- вия «(/)=!.
§2. НАБЛЮДАЕМОСТЬ И УПРАВЛЯЕМОСТЬ 303 Мы видим, что часть траекторий системы (2.18) при целиком расположена в верхней полуплоскости фазовой плоскости (х, у). Если теперь на одной из этих траекторий, лежащих в верхней полу- плоскости, взять какую-нибудь точку и исследовать величину угло- вого коэффициента dy dx и~У У траектории системы (2.18) в этой точке в зависимости от выбора управляющего воздействия и, то получится, что наибольшее значение углового коэффициента траектории дости- гается при и=1. Значит, все другие траектории системы (2.18)придо- пустимых управлениях |и(£)|<3 могут пересекать траектории этой си- стемы при лежащие в верхней полуплоскости, лишь сверху вниз (так, как это показано на рис. 6.5 для прямой г/=1). Что же от- сюда следует? Отсюда сразу следует такой факт; если пользоваться лишь допусти- мыми управлениями, удовлетворяющими ограничению \и(/)|<П, то систему (2.18) нельзя перевести из некоторой начальной точки (х0, у0), расположенной ниже прямой у—1, в конечное состояние (xft, ук), расположенное в области выше прямой г/=1, т. е. система (2.18) уже не будет обладать в классе указанных допустимых управ- лений (и соответствующих им допустимых траекторий) свойством полной управляемости. Менее ограничительным требованием к системе управления, чем требование полной управляемости, является требование управляемо- сти системы по отношению к некоторому фиксированному конечному состоянию (чаще всего таким конечным состоянием системы служит начало координат фазового пространства). Говорят, что система управ- ления является управляемой по отношению к началу координат, если для любого начального состояния х° мощно указать такое допустимое управление, которое переведет систему из состояния х° в начало коор- динат. Нетрудно видеть, что если система полностью управляема в классе допустимых управлений, то она управляема по отношению к любому конечному состоянию, в том числе и по отношению к началу
304 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ координат. Обратное же утверждение невернй. Система (2.18) является примером системы, не удовлетворяющей свойству полной управляе- мости в классе допустимых управлений |и($]С1, но являющейся управ- ляемой по отношению к началу ко- ординат. На рис. 6.6 показано, как из любого начального состояния мо- жно достичь начала координат, ис- пользуя траектории системы (2.18), соответствующие двум значениям + 1 и—1 управляющего воздейст- вия и (t). В общем же случаесистема управления может не обладать ни свойством полной управляемости, ни свойством управляемости отно- сительно какого-то своего фиксиро- ванного состояния. В этом случае говорят об области управляемости системы. Область управляемости — это множество начальных состояний системы, из которых ее можно перевести, используя допустимые управ- ления, в начало координат. Если область управляемости совпадает со всем фазовым пространством системы, то тогда система управляема относительно начала координат. В качестве примера системы, у которой область управляемости не совпадает со всем фазовым пространством, рассмотрим объект управле- ния, описываемый уравнением х—x = u(f), (2.19) с ограниченным управлением u(t), |и(0|^1. Введем новую перемен- ную у=х и запишем уравнения движения в виде системы х=у, у*=у + и. (2.20) Легко проверить, что для системы (2.20) условие (2.15) полной управ- ляемости выполнено. На рис. 6.7 приведен фазовый портрет системы (2.20) при и=—1.0дна из траекторий совпадает с прямой у=1 и, таким образом, целиком расположена в верхней полуплоскости. Изучение угловых коэффициентов dy]dx=(y-\-u)ly допустимых траекторий систе- мы (2.20) в точках верхней полуплоскости показывает, что наименьшее значение углового коэффициента достигается при и=—1. Таким обра- зом, допустимые траектории системы (2.20) могут пересекать прямую у=1 лишь снизу вверх (так, как это показано на рис. 6.7). Это озна- чает, что из начального состояния, расположенного выше прямой г/=1, система (2.20) не может быть переведена с помощью допустимых траек- торий в конечное состояние, расположенное ниже этой прямой, на- пример, в начало координат. Изучение угловых коэффициентов допу-
§3. ОПТИМИЗАЦИЯ ФУНКЦИЙ И ДИНАМИЧЕСКИХ ПРОЦЕССОВ 305 стимых траекторий системы (2.20) в нижней полуплоскости, в частно- сти в точках прямой у= — 1, показывает, что фазовая точка системы (2.20) при своем движений вдоль допустимой траектории может пере- сечь прямую у=—1 (траекторию системы (2.20) при и=-|-1) лишь сверху вниз. Значит, из начального состояния, расположенного ниже прямой у=—1, систему (2.20) тоже нельзя перевести в начало коорди- нат с помощью допустимой траектории. Из рис. 6.8 видно, как из лю- бой точки области U={(x, у): —оо<х<+оо, —Ki/Cl} система (2.20) может быть переведена в начало координат. Тем самым мы уста- новили, что U — область управляемости системы (2.20). § 3. Оптимизация функций и динамических процессов Разговор об оптимизации, пожалуй, нужно начать с рассказа о двух основных задачах, которые послужили толчком для разработки современных математических методов оптимизации. Именно на этих задачах оптимизация стала реальной процедурой. Первая задача состояла в том, чтобы по данным, поступающим с ра- диолокатора, сопровождающего самолет, как можно быстрее повер- нуть орудие из исходного положения в требуемое для того, чтобы орудие могло затем с некоторым упреждением сопровождать самолет. Фактор времени здесь действительно играет самую важную роль: само- леты летают все быстрее и быстрее, и поэтому все операции по наведе- нию орудия на цель должны быть осуществлены за считанные секун- ды. За счет чего же это делается? Это делается за счет мотора, создаю- щего некоторый момент сил М (I). Задача состоит в том, чтобы указать, каков должен быть закон изменения момента сил М (/), чтобы за мини- мальное время орудие было переведено из одного положения в другое. Вторая задача — это задача о подъеме ракеты. Как известно, дви- жение ракеты осуществляется за счет выброса струи газа, образуемой в результате сгорания топлива. Реактивная сила этой струи опреде- ляется скоростью сгорания топлива u(f). Задача состоит в том, чтобы
306 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ достигнуть заданной высоты Н с минимальным расходом топлива: Г (И) I (и) = j о здесь Т(Н) — момент времени, когда Достигается высота Н. Могут быть и другие постановки задачи: достичь максимальной высоты при заданном расходе топлива или вывести ракету в заданную точку так, чтобы ее скорость была максимальной и т. д. Выбор оптимального закона сгорания топлива «(/) крайне важен в этих задачах, ведь речь идет об экономии очень дорогого топлива. Более того, если выбрать неоптимальный закон сгорания топлива, то можно вообще не достичь требуемой цели (например, вывести спутник на заданную орбиту). Решение именно таких задач и привело в ко- нечном итоге к созданию двух основных методов оптимизации в тео- рии управления: метода динамического программирования Веллмана и принципа максимума Понтрягина. Это не означает, что раньше опти- мизацией в теории управления совсем не занимались. Задачи оптими- зации управления решались и в рамках классической теории регули- рования. Но как только был создан новый аппарат решения задач оп- тимизации (а он был создан лишь в 50—60-е годы), сразу возник один неприятный для теории регулирования вопрос. Мы его проиллюстри- руем на уже хорошо известной нам задаче об авторулевом. Авторуле- вой осуществляет обратную связь в системе управления курсом кораб- ля. Цель управления состоит в поддержании заданного курса, т. е. отклонение ф от курса должно быть по возможности равным нулю. Но поскольку это, как правило, невозможно, то отклонение от курса должно быть минимальным. Формализация этого требования приводит к задаче минимизации некоторого функционала. Если обратная связь реализуется в виде ф=аф+Ьф, то задача оп- тимизации управления, как мы видели в § 1 этой главы, сводится к нахождению минимума функции /(а, Ь) (см. (1.5)) двух переменных. Такая задача, конечно, может быть решена вполне успешно. Вопрос заключается в другом: почему это мы взяли закон управления в виде ф=аф+Ьф и оптимизируем лишь по параметрам а и Ь? А может быть, закон управления имеет более общий вид, например, ф=аф+^ф+сф+ t +d ф(т)с!т, или же ф=ф(ф, ф), где ф(ф, ф) — некоторая нелинейная о функция? И вот с таких новых позиций произошел некоторый пере- смотр основных понятий и представлений теории управления. При этом оказалось, что кое-что и раньше делалось правильно, и лучше сделать нельзя, а кое-что можно сделать лучше, используя теорию оптими- зации. В простейшем виде задача оптимизации формулируется следующим образом: имеется некоторая функция Q(xlt х2, . . ., хп), определенная
§ 3. ОПТИМИЗАЦИЯ ФУНКЦИЙ И ДИНАМИЧЕСКИХ ПРОЦЕССОВ 397 на множестве X, требуется найти в этом множестве такую точку, в ко- торой функция Q(x) имеет минимальное значение. Это — так назы- ваемая задача математического программирования. Задача эта не но- вая. Задача о нахождении минимума и максимума функции была из- вестна давно, и решать ее умели. В частности, если функция Q(xi, х2,. . ., хл) задана во всем пространстве и дифференцируема, то точка экстремума находится из условия dQ (х±, х^ ..., хп) = 0, ; = Это и считалось решением задачи. Это действительно можно в некотором смысле считать решением, поскольку новая задача, задача оптимиза- ции функции, сведена к старой, известной задаче — задаче решения системы уравнений. С другой стороны, ясно, что решить систему урав- нений в общем случае непросто. По существу, известен только один случай, когда она легко решается. Это когда функция Q(x) является квадратичной: Q(x) = (Ax, x)+(b, х)+с. Тогда система уравнений (3.1) будет линейной и может быть решена. В дальнейшем возникли задачи, где уже множество X, на котором определена минимизируемая функция Q(x), не совпадало со всем про- странством. Это в первую очередь задачи линейного программиро- вания: функция Q(x)=(b, х)+с, т. е. линейная, а множество X за- дается системой линейных неравенств. В чем особенность этой задачи? Совокупность линейных неравенств определяет в пространстве некий выпуклый многогранник. Поверхность уровня функции Q(x), задавае- мая уравнением (b, x)+c=const, представляет собой гиперплоскость с нормальным вектором Ь. Увеличению значения функции Q(x) соот- ветствует перемещение гиперплоскости в направлении вектора Ь; уменьшению значения Q(x) соответствует перемещение гиперплоскости в направлении, противоположном Ь. Таким образом, поиск точки ми- нимума (или максимума) линейной функции Q (х) геометрически озна- чает поиск самой крайней точки выпуклого многогранника X в опре- деленном направлении. Для решения этой задачи разработаны методы, совокупность которых образует теорию линейного программирования. Затем была решена задача квадратичного программирования, когда функция Q(x)— квадратичная, а множество X задается линейными неравенствами. Здесь уже экстремум функции может быть как внутри многогранника X (и тогда можно пользоваться условиями (3.1)), так и на границе. В последнем случае задачу можно решать методом мно- жителей Лагранжа: задача нахождения условного экстремума, т. е. экстремума функции Q(x) при условии равенства типа g(x)=0, может быть сведена к задаче безусловного экстремума функции вида Q(x)+ -J-Xg’(x), где X — так называемый множитель Лагранжа. Анализ тех ус- ловий, которые позволили успешно решать задачи линейного и квадра- тичного программирования, привел к следующему этапу в развитии теории математического программирования, который связан с задачей выпуклого программирования. В этой задаче от множества X требует-
308 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ ся, чтобы оно было выпуклым, т. е. вместе с любыми двумя точками этого множества ему должен принадлежать и весь отрезок, соединяю- щий эти точки. От функции Q(x) также треоуется выполнение условия выпуклости (точнее, выпуклости вниз) Q (рх1 + (1 -Ц) х2) < pQ (х1) + (1 -р) Q (х2) (3.2) для любых точек х1 и х2 множества X и Любого р £ (0, 1). Геометрически условие (3.2) означает, что если мы соединим прямой точки (х1, Q(xJ)) и (х2, Q(x2)), отвечающие значе- ' ниям функции Q(x*) и Q(x2), то график функции на отрезке, соеди- ни няющем точки х1 и х2, должен ле- жать ниже этой прямой. а В решении задачи выпуклого I------------------4 программирования достигнуты су- / щественные успехи, к настоящему / I моменту разработано большое чис- // ло методов ее решения. Самой важ- { ® ной особенностью задачи выпуклого Рис- 6 9 программирования является един- ственность решения, т. е. единст- венность точки х* в множестве X, доставляющей функции Q(x) наи- меньшее значение. Это обеспечивается тем, что всякий локальный ми- нимум выпуклой функции является и общим, т. е. глобальным мини- мумом. Что это значит: локальный минимум? Это значит, что значение функции в точке’^локального минимума меньше, чем в соседних точках множества X. Представим теперь, что в точке х1 функция Q(x) имеет локальный минимум, а в точке х2—глобальный, так что ^(х1)^» >Q(x2). Тогда, если мы соединим прямой точки (х1, Q(xJ)) и (х2, Q(x2)) и, используя условие выпуклости (3.2), нарисуем график функции Q(x) на отрезке [х1, х2Г(рис. 6.9), мы сразу убедимся в том, что точка х1 не является точкой локального минимума. Итак, точка локального минимума оказывается одновременно и точкой глобального миниму- ма! Благодаря именно этому.факту решение задачи выпуклого про- граммирования существенно упрощается. Попробуем понять, как вос- пользоваться этим фактом. Представим себе, что мы находимся в не- которой точке х°, а хотим прийти в точку х* глобального минимума. Как нам поступить, ведь мы не знаем, где расположена точка х*? Делают так: ищут направление из точки х°, в котором функция Q(x) убывает, и переходят по этому направлению в точку х1, так что Q(x!)<Q(x0). В точке х1 опять смотрят, в каком направлении функция Q(x) убывает, и делают в этом направлении шаг в точку х2 и т. д. На- конец, может оказаться такая ситуация: мы пришли в точку х“ и куда ни пойдем — везде значение функции Q(x) больше, чем в точке х”. Это значит, мы пришли в точку локального минимума. Но для выпук- лой функции это будет и глобальный минимум, т. е. мы пришли в точ- ку х*. Так самая элементарная стратегия — поиск пути, на котором
§3. ОПТИМИЗАЦИЯ ФУНКЦИЙ И ДИНАМИЧЕСКИХ ПРОЦЕССОВ 3QQ уменьшается значение функции Q(x), приводит нас к решению задачи выпуклого программирования. Отметим, что если функция Q(x) имеет в X несколько локальных минимумов, то такая стратегия поведения не позволяет уже найти глобальный минимум: мы можем «застрять» в окрестности первого попавшегося нам на пути локального минимума. Что касается поиска направления, в котором убывает функция Q(x), то эта задача решается по-разному. Если можно вычислить гра- диент функцииJQ(х), то можно организовать поиск точки минимума следующим образом: х’сх5*1—hs gradJQ (х5”1), (3.3) где положительный коэффициент hs регулирует величину шага в на- правлении антиградиента — gradQ(x's-1), т. е. в направлении наи- большего убывания функции. Однако не всегда имеется возможность вычисления градиента функции. Кроме того, как оказалось, не всегда такой путь является наилуч- шим, так как направление наибольшего убывания функции может сильно отличаться от направления к точке минимума. Поэтому раз- работана масса других процедур поиска точки минимума, включая процедуры, которые получили название алгоритмов случайного поис- ка. В основе этих алгоритмов лежит задание направления дальнейшего движения из какой-то точки х5 случайным образом, т. е. с помощью некоего генератора случайных направлений. Делается запрос гене- ратору, он нам выдает случайный вектор £, и мы делаем шаг в этом направлении: xs+1=xs+hsi,. Если Q(X's+1)<Q(xJ), то мы перехо- дим в точку xi+1 и снова делаем запрос генератору. Если Q(xs+1)> >Q(x's), то мы остаемся в точке Xs и делаем новый запрос генератору. А можно и усовершенствовать процедуру, чтобы ни один запрос гене- ратору не пропадал даром. Для этого в случае Q(x*+1)>Q(x*) делаем шаг в направлении, противоположном вектору |, тогда значение функ- ции Q(x) уменьшится (конечно, при достаточно малом «шаге» hs). Число всевозможных алгоритмов поиска минимума функции к на- стоящему моменту уже весьма велико, и описать их все, хотя бы и кратко, не представляется возможным. Часть этих алгоритмов ис- пользует в максимальной мере априорную информацию о том классе функций, к которому принадлежит функция Q(x). Примером такого алгоритма является минимаксный алгоритм Кифера для унимодаль- ной функции одной переменной, описанный в § 8 гл. 4. Имеются также алгоритмы, рассчитанные на противоположный, можно сказать, слу- чай, когда о функции ничего не известно заранее, а мы можем лишь уметь подсчитать значение функции в любой наперед заданной точке. Примером такого алгоритма может служить алгоритм поисковой опти- мизации со стохастической адаптивной моделью функции Q(x), кото- рой описан в § 9 гл. 4. В задачах оптимизации поведения динамических систем также име- ется особенность, которая позволила успешно их решить. Представим
310 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ себе, что функция Q(x) имеет такой вид: п Q -^2, • • •> Хп) = 2 Qlfai)’ i = 1 (3.4) причем X; может означать как отдельную (скалярную) компоненту век- тора х, так и группу компонент. Такую функцию называют сепара- бельной: переменные разделяются на группы и функция представляется как сумма функций от этих групп переменных. Нетрудно видеть, что в том случае, когда на переменные xt не наложено никаких ограниче- ний (или же каждое ограничение касается лишь переменных одной группы), задача минимизации функции Q(x) сводится к более простым задачам минимизации функций min Q (х) = 2 min Q(-(х;). (3.5) X 1=1 X- Если же имеются ограничения, которые делают невозможным неза- висимое изменение переменных из разных групп, то задача услож- няется и для ее успешного решения нужно использовать и другие осо- Рис. 6.10 бенности задачи. Сейчас мы перейдем к изучению особенностей, присущих зада- че оптимизации поведения динамиче- ских управляемых систем. Структурная схема динамической управляемой систе- мы, поведение которой мы будем изу- чать, представлена на рис. 6.10. Мы ви- дим, что на вход объекта управления ОУ, кроме управляющего воздействия и, поступает и случайная помеха g. По- скольку объект управления — динамиче- ская система, состояние его в каждый последующий момент времени есть не- которая однозначная функция от состо- яния х управления и и случайной по- мехи Ъ, в предыдущий момент времени, т. е. х = /(х, и, £). (3.6) Для простоты мы предполагаем, что измеритель состояния объекта идеален, поэтому на вход системы управления СУ поступает само со- стояние объекта х. Система управления обладает памятью, где хра- нится информация о поведении объекта управления на предыдущем ин- тервале времени. Проанализировав эту информацию, система управ- ления должна выработать управление u(Z) в соответствии с заданной целью управления. Цель управления заключается в минимизации не- которого функционала, оценивающего качество поведения объекта управления.
§3. ОПТИМИЗАЦИЯ ФУНКЦИЙ И ДИНАМИЧЕСКИХ ПРОЦЕССОВ 311 От чего зависит этот функционал? Если мы хотим оценить поведение объекта на промежутке щ, fj, то значение функционала зависит в об- щем случае от траектории х(т), от управления и(т) и от случайного воздействия |(т), заданных на отрезке т. е. Q=Q[x(t), u(t), £(т); tОднако заранее реализацию случайного воздей- ствия £(т), мы знать не можем и выбирать эту реализацию также не в наших силах. А от реализации £(т) зависит значение функ- ционала Q. В такой ситуации решить задачу минимизации функцио- нала Q нам не удастся, поскольку мы не знаем его значений до тех пор, пока не будет известна реализация случайного воздействия £(т), А управлять-то надо в каждый момент времени т, не дожи- даясь окончания процесса! Поэтому мы заменяем функционал Q его математическим ожиданием Z[x(t), u(t); = = MgQ[x(T), u(t), £(т); (3.7) Теперь система управления объектом должна в каждый момент времени t выбирать управление u(t) из условия минимизации функ- ционала /[х(т), и(т); Спрашивается, а какая информация для этого необходима? Ответ на этот вопрос дает принцип динамического программирования Р.|Беллмана. Принцип этот состоит в следующем: для того чтобы поведение х (т) динамической системы было оптимальным на всем промежутке [£0, /J, необходимо и достаточно, чтобы это поведе- ние х(т) было оптимальным на каждом отрезке [/, /J Утверж- дение это кажется на первый взгляд совершенно очевидным. Действи- тельно, если 'некоторое окончаниеЪроцесса х(т), не является оптимальным, а оптимальным является поведение х°(т), то тогда и все поведение х(т), не может быть оптимальным, поскольку его можно улучшить, заменив окончание х(т), окончанием х°(т), Однако в этом рассуждении есть некое предположение, которое мы пока никак не формализовали: нужно, чтобы оценка качества управления объектом на отрезке [t, не за- висела от поведения объекта на начальном интервале времени [/0, t), а определялась полностью лишь значениями управления и(т) и траек- торией системы х(т) на отрезке [£, /J. Это будет, например, иметь ме- сто, если функционал 7[х(т), и(т); обладает свойством адди- тивности 7[х(т), и(т); /0<т</1] = = /[х (т), и (т); t0 <Ст /] +1 [х (т), и(т); (3.8) Мы сейчас рассмотрим задачу оптимизации поведения автономной динамической системы, т. е. будем предполагать, что случайных воз- действий нет, все воздействия являются управляющими воздействиями. Для простоты, будем записывать изменение состояния объекта в дис- кретные моменты времени. Тогда состояние объекта в следующий такт времени х*+1 есть некоторая функция состояния Xs в предшест-
312 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ вующий такт и управляющего воздействия и5 в предшествующий такт: xs+1 — f(xs, us), s = 0, N. (3.9) Как правило, функционирование любой системы управления свя- зано с некими затратами (расход топлива, электроэнергии и т. д.). Поэтому имеется функция, значением которой мы оцениваем качество функционирования системы. Цель управления состоит в требовании минимизации этой оценочной функции. Если речь идет о минимизации затрат на управление объектом, то общие затраты, как правило, складываются из затрат q(xs, и5) на каждом такте функционирования системы. В этом случае целевая функция является аддитивной: N Q (х°, и0; х1, и1; ...; xN, u-v) = X q(.xs, u5). (3.10) s=0 При решении задачи минимизации функции (3.10) надо иметь в виду, что только состояние объекта х° не зависит от выбора управляющего воздействия и0, и1, . . . , ил', а любое другое состояние Xs уже будет зависеть, в силу уравнений (3.9), от начального состояния х° и от вы- бора управлений и0, и1, . . . , и4-1. Действительно, x1 = f(x°, u°), xi = f(x1, u1) = f(f(x°t u°), u1) и t. д. С учетом этого функция цели (3.10) будет представлять собой достаточно сложную функцию Q(x°, u°, u1, . . . , начального состояния объекта х° и управления и0, и1, . . . , uiV на всем рассматри- ваемом промежутке времени. Задача минимизации этой функции по управляющим переменным и0, и1, . . . , является, вообще говоря, задачей математического программирования. Может быть, тогда и ре- шать ее нужно именно как задачу математического программиро- вания? Оказывается, такой подход к этой задаче ничего нам не дает. Дело в том, что число переменных, по которым нам нужно оптимизировать, чрезвычайно велико. Их даже не десятки или сотни, их может быть несколько тысяч и десятков тысяч! Представим себе, например, за- дачу о расчете оптимального управления движением ракеты, выводя- щей спутник Луны. Ракета летит достаточно долго. Считать нам нужно довольно точно, а для этого весь интервал времени полета надо раз- бить на маленькие интервальчики, допустим, по десятой доле секунды. Ясно, что число этих интервальчиков будет огромным, и столько же нам нужно будет задать управляющих воздействий и0, и1, . . . , u'v. При таком огромном количестве переменных реальный путь решения задачи оптимизации состоит в полном учете специфики задачи, специ- фики функции цели. Такой учет позволяет нам произвести принцип динамического программирования. Применим этот принцип к мини- мизации функции (3.10), т. е. к оптимизации управления объектом (3.9). Если предположить, что задача минимизации ’функции?цели (3.10) по управлению и0, и1, . . . . ил' уже решена, тоД’учетом выше-
§3. ОПТИМИЗАЦИЯ ФУНКЦИЙ И ДИНАМИЧЕСКИХ ПРОЦЕССОВ 313 сказанного минимум этой функции будет зависеть лишь от начального СОСТОЯНИЯ X0'. Vv+1(x°) = min ! J q(xs, u‘)L (3.11) u°, u1, ...» * s — 0 J Теперь предположим, что объект (3.9) первый шаг из х° в х1 уже со- вершил, и нам нужно, исходя из состояния х1, найти оптимальное управление и1, и2, . . . , 1^ объектом (3.9) на оставшихся N тактах. Тогда минимальные затраты на этом отрезке времени будут уже функ- цией состояния х1: ^jv(xl)= min I q (х\ 1Г) ] . (3.12) u1..uJvb=1 I Аналогично, минимальные затраты на последних (N—k) тактах функ- ционирования объекта (3.9) будут являться функцией исходного со- стояния объекта xfc+1: ( Л' 1 Удг-й (х*+1)= min < S q(xs, u*)[. (3.13) ц£+1. , „Л' ( s=k + 1 J В частности, на последнем такте будем иметь У1(хЛ,)= min</(xiV, и"). (3.14) UN Что же утверждает принцип динамического программирования? Он утверждает, что, для того чтобы (А+1)-шаговый процесс (3.9) с начальным состоянием х" был оптимален, необходимо, чтобы (V-шаго- вый процесс с начальным состоянием x1=f(x°, u°) был оптимален. Это означает, что оптимальный (Л(+1)-шаговый процесс надо искать лишь среди таких процессов, для которых общие затраты подсчиты- ваются как сумма затрат q(x°, u°) на первом шаге и минимальных за- трат VN(f(x°, и0)) на оставшихся N шагах. Тогда минимальные за- траты V\v+1 (х°) будут найдены 'следующим образом: VAf+1(x0) = min{<7(x0, u0) + Vv(/(x0, и0))}. (3.15) и» С помощью аналогичных рассуждений мы приходим к рекуррентным соотношениям Kv(xl) = min{<7(x1, u1)+V'A,_1(/(x1, и1))}, 111 Ул,_й(х*+1)= пип^ {g(x*+1, и*+1) + ^_А_! (/(xft+1, u*+1))}, 16) У2(хл'-1) = тш {q^-1, ti^ + VJHx"-1, u"-1))}, цЛ'-1 с помощью которых можно, определив из (3.14) функцию Vi(x2V),
314 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ последовательно находить функции У2, V3, . . . , VN+1, задающие минимальные затраты для двух-, трех-, . . . , (А-Н)-шагового про- цесса. Нахождение каждой следующей функции по предыдущей тре- бует, как мы видим, выполнения операции минимизации некоторого выражения лишь по одной из переменных и0, и1, . . . , uw. Таким образом, одна сложная задача минимизации функции (А/+1) вектор- ных переменных и0, и1, .... нами сведена с помощью принципа динамического программирования к последовательности из (А+1) задач, в каждой из которых минимизация производится лишь по од- ной из этих векторных переменных! Теперь еще раз внимательно посмотрим, что же мы делаем, когда ищем минимальные затраты для одношагового, двухшагового, ..., (N +1)-шагового процесса? Для одношагового процесса мы не только находим функцию (xN) минимальных затрат в зависимости от со- стояния хлг, но и то оптимальное управление, при котором достига- ются эти минимальные затраты. Чем же определяется это оптималь- ное управление? Оно определяется полностью, как это видно из со- отношения (3.14), состоянием объекта xN, т.е. u'v = gv(xjV). Анало- гично, при нахождении минимальных затрат VN_k (x*+1) на (А—k)- шаговом процессе мы одновременно находим оптимальное управление ufe+1 как функцию исходного состояния xft+1: ufe+1 = gk+1 (xfe+1). Значит, для определения оптимального управления совершенно не нужно знать, каким было состояние объекта в предыдущие моменты времени! Нам нужно знать лишь состояние объекта в настоящий момент, т. е. в тот самый момент, когда мы должны выбрать управляющее воз- действие. Итак, для управления объектом (3.9) системе управления, реализующей обратную связь, память не нужна, поскольку для фор- мирования управления в соответствии с оптимальной стратегией управления u,s = gi(x's), s = 0, 1, ..., N, в каждый такт нужно знать лишь текущее состояние объекта. Почему же так получилось? Если посмотреть на это формально, с математической точки зрения, то мы должны сказать, что этот факт следует из того, что если объект (3.9) начинает функционирование с состояния Xs, то все его последующие состояния можно выразить через Xs. Неформально же этот факт является следствием того, что состояние динамической системы есть полное описание ее, полностью определяющее ее функционирование! Именно потому, что последую- щее состояние системы определяется предыдущим, для задания стра- тегии управления ничего, кроме состояния, не требуется. До тех пор, пока теория управления не доросла до современного этапа, когда хотят не просто управлять, а управлять наилучшим образом, концепция состояния в теории управления^была не очень важна. Концепция состояния была важной в теории колебаний, в тео- рии динамических систем, но не в теории управления. Но как только оптимизация проникла в эту теорию, стало ясно, что состояние систе- мы — это именно то описание, которое необходимо для формирования оптимального управления.
§4. ПРОГРАММНОЕ И ОПЕРАТИВНОЕ УПРАВЛЕНИЕ 315 § 4. Программное и оперативное управление С понятиями программного и оперативного управления мы уже встречались, когда изучали минимаксную стратегию Кифера поиска минимума унимодальной функции (§8 гл. 4). Поясним еще раз их суть на задаче оптимального управления дискретным объектом (3.9), рассмотренной в предыдущем параграфе. Рис. 6.1 1 Задать программное управление означает, что нужно заранее спланировать всю программу действий по управлению объектом: на первом шаге выбирается управление и0, на втором и1 и т. д. И как бы процесс ни шел, управление уже не меняется, т. е. имеется график, согласно которому должны быть выданы объекту зара- нее спланированные, заданные управляющие воз- действия и0, и1, . . . , uv. Поэтому программ- ное управление называют еще календарным планированием. При оперативном управлении конкретные значения управления на каждом шаге заранее неизвестны. Имеется только некий закон или правило, согласно которому мы можем найти это управление. Но для того чтобы это сделать, требуется сначала проанализировать ту ситуацию, кото- рая имеется к настоящему моменту (текущее состояние объекта, число оставшихся шагов). Теперь давайте спросим себя, а к какому типу относится опти- мальное управление us = gs (xs), s = 0, А, объектом (3.9), найденное нами с помощью принципа динамического программирования? Будет ли это стратегия управления типа календарного планирования или это стратегия управления типа оперативного управления? С первого взгляда кажется, что это—оперативное управление. Действительно, заранее управляющие воздействия и0, и1, ..., неизвестны. Для того чтобы определить управляющее воздействие, например, на пос- леднем шаге, нужно дождаться, когда объект придет в момент вре- мени s = N в какое-то конкретное состояние xN. Лишь после этого можно подсчитать управляющее воздействие uiV = g’JV (хл), используя результат решения задачи (3.14) оптимизации одношагового процесса. Аналогично, управление и5 в момент времени s может быть найдено лишь тогда, когда реализуется вполне определенное текущее состояние х*: us = gs(xs). Оперативному ]управлению соответствует система управления с замкнутым контуром управления: выход Xs объекта управления ОУ в момент времени з посылается в систему управления СУ, которая в со- ответствии с текущим значением Xs состояния объекта вырабатывает управляющее воздействие U's=gri(xi), посылаемое на вход ОУ (рис. 6.11). Что означает замкнутая система или система с обратной связью? Она означает, что управление объектом осуществляется в каждый момент времени по текущему состоянию объекта, т. е. в соответствии
316 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ с ситуацией, которая к этому моменту создается. А это и есть опера- тивное управление. Итак, мы пришли к выводу, что оптимальное управление объектом (3.9) в соответствии с формулами us=gs(xs) реализуется в системе в виде обратной связи, т. е. является оператив- ным управлением. Однако дело здесь обстоит несколько сложнее, чем нам непосредственно подсказывают формулы ui=grs(x,)1 s=0, N. Ведь, кроме этих формул, есть еще и уравнения поведения объек- та (3.9). Пусть нам известно начальное состояние х° объекта. Тогда правило и° = £0(х°) позволяет нам найти оптимальное значение и0 управляю- щего воздействия на первом шаге: и° = ^0(х“). После этого следующее состояние объекта будет однозначно определено из уравнения дви- жения объекта; х1 = /(х°, и0). Это в свою очередь дает нам возмож- ность определить оптимальное значение и1 управляющего воздействия на втором шаге: u1 = gr1(x1). Рассуждая таким образом и далее, мы приходим теперь к такому выводу: оптимальная стратегия управления tP — gs(x.s), s~0,N, найденная с помощью принципа динамического программирования, позволяет нам при заданном начальном состоя- нии х° объекта последовательно определить оптимальные значения и0, и1, ..., 1# управляющего воздействия на весь период управления объектом (3.9). Эту совокупность значений управляющего воздейст- вия мы можем теперь рассматривать как программное управление, запланированное заранее для объекта (3.9), находящегося в началь- ный момент времени в состоянии х°. Какой структуре системы управления объектом это соответствует? Есть объект управления ОУ, есть система управления СУ, которая подает на вход объекта воздействия tP, s = 0, 1, ..., N, подсчитанные заранее для началь- ного состояния х° объекта. Значит, системе управления нужно иметь априорную информацию относительно состояния х°. Обратная связь уже не нужна. И вместе с тем в этой разомкнутой системе управ- ления (рис. 6.12) реализуется управление, столь же хорошее, как и в системе с обратной связью. v Что же у нас получилось? Выходит, что принцип обратной связи не так уж и важен, если оптимальное управление реализуется так же хорошо и в разомкнутом контуре управления. Рассмотрим вопрос об управлении объектом, находящимся в более сложных условиях, чем это предполагалось в модели, задаваемой уравнениями (3.9). Объект у нас был, можно сказать, изолирован от внешнего мира. Кроме управляющего воздействия, на его поведе- ние больше ничто не влияло. А ведь на самом-то деле это не так, еще какие-то внешние воздействия есть. Если, например, речь идет об управлении кораблем, то кроме управляющих воздействий’(изменение режимов работы судовых двигателей, поворот рулей) имеется масса других, внешних воздействий: ветер, волны, подводные течения
§ 4. ПРОГРАММНОЕ И ОПЕРАТИВНОЕ УПРАВЛЕНИЕ 317 и т. д. Если учесть эти внешние воздействия, то уравнение, описываю- щее изменение состояния объекта, будет выглядеть так: xs^ = f(xs,'us, Is). (4.1) В отношении внешних воздействий | можно делать разные предполо- жения; мы рассмотрим два диаметрально противоположных случая: в первом случае будем считать, что воздей- ствия I1, £2, . . . нам известны, а во втором случае мы будем их считать случайными величинами. В первом случае, как сейчас будет вид- но, мы ничего нового не получим, т. е. опять найдем оптимальное управление как функцию текущего состояния, но тут же обнаружим, что это оптимальное управле- ние можно реализовать и как программ- ное управление, в виде разомкнутой сис- Рис. 6.12 темы управления. Замкнутость управле- ния здесь опять непринципиальна. Действительно, будем опять оце- нивать качество управления аддитивной функцией N Q = 2 <7 (х*, и*) • s =0 Тогда, согласно принципу динамического программирования, затраты VN_S (xs+1) на управление и**1, uf+2, ..., uN объектом (начиная с момента ($4-1) ) будут минимальными лишь в том случае, если будут минимальными затраты Ev_i_1(x5+2) на управление U‘s+2, U's+3, ..., и5' объектом, имеющим фиксированное состояние xs+2 = f(xs+1, u,+1, в момент времени ($4-2). В результате получаем опять рекуррентные соотношения Va_s(xs+1) = = min {<? (xi+1, trs+1) + Kv-s-! (/(x,s+1, U's+1, ^+1))}, (4.2) • .Л + 1 которые позволяют последовательно находить минимальные затраты УДх5) для одношагового процесса и соответствующее оптимальное управление ил = gN (х5) l5*), минимальные затраты 1/2(хЛ'-1) для двух- шагового процесса и соответствующее оптимальное управление иЛ'-1 = = &лт-1 (x2V-1, и т. д. Пользуясь этими формулами us — gs (xs, §f), s = 0,1, ..., N, а также уравнениями движения объекта (4.1), мы можем, так как все V известны, найти последовательно оптимальные значения управляющего воздействия и®, и1, ..., uN для заданного начального состояния х®. Таким образом, мы получили оптимальное программное управление, которое так же хорошо справляется с за- дачей минимизации общих затрат Q, как и оптимальное оперативное управление.
318 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ Теперь посмотрим, что же будет во втором случае, когда вели- чины случайны. Прежде всего, ясно, что задачу оптимизации в прежнем виде оставить нельзя: те минимумы, которые будут дости- гаться функцией Q, теперь зависят от случайных воздействий. Значит, и управление, доставляющее минимум функции Q, тоже должно учитывать эти случайные помехи u,s = g’i (х*, V). Но теперь эти формулы нам ничего не дают, ведь значения нам заранее не- известны. Для каждой реализации I*, s = 0, N, случайных воздейст- вий мы могли бы найти оптимальное управление, но что будет на самом деле, какая будет реализация, мы не знаем. Поэтому задачу надо сформулировать как-то иначе. Итак, на разных реализациях случайных воздействий мы получаем различ- ные значения функции Q. Как теперь пони- мать—что такое наилучшее, оптимальное уп- равление? Можно, например, потребовать, чтобы среднее значение функции Q было рис. 6 1з минимальным. Именно такой критерий качества управле- ния объектом (4.1) мы и примем сейчас. При подсчете математического ожидания функции Qпо различным реализациям случайных воздействий будем для простоты предполагать, что случайные воздействия на каждом такте независимы друг от друга и, кроме того, имеют одну и ту же плотность вероятности р (V). Отметим, что эти предположения не являются принципиальными, определяющими, они взяты нами до- полнительно лишь только для того, чтобы упростить рассмотрение. Итак, нам нужно найти ( N VN+1(x°)~ min М< 2 <7(х'> u') u°, .... \ t = О (4-3) Отметим, что математическое ожидание суммы равно сумме математи- ческих ожиданий, поэтому свойство аддитивности критерия качества управления выполняется и в данной подстановке, и мы можем для решения задачи применить принцип динамического программирова- ния. Следовательно, для того чтобы весь процесс был оптимален, нужно, чтобы он был оптимален на любом своем окончании, т. е. от любого момента s до конца. Если мы рассмотрим процесс с момента времени s при начальном состоянии объекта х5, мы можем аналогично поставить задачу оптимизации затрат ( N 1 Vw+i_s (xs) = min M < 2 q (*' > u') (• (4-4) ... uv U = s ) Учитывая, что начальное состояние Xs нам задано, т. е. не зависит от случайных воздействий, и используя принцип динамического про-
§ 4. ПРОГРАММНОЕ И ОПЕРАТИВНОЕ УПРАВЛЕНИЕ 319 граммирования, получаем / N 1 ^m-s+i(xS)= min Ms<7(xs, us) 4- S <7(xf, u‘)f = Us 1 i=s + l J = min{<7(X's, us) + MV'w_s(xs+1)} = us = min {q (xs, us)+MVw_s(/(xs, us, |s))}. (4.5) us Рекуррентные соотношения (4.5) позволяют, зная математическое ожидание минимальных затрат (xs+1), найти минимальные затраты EJV_i+1(xs) на (А— s-|-1)-шаговый процесс, начинающийся с состояния Xs, а также оптимальное управление как функцию те- кущего состояния: us = g’4(xs). По форме это соответствует такой структуре системы управления: имеется объект управления ОУ, на него действуют случайные воздействия Is, и есть система управле- ния СУ, которая получает от объекта его состояние Xs и в соответ- ствии с определенным выше правилом вырабатывает управляющее воздействие us, которое поступает на объект (рис. 6.13). Система получилась с обратной связью. На предыдущих примерах мы уже убеждались, что обратная связь и не обязательна. Вот и сейчас давайте попробуем оператив- ное управление преобразовать в программное. Раз мы знаем началь- ное состояние х° объекта, мы можем найти оптимальное значение управляющего воздействия на первом шаге: u° = g (х°). Далее ищем состояние объекта после первого шага: х1 = /(х°, и®, |°). Что же мы имеем? Мы теперь не знаем точно состояние объекта х1, поскольку это состояние зависит от того, какое значение примет случайная£величина |®. А значит, мы и не можем заранее подсчитать оптимальное значение управляющего воздействия и1 на втором шаге, поскольку u1=gr1(/(x®, и®, |®)). Аналогичная и даже еще бол^е слож- ная ситуация возникает на последующих шагах, поскольку состояние объекта Xs даже при некотором выбранном управлении и", и1, ... . . . , us-1 на предыдущих шагах будет зависеть от того, какие значе- ния примут случайные величины %®, . , Is-1. Теперь уже замкну- тое управление не представляется возможным заменить разомкнутым. И это связано с тем, что имеются неконтролируемые случайные воз- действия. К какому же выводу мы пришли относительно применимости про- граммного управления и оперативного управления? Если мы решаем такую задачу управления, когда нам заранее точно известно, как ведет себя объект, каковы условия его функционирования, то принцип об- ратной связи, по существу, не важен, и замкнутое управление можно заменить разомкнутым, т. е. программным управлением. Но если в про- цессе функционирования возникают какие-то непредвиденные измене-
320 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ ния, помехи, то замкнутое управление уже незаменимо. Оперативное управление в этом случае заменить календарным планом нельзя. Таков основной вывод нашего рассмотрения. В заключение мы рассмотрим две задачи построения оптимальной стратегии управления для конкретных объектов. Задача 1. Пусть объект управления описывается простым линейным уравнением x,+1 = axs 4- us, (4.6) где Xs и us — скалярные величины. Критерий качества управления таков: N Q = 2 (xs)2 + (us)2. s=0 (4.7) Это означает, что цель управления состоит в том, чтобы состояние Xs приняло значение, как можно более близкое к нулю, и при этом управ- лениями желательно пользоваться как мож- но меньшими по абсолютной величине. Прежде чем начать решение этой задачи оптимизации, посмотрим, что же представляет из себя наш объект. Если убрать управление, то поведе- ние объекта будет описываться с помощью отображения прямой в прямую х — ах, (4.6) где х—предшествующее состояние, а х— последующее состояние. Характер отображе- ния иллюстрируется диаграммой последова- ния, приведенной на рис. 6.14. При 0 < а < 1 последующие значения х уменьшаются, так что Xs —► 0 при $ —► оо. Поэтому при 0 < а < 1 объект устойчив сам по себе и без управляющего воздействия при- ходит в состояние равновесия л*=х = 0. Если же а> 1, то состоя- ние равновесия, напротив, неустойчиво и Xs неограниченно растет при з—> оо. Итак, при 0<а<1 Xs-->0 как член геометрической прогрессии xs = {a)sx<>, поэтому величина Q будет, может быть, и не минимальная, но, во всяком случае, конечная. А вот при а > 1 значение функции цели Сбудет неограниченно возрастать при N —> оо. Это очень похоже на лодку, которая может быть устойчивой на курсе или неустойчивой. Теперь вернемся к задаче управления: нам нужно найти управ- ление и0, и1, ..., uN из условия минимизации функции Q. Для ре- шения этой задачи воспользуемся принципом динамического про- граммирования, который здесь, конечно, применим: ведь функция цели имеет сепарабельный вид. Начнем с отыскания функции У; (xN) минимальных затрат при олношаговом пооцессе, начинающемся из
§ 4. ПРОГРАММНОЕ И ОПЕРАТИВНОЕ УПРАВЛЕНИЕ 321 состояния xN: V2 (xN) = min {(x*)2 + (uN)2} = (xN)2. (4.9) Из решения задачи оптимизации (4.9) имеем также, что uN = gN(xN)~ = 0. Теперь перейдем к оптимизации двухшагового процесса: V2 (х,х~1) = min {(х4 -1)2 + (u"-1)2 + V, (axN-r + и"-1)} = = min {(хл'-1)24-(ил'_1)2 + (ахл'_1 + ил’-1)2}. (4.10) UN~1 Вычисляя производную по uw-1 от функции, стоящей в фигурных скобках, находим значение оптимального управления uN~1= —Sn-i(xN~1)=—а затем и функцию минимальных затрат при двухшаговом процессе: V2 (xw-1) = -ф ^x'v-1j2. Сейчас естественно предположить, что функция минимальных затрат на s-шаговый процесс имеет вид удх"-'5"1») = Л,(хЛ,-(!-1’)2. Действительно, предположив это для s-шагового процесса, мы сейчас докажем справедливость этой формулы и для (5-|-1)-шагового про- цесса: VS+1 (x"-s) = min {(xyv-s)2 + (uN~s)2 + Vs (axN~s + uN~s)\ = uN-s = min {(x"-s)2 + (uw-s)2 + (axN~s 4-uw-s)2}- Приравнивая нулю производную от функции, стоящей в фигурных скобках, получаем 2uv-s + 2 A s(a • xv-s + uN~s) = 0. Таким образом, оптимальное управление на (N—s)-m шаге опреде- ляется так: uN~s=gN-s(xN-s) =-q^-X's. а сами минимальные затраты будут подсчитываться по формуле ^+1 (xN-s) = (1 + (xw-)2 = Ai+1 (x"-s)2, (4.11) где введено обозначение Л5+1 = 1 4- / . Тем самым мы доказали методом математической индукции, что для любого s=0, 1, . . . , N оптимальное управление и минимальные затраты определяются по формулам цЛ._5 = _ аА, (x.v_s) = (xV_S)2> (4 12) 1 Г
322 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ где коэффициенты Д5 подсчитываются по рекуррентным соотношениям До=1, 4+1=l+j^? s = 0, 1', (4.13) Задача полностью решена, найдено оптимальное управление и минимальные потери Удг+1 = Длг+i (х°)2- Отметим, что, хотя здесь решение и найдено в форме оперативного управления, его можно пересчитать и представить в форме программного управления и°, и1,... ..., ~uN. Особенно легко и просто осуществить такой переход для этой задачи, если рассмотреть бесконечношаговый процесс, т. е. в предположении, что N бесконечно велико. Из выражения 1^+! = =ДЛг+1(х0)2 для минимальных потерь на (N + 1)-шаговом процессе ясно, что если lira ДЛг+1 = С, то формула У„ = С(х0)2 будет опреде- лять минимальные затраты на бесконечношаговом процессе. Спрашивается, а есть ли предел числовой последовательности {Д v} и чему он равен? Ответ на этот вопрос можно получить, если исследовать точечное отображение 4»«=1+ira- <4-и> Построим график функцйи, стоящей в правой части соотношения (4.14), и будем его рассматривать как график функции последования (рис. 6.15). Мы видим, что график функции имеет горизонтальную асимптоту, а поэтому имеет точку пересечения с биссектрисой первого координатного угла. Значение абсциссы точки пересечения мы можем найти из уравнения п2Л* л* = 1+прг*- (4-15) Чайдя значение А*, мы можем теперь записать формулу для нахож- дения оптимального управления на s-м шаге так: г^х' = -0х’- (4.16)
§4. ПРОГРАММНОЕ И ОПЕРАТИВНОЕ УПРАВЛЕНИЕ 323 Оптимальная стратегия управления при бесконечном числе шагов не зависит от номера шага. Теперь посмотрим, как же будет меняться состояние Xs: X's+1 = axs—Qxs — (а—0) xs. Отсюда легко получить, что Xs=(а—0)sx°, a us=—Qxs——в (а—0)sx°. Мы видим, что в этом частном случае оперативное управление очень легко может быть преобразовано в программное управление: все значения управляющего воздействия могут быть заранее подсчитаны^ если известно начальное состояние объекта х°. Характер поведения объекта (4.6) при управлении (4.16) показан на диаграмме последо- вания (рис. 6.16). Управление сводится к тому, что в функции после- дования х=ах вместо коэффициента а стоит коэффициент (а—0), Можно проверить и убедиться, что коэффициент (а—0) меньше еди- ницы и в том случае, если а>1. Поэтому последовательные значения состояния Xs стремятся к нулю при $->оо. Задача 2. Рассмотрим теперь вопрос об оптимизации управ- ления тем же объектом, что и в задаче 1, но в условиях воздействия случайных помех на каждом такте s его функционирования: X's+1 = ax's + «\+£'s, s = 0, N. (4.17j Поскольку состояния объекта Xs (начиная уже с первого такта s= 1), а вместе с ними и значения функции цели (4.7) будут теперь случай- ными величинами, качество управления объектом (4.17) естественно оценивать математическим ожиданием функции (4.7): Г N А I = М < 2 [(х*)2 + («О2] (• (4.18) (s =0 J Для последовательного нахождения минимальных затрат V\ (xN), V2(xn~1), ..., К/у+1(х°) на управление одношаговым процессом (4.17) с начальным состоянием xN' двухшаговым процессом с. начальным состоянием xN~1, ..., (N + 1)-шагоцым процессом с начальным сос- тоянием х» можно применить принцип динамического программиро- вания, который приводит к рекуррентным соотношениям V;v_s+1 (х‘) = min {(х*)2 + (us)2 + М [Vw_s (axs + us + ^)]}. (4.19) us При решении уравнений (4.19) удобно предположить, что случай^- ные величины независимы на каждом такте $ и обладают одина- ковыми характеристиками. Мы будем считать, что М[^]=0 и M[(£*)2] = d2. Начав решение задачи с оптимизации одношагового процесса: (*2V) = m'n {(xw)2 + (uN)2} = (xN)2,
324 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ будем иметь далее, согласно рекуррентным соотношениям (4.19), Ч(хл'~1) = min {(xN-1)2 + (uN~1)2 + ^[(axN Ч-и^Ч-^"1)2]} = = min {(xN~1)2 + (uN-1)2 + (axN-1 + uN-1y + 2(axN-1+uN~1)IA[lN-1]+ U.N~l + М[(^"1)2]} = min {(x"-1)2 + («""1)2 + (axA’“1 + “JV~1)2 + d2}- Л’1 Оптимизация по параметру и"-1 квадратичной функции, стоящей в фигурных скобках, приводит к результату и""1 = — у xN-\ Ч (х'4'-1) = (1 + (хл'-!)2 + d2. Применяя метод математической индукции, предположим, что минимальные затраты на управление для s-шагового процесса най- дены в виде Ч (хЛ'-5Ч = (xA,_'s+1)2 + Bi, и покажем, что мини- мальные затраты на управление для ($+1)-шагового процесса можно представить в виде Ч+1 (х"Ч = Л.+1 (xN~s)2 + Bs+1. (4.20) Действительно, из рекуррентных соотношений (4.19) следует, что V,+1(^-1)= min {(x"-s)2 + K“s)2 + + Мр1$ (axA,-s-|-uA,_s-|-^;v_s)2-|-BJ} = min {(x2v-s)2 + (uA,-s)2-|- uN-s + As (axN~s + uN~s)2 + Asd2 + 5,}, откуда легко находим оптимальное значение управления на так- те (N—s): ZZA-S = _^_XA-S /421) * “Г ^*5 и соответствующее значение минимальных затрат для (s-{-^-шаго- вого процесса в виде (4.20), причем коэффициенты Л,+1 и Bs+1 вы- ражаются через и Bs следующим образом: л2 А ^+1=1 + Ч^> В,+1 = А^2 + В5. (4.22) Итак, мы получили соотношения (4.20) и (4.21), которые вместе с рекуррентными формулами (4.22) выражают результат оптимизации одношагового (s=0), двухшагового (s=l), . . . , (М-Н)-шагового процесса ($=М). Начальные значения коэффициентов До=0, Во=О (а также Ai=l, Bi=0) определяются решением задачи оптимизации одношагового процесса «^=0, Ч(хЛ') = (х^)2. Мы видим, что оптимальное управление объектом (4.7) найдено нами в форме оперативного управления, а именно в виде соотношений us=gs(xs), которые позволяют подсчитать управляющее воздействие и3 в такт времени $, зная состояние объекта Xs в этот такт $. Интересно
§ 4. ПРОГРАММНОЕ И ОПЕРАТИВНОЕ УПРАВЛЕНИЕ 325 отметить, что это оперативное управление объектом (4.17) полностью совпадает с оперативным управлением объектом (4.6) в задаче 1. В частности, при бесконечном числе тактов функционирования систе- мы (4.17) оптимальная обратная связь в этой системе примет тот же стационарный вид (4.16), что и в системе (4.6). Но в задаче 1 мы по- казали, что если известно начальное состояние объекта, то от за- дания управления в виде обратной связи мы можем перейти к заданию оптимального программного (разомкнутого) управления; для случая бесконечношагового процесса это программное управление может быть задано в явном виде: us=—0(а—0)5х°. Возникает вопрос: а можем ли мы, как и в задаче 1, обеспечить оптимальное поведение объекта (4.17) не только с помощью замкну- того управления в виде (4.21) (или (4.16) для бесконечношагового процесса), но и в помощью программного управления? Попытаемся, используя заданное оперативное управление объектом (4.17), вычис- лить последовательно значения управляющего воздействия us в каж- дый такт з, т. е. построить программное управление. Пусть нам из- вестно начальное состояние х° объекта (4.17). Тогда значение мы можем подсчитать: для (А+1)-шагового процесса м° = — а для бесконечношагового процесса «*’=—0х°. Значение и1 опти- мального управления на втором такте определяется состоянием х1 объекта после первого такта: и* =— для (.М+1)-шагового процесса и «1=—0Х1 для бесконечношагового процесса. Для нахож- дения же состояния х1 мы имеем лишь уравнение движения объекта (4.17), а именно, х^ах’ + ы’-Н0- . (4.23) Из соотношения (4.23) видно, что для определения состояния х1 мы должны знать не только начальное состояние х° и значение управле- ния (их мы знаем), но и значение случайной величины £°. А этого значения мы заранее знать не можем! Мы можем лишь, например, подсчитать математическое ожидание состояния х: М [хЧ=М [ах°+ +u0+£0J=ax0+«0. Аналогично обстоит дело и с нахождением значе- ний оптимального управления объектом (4.17) на следующих тактах: для вычисления значения и2 надо знать состояние объекта х2 после второго такта, а это возможно лишь в том случае, если нам заранее известны значения двух случайных величин £° и g1, так как х2 = ах1 + и1 + g1 = а (ах° + + £°) + u1 + В1. Итак, «запрограммировать» заранее значения оптимального уп- равления в системе (4.17) в принципе оказывается невозможным. Мож- но лишь подсчитать математические ожидания этих значений, ис- пользуя математические ожидания состояний объекта Xs. Такое про- граммное управление будет совпадать с оптимальным управлением системой (4.17) лишь в том случае, если заранее известно, что все случайные величины примут свои средние значения, т. е.
326 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ =М [^1=0. Но это уже будет означать, что величины не являются случайными. На этом примере мы убеждаемся в том, что принцип обратной связи незаменим в тех системах управления, где мы не можем хорошо, с достаточной степенью достоверности прогнозировать те случайные процессы, которые оказывают воздействие на поведение этих систем. § 5. Оптимальное управление линейным динамическим объектом по квадратичному критерию качества Рассмотрим задачу оптимального управления динамическим объ- ектом в более общей постановке, когда у объекта, подверженного действию случайных возмущений, нельзя непосредственно измерить состояние, а можно лишь получить косвенные сведения о нем с по- мощью некоторой измерительной системы, которая также подвержена действию случайных возмущений, приводящих к ошибкам измерения. Из ранее рассмотренных задач нам известно, что оптимально управ- лять объектом, на который действуют случайные возмущения, можно лишь^оперативно, используя для выработки управляющего воздейст- вия как априорную, так и текущую информацию, которую предостав- ляет измерительная система. Общая структурная схема такой системы управления представлена на рис. 6.17. Она включает в себя три круп- ных блока: объект управления, измерительную систему и управляю- щую систему. На объект управления действуют управляющие воздейст- вия и и случайные возмущения |. Выходом является его состояние х. Измерительная система выдает у Рис. 6.17 - результаты измерения, связанные с состоянием объекта некоторым соотношением вида y=gr(x, ц), где q — случайные шумы, ведущие к ошибкам измерения. Управляющая система в соответствии с некоторой стратегией вырабатывает по дан- ным измерениям у управляющее воздействие и. Задача состоит в том, чтобы найти стратегию управле- ния, оптимизирующую некоторый функционал потерь. Пусть управление объектом начинается с некоторого началь- ного момента времени /=0, и для нахождения управляющего воздейст- вия в каждый последующий момент времени t можно использовать всю имеющуюся к этому моменту времени информацию. Будем считать, что в качестве априорной информации нам известны математические модели объекта, измерительной системы и' функционала потерь, состояние х=х0 объекта в начальный момент времени /=0 или его статистическое описание, а также статистическое описание внешних возмущений £ и т]. Текущая информация, которой мы располагаем
§ 5. ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ ЛИНЕЙНОЙ СИСТЕМОЙ 327 к моменту времени t, состоит из результатов измерений у (т) и значений управляющих воздействий и(т) (0^т^7). Нужно, исполь- зуя эту информацию, найти оптимальное оперативное управление объектом. В частности, когда у=х, т. е. измерительная система опре- деляет непосредственно состояние объекта, получаем ранее рассмот- ренную задачу. В такой общей постановке эта задача очень сложна, и получение ее решения в сколько-нибудь обозримом виде пока не представляется возможным. Однако при некоторых ограничивающих предположениях она допускает получение сравнительно прозрачною решения. Эти предположения состоят в линейности объекта как динамической системы, линейности зависимости ее состояния от и, линейности связи между состоянием х объекта и результатом измерения у, в аддитивно- сти вхождения случайных возмущений £ и т), в том, что 2, и ц являются некоррелированными гауссовыми белыми шумами, х0 имеет нормаль- ное распределение и не коррелировано с £ и i), а также в аддитивности функционала потерь и квадрэтичности его по х и и. Кроме того, пред- полагается, что объект управляем, а система наблюдаема в том смыс- ле, как об этом говорилось ранее. В дискретном описании эти пред- положения приводят к следующей математической модели объекта и измерительной системы: xs+i=4a+baH. (5.1) Ул+1 — Cs+i^s+iН"Л«+1> s = 0, 1, 2, ..., (^-2) и функционалу Q вида Q='£qA*s> (5.3) s=0 где xs, uf, т)5—векторы состояния, управления и случайных воз- действий, Ал, Bs и Cs—матрицы, —квадратная, а В, и Cs, вообще говоря, прямоугольные, qs(xs, и,) — квадратичная функция от xs и us. Общий способ получения оптимальной стратегии управления продемонстрируем на одномерном случае, когда xs, us, т]5—скаляры, As, Bs, Cs—заданные числа, т]« для всех $ = 0, 1,2, ... —некор- релированные случайные величины, распределенные по нормальному закону с нулевыми математическими ожиданиями и дисперсиями, равными p-s и vf соответственно. Начальное состояние х при / = 0 можно считать либо заданным и равным х0, либо случайным, рас- пределенным по нормальному закону с математическим ожиданием х0 и дисперсией и некоррелированным с 1% (s = 0, 1,2, ...). Задача оптимизации стратегии управления состоит в том, чтобы минимизировать математическое ожидание функционала потерь Q или, в силу его аддитивности, сумму математических ожиданий квадратичных функций qs(xs, us). При этом мы можем использовать всю имеющуюся к моменту s текущую информацию, которая состоит в знании управляющих воздействий u0, ult ..., us_x и результатов
328 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ измерений у0, yJt ..., ys, и вычислять математическое ожидание qs (xs, us) с учетом этих сведений, т. е. условное математическое ожидание M(qs(xs, us)/u0, ult ..., ya, уи ..., ys). (5-4) Таким образом, задача поиска оптимальной стратегии управления на конечном интервале времени, отвечающем п дискретным тактам, состоит в минимизации функционала MQ = 2 М (<7S (х4, н4)/и0, •••, ujwl, (/0, ..., у (5-5) s = 0 по переменным «0, Uj, ...,ип. Для нахождения условного матема- тического ожидания функции qs(xs, us) надо располагать функцией плотности распределения случайной величины xs при условии, что м0, ult ..., us_y, у0, ylt ..., ys известны, т. е. условной плотностью вероятности р (х,/и0, ..., us_x\ у0, ..., ys). Но при заданных и0, ... •. us_1\ у0.....ys xs как случайная величина распределена по нор- мальному закону с некоторым математическим ожиданием xs и дис- персией о2- Таким образом, чтобы знать условную плотность вероят- ности p(xs/u0, у0, ...,ys), надо знать xs и о|. Поэтому благодаря линейности уравнений (5.1), (5.2) и нормальности закона распределения случайных величин, в них входящих, можно орга- низовать рекуррентную процедуру нахождения xs и о2 (s = 0, 1, 2’ Предположим, мы знаем xs и о2. Нам нужно найти xi+1 и о2+1, т. е. условное распределение случайной величины xi+1, если известны и0, ..., us\ у0, ..., ys+1. Рассмотрим две случайные величины % ~ *4.44 4“ BSU -f- Т! где и а у ~ некоторые числа. Это независимые случайные величины, распределенные по нормальному закону с математическими ожида- ниями az = Asxs + Bsu, at = c^ и дисперсиями = Ж 4- p,s, vs2 соответственно. Рассмотрим еще одну случайную величину v = t,—г, также распределенную по нормальному закону с математическим ожиданием av = a^—az и дисперсией о2 = о|-|-о2. Мы знаем, согла- сно (5.1), (5.2), что если и равно us — значению управляющего воз- действия на (s-)-1)-m шаге и y = ys+i есть результат измерения в момент времени s+ 1, то значения случайных величин г и £ сов-
§ 5. ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ ЛИНЕЙНОЙ СИСТЕМОЙ 329 падают и случайная величина v принимает нулевое значение. Это. знание меняет распределение случайной величины г. Пусть р (г) — априорная плотность вероятности случайной величины г, опреде- ляющаяся математическим ожиданием а2 и дисперсией о2, и р (z/v) — апостериорная плотность вероятности г при условии, что известно значение случайной величины v. По формуле Байеса р (z/v) выра- жается через р(г) следующим образом: (5.6) где p(v) — плотность вероятности случайной величины v, определяю- щаяся математическим ожиданием av и дисперсией и р (v/z) — условная плотность вероятности v при известном значении г. Случайная величина v = C—г ПРИ известном значении z распреде- лена по нормальному закону с математическим ожиданием av г = = —z и дисперсией а*,г = ст|. Апостериорная плотность вероятности p(z!v) при и = 0 есть не что иное, как плотность распределения случайной величины xj+1 при известных и0, .....us; у9, у1г .ys+1, т. е. p(xs+1/u0, uj, . .. ...,us; уа, ylt а априорная плотность вероятности p(z) зависит от xs и о^, т. е. зависит от p(xslua, ..., us_p, у0, ..., ys). Следовательно, формула (5.6) при значении v, равном нулю, дает связь между законами распределения случайных величин xs и xi+1 при учете всей текущей информации об управлении и состоянии системы, имеющейся в каждый дискретный момент времени. Запишем выражение каждой плотности вероятности, входящей в правую часть формулы (5.6). Так как все случайные величины рас- пределены по нормальному закону, то их плотности вероятности оп- ределяются их математическими ожиданиями и дисперсиями и имеют вид p(z) = Т/-^~ ехР У 2naz [ р(у/г) ехр у 2л Оу/? р(0 = ~/т^'ехр (г—аг)2 ~1 2ог J ’ Г (v—ay/z)2 ~1 L 2(4/г J fr—1 2<Л J ’ (5.7). где az = A^cs-\-Bsu, o^ = A2o^ + |Ts, аг = а£ —аг, л-2 __ л-2 ву/г — <Ч> о2 = <т2 + о2г, У а£=с“’ йу/г — г, — VS+1 • ^S4-l (5.8). При и=0 апостериорная плотность вероятности p(z!v) дующим образом: Р(г/у)= ----ехр у2noi+1 (г—Xs+i) 1 2o's+i J * запишется сле- (5.9).
330 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ Подставим (5.7) и (5.9) в формулу (5.6), заменяя av, а2, а„/г, а£/г «х значениями из (5.8), и возьмем значение v равным нулю. Полу- чим ----ехР ¥ 2naJ + 1 (г—xj+1)2l __ 2aj+i 1 .___exp У 2 л aj Г (г—аг)2~1 1 2о| ] У2ло2 ехп (z-azY 2сг| _ (flz—)2 (5.Ю) 2(a|+af) J Преобразуя правую часть (5.10) и приравнивая коэффициенты перед экспонентами и их показатели, получим 2 . 2 Z. ___ аго^-|-а{0г As+i — (5.И) а2 . US+1—2,2’ (5.12) где аг, а?, о}, о| определяются из (5.8) при условии u = us, у — ys+1: az = А/, 4- Bsus, as = ^±1, (5.13) bf+i = + = (5.14) Соотношения (5.11)—(5.14) дают рекуррентные формулы, опре- деляющие xs+1 и ст2+1 через xs, а2 и текущую информацию о зна- чении us управляющего воздействия на (s-|-1)-m шаге управления и результате измерения z/s+1 в момент времени $ +1. Они позволяют по заданному начальному состоянию х0 объекта или по его математи- ческому ожиданию х0 и дисперсии о^ находить по мере поступления текущей информации условное математическое ожидание xs состоя- ния и его дисперсию ст2, т. е. по существу определить условную плотность распределения случайной величины xs. При этом, как следует из (5.12), (5.14), дисперсия состояния не зависит от теку- щей информации и определяется заданием р|, v2 (s = 0, 1, 2, ...) — дисперсий^случайных возмущений и дисперсии ст2 начального состоя- ния. Поэтому их можно вычислить заранее, до процесса управления. В отличие от дисперсии для нахождения условных математических ожиданий состояния необходимо использование всей текущей инфор- мации. Таким образом, не имея возможности непосредственно определить состояние объекта, мы можем указать закон распределения состояния как случайной величины, учитывающий всю имеющуюся к этому мо- менту времени текущую информацию. Рекуррентные формулы (5.11)—(5.14) известны как фильтр Кал- мана — Бьюси; правда, записываются они обычно несколько в ином
§ 5. ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ ЛИНЕЙНОЙ СИСТЕМОЙ 331 виде, это относится прежде всего к формуле (5.11). Прибавляя и вычи- тая в числителе!формулы (5.11) величину а2о|, перепишем ее в виде 2 ^+1 = аг + -гу-^ (а:—аг). (5.15) Подставляя (5.13) в (5.15), получим ^j+1 = “I" BSUS -|-Ks Cs + 1 (^j\s “I” где iz _ 1 , 2 , 2 * C Oz+^t bs+l (5.16) (5-17) Формулу для дисперсий удобно оставить в прежнем виде (5.12). Ве- личину /С, в формуле (5.16) обычно называют коэффициентом усиления фильтра. Это переменная во времени величина, которая определяется, согласно (5.17) и (5.14), дисперсиями случайных возмущений, дейст- вующих на объект и измеритель, дисперсией состояния как слу- чайной величины и коэффициентом Cs измерительного устройства. Поэтому коэффициенты усиления фильтра Ks можно вычислить зара- нее, запомнить и использовать их значения для нахождения условных математических ожиданий состояния по мере поступления текущей информации об управлении и результатах измерения. Теперь заметим, что условное математическое ожидание xs дает оптимальную оценку состояния объекта в момент времени s — опти- мальную в том смысле, что для нее минимальна среднеквадратичная ошибка оценивания. Действительно, если обозначить через а оценку состояния xs и через e=xs—а ошибку оценивания, то для нахождения оценки, минимизирующей среднеквадратичную ошибку, получим minM{e2/u0, «1, •••. «5-15 у0....ys} = а = min{M(^/u0, ..., uJ—1; r/0, ..., ys) — 2axs + a2}. a Производя минимизацию, найдем, что среднеквадратичная ошибка минимальна при a=xs. Поэтому уравнения (5.16) и (5.12), позволяю- щие определить xs по мере поступления информации об управлении и состоянии объекта, называются фильтром, так как они решают одну из задач фильтрации, состоящую в нахождении наилучшей оценки некоторого полезного сигнала по результатам измерения его самого или некоторой функции от него при наличии ошибок измерения, вызванных действием случайных помех. Эти уравнения были впервые получены именно как решение задачи фильтрации состояния динами- ческой системы. С точки зрения задачи фильтрации уравнения (5.16) и (5.12) можно рассматривать как математическую модель динамиче- ского фильтра, который по входным воздействиям и и у вырабатывает оптимальную оценку состояния х объекта (5.1). А теперь, когда мы умеем находить условную плотность вероят- ности р^х^и^ .... us_i, у0, ..., ys) (s = 0, 1,2, ...) и, следовательно,
332 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ можем вычислить условное математическое ожидание функции qs(xs,us), т. е. M(qs(xs, us)/u„, ..., us_i, у„, . .., ys), вернемся к ис- ходной задаче (5.1), (5.2), (5.5) оптимизации стратегии управления. Для определенности в качестве функции qs (xs, us) возьмем Qsi^sf M's) — Xs Us. Итак, задача состоит в нахождении последовательности управляю- щих воздействий «0, и1у .... ип, минимизирующих функционал потерь вида MQ= У] M((^-(-u2s)/«0, ..., u5_i; у0, ...,ys). (5.18) s = 0 Как в рассмотренных ранее задачах, воспользуемся принципом опти- мальности и методом динамического программирования. Обозначая через V„_.s(u0, . . . , у», , ys) минимальное значение функ- ционала потерь при оптимальном управлении от момента s до момен- та п и известных результатах измерений уц, у1у . . . , ys, запишем ре- куррентное уравнение Веллмана (U0> Ul> •••» У О’ У1> У1)~ = min М{[х* + иЦ- _1(и0, .... us; у0, .... ys+1)]/u0, ... us • •> us-l’ Уо> • • > Уз}. (5.19) Будем искать оптимальное управление из рекуррентного уравне- ния (5.19), начиная с s—n, т. е. двигаясь от конца процесса управле- ния, как это делается в методе динамического программирования. Для удобства будем обозначать последовательность управляющих воздей- ствий «о, «j,..., us через Us и последовательные результаты изме- рений у, ys через Возьмем s=n и запишем для него уравнение K„) = minM{(x2 +и2п)/ип_1У Yn}. Так как хп не зависит от ип, то минимум достигается при значении ип=0, а минимальное значение потерь равно условному математиче- скому ожиданию квадрата состояния в момент времени п при заданных управлениях и0, . . . , ип_х и известных результатах измерения Уо, У1.......Уп- Wn-lt Г„) = М{х^/1/п_1, Yn}. (5.20) Далее возьмем s=n—1, что соответствует оптимизации управления на последнем шаге, и запишем для него уравнение (5.19): V^U^, K„_1)=minM{[^_1 + ^_1+V0(l/„_1> K„)W„_2, = un-l = minM{[x2_14-U2_1 + M(x2/t7„_1, Г„)]/1/„_2, Y^}. (5.21) «n-t Перед последним шагом нам известны значения управления и0, ..., ип_2 на всех предыдущих шагах и результаты измерений
§ 5. ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ ЛИНЕЙНОЙ СИСТЕМОЙ 333 г/0, уг, и, следовательно, V0(l/„_i, Yn) в выражении (5.21) зависит от двух аргументов: искомого значения управления на последнем шаге и случайного аргумента уп — значения измере- ния в конце процесса управления. Поэтому условное математическое ожидание M(V0(C/„_1, Yn)/Un_2, У„_1} надо понимать как СО J ^о(^л-2> ^п-1» Мп-1’ Уп) Р (уn/Uп-2> Y^dy. “00 Из (5.20) следует, что <х> ^о(^„-1, Yn) = $ х\р (xjU Yn)dxn = — СО со = $ х2пр (xn/Un_2, Yn_lt u„_lt yn)dxn. — со Учитывая это, запишем М (М (х2/(7„_п Yn)/Un_2, Yn_1} в виде М |М (х2/r„)/t/„_2, = 00 ' co 'j “ S S P^n-. (z/n/^n-2>j — CD — CD у Из определения условной плотности вероятности следует, что 00 5 Уп~1> u„_lf уп)р(у„/и„_2, Уп_^уп = ~P^nl^n-2> Уп-1)’ в силу чего М([М(М-Р K„)]/t/„_2, У„_1} = М{х2/У„_2, К„_1). (5.22) Выразим хп с помощью уравнения (5.1) и подставим в уравнение (5.21). Учитывая (5.22), получим va^-2, r„_o= =min М {[х2_j+u2-1+(Л„_1х„_1+В„_1ия_1+^_1)2]/1/„_2, = un — l =minM{[(l +Л2_1)4_1 + (1 +B2-i)u2„_i + + 2Дп_1Вп_1хп_1ип_1-|- + 24_]xrt_1^_14-2B„_1uzJ_1^_1 + ^_1]/t/„_2, Y^}. Найдем условное математическое ожидание, учитывая, что ип_1 — величина неслучайная и что случайная величина ^,п_1 не коррели-
334 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ рована с хп_и не зависит от yn_j и имеет нулевое матема- тическое ожидание и дисперсию p„-i- Будем иметь = min {(1 + + Bl_i) + «П-1 (5.23)" Минимизируя выражение в фигурных скобках, определяем значение оптимального управления на последнем шаге: ^п-1- (5-24). Оказывается, что значение оптимального управления на последнем шаге линейно выражается через оценку состояния объекта перед, этим шагом. Теперь подставим значение управления в выражение (5.23) и после несложных преобразований найдем значение потерь при опти- мальном управлении на последнем шаге: V1 (^„-2. Уп-1) = (1 + ^-0 (*п-1)2+р£-1. Выразим квадрат оценки состояния (хп_1)2 через условное матема- тическое ожидание квадрата состояния х„_! и его дисперсию (х„_х)2 = = *„-!—о2-! и подставим в выражение оптимальных потерь на последнем шаге. Еще заметим, что согласно (5.12) о2_! не зависит от x^_i и определяется только начальным значением о2. Тогда вы- ражение оптимальных потерь на последнем шаге запишется в виде VdUn-» Уя-^ = = £’„-14-i + £„-1 = M{[r>„_1x2_1 + £n_!]/t/„_2, (5.25) где Итак мы установили, что оптимальное управление на последнем шаге линейно зависит от условного математического ожидания со- стояния перед последним шагом и определяется выражением (5.24), а оптимальное значение потерь при этом, согласно (5.25), находится как условное математическое ожидание квадратичной функции от состояния перед последним шагом. Процесс рекуррентного поиска решения уравнения (5.19) и на- хождения оптимального управления можно продолжить дальше, но мы заметим, что решения при s=n и при s=n—1 имеют одинаковый вид. Действительно, оптимальные потери в конце процесса управле- ния можно записать в виде П) = М{[Р„х2+Ея]/1/п_1, У„},
§5. ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ ЛИНЕЙНОЙ СИСТЕМОЙ] 333 где Dn=l, а £„=0. Поэтому естественно предположить, что и для любого s оптимальные потери запишутся в таком же виде: Vn_s(Us-v Ys) = IA{[D^+Es]/Us_lt У,}, (5.26} н доказать это по индукции. Запишем уравнение (5.19), используя (5.26): Vn-AUs-v Ys) = = min М {[x^ + Us + M {(Ds+ixl+i, + Es+J/Us, Ys+i\]/Us_u “s Проводя преобразования, аналогичные тем, что были проделаны в слу- чаях s=n и s=n—1, получим Vn_AUs-» Ys) = = minM{[x|+«^+DJ+1x?+i+£'g+1]/i7J>1, У4} = us = min М {[(1 + AfDJ+1) x*s + (1 + DS+1B2S) + 2Ds+1AsBsxsus + us A-2Ds+1Asxsls + 2D s+i^sus^>s + DS+1^S4-EJ+1]/C/J_1, У5} = = min {(\+AlDs+1)x*+(\+Ds+1Bl) u2s-i-2Ds+1AsBsxsus+Ds+ral+Es+1\. 4, Вычисляя производную no us и приравнивая ее нулю, находим значе- ние us, минимизирующее функцию в фигурных скобках: _ DS+1A|B? ; S~ 1 _L Л й2 *S' значение функции запишется в виде ^S + l^S \ ~2 [ Е^+iAsBI „2 IT) .2 II ГТл R2 Hs+7Tn--------^^s+^+lHs-r21 1 H_b's + l#s J i+b>5 + 1bs а само минимальное (5.28) 5+1 — = tA{[D^s + Es]lUs_1, Ys}. (5.29) Мы показали, что если функция Vn_s_i(Us, Ys+1) имеет вид rs+1) = M([Ds+^+1+£s+1]/t/s, ys+1}, то предыдущая функция (5.29) имеет точно такой же вид. При этом связь между Ds и Ds+1, Es и Es+1 дается рекуррентными форму- лами ML * +^5+1В2 p _P , Dl+iA2sB2s s s+1+ t+Ds+1B2s ’ Р,= 1+ D (5.30) (5.31)
336 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ Начальными условиями для рекуррентных формул пересчета Ds и Es (s = 0, 1, ..., п) будут Dn+1 = 0, Еп+1 = 0. Таким образом, задача (5.1), (5.2), (5.18) нахождения оптималь- ного управления, минимизирующего функционал потерь (5.18), пол- ностью решена. Мы получили формулы (5.28), (5.30), (5.31), опре- деляющие значения и0, ии ..., ип_1 оптимального управления, и формулы (5.29), (5.30), (5.31), да- ющие минимальные значения по- терь при этом управлении Vn, .... Ко, причем Vn дает значение потерь для всего процесса управления, а другие значения Vn_1, V„_2, ... V„_s, ... дают минимальные значения потерь на отдельных уча- стках управления от момента s = = 1,2,... до конца. Рис. 6.18 Согласно (5.28) оптимальной стратегией оперативного управле- ния является линейная функция от оценки состояния. Оценка определя- ется как математическое ожидание состояния объекта в момент выра- ботки очередного управляющего воздействия при известной текущей информации об управлении и результатах измерения до этого момента времени. Характерной особенностью оптимальной стратегии, как следует из (5.28) и (5.30), (5.31), является то, что она линейная и коэф- фициент, на который умножается оценка состояния, не зависит от описания измерительного устройства и случайных помех и определяется только математической моделью объекта в детерминированном случае. Этот коэффициент одинаков как в детерминированном и стохастиче- ском случаях при полной информации о состоянии, так и в рассматри- ваемом стохастическом случае при неполной информации о состоянии. Различие состоит лишь в том, что в первых двух случаях оптимальная •стратегия есть функция состояния, а в последнем — функция его оценки. Значение коэффициента в оптимальной стратегии управления можно вычислить заранее до начала процесса управления, но реали- зовать управление можно лишь оперативно, определяя оценку состоя- ния по мере накопления текущей информации. Эту оценку состояния дает фильтр Колмана — Бьюси. Итак, чтобы найти оптимальное управление линейной системой (5.1), (5.2), минимизирующее квадратичный функционал потерь (5.18), надо решить две задачи. Первая состоит в определении оптимальной стратегии управления и может быть решена в детерминированном варианте при полной информации о состоянии объекта с дальнейшей заменой в конечном результате состояния на его оценку. Решением ее является линейная функция от оценки состояния. Вторая задача состоит в определении оценки состояния и решается фильтром Калма-
§6. ОЦЕНИВАНИЕ И ФИЛЬТРАЦИЯ 337 на — Бьюси. Это утверждение составляет содержание теоремы раз- деления. Таким образом, оптимальное управляющее устройство состоит из фильтра Калмана — Бьюси, вырабатывающего по результатам изме- рений оценки состояния, и блока, формирующего оптимальную стра- тегию управления. Соответствующая этому важному выводу общая структурная схема системы управления с оптимальным управляющим устройством изображена на рис. 6.18. § 6. Оценивание и фильтрация Фазовое состояние объекта управления предоставляет ту полную информацию, которая необходима и достаточна для реализации опти- мального управления по любому аддитивному функционалу качества. Это выражается в том, что при оптимальном управлении управляющее воздействие и является некоторой функцией состояния х объекта уп- равления, т. е. некоторой оперативной стратегией управления вида и = £(х)- Таким образом, чтобы управлять оптимально, нужно знать фазовое состояние объекта. А для этого объект должен быть наблюдаем, т. е. необходимо, чтобы данные измерительной системы позволяли найти его фазовое состояние. Однако в реальных условиях даже при наличии наблюдаемости определение состояния х по данным измерений затруд- няется наличием случайных ошибок измерения, а также искажениями при преобразованиях и передаче данных управляющей системе. В свя- зи с этим возникает задача определения состояния объекта управле- ния по искаженным случайными возмущениями результатам измере- ний. Ясно, что в этих условиях состояние х не может быть найдено точно и речь может идти лишь о его приближенном определении, точ- нее, о его статистическом оценивании. Именно на основе оптимальной статистической оценки состояния в предыдущем параграфе была найде- на оптимальная стратегия управления линейным динамическим объек- том по аддитивному квадратичному критерию качества. При получе- нии этой оценки использовалась вся имеющаяся информация как о системе измерения и действующих на нее шумах, так и об объекте управления и его случайных возмущениях. Задача о статистическом оценивании состояния является частным случаем более общей задачи динамической фильтрации, впервые воз- никшей в трудах Винера и Колмогорова. Их работы, относящиеся еще к тридцатым годам, получили резонанс в связи с проблемами по- давления помех при радиолокации. Фильтрация Винера — Колмого- рова— это оптимальная линейная фильтрация, т. е. наилучшее в не- котором смысле выделение полезного сигнала на фоне помех с помощью линейного фильтра. Задача оптимальной линейной фильтрации состоит в следующем. Пусть полезный сигнал s(t) имеется вместе с шумом n(t), т. е. в виде
338 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ сигнала х(t)=s(f)-\-n(t). Нужно отделить полезный сигнал s(t) от шума n(t) с помощью линейного преобразования вида t (/(/)= J ф(/—T)x(T)dx, (6.1) где 4>(0 — функция, которую надлежит подобрать из условия мини- мальности среднеквадратичного отклонения y(t) от полезного сиг- нала s(t). Задачей фильтрации называется и более общая задача, когда желательно получить на выходе линейного фильтра (6.1) не просто полезный сигнал, а некоторое заданное его преобразование, например его производную, интеграл, опережающее значение (а>0) и т. д. При решении задачи оптимальной линейной фильтрации по- лезный сигнал s(t) и шум n(t) предполагаются стационарными случай- ными процессами и для них задаются корреляционные статистические описания. В общей постановке задачу фильтрации можно сформулировать следующим образом. По данной функции y(O=f(s(T), п(т)), где s(t) — полезный сигнал, а п(т) — шум, найти оптимальную в не- котором заданном смысле статистическую оценку оператора g(s) от полезного сигнала s(t). Здесь f и g— некоторые известные динамиче- ские операторы от функций s(r) и п(т), определенные при всех Ясно, что это общая постановка задачи. Ее фактическое рассмотре- ние требует многих уточнений. Эти уточнения необходимы для вида операторов fug, для критерия оптимальности, для статистических описаний s(r) и п(т). Они нужны и для всех средств, с помощью кото- рых предполагается решить задачу оптимальной фильтрации. В слу- чае, если разрешаются только линейные преобразования над s(x) и п(т) , это линейная фильтрация; если произвольные — нелинейная фильтрация. Ясно, что фильтрация Винера — Колмогорова — это частный случай общей задачи фильтрации. Фильтрация Калмана — Бьюси, о которой шла речь в предыдущем параграфе,— это тоже ее частный случай, соответствующий тому, что у = Нх + ц, (6.2) где Н — матрица, удовлетворяющая условию наблюдаемости полез- ного сигнала х, а полезный сигнал х — это решение некоторого задан- ного линейного дифференциального уравнения вида х = Ах-|-В| (6.3) при (начальном условии Х I = Х0>
S 6. ОЦЕНИВАНИЕ И ФИЛЬТРАЦИЯ 339 где х0 либо задано, либо подчинено некоторому заданному нормаль- ному распределению. В (6.2) и (6.3) |(/) и ?} (/) — случайные воздейст- вия типа гауссового белого шума. Матрицы А, В и Н в общем случае зависят от времени. При сформулированных условиях полезный сиг- нал х(/) в каждый момент времени t является фазовым состоянием ди- намической системы, описываемой дифференциальным уравнением (6.3), и представляет собой нормально распределенный случайный век- тор. Это его описание является полным статистическим описанием, ко- торое определяется математическим ожиданием и корреляционной матрицей. Фильтр Калмана — Бьюси находит эти величины. Перейдем к подробному рассмотрению фильтрации Калмана — Бьюси для линейного дискретного многомерного нестационарного объекта и линейной нестационарной измерительной системы. Матема- тическая модель объекта и измерительной системы известна и может быть представлена в виде линейных разностных уравнений XS+1 -^«^5 Н” Ys+l = ^S+l^S+l Н” Л« + 1> (6.4) где х5— n-мерный вектор состояния объекта в s-й (s=0, 1, 2, ...) момент времени, — п-мерный вектор случайных возмущений, дейст- вующих на объект в s-й момент времени, у5 — /n-мерный вектор вы- хода измерительной системы в момент времени s, т]5 — m-мерный век- тор шума в измерительной системе, As и Bs — квадратные матрицы размерности nXn, Cs — прямоугольная матрица размерности тХ.п. В общем случае матрицы Bs и Cs зависят от времени. Первое уравнение (6.4) описывает закон смены состояния объекта в дискретные моменты времени 8=1, 2, ... в зависимости от началь- ного состояния х0 и внешнего воздействия Матрица отражает динамику объекта при отсутствии внешних возмущений. Влияние внешних возмущений характеризуется матрицей Bs. Внешние воздействия описываются случайной векторной после- довательностью (s —0, 1,2, ...) с известным статистическим опи- санием. В каждый момент времени s случайный вектор распре- делен по нормальному закону с известным математическим ожида- нием = и корреляционной матрицей М [(^—^) (^—1^)т] = QS- В разные моменты времени векторы последовательности t«(s=O, 1,2,...) не коррелированы, т. е. M[(|z—|z) (|ft — gfc)T] = 0 при Начальное состояние х0 объекта либо известно, либо случайно и описывается случайным вектором, распределенным по нормальному закону с известным математическим ожиданием х0 и корреляционной матрицей Ро. Второе уравнение в (6.4) описывает измерительное устройство. Матрица С,, удовлетворяющая условию наблюдаемости, устанавли- вает в каждый момент времени s связь состояния х5 с доступным непосредственному измерению выходом объекта. Шум в измеритель- ном устройстве описывается случайной векторной последователь- ностью (s = 0, 1, 2, . ..) с некоррелированными в разные моменты
340 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ времени векторами, каждый из которых распределен по нормаль- ному закону с нулевым математическим ожиданием Мт)5 = 0 и из- вестной корреляционной матрицей = Кроме этого, предполагаем, что внешние воздействия на объект не коррелированы с шумами в измерительном устройстве, т. е. М[(^—= 0 Для любых s и k, а также те и другие не зави- сят от начального состояния объекта. Требуется построить оптимальный фильтр, дающий оценку со- стояния хДз=1, 2, ...) объекта, т. е. построить преобразование, позво- ляющее по всей имеющейся к моменту времени s текущей информации о результатах измерения выхода yft (k=0, 1,2, . . . , s) при использо- вании всей априорной информации об объекте, измерительной системе и действующих на них внешних возмущениях определить оценку as состояния х5 объекта как случайной величины в момент времени з, минимизирующую среднеквадратичную ошибку оценивания. Заметим, что в постановке задачи никаких ограничений на харак- тер искомых преобразований не делается, т. е. по существу ставится частная задача нелинейной фильтрации. Прежде чем записать формально критерий' оценивания, обратим внимание на то, что в силу линейности уравнений (6.4) и гауссовости входящих в них случайных последовательностей и i), (s=0, 1, 2, ...) векторы xs и ys как случайные векторы распределены по нормальному закону. По мере поступления текущей информации их статистическое описание изменяется, в частности, распределение xs как случайного вектора в момент времени s характеризуется условной плотностью вероятности р(х4/у0, уъ . . . , у,), поэтому критерий оценивания записывается в виде minM[(xs—aJT(xs—а,)/у0, .... у J, (6.5) т. е. математическое ожидание определяется по отношению к услов- ному распределению вектора xs. Критерий (6.5) представляет собой квадратичную функцию от компонент вектора а, искомой оценки со- стояния системы. Запишем ее в развернутом виде: ( п 1 minM\ 2 (х*—а?)7у0. Уо •••. уЛ- а5 U=1 J п = min 2 M{[(xsfc)2—2a*x* + (as)2]/y0, Уп •••» У,} = % fe=I п = min 2 M[(xf)2/y0, ..., yj—2afxfH-(aJ)2. af fe=l Здесь индекс k обозначает k-ю компоненту векторов а^ и xs, кроме того, введено обозначение условного математического ожидания х/ х, = М(х,/у0...у,).
§6. ОЦЕНИВАНИЕ И ФИЛЬТРАЦИЯ 341 Осуществляя минимизацию критерия, получим а^=Ху, т. е. опти- мальной оценкой состояния динамической системы как случайного вектора является его математическое ожидание, полученное при использовании всех известных к этому моменту времени результатов измерений. Заметим, что этот результат получен независимо от кон» кретного вида объекта и измерителя и определяется видом критерия (6.5). Таким образом, оптимальной в смысле критерия (6.5) оценкой состояния динамической системы является его условное математиче- ское ожидание и, следовательно, решение рассматриваемой задачи оптимальной фильтрации состоит в отыскании xs. Перейдем к ее ре- шению. Прежде всего заметим, что в силу гауссовости распределения х, как случайного вектора пара — математическое ожидание х5 и кор- реляционная матрица /\=М{(хэ—xs)(xs—xs)T/y0, ... , у,} полностью определяют условное распределение xs, т. е. условную плотность ве- роятности р(х/у0, у!, . . . , yf). Оказывается, что, если несколько рас- ширить постановку исходной задачи и требовать отыскания не только xs, а всего закона распределения случайного вектора х5, т. е. р (xs/yo,... . . . , ys), можно сравнительно просто получить решение исходной задачи. Путь к решению лежит в использовании формулы Байеса для отыскания апостериорной плотности вероятности, какой в нашем слу- чае является искомая плотность вероятности р(х5/у0, . . . , у5). Реали- зуем этот путь. Пусть известна условная плотность вероятности p(xs/y0, ...,ys) вектора xs, т. е. известны xs и Ps. Будем искать условную плот- ность вероятности p(xs+1/y0, ..., уя, yj+1) вектора х,+1, т. е. х,+1 и ^+1- Рассмотрим два независимых случайных вектора x-4j,+5& и = У—Пн-i. (6-6) где у — некоторый неслучайный вектор. Оба вектора имеют гауссово распределение с ^математическими ожиданиями а* = + B£s, аа = У (6.7) и корреляционными матрицами Px = ^{(x-ax)(x-axy} = AsPsAl + BsQsBl Pa=Rs+1. (6.8) Рассмотрим еще один случайный вектор v = CJ+1x—u,_ (6.9) тоже распределенный по нормальному закону с математическим ожи- данием а^С^а,—а, (6.10)
342 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ и корреляционной матрицей P, = M{(v —aj (v—aJT) = = M{[CJ+1(x—a*) — (u—a„)][CJ+1 (х—а*)—(и—аи)]г} = = CS+1PXC1+ i+Pa. (6.11) Случайные векторы х и v зависимы, и знание одного из них меняет распределение другого. Будем считать, что в результате опыта опреде- ляется вектор V, тогда апостериорная плотность вероятности p(x/v) вектора х определяется через априорную плотность вероятности р(х) формулой Байеса: (6.12) Согласно (6.4) и (6.6) в левой части формулы (6.12) стоит гауссова плотность вероятности случайного вектора xi+1 при известных значе- ниях у», . . . , у, и V, т. е. p(xi+1/y0, . , ys, v). В правой части формулы (6.12) стоят плотности вероятностей известных гауссовых распределений. У р (х) и р (v) математические ожидания и корреляци- онные матрицы определяются выражениями (6.7), (6.8), (6.10), (6.11). У p(v/x) они определяются, согласно (6.9), выражениями М (v/x) = аи/х = Cs+1x—аы, М {(v—а„/х) (v — ао/х)т/х} =Ри. (6.13) Результатом опыта будем считать измерение yi+1 выхода объекта в ($+1)-й момент времени. Если взять в (6.6) y = yJ+1, то в силу (6.4) и (6.6) вектор Cs+1x и и совпадают и вектор v принимает нулевое значение. В этом случае p(x/v = 0) является искомой плот- ностью вероятности случайного вектора xi+1 при известных значе- ниях измерений у0, у15 . .., у5, yi+1, определяемой математическим ожиданием xj+1 и корреляционной матрицей Ps+1. Так как априор- ная плотность вероятности р(х) определяется математическим ожи- данием х5 и корреляционной матрицей Ps, a р(у) зависит от ys+1, то формула (6.12) устанавливает рекуррентную связь между xJ+1, Ps+1 и xs, Ps,'ys+i- Найдем ее. Для этого запишем аналитические выражения плотностей вероятностей, входящих в (6.12): Р = (2л) 2 | Рх/г> | 2 exp Я — у) [(х—aK/vyPx/v (х—аж/0)] p(v/x) = (2n)~ 2 |Pv/X\ * exp 1) [(v—avlxyPjx(y—ас/ж)]|, (6.14) р(х) = (2л) 2 |PX| 2 exp p(v) = (2n)"T|PI,|" 2 exp {(— y) [(x—ахУРх (x—ax)]j>, {(- у) [(v—aP)TPr(v-а,)]} ,
§6. ОЦЕНИВАНИЕ И ФИЛЬТРАЦИЯ 343 где ах, а„/х, Рх, Pv/X, Pv определяются выражениями (6.7), (6.8), (6.10), (6.11), (6.13). Подставим (6.14) в (6.12), полагая v = 0 и подставляя av/x и ?и/х ИЗ (6.13), ПОЛуЧИМ I Ps+i I ехР 2”^ [(х xi+1)T Ps+\ (х xi+1)]j> = = I Рп |-1/’ I Pv |-1/21 Рх |-'/2 ехР {( — т) [(С.+1Х—a„)T/V (С,+1Х—аи) + + (х-ах)тР;1(х-ах)-(С,+1ах-ац)тр-1(С5+1ах-аи)])>. (6.15) Приравнивая показатели экспонент в выражении (6.15), получим (х xi+1)TPs+11 (х xj+i) = (Qs+jX ац)тРи1 (Ci+1x аи) 4- + (х—ах)тДД (х—аж)—(Сжах-аауР^ (Ci+1ax —а„). (6.16) Выделим в правой и левой частях выражения (6.16) квадратичные и линейные члены относительно х и, приравнивая их, получим P^C's+iPu'C^ + PS, (6.17) P;+rXs+l = С^Р^а* + Р?ах. (6.18) Умножаем (6.17) на ах и вычитаем из (6.18). Получим Р& &+1-aJ = CJ+1P-! (a„-Ci+1aJ. (6.19) Умножаем (6.19) слева на Ps+1, получим xs+i= ах -) Р s+i^s+iP и1 (a„ Ci+1ax). (6.20) Из (6.7) подставим в (6.20) выражения ах и а„ при y=ys+1; получим 1 = ЛХ + ВХ4- PS+1Q+1P^ [у,+х - С,+х (А Д 4- ВХ)]- (6.21) Для нахождения корреляционной матрицы Ps+1 ошибки оценива- ния воспользуемся известным в теории матриц тождеством (Д-i _|_втС-'В)-1 = А — АВТ (ВАВТ 4- Cj-'BA. Применяя тождество к выражению (6.17), получим В,+1 = ICS+1PXC^ А-РпУ^С^Рх, (6.22) где Рх = ASPSAJ4-BSQSBJ, Pa = Rs+1. Соотношения (6.21), (6.22) дают искомую рекуррентную связь между xi+1, Ps+1 и xs, Ps, учи- тывающую результат измерения yi+1 очередного значения выхода, т. е. определяют динамический фильтр Калмана — Бьюси, ре- шающий задачу оптимальной фильтрации состояния линейного динамического объекта. Начальными условиями для этих уравне- ний являются х0 и Ро. Уравнение (6.21) определяет изменение оцен и состояния во времени, а уравнение (6.22) — изменение корре- ляционной матрицы ошибки оценивания, причем главная диагональ этой матрицы определяет дисперсию ошибки оценивания. Обычно
344 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ уравнение (6.21) записывается в виде xs+l = ^sxs + [Ys+i—^s+l(^sxs + (6.23) № К^Р^С^Р? (6.24) называют матричным коэффициентом усиления фильтра. Выражение для Ks+1 можно записать в ином виде, взяв Ps+1 из (6.22): К$+1 — Pffil-цРи1 Px^s+i{Cs+iP xCs+i"b Р и) 1Cs + 1PxC}+1Pa1 = = PxQ+i (CS+1PXQ+1 + Ра)-' (Cs+1PxCl+1P^ + РиРй1- -Cs+1PxCl+1P^) = PxCl+1 (CS+1PXC^ + Л,)"1, (6.25) где Px и Pa определяются из (6.8). Таким образом, при заданном полном статистическом описании в виде математического ожидания х0 и корреляционной матрицы Ра Начального состояния объекта и известных результатах yf измерения Рис. 6.19 его выхода уравнения (6.22), (6.23) позволяют однозначно’определить xs, Ps (s=l, 2, ...), т. е. полное статистическое описание состояния объекта во все последующие моменты времени. По существу, это озна- чает, что соотношения (6.22), (6.23) задают неавтономную нестационар- ную динамическую систему с одним входом и одним выходом. Фазовым состоянием ее является условное математическое ожидание х и кор- реляционная матрица Р, т. е. полное статистическое описание состоя- ния х объекта как случайного вектора; входом — результат у изме- рения выхода объекта, а выходом — условное математическое ожида- ние х, которое в каждый момент времени представляет собой опти- мальную оценку состояния объекта. Это значит, что фильтр Калма- на — Бьюси позволяет оценивать состояние динамического объекта в реальном времени по мере поступления текущей информации. Схематически алгоритм фильтрации Калмана — Бьюси можно изобразить в виде укрупненной блок-схемы, показанной на рис. 6.19. Входом в блок формирования матричного коэффициента усиления фильтра является корреляционная матрица Ра статистического описа- ния начального состояния х0 объекта. Блок в соответствии с уравне- нием (6.22) и соотношением (6.24) или (6.25), использующими априор-
§6. ОЦЕНИВАНИЕ И ФИЛЬТРАЦИЯ 345 ную информацию об объекте, измерительной системе и действующих на них внешних возмущениях, вырабатывает матричный коэффициент усиления фильтра Ks (s=l, 2, ...). Второй блок вырабатывает оптимальную оценку состояния объ- екта. Входом в него являются: х0 — математическое ожидание на- чального состояния объекта, Ks — матричный коэффициент усиления фильтра и у, — результат измерения текущих значений выхода объ- екта. Оценка вырабатывается в соответствии с уравнением (6.23), использующим априорную информацию об объекте, измерительной системе и действующих на них внешних возмущениях. При конкретно заданном начальном состоянии объекта или его статистическом описании блок формирования матричного коэффици- ента усиления представляет собой автономную нелинейную неста- ционарную динамическую систему. Ее выход Ks может быть записан в некотором запоминающем устройстве и затем использован как апри- орная информация в блоке оценки состояния. Если фильтр работает в реальном времени, то Ks вырабатывается в каждый s-й момент вре- мени и поступает непосредственно в блок оценки состояния. Рис. 6.20 Рассмотрим подробнее блок оценки состояния. При конкретно заданном начальном состоянии объекта или его статистическом описа- нии этот блок представляет собой линейную нестационарную дина- мическую систему, структурную схему которой в соответствии с (6.23) можно представить, как показано на рис. 6.20. Входы BSZ,S и Ks ха- рактеризуют априорную информацию, поступающую в систему в (s-f- + 1)-й момент времени. Вход ys+1 — это текущая информация о вы- ходе объекта в (з+1)-й момент времени. Выход системы х5+1 —опти- мальная оценка состояния объекта. Блок представляет собой двух- контурную систему. Внутренний контур имеет точно такую же струк- туру, как объект. Если его рассмотреть изолированно от внешнего контура, как показано на рис. 6.21, то он определяет оптимальный фильтр в том случае, когда полностью отсутствует текущая информа- ция о состоянии или выходе объекта. Тогда оптимальная оценка со-
346 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ стояния xs, которую в этом случае будем обозначать через xs, осуществ - ляется только за счет статистического описания начального состояния объекта и внешнего возмущения в соответствии с уравнением Х5+1 = В&. При поступлении текущей информации эта оценка улучшается за счет поправки, кстсрую вносит внешний контур. В этом случае вну- тренний контур формирует прогнозированное значение оценки со- стояния объекта в момент времени $+1 по оптимальной оценке х5 Рис. 6.21 в момент времени s и по статистическому описанию внешних воздей- ствий в соответствии с уравнением х$+1~ ^5xs -|- В&. Внешний контур формирует прогнозированное значение выхода объ- екта в виде У$ + 1 = Qs+lxs+l и поправку к прогнозированному значению оценки xJ+1 состояния в виде Ki+1 (У5+1 —Ь+1). где yS:).i—yi+1—ошибка прогноза выхода объекта. Окончательно оптимальная оценка состояния объекта в момент времени s + 1 складывается из прогнозированного значения х5+1, полученного с использованием всей априорной и текущей инфор- мации, имеющейся в момент времени s, и поправки к нему и имеет вид X5+l = XS + 1 "Ь-^5+1 (У« + 1 У« + 1)- В заключение заметим, что в силу отсутствия ограничений на характер преобразований входного сигнала в рассмотренной задаче фильтрации линейный фильтр Калмана — Бьюси является абсолютно оптимальным.
§7. УПРАВЛЯЕМЫЕ МАРКОВСКИЕ СИСТЕМЫ 347 § 7. Управляемые марковские системы при полном и неполном наблюдении Выше было обнаружено, что наличие непредсказуемых случайных воздействий является причиной существенных различий между про- граммным и оперативным управлениями. В то время как оптимальное управление детерминированной динамической системой может быть реализовано как в виде программного, так и в виде оперативного управления, в случае стохастической системы или детерминированной системы, подверженной случайным воздействиям, программное уп- равление не эквивалентно оперативному управлению. При этом оперативное управление никогда не хуже программного и, как пра- вило, много лучше его. Расхождение между оптимальным программ- ным управлением и оптимальным оперативным управлением тем боль- ше, чем большую неопределенность вносят случайные воздействия в поведение динамической системы, и при значительности этих воз- действий возможности программного управления весьма невелики. В полной мере это обнаруживается в управляемых марковских системах. Управляемые марковские системы нам уже встречались, сейчас они будут рассмотрены несколько подробнее. Марковская система определяется своими состояниями Ль А2, ... . . . , Лт_,, Ат и вероятностями их смен р^. Управление марковской системой состоит в возможности влияния на величины вероятностей pij. Цель управления представляется как минимизация математичег ского ожидания потерь, которые будем предполагать аддитивной функцией смен состояний системы. Таким образом, управляемая мар- ковская система задается своими состояниями Аг (7=1, 2, . . . , т), множеством возможных управлений us (з=1, 2, ...,/), матрицей вероятностей переходов Р(и) как функцией управления и и матрицей потерь Q(u), элементами которой являются потери при смене состояния А, на А] при управлении и. Марковская система может быть непосредственным описанием стохастической системы, как это, например, имело место в задаче о комаре, но марковская система может возникнуть и в результате случайных возмущений из детерми- нированной динамической системы. В качестве наглядного примера рассмотрим движение тяжелой материальной точки по поверхности V вида, показанного на рис. 6.22. Ямки Ai, . . . , Ат этой поверхности V определяют устойчивые поло- жения равновесия 0ъ 0s, , 0т. Пусть при движении материаль- ной точки по этой поверхности возникает небольшое трение, так что всякое ее движение заканчивается одним из равновесных состояний. Допустим теперь, что на материальную точку действуют случайные толчки или поверхность случайно толкают. При этом даже при срав- нительно малых толчках может появиться возможность того, что мате- риальная точка в течение некоторого времени т, накопив энергию, переберется из одной ямки в другую. Вероятности этих переходов зависят от того, в какой ямке находилась частица и в какую из них она
348 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ перебирается. Примем, что частица находится в состоянии А3, если она находится в ямке As. Тогда последовательные переходы частицы из одной ямки в другую или в ту же самую могут быть описаны мар- ковской системой с состояниями Аи Л2, . . . , Ат и вероятностями пе- рехода ра из состояния At в состояние A j за время т (ц /=1, 2, . . ., т). Это наглядное и в значительной мере эвристическое описание мо- жет быть уточнено путем рассмотрения движения материальной час- тицы под влиянием, например, некоррелированных случайных толч- ков, которые происходят очень часто и весьма невелики по величине. Как это делается — демонстрировалось на примере блужданий по прямой «абсолютно пьяного» в § 3 гл. 2. При этом удается написать уравнение для плотности вероятности w(x, х'; т) перехода из точки х в точку £ за время т, а также найти стационарную плотность вероят- ностей к>(х) пребывания в точке х. Эта стационарная плотность веро- ятностей имеет максимумы в состояниях равновесия, а вне небольших окрестностей состояний равновесия может быть сравнительно очень небольшой. В силу этого основное время точка будет находиться в не- больших окрестностях состояний равновесия и вероятности перехода из одной окрестности 6(0г) в другую 6(Oj) за время т будут равны Pij— w(x, х’\ x)dxdx'. Здесь интегрирование производится по всем х С 6 (0z) и х’ £ 6 (О ) (i, / = 1, 2, ..., т). Рассмотрим еще один пример такого же типа, но в нем исходная динамическая детерминированная система будет дискретной. Этой системой будет автоматический оптимизатор, принципиальная схема которого изображена на рис. '6.23. Задача автоматического оптимизатора состоит в том, чтобы найти и поддерживать значение х, при котором функция Q(x) имеет наи- меньшее значение. Слово «поддерживать» имеет тот смысл, что при до- статочно медленном изменении функции Q (х) точка х должна отслежи- вать ее минимум. Изображенная система работает следующим образом. Автомат А может'находиться в двух состояниях A_j и А+1. В состоянии А_± он
§7. УПРАВЛЯЕМЫЕ МАРКОВСКИЕ СИСТЕМЫ 34S выдает выход —6, в состоянии Л + 1 — выход 6 (6 — шаг поиска, величина которого зависит от требуемой точности поиска минимума). Состояние автомата меняется через каждый промежуток времени т в зависимости от его входной величины, принимающей значения ± 1. При +1 происходит смена состояния; при —1 состояние не меняется. Выход автомата А, равный ±6, прибавляется к прежнему значению х*-1 и преобразуется в новое зна- чение Xs, которое поступает на вход оптимизируемого объекта (00), выходом которого является Рис. 6.24 Q(xJ). В следующем блоке образуется разность AQ=Q4—нового и старого значений выхода объекта, которая затем в зависимости от своего знака преобразуется в плюс или минус единицу и подается на вход автомата А. Ясно, что перед нами детерминированная дискретная динамическая система. В качестве ее состояния можно принять вход- ную величину объекта оптимизации х и состояние автомата At (i=—1, 4-1). Каждому дискретному состоянию (х, Л,) сопоставим точку фа- зового пространства. Все такие точки естественно расположить в виде, показанном на рис. 6.24. Верхний ряд точек отвечает всевозможным дискретным значениям х и состоянию автомата Л_х; нижний — таким же значениям х, но состоянию автомата Л+1. Пусть при x=xmin выход объекта Q(x) достигает минимума. Это значение x=xmin отме- чено отрезком, пересекающим ось х. В состояниях Л_х выход автомата равен —б, и поэтому х переходит в х—6; напротив, если автомат на- ходится в состоянии Л+1, то х переходит в х4~6. Далее, если х сме- няется на х±6, то в зависимости от знака разности AQ=Q(x±6)— —Q(x) состояние автомата Л сменяется или остается прежним (сме- няется при AQ>0 и остается прежним при AQ<0). В соответствии с графиком функции Q(x) (рис. 6.23) Q (х-|-6)—Q (х) > О Q (х -)- 6)—Q (х) < О Q (х—6)—Q (х) > О Q (х—6)—Q (х) < О при при при при Х4- ® > •’’min' X 4* ® < ^min» X < Xmin, X > Xmjn.
350 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ Сказанное позволяет указать, во что переходит любое из состояний (х, А;) системы. Именно, (х, Л_,) (х, Д+1) / (х-б, X_t), I (х-б, Д+1), J (х-|-б, Д+1), \ (x-f-б, Д_Д, если если если если х > xmin, х 'С хга1П, x + 6<xmin, x-H > xmin. В соответствии с этим граф смен состояний приобретает вид, по- казанный на рис. 6.25. Из него видно, что из любого начального состояния система приходит к периодическому движению, при кото- ром х колеблется возле точки xmin. Соответствующая этим колебаниям замкнутая фазовая траектория выделена более толстыми линиями. Максимальное уклонение точки х от точки xmin при этих колебаниях не превосходит 26. Таким образом, описанная система действительно осуществляет минимизацию выхода объекта, причем находит оптимальное зна- чение входа с точностью, не меньшей 26. Мо- жет ли такая система еще и отслеживать ми- JHHMyM при медленном его смещении? Ради простоты пусть дрейф минимума происходит за счет медленного смещения вправо или влево вдоль оси х графика функции Q(x). у Непосредственно ясно, что в этом случае Ми- V. ? нимум будет отслеживаться, если скорость его смещения меньше средней скорости 6/т изме- Рис 6.26 нения х справа и слева от xmin. Итак, точность поиска минимума лимитируется размером шага 6, а возможности слежения за смещающимся минимумом — величиной 6/т. Посмотрим, в какой мере сохранятся эти выводы, если учесть наличие ошибок в определении (измерении) функции Q(x). Учет этих ошибок приведет к тому, что величина AQ заменится на AQ+£, где £— случайная величина. Примем, что значения случайной величины на разных тактах работы автоматного оптимизатора незави- симы друг от друга и имеют некоторую плотность вероятностей, при- мерный график которой изображен на рис. 6.26. Замена AQ на AQ+S
§ 7. УПРАВЛЯЕМЫЕ МАРКОВСКИЕ СИСТЕМЫ 351 не вызовет изменений в работе оптимизатора, точнее, в очередной смене его состояния, если AQ и AQ-f-£ одного знака. В противном слу- чае такое изменение произойдет. Вероятности каждой из этих возмож- ностей могут быть легко найдены. Действительно, пусть система находится, например, в состоянии (х, Л^. Тогда AQ?=Q(x±6)—Q(x) и AQ и AQ+g имеют одинаковые знаки с вероятностью $ <p©^ = /’(?>-AQ) -AQ при AQ>0 и с вероятностью -AQ J q>(g)dg = P(g<-AQ) при AQ<0. Таким образом, вероятность того, что AQ и AQ+£ имеют одинако- вые знаки, зависит от точки х и состояния автомата Ait т. е. эта веро- ятность Р равна Р=Р(х, Лг). Вероятность того, что эти знаки разные, равна 1—Р(х, Лг). Таким образом, в каждом из состояний (х, Лг) автоматный оптимизатор имеет две возможности смены состояний: одна такая же, как была у него в отсутствие помех, и другая, отличаю- щаяся от нее состоянием автомата Л, поскольку разные знаки AQ и AQ+g влекут смену входа автомата Л с 4-1 на —1 и с —1 на +1. В соответствии с этим граф возможных смен состояний теперь уже
352 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ будет другим, вида показанного на рис. 6.27, а. На этом графе тол- стыми стрелками показаны переходы, такие же как и в отсутствие по- мех, а тонкими стрелками — новые переходы, вызванные ошибками измерений. Первые смены состояний назовем правильными, вторые — ошибочными. Вероятности правильных и ошибочных смен состояний известны. С удалением х от точки xmin вероятности ошибочных со- стояний убывают и практически при больших уклонениях х от точки xroin равны нулю. Напротив, для точек х, близких к xmin, при малом шаге поиска 8 вероятности ошибочных и правильных смен состояний близки друг к другу. Это означает, что теперь точность поиска мини- мума определяется не только величиной шага 6, но и тем, каковы вероятности ошибочных действий, тем, при каких отклонениях от xmin они становятся пренебрежимо малыми. Отсюда следует, что точ- ность поиска не может быть неограниченно увеличена за счет умень- шения шага 6, что теперь она лимитируется еще и ошибками изме- рений. Для решения вопроса о точности поиска нужно найти вероятности тех или иных ошибок поиска. В данном случае ошибки поиска носят случайный характер и ошибка характеризуется своим распределением вероятностей. При наличии ошибок измерений каждое из состояний (х, Л-J может перейти в состояние (х—6, Л „J с вероятностью р(х) и в состояние (х—-6, А+1) с вероятностью <7=1—р(х). Аналогично, каждое из состояний (х, Л+Д переходит в (хф-б, Л + 1) или (х+6, X_j) с вероятностями р(х) и д=1—/7(х) с0ответственно. Таким образом, перед нами марковская система с состояниями (х, Л;) и заданными ве- роятностями их смен, и для нее могут быть найдены возможные стаци- онарные распределения х. По возможности упростим их отыскание. Для этого примем, что ошибка измерения по величине не превосходит d и что |Q(x±6)—Q(x)|>d, если |х—xm!n|>6. Тогда ошибочные пере- ходы будут возможны только в конечном числе состояний (х, Л;), для которых |х—xmin|<;S. Граф возможных смен состояний будет иметь вид, представленный на рис. 6.27, б. На нем жирные стрелки изобра- жают «правильные» смены состояний, а тонкие — «ошибочные». Ясно, что после конечного числа тактов работы система приходит и остается в состояниях, очерченных на рис. 6.27, б кривой 3?. Их всего десять. Перенумеруем их и обозначим через ри р2, , рю вероятности на- хождения системы в каждом из них. Нумерация показана на рис. 6.27, б. Вероятности pt (i=l, 2, . . . , 10) меняются с каждым тактом работы оптимизатора. Их изменение происходит в соответствии с урав- нениями Р1 = Рз, Pi ~ Рв 4* <7з2рЗ> Рв = РвЗрЗ 4*Pit Pi ~ QiiPit Рв = ЯиРи Рв = Ра 4" Pupil Pi ~ Рю 4- PuPit Рв ~QiePit ~Р_а = Ръ> Р\3 — Рв- (7.1)
§7. УПРАВЛЯЕМЫЕ МАРКОВСКИЕ СИСТЕМЫ 353 Эти уравнения определяют точечное отображение девятимерного симп- лекса 2,(pi>0, Pi+p2+-..+pio= 1) в себя. Однако это ото- бражение при повторных применениях не стягивает его в точку. Это вызвано неэргодичностью рассматриваемой марковской системы (эр- годичность — см. § 4 гл. 2). В силу этого у этой марковской системы не имеет места сходимость при любых начальных условиях к одному и тому же предельному распределению вероятностей. Вместо этого имеет- ся сходимость к периодически меняющемуся с периодом 2 распределе- нию вероятностей, причем это предельное периодическое распределе- ние зависит от начальных условий. Допустим, что в начальный момент система находится в состоянии 1. Тогда соответствующее этим началь- ным условиям периодическое распределение вероятностей будет в од- ном такте иметь вероятности pi >0, р*2 > 0, рз* = 0, pt = 0, рз = 0, pj = 0, . р;>0, р8’>0, р;>0, р1о = О, '' а в следующем — вероятности Р1 “ 0» р2 = Рз > 0, р£ 0, рз > 0, у g Рб > о, р? = О, Рз' = 0, pt = 0, р*л >0. ' ' Затем — снова вероятности (7.2) и после них вероятности (7.3) и т. д. Вероятности (7.2) и (7.3) могут быть найдены из уравнений (7.1). Действительно, после двукратного повторения преобразования (7.1) вероятности (7.2) должны перейти в себя. Это приводит к уравнениям, из которых они могут быть найдены. Эти уравнения имеют вид Pl = PsiPl 4* Рз1р23р2> р2 ~Яз2р2 4“ Яз2р23р2 4" Рв + Р1вР1> Pl — Pi 4" РпЯмРЗ’ Рз = ЯзвЯззРзг Pt = ЯпР1’ Учитывая, что р{ 4-р2 4-Р? 4-Ре 4-Р» = 1, из них находим, что Р1 = Рз1Рз » Р? = ЯззРз* Рз — ЯмЯыРзг Pi = <715Р31Р2. Р2 = (1 4" Ри + Язз+ЯмЯи + ЯиРз!)"1- Аналогично находятся и вероятности (7.3). Тем самым находится предельный закон изменения вероятностей состояний автоматного оптимизатора, т. е. закон их изменения после некоторого достаточно длительного времени его работы, что в свою очередь определяет закон распределения вероятностей ошибок в определении минимума. Пример- ный вид функций распределения вероятностей в нечетных и четных тактах работы оптимизатора показан на рис. 6.28. Черные кружочки соответствуют нечетным тактам, светлые — четным. Для черных кру- жочков на рис. 6.28 указаны величины отвечающих им вероятностей. Перейдем к основному вопросу отыскания оптимальной стратегии управления марковской системой. С такой задачей в конкретных при- мерах мы уже встречались. Рассмотрим теперь ее в общей постановке. Пусть А2, ..., Ат — состояния марковской системы, Ui, и2, ..., иг — возможные значения управления, pij(us) — значения
354 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ вероятностей перехода из состояния А( в состояние Af- при управ- лении us, наконец, <7,,(«.,) — потери в системе при ее переходе из состояния Ai в состояние при управлении us. Вероятности Рц(и3) при различных i и j и фиксированном us образуют матрицу вероят- ностей смен состояний P(us). Аналогично, qi}-(us) образуют матрицу ®mi>n Рис. 6.28 потерь Q(us). Перечень состояний Л2, ..., Ат и задание матриц вероятностей переходов Р (и), потерь Q (и) с указанием всех возмож- ных значений управления и(иг, и2, .... иг) составляет полное опи- сание управляемой марковской системы с потерями или доходами. Если величина qu соответствует потерям, то —qti естественно назвать доходами. Задача управления марковской системой состоит в том, чтобы выбрать такую последовательность управлений, при которой ожидае- мые потери были бы минимальны, а ожидаемый доход максимален. Хотя сказанное и определяет цель, но не означает, что задача постав- лена, так как не сказано, какими сведениями и какой информацией мы располагаем при выборе управлений. А здесь возможны весьма раз- ные случаи. Возможны случаи, когда нам известно лишь начальное состояние и число шагов управления. Это соответствует программно- му управлению. Нам может быть все время известно текущее состояние, в котором находится марковская система, и число шагов управления. При этом, конечно, известно и начальное состояние. Это соответствует возможностям оперативного управления. Однако возможны случаи, когда наблюдение не дает достоверных сведений о состоянии марков- ской системы, а определяет их лишь с некоторыми вероятностями. При- менительно к дискретным детерминированным системам при наличии случайных возмущений и ошибок измерений был рассмотрен именно этот случай, и он привел к фильтру Калмана. Действительно, дискрет- ная динамическая система при наличии независимых случайных воз- мущений — это марковская система. Наличие ошибок в измерении не позволяет определить ее состояния, но позволяет найти их вероятно- сти. Это последнее и делает фильтр Калмана. Наконец, возможны случаи, когда нам лишь частично известно описание марковской системы или даже полностью неизвестно. На- пример, возможен случай, когда состояния наблюдаемы, т. е. под- даются определению, известно применяемое управление, но матрицы Р(и) и Q(u) неизвестны, а известны лишь потери системы при ее функ- ционировании, т. е. все время известно текущее, состояние, потери и
§ 7. УПРАВЛЯЕМЫЕ МАРКОВСКИЕ СИСТЕМЫ 355 применяемая стратегия. Все остальное неизвестно. Как в этом послед- нем случае организовать управление? Давайте вспомним задачу о комаре. Там предполагалось, что матрицы Р(и) и Q(u) известны. Но откуда, собственно, нам известна матрица Р(и)? Естественнее считать, что она нам неизвестна, и в этих условиях надлежит организовать управление, имеющее целью прихло- пывание комара. Как его организовать? Если бы мы имели дело с ко- маром один-единственный раз, то едва ли можно что-либо хорошее при- думать. Возможность что-то придумать возникает лишь в том случае, когда мы с комаром встречаемся достаточно много раз, и эти встречи могут нас чему-то научить. И вот теперь уже возникает задача о том, как использовать опыт этих встреч для организации поимки комара (управления). Такая постановка задачи управления соответствует тому, что при- нято называть обучаемым или адаптивным управлением. Ясно, что от хорошего адаптивного управления следует требовать, чтобы оно после достаточно длительного срока обучения становилось близким к оптимальному управлению при известном описании. В пределе при неограниченном времени обучения можно требовать, чтобы оно к нему стремилось. Но практически важно не только это. Важно еще, чтобы обучение проходило достаточно быстро, еще лучше — как можно быстрее. Собственно, и с этими вопросами мы уже встречались при обсуждении поисковой глобальной оптимизации с адаптивной стоха- стической моделью. Как мы видели, возникающие при этом оптимиза- ционные задачи необычайно сложны, и их непомерные трудности при- ходится обходить, прибегая к эвристическим соображениям. Таковы Pte. 6.29 Рис. 6.30 пределы возможностей современной науки об управлении. Но строить адаптивные обучаемые управления, стремящиеся к оптимальному управлению в условиях полной информированности об объекте, удает- ся, и во многих случаях это уже сделано. Перейдем к последовательному рассмотрению сначала задачи о по- строении (синтезе) оптимального оперативного управления марков- ской системой в условиях полной информации об объекте и затем в § 8 к такой же задаче в адаптивной постановке. Однако, прежде чем начать это рассмотрение, приведем наглядный пример, поясняющий преиму-
356 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ щества оперативного управления перед программным. Ясно, что эти преимущества растут с числом шагов, но обнаружить их можно уже при двух шагах. На рис. 6.29 изображены в виде дерева возможные последовательные изменения состояния А. На ребрах этого Дерева указаны доходы от соответствующих смен состояний. На следующих двух рис. 6.30, а и б показаны вероятности смен состояний при раз- личных управлениях и=—1 и и=+1 соответственно. Оптимальное оперативное управление в этом случае, как нетрудно видеть, следую- щее: в состоянии Л1 выбирается и=—1 либо и= + 1, в состояниях Л2 и А3 управление и равно соответственно —1 и +1. Его доход равен 1,5. Возможных программных управлений четыре: (1, 1), (1, —1), (—1, 1), (—1, —1). Доходы при всех этих программных управлениях одинаковые и равны 1. Разница между доходами оперативного опти- мального управления и оптимального программного управления рав- на 0,5. Таков дополнительный доход, который может быть получен от информации, которая используется при оперативном управлении и не используется при программном управлении. Иными словами таковы в этом конкретном примере потери управления, если оно эту допол- нительную информацию не использует. Рассмотрим теперь управление марковской системой на произ- вольном числе шагов п. Пусть начальное состояние Ait известно, а остальные А,г, ..., Ain возникают случайно при некоторых управ- лениях u/x, и1г, ..., uin_l. Каждое из управлений uis может выби- раться по всей имеющейся к этому времени информации, т. е. по Л(1, ..., Ais и и/х, так, чтобы минимизировать потери. Потери записываются в виде Q = + (7-4) и являются случайной величиной, т. е. разумно говорить о миними- зации средних ожидаемых потерь или их математического ожидания. Как найти это математическое ожидание? Можно было бы поступить так. При заданных u/t, и заданном начальном состоянии Л(1 по матрицам вероятностей P(uZ1), ..., Р найти вероят- ности каждого из состояний Л,2, ..., Л1п и в соответствии с этим вычислить математическое ожидание величины потерь Q в виде («JpG4,., AiJAit + 4in-iin )p(Ain-t, Ain/Ate .................(7.5) Если Минимизировать эти потери по переменным uJt, ..., ujn_v то будет найдено оптимальное программное управление. Дело в том, что при таком способе вычисления средних ожидаемых потерь и их минимизации не учитывается, что на s-м шаге нам известны все пред- шествующие состояния и управления, что выбор управления Ujs мо- жет это использовать. Для того чтобы это учесть, запишем математи-
§7. УПРАВЛЯЕМЫЕ МАРКОВСКИЕ СИСТЕМЫ 357 ческое ожидание потерь (7.4) в виде м(2=м{м?/1,1(«/1)Мч...+м9«,+1(и/^<-’ •••’ I 1 UJ\ UJi> • • > И/s («/„_,)/л;'’’ •••’ Ain-'. (7.6) u/i’ • • • > uin-i В этом написании М^+1(«ь)/Л/*.......Ais (7.7) означает, что математическое ожидание от случайной величины потерь qisis+l (uis) берется в предположении, что состояния Ait, ..., Ais из- вестны и известны управления и/„ ..., Ujs. Так как состояние известно, то при управлении и1} известны и вероятности смены со- стояния Ais на любое другое Л^+,. Эти вероятности равны Pists+l (ujs). В силу этого математическое ожидание (7.7) равно 2 ?4sis+t (UJs) Pisls+i (7-8) is+t=l Заметим, что при нахождении этого условного математического ожи- дания фактически используется из всей известной информации только то, что исходным состоянием марковской системы является состояние Ats. Это находит отражение в том, что величина (7.8) является не- которой функцией qs(Ais, ujs). Таким образом, ожидаемые потери могут быть записаны в виде М2 <7sHis> «/s)=S 2 <7,(Л(> uls)p(Ais, ujs). (7.9) [ s=l s=l is=l Это выражение математического ожидания потерь — лишь дру- гая форма его записи. Различие обнаружится в том, как ставится и должна решаться задача минимизации этих потерь. При програм- мном управлении следует указать управления и/,, мини- мизирующие (7.6) или (7.9). При оперативном управлении выбор значений uls (s= 1, 2, ..., п — 1) может производиться в зависимости от того, какие состояния Л;2, ..., Л<5 реализовались на самом деле и какие были использованы управления uZ1, ..., Это означает, что в сумме (7.9) в различных членах qs(Ais, Ujs) может быть взято не одно и то же общее для них всех значение управления Ujs, а возможен выбор для каждого из них своего. Ясно, что при таком более свободном выборе минимальное значение суммы (7.9) лишь в исключительных случаях не уменьшится. Перейдем к минимизации суммы (7.9), учитывая эту возмож- ность. Как осуществить эту минимизацию, подсказывает принцип динамического программирования Веллмана. Более того, в значитель- ной мере именно он подсказал запись ожидаемых потерь в виде (7.9). Но вместе с тем из возможности записи математического ожидания
358 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ потерь в виде (7.9) вытекает принцип динамического программирова- ния. Рассмотрим сумму (7.9) и обратим внимание на ее слагаемые, соответствующие s — n.— 1. Только в эти слагаемые входит управ- ление В остальных слагаемых суммы (7.9) его нет. Поэтому минимальное значение всей суммы (7.9) по этой переменной управ- ления ujni достигается тогда, когда минимальна эта выделенная часть суммы т gn-AAin-^ uln_i)p(Ain_l, (7.10) 61-1=1 Минимум этой суммы, учитывая, что для разных состояний Alt А2, Ат можно выбирать разными, достигается, когда в со- стоянии A!n_t управление выбрано из условия min gn-AA^, uSn_l), (7.11) in-i и поэтому “i„-t = gn-i(Ai„_t)- (7.12) Причем это имеет место независимо от предшествующих управлений и предшествующих состояний. Этот минимум определяется только со- стоянием системы после (п—2)-го перехода на (п—1)-м этапе. Итак, оптимальное управление найдено. Подставим его в сумму (7.10) и обозначим получившуюся величину через И, (Л(1, U/,, ..., Uin-t). Эта величина зависит только от указан- ных в ней переменных. Подставим ее в (7.9) вместо входящей в (7.9) суммы (7.10), т. е. запишем потери в виде п — 2 т S S qs(Ats, p(AtS’ uis)+V1(Ai,, uin-t)’ С7-13) S=1 ij-1 и опять обратим внимание на то, что переменная управления и-!п_г входит только в Vj и в часть впереди стоящей суммы, отвечающей s = n— 2. Поэтому опять оптимальное управление и1п_г находится из условия ( т min { 2 <7„-2(Л„_2, «/П_2)Р(ЛП_„ «/п-2) + У1(Лн> «а......им-2)- Uin-2 1.01-2=1 (7-14) Как и в предыдущем случае, отсюда следует, что Ujn_t = gn-AAi„-J (7-15) и что минимум этой суммы при таком выборе управления и1п_г равен V2(Alt, Uji, uin_,). Ясно, что описанный процесс может быть шаг за шагом про- должен и последовательно будут найдены управления U/„_s, •••> «/,
§ 7. УПРАВЛЯЕМЫЕ МАРКОВСКИЕ СИСТЕМЫ 359 в виде (7.16) для s=n—3, п—4, . . 1. Таким образом, оптимальное оперативное управление согласно (7,12) и (7.15) имеет вид (7.16) на всех шагах управления, а мини- мальные ожидаемые потери определяются величиной Е^-ДЛ,,), за- висящей только от исходного состояния Ак управляемой марковской системы и общего числа шагов управления п—1. Тем самым вопрос об оптимальной оперативной стратегии управле- ния марковской системой полностью решен, и установлено, что на каждом s-м шаге ($=1, 2,..., п—1) оптимальная оперативная стратегия управления определяется только текущим состоянием A is управляемой марковской системы. Что происходит с оптимальной оперативной стратегией управления при неограниченно возрастающем п, т. е. при очень длительном или неограниченном функционировании системы? Естественно думать, что при возрастании п стратегия выбора управления Ujs на s-м шаге имеет предел, причем, если этот предел есть, то он уже будет один и тот же при любом конечном s. Действительно, оптимальная стратегия на s-м шаге зависит от п, так что вместо (7.16), уточняя этот факт, запишем “is = gs(n, Ais). (7.17) Далее ясно, что “ls = gi(n—s+l, Ati = Ais). (7.18) Это следует непосредственно из принципа динамического программи- рования или, что то же самое, из того, как находятся эти стратегии, поскольку находятся они в соответствии с изложенным совершенно одинаково. Из (7.17) и (7.18) при п->оо следует, что «Л= Um g1(n—s-J-1, Aj = g(4.j, (7.19) n <ю и поэтому в предположении существования предела стратегия управ- ления действительно на всех шагах одинакова. План дальнейшего состоит в том, чтобы сначала, приняв при не- ограниченной длительности управления предположение об одинако- вости оптимальной оперативной стратегии управления на всех шагах, найти эту стратегию, а уж затем непосредственно показать, что луч- шей, чем эта найденная, нет. Итак, примем, что на всех этапах управ- ления u = g(Ai)- (7-20) Для отыскания среди стратегий вида (7.20) оптимальной нужно найти соответствующие ей потери и минимизировать их. Эти потери или, точнее, математическое ожидание потерь можно было бы найти, исходя из того, что при стратегии (7.20) управляемая марковская система фактически превращается в некоторую марковскую систему с задан-
360 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ ной неменяющейся матрицей вероятностей переходов, и поэтому в пред- положении ее эргодичности вероятности состояний стремятся к не- которым предельным значениям р±, р*т и соответственно математи- ческое ожидание потерь на каждом шаге стремится к величине т 2 PiPij(u) qtj(u) — q* (7.21) I, / = 1 Стратегия (7.20), дающая наименьшее значение этой величине, и есть оптимальная стратегия управления. Однако, кроме этого пути, мож- но указать и более удобный путь вычисления q*. Пусть V/(n) — ожи- даемые потери за п переходов из начального состояния Xj при стра- тегии (7.20). Непосредственно ясно, что т vj (п +1) = 2 {<?/,- (и) Pji («) + Pji (и) V; (п)}, (7.22) i=i так как потери за (п+1)-й шаг можно мыслить как потери за один такт, а затем еще за п. Потери за один последний шаг равны Wj (п -f-1) = (п 4-1)—(п) и при п->оо, согласно сказанному, независимо от / должны стремить- ся к q*. Из предельных соотношений lim {//(« +1)-К/(п)} = <?*• (7.23) П -*• <Ю вытекает, что любая из разностей Vs(n)—Vk(n) при возрастании п стремится к некоторой постоянной. Воспользуемся этим, чтобы найти q* непосредственно из соотно- шения (7.22). Для этого, вычитая из обеих частей (7.22) Vj(n), запишем (7.22) в виде т Vy(n4-1)— Vj(n)= 2 {qji(u)рл(и) + рл(и)(У{(и)—У^(и))} (7.24) и, переходя к пределу при п->оо, придем к уравнениям вида т Я* = q} (и) + 2 рл (и) v{j, (7.25) i=i где Vj — некоторые постоянные и введено обозначение </у(и) = т = 2 <7л(и)Рц(и}- Для того чтобы из уравнений (7. 25) можно было найти ожидаемый доход за шаг, обратим внимание, что среди посто- янных Vfj только п—1 независимых, и поэтому имеем п уравнений для определения п неизвестных.
§7. управляемые марковские системы 361 Действительно, «//= (“)—Ъ(«)) = - lim Vs(u)) — lim (7у(и)—Vs(u)) = vls—vJs. П-* <» П -* co Фиксируем индекс s и ради краткости опустим его в обозначениях неизвестных постоянных vls и vis, что приведет к Записи (уравнений (7.25) в виде т q* = (и) 4- 2 Рл (u)Vi — Vj. (7.26) Среди неизвестных vt (i= 1,2,..., т) только tn—1 независимых, так как t\=0. Таким образом, из уравнений (7.25) можно найти q* и постоян- ные vt. Теперь возникает задача минимизации q* по стратегиям управ- ления (7.20). Можно было бы из уравнений (7.26) исключить неизве- стные постоянные и,- и найти явную зависимость потерь q* от страте- гии управления и затем найти оптимальную стратегию из условия ми- нимума потерь. Однако при большом т получающееся для q* выраже- ние весьма громоздко и трудно вычислимо. В этой ситуации можно поступить несколько менее прямолинейно, организовав итеративный процесс, состоящий из последовательных вычислений постоянных vt и минимизаций дохода q*. Первый такой процесс был предложен Хо- вардом. Он представляет собой неоднократно повторяемый цикл, в котором сначала находятся из уравнений (7.26) неизвестные vit затем при этих значениях неизвестных оптимизируется величина q*. Этот итеративный процесс оптимизации стратегии управления затем видоизменялся и модифицировался с целью упрощения и ускорения необходимых вычислений. Остановимся на методе Ховарда подробнее. Он состоит в многократ- ном повторении цикла в котором по стратегии (7.20) вычисляются q* и vt (i=l, ..., tri), а за- тем при найденных q* и vt находится новая стратегия (7.20) из усло- вия минимумов. После этого цикл повторяется до тех пор, пока ни одно из выражений m <fr(«)+S PiA“)Vj (i = 1, 2, .. tn) (7.28) /=i
362 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ уже не может быть уменьшено за счет изменения стратегии (7.20). Обоснование этого метода состоит в том, что до тех пор, пока цик- лы не закончатся, потери q* уменьшаются, и поэтому процесс за- канчивается в конечное число циклов, и в том, что стратегия, при которой повторение циклов закончилось, является оптимальной. Пусть в соответствии с циклом Ховарда по стратегии иА находятся q*A и vf, затем по q*A и vf находится новая стратегия ив, по кото- рой в свою очередь — новые qtB и vB. При этом т т q'iA+ %Р?^^В + 2 pfrf, (7.29) /=i /=1 поскольку новая стратегия ив минимизирует выражения (7.28) при Vj = vf. Неравенства (7.29) запишем в виде <^-^+2 (pg-pW = Y/<°- (7.30) 7=1 Описанный циклический вычислительный процесс заканчивается, если все у,-=0; если хотя бы одно у;<0, то процесс продолжается. Да- лее имеют место уравнения т т q*A — qf + У] pfiuf— vf, q*B=qf+^pBvf—v? (7.31) /=1 /=1 (i = 1, 2, ..., tn). Из этих систем уравнений следует, что т т kq* = q*B—q*A:=qB—qj+ £ pBvB — pqvf—v? + vf = /=1 т т = <7В —<7Л+ 2 (рв~ PAi)vf + 2 PB(vB—vf)—(vf—vf), 7=1 /=1 или, используя (7.30), что т д<7*^=7,- + 2 pB(vf—vf) — (vf—vf). (7.32) /=1 Теперь пусть р*в — стационарные значения вероятностей, отвечаю- щие стратегии ив. Умножим каждое i-e уравнение (7.32) на р*в и т сложим их. Учитывая, что V найдем, что ;=1 т т гп т А<7*= 2 yiPiB+ 2 р£рЖ-^)- 2 р'в^-п*)= 2»ър1в. (7.33) 7=1 (,/• = ! 1=1 7=1 Это имеет место в силу того, что по определению р*в удовлетворяют уравнениям т р;в=2р£р;в- (7.34)
§ 7. управляемые марковские системы 363 По предположению марковская {система эргодична, и поэтому все вероятности р*в > 0. Теперь из (7.33) непосредственно следует, что до тех пор, пока повторение циклов не закончится, действительно происходит уменьшение потерь (Д<?* < 0). Осталось показать, что если все у(- = 0, то стратегия иА оптимальна, т. е. не существует стратегии ив, для которой Л<?* < 0. Пусть теперь ив—любая стратегия. Для нее т т qB + 2 pfyf > qt + 2 pfyf. (7-35) /=i /=i Эти неравенства противоположны неравенствам (7.29), и поэтому, повторяя прежние вычисления, придем к (7.33), с той лишь раз- ницей, что теперь все у(- 0, т. е. для любой стратегии ив, отлич- ной от иА, согласно (7.33), т л?* = 2 > °, i=l н, следовательно, стратегии, дающей потери, меньшие чем стратегия иА, нет, иА — оптимальная стратегия. | Рассмотрим теперь задачу управления марковской системой в более общей постановке. Именно, пусть непосредственное определение со- стояния объекта — управляемой марковской системы — недоступно, а вместо этого имеется система наблюдения (измерения), которая вы- дает величину у, связанную с возможными состояниями Аи А2, ... ..., Ат статистически, в виде плотностей вероятности P(yMt-) (i = l, 2, (7.36) Значения у, поступающие в систему управления, и есть теперь та информация, по которой должно определяться управляющее воздей- ствие и. Как и ранее, пусть матрицы Р(и) и Q(u) известны. Дальнейшее нисколько не изменится, если предположить, что матрицы Р(и) и Q(u) для разных шагов разные. Ничего нового не внесет и предположе- ние различности плотностей вероятностей (7.36) на разных шагах из- мерения. Управление и можно считать непрерывным вектором — это тоже не внесет никаких изменений. Результатом наблюдения состоя- ния объекта управления может быть не непрерывная величина у, а одна из нескольких ситуаций Clt С2, ..., Сг. Этот случай также укла- дывается в описанную схему, если допустить, что плотности вероят- ностей (7.36) могут быть суммами 6-функций. Описанная задача управления марковской системой при косвенных наблюдениях ее состояния близка к рассмотренной ранее задаче об управлении детерминированной системой при наличии возмущений и ошибок измерений. Близка в том смысле, что случайные возмущения превращают детерминированную систему в стохастическую марков- скую, а ошибки измерения делают недоступными определение ее со- стояний. Вместе с тем поставленная сейчас задача является более об-
364 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ щей. Эта большая общность состоит в отказе от линейности, в отказе от квадрэтичности функционала потерь, в отказе от линейности из- мерителя, в отказе от нормальности возмущений и ошибок измерений. Однако есть и некоторое сужение — это предположение о конечности числа состояний управляемой марковской системы. Это огра- ничение не является принципиальным, од- нако отыскание оптимальной стратегии при очень большом числе состояний представ- ляет собой практически неразрешимую за- дачу. Задача усложняется и с ростом числа возможных стратегий. Вместе с тем, если метод Ховарда хорошо справлялся с системами, име- ющими несколько десятков состояний, то уже сейчас разработаны ускоренные рекуррентные процедуры, справляю- щиеся с несколькими тысячами состояний. Перейдем к рассмотрению поставленной задачи об оптимальном управлении марковской системой с потерями при косвенных вероят- ностных наблюдениях ее состояний. Рассмотрим (п— 1)-шаговый процесс управления. В соответствии со сказанным и структурной схемой на рис. 6.31 управляющее воз- действие us на s-м шаге процесса управления определяется, исходя из данных настоящего ys и предшествующих у*-1, ..., у1 измерений; Знание управляющих воздействий и результатов измерений позволяет найти вероятности р°, ps2, ..., psm состояний Л2, ..., Ат на s-м шаге. Эти вероятности могут быть найдены последовательно, исходя из рекуррентной формулы p(y = y'Mf)2>«1 С"5'1) Pk'1 =2 р (у=у^/л f) Р171 (и- *) рГ1 ’ (7'37) 2 k непосредственно вытекающей из формулы Байеса. В этой формуле —вероятности смены на (s—1)-м шаге состояния Ак на А(- при управлении u*-1, 2 Р171 (us-1) РГ1— априорная вероятность со- стояния А; перед следующим s-м шагом. | Для отыскания оптимальной оперативной стратегии управления будем исходить из принципа динамического программирования Велл- мана. На последнем шаге оптимальное оперативное управление долж- но минимизировать ожидаемые потери на (п—1)-м шаге, равные (7.38) Пусть минимум достигается при (7.39)
§7. УПРАВЛЯЕМЫЕ МАРКОВСКИЕ СИСТЕМЫ 365 и равен Vi(pn-i). (7.40) В формулах (7.39) и (7.40) рга-1 обозначает вектс.р с компонентами р"~г, ...,р^р1. Этот вектор р"-1 определяется через вектор рп-2 и результат измерения у = уп-1 и управление и"-2 формулой (7.37). При переходе к предыдущему (п—2)-му шагу нам известен вектор р"-2 и управление «п-2, но результат измерения у = уп-1 неизвестен. Он является случайной величиной, плотность вероятности которой равна р (у = ул-1/рл-2> «л~2) = S pVp (у = y”-1Mfc, «л~2)- Ожидаемые потери на (л—2)-м и (п—1)-м шагах слагаются из по- терь на (п—2)-м шаге, равных 2 Pk~V («л'2), (7.41) k,i и ожидаемых потерь на оставшемся до конца процесса (п—1)-м шаге, равных J РДр"'1 (рл“2, У"-1, ил~2) р ип~2) (7-42) Эти суммарные ожидаемые потери зависят от вектора ря-2 и выби- раемого управления и"-2. Согласно принципу динамического про- граммирования управление и"-2 следует выбрать из условия мини- мальности этих ожидаемых потерь. Согласно этому «я''2-^-2(Рл"2). (7.43) Соответствующие ожидаемые минимальные’потери, зависящие от рл-2, обозначим через У2(РЛ-2). (7.44) Аналогичным образом, рассматривая (п—3)-й переход, находим оптимальное управление w"~3, затем таким же образом un~i и так далее вплоть до и1. Таким образом, оптимальная стратегия управле- ния на любом s-м шаге находится через соответствующий вектор р5 вероятностей состояний, а сам вектор р* вероятностей состояний находится по формулам (7.37) в зависимости от предыдущего век- тора вероятностей р*-1 принятого ранее управления и*-1 и текущего результата измерения ys. Рассматривая структуру алгоритма получения оптимальной стра- тегии, обнаруживаем, что он распадается на две части. Одна часть состоит в последовательном определении векторов вероятностей со- стояний р1, р2, ..., р"-1 по управлениям и1, и2, ..., и4"1 и результа- там измерений у1, у2, ..., уп~г. Это последовательное определение векторов р1, р2, ..., рп-1 основывается на знании вероятностей смены
366 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ состояний марковского объекта управления и корректировке вероят- ностей новых состояний по результатам измерений в соответствии с формулой (7.37). Вторая часть состоит в определении оптимальных управлений us по векторам вероятностей состояний р*. При этом то, как управление us находится по вектору р5, не зависит ни от пред- шествующих управлений, ни от результатов измерений, т. е. зависи- мость us от предшествующих управлений и измерений реализуется целиком через вектор ps. Это расщепление алгоритма определения оптимальной стратегии управления на две части соответствует тому, что ранее было обнаружено при решении задачи об оптимальном управлении линейным детерминированным динамическим объектом при наличии случайных воздействий и погрешностей измерения. При этом последовательное определение векторов р1, р2, .. ., р"-1 соответ- ствует фильтру Калмана, определяющему оценки состояния и дис- персии этих оценок, а возможности отыскания оптимальной страте- гии управления и1 по вектору р5 соответствует имевшая место возможность отыскания оптимального управления us по оценке состояния Xs. Вместе с тем, если ранее эта зависимость носила линейный характер, то теперь связь между us и ps может быть более сложного вида. Пожалуй, самый существенный вывод из этого состоит в том, что роль, которую играло фазовое состояние в определении оптимальной стратегии детерминированной системы, сохраняется для стохастиче- ской динамической системы. Это выявилось, как только была рассмот- рена задача управления стохастической системой в достаточно общей постановке. Это не обнаружилось при рассмотрении частной задачи, приведшей к калмановской фильтрации и теореме разделения, лишь в силу ее частного характера, состоящего в нормальности распределе- ний, линейности и квадрэтичности потерь. Однако этот частный ре- зультат не противоречит общему выводу. Более того, он подтверждает его, хотя и не выявляет в полном виде. Действительно, в силу нормаль- ности распределений возмущений и ошибок измерений и линейности объекта и измерителя ^последующие состояния оказываются случай- ными величинами, также распределенными по нормальному закону. Нормальное распределение замечательно тем, что оно полностью опре- деляется своим математическим ожиданием и дисперсией, и поэтому в этом случае они играют роль фазового состояния. В силу этого ре- куррентному пересчету фазовых состояний отвечает определяемый фильтром Калмана пересчет математических ожиданий и дисперсий. Оптимальная стратегия должна в общем случае определяться как функция математического ожидания и дисперсии, однако в силу квад- ратичности функционала потерь оказывается зависящей только от ма- тематического ожидания. Итак, оптимальная стратегия управления — это всегда стратегия, определяемая по фазовому состоянию объектов управления. Таков наш вывод, еще раз подчеркивающий роль общего понятия фазового со- стояния для теории управления.
§ 7. УПРАВЛЯЕМЫЕ МАРКОВСКИЕ' СИСТЕМЫ 367 С общей точки зрения детерминированные динамические системы являются весьма частным специальным случаем стохастической мар- ковской динамической системы. Поэтому факт определимости опти- мальной стратегии детерминированной системы ее фазовым состоянием есть лишь весьма частный случай общего факта определимости опти- мальной стратегии через фазовое состояние. Это как бы стирает раз- личия между детерминированными и стохастическими системами и де- лает первые просто частным случаем вторых. При общем подходе даже неясно, в чем же различие между фазовым состоянием детерминирован- ной и стохастической марковской системы. Да и есть ли оно? В рамках принятой математической модели динамической системы его нет. Это различие следует искать за пределами этой формализации и идеали- зации. Оно тотчас обнаруживается, как только мы, помимо самого объекта, рассмотрим еще наблюдающую и измеряющую его систему. А для теории управления это совершенно необходимо в такой же мере, как и наличие возможности управляющих воздействий, внешних для объекта управления. И вот уже в этих более широких рамках — объект управления, управляющие воздействия и система наблюдения — воз- можно выяснение, в чем же специфика детерминированных систем по отношению к стохастическим. Однако прежде всего следует формали- зовать понятия внешнего воздействия, в частности управляющего, на динамическую систему и понятие ее наблюдения и измерения. Изолированная динамическая система обладает состоянием, и его изменение определяется некоторым оператором, так что х = /(х). (7-45) Это имеет место в отсутствие внешних возмущений, в условиях изоли- рованности от них, и это в равной мере относится как к детерминиро- ванным, так и к стохастическим системам. При наличии внешнего воз- действия, назовем его и, (7.45) заменяется на х = /(х, и). (7.46) Фактически (7.46) является определением внешнего возмущающего воздействия. Внешнее воздействие это то, что вызывает дополнительное изменение состояния по отношению к его изменению в изолированной системе. Под наблюдением и измерением динамической системы по- нимается получение некоторой величины у, как-то связанной с состоя- нием системы х. Что такое у и как оно связано с х — зависит как от наблюдаемой динамической системы, так и системы наблюдения и из- мерения. | При полном наблюдении детерминированной динамической систе- мы у=х или во всяком случае у определяет х. При полном наблюдении стохастической марковской системы у определяет ее состояние (не фазовое). Пусть у и есть это состояние. С точки зрения формальной теории все возможные значения у это и есть состояния (не фазовые) марковской системы. Наблюдение детерминированной системы не влечет никаких изменений ее фазового состояния. Для стохастической
368 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ системы это не так. Наблюдение стохастической системы влечет изме- нение ее фазового состояния. Так, если стохастическая система нахо- дилась в фазовом состоянии х (хъ х2, ..., хт), где xlt х2, ..., хт — ве- роятности ее состояний Ль А2, ..., Ат, то после полного наблюдения, в результате которого получено значение уь отвечающее состоянию АI, ее фазовое состояние будет х(0, ...,хг = 1,0, ..., 0). При неполном наблюдении детерминированной динамической систе- мы результат измерения у уже не определяет ее х, а лишь как-то огра- ничивает возможные его значения. При точном неполном измерении это функциональные ограничения; при неточном — они носят вероят- ностный характер. Само фазовое состояние х при этом остается неиз- менным. При неполном наблюдении стохастической системы возможны слу- чаи получения точных данных или только вероятностных. Однако те- перь получение этих данных влечет изменение фазового состояния ди- намической системы. Попробуем на основе этих общих сведений фор- мализовать понятие наблюдения и измерения состояния динамической системы. Наблюдение динамической системы дает некоторую величину у. Одновременно с этим фазовое состояние х заменяется на х = £(х, у). (7.47) Соотношение (7.47) можно рассматривать как формализацию систе- мы наблюдения и проводимых ею измерений. В зависимости от конк- ретных видов динамической системы и наблюдающей ее системы воз- можны различные конкретные виды соотношений (7.47). С некоторыми из них мы'познакомились выше. Для детерминированных систем х=х, в этом и состоит их отличительная особенность. Заметим, что возможно построение и более общей формализованной схемы измерения, учитывающей еще и собственные состояния системы измерения. Соотношения (7.47) по отношению к ней будут соответство- вать случаю, когда система наблюдения имеет лишь одно внутреннее состояние. Подчеркнем, что система наблюдений предполагается идеальной, не оказывающей прямого воздействия на динамическую систему. Из- менение состояния, которое может вызвать наблюдение, носит не сило- вой (физический) характер, а информационный. Измерение дает до- полнительную информацию о состоянии и тем самым его меняет. Для детерминированной системы эта информация не может ничего изменить, так как и без нее описание полное, не допускающее уточнения. Соотношение (7.47) означает, что закон изменения состояния дина- мической системы определяется не только ею самой и внешними воз- действиями, но и системой наблюдения, что по отношению к разным наблюдателям состояние динамической системы может меняться по- разному. Формально систему наблюдения можно трактовать как об- ратную связь и изобразить структурную схему объекта с системой на-
§ 7. УПРАВЛЯЕМЫЕ МАРКОВСКИЕ СИСТЕМЫ 369 блюдения в виде, показанном на рис. 6.32. Согласно (7.45) и (7.47) состояние х наблюдаемой системы меняется в соответствии с формулой x = 7?(f(x), у). (7.48) При наличии управляющих воздействии^(7.45) заменится на (7.46) и (7.48) примет вид _ x = /?(f(x,u), у). (7.49) Такова трансформация оператора динамической системы по отношению к наблюдателю. При этом х есть хотя и не непосредственно наблюдае- мое состояние динамической системы, но все же то, которое наблюда- тель может определить по результатам измерений у, если ему известны Рис. 6.33 Рис. 6.32 оператор объекта управления, преобразователь состояния системы наблюдения и начальное состояние объекта. Это означает, что в прин- ципе наблюдатель может организовывать свое управляющее воздей- ствие, исходя из знания состояния х объекта управления. Чтобы непосредственно перейти к вопросу об управлении в соот- ветствии с некоторой целью, необходимо еще несколько полнее описать систему измерения. Выше был отражен тот факт, что получение дан- ных измерения у меняет оператор динамической системы. Осталось от- разить еще тот факт, что результат измерения связан с состоянием х наблюдаемой системы. Эта связь состоит в том, что состояние х опре- деляет распределение вероятностей возможных результатов измерения у. Обозначим плотность вероятностей у через р(у), и тогда p(y) = Sx. (7.50) «Преобразователь состояния» (7.47) и «образователь (генератор) из- мерений» (7.50) составляют описание системы наблюдения. Описание динамической системы вместе с системой измерения со- держится в (7.49) и (7.50). С точки зрения этого описания объект управ- ления имеет две обратные связи: одну через систему управления путем воздействия и и другую через систему измерения путем воздействия у (рис. 6.33). Система наблюдения в структурной ’схеме на рис. 6.33, соответ- ствующей (7.49) и (7.50), выступает как генератор случайной величи-
370 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ ны у, генерируемой в соответствии с плотностью вероятностей р(у), определяемой состоянием динамической системы х. Система управления выбирает управляющее воздействие и в соответствии с целью управле- ния на основании поступающих в нее данных у системы измерения (на- блюдения). Имеется в виду, что система управления может использо- вать все поступившие в нее результаты измерений как в данный мо- мент, так и в предшествующие. Допустим теперь, что цель управления состоит в минимизации аддитивного функционала вида п Q= S <7s(x\ и‘). (7.51) s = 0 В случае, когда Xs—состояние детерминированной системы, <?5(xs, и*)—функция от вектора состояния х5; если же Xs—состояние сто- хастической системы, то Xs—фазовое состояние, т. е. функция рас- пределения вероятностей состояний системы (не фазовых), тогда qs(xs)—функционал от Xs, имеющий, как правило, смысл математи- ческого ожидания некоторой функции состояния объекта управле- ния. Однако вид записи потерь (7.51) в обоих случаях одинаков. Задача синтеза оптимальной стратегии состоит в отыскании управляющего воздействия и, минимизирующего потери Q. Допустим, что У„_5(х5)— минимальные потери при оптимальном управлении из начального состояния объекта Xs в течение п—s тактов. Заранее ни из чего не следует, что эти минимальные потери определяются только состоянием Xs. Это безусловно верно лишь при s = n, по- скольку, согласно (7.51), эти потери равны min qn (хп, u") = Уо (хп). и« Допустим теперь, что наше предположение верно для некоторого s, и покажем, что оно верно для s, на единицу меньшего, т. е. для s—1. Потери, начиная с (s—1)-го такта управления до последнего n-го так- та, равны и»'1).^.^) (7.52) и, согласно (7.49), могут быть записаны в виде q^^1, «’-Ж-Ж*5’1. u5’1)- ys)- (7-53) Эти потери являются случайной величиной, поскольку ys случайно. Поэтому минимизацию потерь (7.53) следует понимать как минимиза- цию их математического ожидания, равного <7s-i (х*-1, u,-1)4-^ Vn_s (R (f(x*-1, и*-1), ys)Sf(xs~1, ui-1)dys. (7.54) Здесь Sf(xs"1, и*-1) в соответствии с (7.50) обозначает плотность вероятностей результата измерения ys. Выражение (7.54) зависит от х*-1 и и5-1. Минимизируя его по управлению ui-1, находим, что u,s"1 = gr5-i(x's"1) (7-55)
§8- АДАПТИВНОЕ УПРАВЛЕНИЕ 371 и что минимум потерь (7.54) при этом значении управления зави- сит только от фазового состояния х*-1, т. е. равен V„_s+1(x's-1). Согласно сказанному последовательные минимальные потери ^n-s+l (X,S Х) и Vn_s(xs) связаны соотношением V„_i+1(x-1) = = min'[<7J (х5-1, (/ (х*-1, и1-1), ys)Sf(xs~\ us~r) dys}. (7.56) При этой оптимальной стратегии управления (7.55) изменение фазово- го состояния происходит, согласно (7.49), в соответствии с соотноше- нием xi+1 = £ (f (х\ gs(x‘)), у5+1)> (7.57) где у*+1 — случайная величина с плотностью вероятностей p(ys+1) = = Sx's+1. По отношению к этому подходу рассмотренные выше задачи оптими- зации управления являются его частными случаями. Однако и в этом общем случае оптимальная стратегия управления является некоторой функцией фазового состояния объекта управления с учетом наблюдаю- щей его системы. Естествен вопрос: а не является ли этот вывод след- ствием вида функционала потерь? Конечно, такой вид функционала потерь достаточно общий. Но что будет при других его видах? Оказы- вается, что процедура поиска оптимальной стратегии весьма услож- нится, но факт определения оптимального управления только через фазовое состояние сохранится. Это заведомо так для функционалов по- терь вида n-k 2 <7s(xs,..., xs+k', tr5,..., ui+fe)-|-<7n_ft_1(x',~ft“1,..., x"; u"-6-1,..., un)-|- s = 0 -f-... + (x«, u«) (7.58) и устанавливается по такой же схеме, как и в рассмотренном выше слу- чае, отвечающем k=Q. По своей форме записи формулы (7.48), (7.49) и все последующие не содержат явной зависимости от времени. Это не относится только к функционалу потерь (7.51), где такая зависимость отражена. Ясно, что все сказанное нисколько не изменится, если эту возможность явной зависимости от времени всюду учесть соответствующим индексом. Но можно сказать, что эта зависимость уже учтена через состояние Xs, если в него явно ввести еще и время, § 8. Адаптивное управление Выше рассказывалось, как можно найти оптимальную стратегию управления динамическим объектом. Оказалось, что оптимальное управление — это некоторое оперативное управление по состоянию объекта управления. Это справедливо для любой динамической систе-
312 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ мы и любой цели управления, которая может быть сформулирована как минимизация аддитивного функционала состояния объекта управ- ления. Итак, оптимальное управление — это управление по состоянию. Следовательно, состояние — это необходимая и достаточная информа- ция для оптимального управления по любому аддитивному критерию качества. Этот общий факт делает понятие состояния динамической системы одним из важнейших общих понятий теории управления, центральным ее понятием, делает управление синонимом самовоздей- ствия, синонимом обратной связи, которая в силу этого оказывается универсальным средством управления. Итак, всякое целенаправленное управление — это управление по состоянию, по состоянию той динамической системы, в рамках которой ставится эта цель, и поэтому оно записывается в виде u = g(x), (8.1) где х — состояние, а и — управляющее воздействие. Однако запись стратегии управления в виде (8.1) хотя и является очень важным общим фактом, но не означает, что эту стратегию легко найти и реализовать в каждом конкретном случае. На пути фактиче- ского отыскания стратегии управления и ее реализации стоит немало трудностей, и не только вычислительного плана. Это еще трудности фактического определения состояния и трудности, вызванные отсут- ствием достаточно полной и точной математической модели объекта управления, а подчас и очень скромными о нем сведениями. Объект управления может быть недоступен, очень сложен или изменяющимся непредсказуемым образом. О возможных путях преодоления первой трудности уже говори- лось — это статистическое оценивание и фильтрация. Вторую труд- ность предстоит обсудить. Это обсуждение приведет к адаптивному управлению, к системам управления, способным строить в результате адаптации и обучения оптимальное управление любым объектом из некоторого класса. Приятно наблюдать езду на велосипеде: быстр и легок его бесшум- ный бег. Но не так просто его покорить: новичок, с трудом взгромоз- дившись на велосипед, как правило, тотчас падает. Езде на велосипеде нужно учиться. Человек и цирковые животные после того или иного срока обучения овладевают этим и хорошо ездят, не прибегая ни к тео- рии управления, ни к изучению математической модели велосипеда. Так что, по-видимому, этому может научиться и автомат, и мы хотим узнать, каким он должен быть и как он учится. Не нужно думать, что теоретический анализ задачи управления велосипедом и понимание его результатов не облегчают обучение: облегчают и очень значительно. Сейчас дети и подростки очень быстро и легко осваивают велосипед, легко и просто постигают основной принцип управления им: куда па- даешь, туда и поворачивай руль, хотя еще в прошлом веке все это было
§8. АДАПТИВНОЕ УПРАВЛЕНИЕ 373 очень и очень непросто. Недаром Марк Твен так красочно описал зло- ключения начинающего велосипедиста. Приступим к задаче обучения езде на велосипеде. Цель обучения ограничим обеспечением его устойчивости: велосипед не должен падать. В соответствии с этой) ограниченной целью нужно найти автомат (ро- бот, систему управления), который, нужным образом поворачивая руль, стабилизирует неустойчивый велосипед и предотвращает его падение. При этом не обязательно, чтобы автомат сразу же хорошо управлял велосипедом, можно разрешить ему немного поучиться. Если математическая модель велосипеда известна, то требуемая для стабилизации велосипеда стратегия автомата легко находится и в обучении нет никакой необходимости. Действительно, в приемлемом приближении угол наклона велосипеда 0 связан с углом и поворота руля дифференциальным уравнением вида 9—со29 =— аи—(8.2) где и2, а и Р — заданные положительные параметры. Будем поворачивать руль велосипеда в соответствии со стратегией и = аВ. (8.3) При этом угол 9 наклона велосипеда изменяется в соответствии с диф- ференциальным уравнением 9-f-aP94-(aa—<о2) 9 = 0, (8.4) из которого следует, что 0->О, если только а>а* = й2/а. (8.5) Таким образом, автомат, осуществляющий стратегию (8.3) при усло- вии (8.5), делает велосипед устойчивым. Пусть теперь известен общий вид математической модели велосипе- да (8.2), но параметры и2, a, Р неизвестны, т. е. они могут быть любы- ми положительными. В этом случае указать требуемую стратегию (8.3) нельзя, поскольку значение а может оказаться недостаточно большим. Но можно указать простой путь подбора подходящего зна- чения параметра а, например, увеличение его на некоторую величину после каждого падения. Ясно, что после конечного числа падений ав- томат «научится» не падать. А как быть, если общий вид математической модели велосипеда неизвестен? Если ничего неизвестно, то почему же это велосипед? Тогда это что угодно, и задача обучения непомерно сложна, если не безнадежна. Поэтому что-то знать о велосипеде необходимо. Что-то знать — это значит уметь указать в множестве всех мыслимых объек- тов управления подмножество 9)1, к которому принадлежит велосипед. Для каких-то элементов множества 9)1 могут быть указаны требуемые стратегии управления, для каких-то нет. Для велосипеда можно при- нять, что такая стратегия всегда есть. Тогда каждому элементу мно-
374 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ жества ЯП соответствует некоторая стратегия управления, и все эти стратегии образуют некоторое множество В. Если не для всех моделей множества ЯП существует требуемая стратегия, то под множеством® будем понимать стратегии управления для тех элементов ЯП, для кото- рых она есть. Ясно, что адаптивное управление возможно только для тех объек- тов, для которых в множестве ® есть требуемая стратегия управления. Это означает, что задачу адаптивного управления можно сформули- ровать как задачу поиска в множестве @ требуемой стратегии для каж- дого конкретно заданного объекта управления из множества ЯЛ. Таким образом, задача адаптивного управления — это поисковая задача и, как таковая, требует уточнения средств поиска, возможности которого тесно связаны с тем, что понимается под заданием конкрет- ного объекта управления. В отношении объекта управления могут встретиться все промежу- точные случаи, от случая, когда известна его математическая модель, до случая, когда возможно судить только о приемлемости или неприем- лемости конкретного управления. Например: 1) возможны эксперименты над объектом, состоящие в измерении выходов при задаваемых входах; 2) возможно наблюдение и измерение входа и выхода в процессе эксплуатации; 3) возможна только сравнительная оценка различных конкретных применяемых стратегий управления. В последнем случае адаптация состоит в поиске в множестве S наилучшей стратегии, т. е. адаптация состоит в поисковой оптимиза- ции. Если общий вид математической модели известен и недостает только конкретных значений некоторых параметров, то в случае 1) естественно поставить эксперимент и по измеряемым входам и выходам найти недо- стающие значения параметров, после чего требуемая стратегия на- ходится либо аналитически, либо вычислительно. Как видно, содержание задачи адаптивного управления и пути ее решения существенно зависят от допустимых средств поиска $$. Они зависят и от множеств ЗЛ и ®>, т. е. задача адаптивного управления оп- ределяется тройкой (да, ®>, $Р). Несмотря на разнообразие задач адаптивного управления, соответ- ствующих всевозможным ЗЛ, ® и в их решении наметилось два ос- новных общих подхода: один исходит из идентификации объекта, другой —'из поиска стратегии управления. Рассмотрим каждый из них. Но прежде — коротко о задаче идентификации. Под идентификацией динамической системы понимается нахожде- ние ее математической модели или недостающих значений параметров по данным эксперимента с ней как с некоторым черным ящиком. При этом принимается, что математическая модель принадлежит к некото- рому известному классу и нужно найти лишь конкретного представи- теля этого класса. Определение конкретного представителя можно
§8. АДАПТИВНОЕ УПРАВЛЕНИЕ 375 Объект 9, (t) Ррс. 6.34 мыслить как результат подстройки модели под реальный объект, стре- мящийся свести на нет разницу между выходами объекта и модели при одних и тех же входах. В соответствии со структурной схемой (рис. 6.34) на вход неизвестного объекта и настраиваемой модели подается одно и то же входное воздействие х(/). Их выходы y^t) acffl и Уа(0 сравниваются и разница (невязка) 6(0=У1(0~Уг(0 пере- дается системе настройки, стре- мящейся уменьшить эту разни- цу. Существенным осложнением этой простой схемы обычно яв- ляется воздействие непредска- зуемых шумов на объект и воз- можные ошибки измерения. Согласно сделанному описанию задача идентификации представ- ляется в виде одной из задач оптимизации, оптимизации математиче- ской модели на минимум невязки. Формализация этой оптимизацион- ной задачи, естественно, требует количественного определения невязки. Однако по сравнению с описанной ранее задачей поисковой опти- мизации оптимизация при идентификации имеет ту особенность, что не всегда можно вход x(t) задавать произвольно, в ряде случаев он может предопределяться или возможности влияния на него могут быть весьма ограниченными. В связи с этим можно различать активную и пассивную идентификацию: пассивную, когда вход задается, и ак- тивную, когда он может выбираться по желанию. 1. Адаптивное управление марковской системой с доходами на основе ее индентификации. Математическая модель управляемой марковской системы с доходами включает в себя пространство состояний X, мно- жество возможных управлений U, матрицу вероятностей смен состоя- ний Р как функцию управления ug U и ожидаемый доход r(xt, xt+l, ut) как функцию двух последовательных состояний xt и xi+1 и управления щ. Цель управления такой системой состоит в максимизации среднего дохода на некотором конечном или бесконечном числе смен состоя- ний, т. е. в максимизации одной из величин: т WT = ^r^xt^ut}, (8.6) г=1 или т U7e, = lim V r(xt> xt+i, ut), (8.7) г-** i=l за счет надлежащего оперативного выбора управляющих воздействий Wj, ^Г*
376 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ Оптимальное управление с критерием качества (8.7) определяет- ся некоторой стратегией вида ut = <y(xt; Р, R), (8.8) определяемой по матрицам Р и R с элементами />,-/(«) и г1} (и). Однако модель объекта неизвестна. Можно наблюдать лишь смены ее состояний и величины фактических потерь, а управление и мо- жно выбирать по желанию. Пусть такое наблюдение проводится достаточно долго и пусть при управлении и система находилась п (xf, и) раз в состоянии xt и переходила n(xit Xj,u) раз из этого состояния х: в состояние xj. Пусть еще r(x[tXj,u)—средний доход при всех этих переходах из состояния х: в состояние Xj при управлении и. При достаточно П (X,- X j и) большом п (х{, Xj, и) частота и средние потери г (xt, Xj, и) в статистическом смысле близки соответственно к вероятности ри- (и) и ма- тематическому ожиданию потерь (и). Тем самым наблюдение объек- та управления позволяет найти его приближенную математическую модель в виде статистических оценок Р и R матриц Р и R. Опти- мальную стратегию управления, находимую по этим оценкам, обо- значим через ut — a(xt‘ Р, R). (8.9) Эта стратегия неоптимальна для исходной наблюдаемой системы, но она тем ближе к оптимальной, чем Р и Q ближе к Р и R, т. е., вооб- ще, чем больше все числа п(хь и) для всевозможных состояний хг и управлений и. При неограниченном возрастании числа n* = minn(x;, и) xi-u оценки Р и R с вероятностью единица стремятся к Р и R. А близость экспериментально получаемой модели к исходной обеспечивает ма- лость ожидаемых дополнительных потерь стратегии управления (8.9) по сравнению с неизвестной оптимальной стратегией (8.8). Таким образом, стратегия, сколь угодно близкая к оптимальной, назовем ее квазиоптимальной, может быть найдена в два этапа: на первом этапе проводится эксперимент над объектом управления и осуществляется его идентификация и на втором этапе по идентифици- рованной модели находится квазиоптимальная стратегия управления. Такой путь построения квазиоптимальной стратегии вполне при- емлем, если объект неизменен и с ним можно долго экспериментиро- вать. Однако во многих случаях объект, пусть и медленно или редко, но меняется, и слишком долго экспериментировать с ним нельзя. В этих условиях желательно как-то совместить управление объек- том и экспериментирование над ним. Если объект меняется, то эк- спериментировать нужно все время, постоянно подстраивая модель
§ 8. АДАПТИВНОЕ УПРАВЛЕНИЕ 377 и стратегию'под его изменения. Нужно, таким образом, одновременно решать две задачи: задачу идентификации и задачу управления. И ре- шать их хотелось бы возможно лучше. А это приводит к конфликту: удлинение эксперимента и его улучшение мешает управлению, а управление мешает идентификации. Управление, которое совмещает в себе функции собственно управления и наблюдения и идентифика- ции, было названо А. А. Фельдбаумом дуальным управлением. Как видим, построение адаптивного управления на основе текущей иденти- фикации объекта привело к дуальному управлению, привело к необ- ходимости компромисса между текущими потребностями уменьшения потерь и общим требованием получения достаточно хорошей модели. С этой ситуацией мы уже встречались при поисковой оптимизации с адаптивной стохастической моделью: стремление как можно быст- рее начать искать минимум находилось в противоречии с необходи- мостью иметь хорошую модель функции. Придадим процедуре идентификации элементов pfj{u) и r(7(u) матриц Р и R рекуррентный вид. Обозначим их оценки на k-м и (й4-1)-м шаге соответственно р?/(и), г^ (и) и рц+'(и), (и): Если на й-м шаге объект находился в состоянии х; и применялась стра- тегия и, то Р^1 («) = Vp!i (и) + (1 - V) (и), (8.10; где б*/1 (и) равно нулю либо единице в зависимости от того, сме- нилось или не сменилось состояние х{ на ху-. Если же на Х-м шаге управления состояние отличалось от х{ или управление было отлич- ным от и, то Р^Щ^М- (8. Н) Оценки гкц (и) пересчитываются лишь в том случае, когда на k-м шаге имело место состояние xt- и оно сменилось состоянием ху, а управление было и. Формула пересчета имеет вид rtf1 («) = (u) + (1 -Х‘)7^1 (u), (8.12) где r*+1 (u)— фактические потери на рассматриваемом шаге. В формулах (8.10) и (8.12) X — положительное число, несколько меньшее единицы, s — число шагов до момента Х+1, в течение кото- рых не происходило пересчета. Исследование этих статистических оценок затруднено случайно- стью числа s. Однако, учитывая близость X к единице, можно прибли- женно принять его постоянным. Пусть сначала вероятности pfy-(u) и математические ожидания г и (и) доходов—постоянные, не меняющиеся со временем. Тогда, как непосредственно видно, математические ожидания оценок сов- падают с оцениваемыми величинами, т. е. оценки ру (и) и гк, (и) в этом случае-—несмещенные.
378 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ Переходя к дисперсиям в соотношениях (8.10) и (8.12), находим, что Фр1?1 (и) = («) + (! — Xs)2ри (и) [l—pij («)], S)r^1 (и) = («) +(1 - ‘kS)2S);j (и), где S)u(u) — дисперсия дохода при переходе из состояния xt в и управлении и. При А->оо, т. е. при неограниченном наблюдении, дисперсии оценок согласно этим формулам в силу того, что Х<1, схо- дятся к соотношениям вида ^Pij («) = грр А, («) [1 —А/ («)]’ («) = грр <“)• (8-13) При конечном времени наблюдения в течение ms тактов дальней- шее наблюдение не может существенно улучшить оценку, если только кЯ15<^1. Это следует из малости дальнейших поправок. Допустим теперь, что матрицы Р и Р медленно меняются, так что за М тактов их изменения несущественны в том смысле, что не могут вызвать заметных дополнительных потерь за счет нарушения опти- мальности стратегии управления. Оценки (8.10) и (8.12) будут успевать за изменениями матриц Р и Р, если M>ms, (8.14) и'будут еще и хорошими, если дисперсии (8.13), т. е. величина у (1—Xs), достаточно малы. При этом чем медленнее меняются матрицы Р и Q, тем более точными могут быть их оценки при соответствующем выборе параметра X. Таковы возможности статистических рекуррентных оценок (8.10) и (8.12). Они позволяют проводить текущую идентификацию марков- ского объекта управления непосредственно при его функционировании и управлении. В принципе это так, но есть ряд «но», которые могут сделать их практически непригодными. Дело в том, что в процессе функционирования объекта некоторые состояния могут возникать слишком редко, а ряд сочетаний состояния и управления могут и вов- се отсутствовать. В лучшем случае это приведет к очень большим чис- лам s, т. е. к необходимости очень длительных наблюдений. Каза- лось бы, что с этим ничего нельзя поделать и необходимо одновремен- но с управлением прибегать к пробным шагам и вообще достаточно долго настраивать адаптивную систему управления. С общей теорети- ческой точки зрения это так и есть. Однако специфика многих при- кладных задач, в частности задач массового обслуживания и в том числе рассмотренной выше задачи управления уличным движением автотранспорта, позволяет сделать число s равным единице. Без ис- пользования этой специфики число s могло бы быть в сотни и тысячи раз большим. Эта специфика состоит в том, что, наблюдая функциони- рование реального объекта управления, можно построить его ими- тационную модель, которая может имитировать все возможные соче-
§8. АДАПТИВНОЕ УПРАВЛЕНИЕ 379 тания состояний и управлений на каждом рабочем такте объекта, когда у него возникает лишь одно сочетание управления и состояния. Такой имитатор объекта естественно назвать ускорителем идентификации и адаптации. За счет чего появляется такая возможность? Дело в том, что ос- новным фактом случайности и нестационарное™, например, в сис- темах массового обслуживания является поступление заявок (дви- жение автомашин в задаче управления транспортными потоками). Все остальное подчас известно и может быть промоделировано. Опишем структурную схему адаптивной системы управления марковской системой на основе ее идентификации с использованием имитатора. Эта структурная схема включает объект управления (ОУ) и систему управления (СУ), образующие основной контур управления (рис. 6.35); имитатор (ИМ) и идентификатор (ИД), образующие контур адаптации системы управления. Стратегия управления СУ строится на основе данных идентификатора ИД, который обрабатыва- ет данные имитатора ИМ объекта или непосредственно объекта, если расширяющая имитация объекта невозможна. В заключение укажем на два эксперимента, проведенные Д. М. Чер- той, с адаптивной системой указанной структуры. Оптимальная стра- тегия управления по данным идентифи- кации строилась в ней описанным выше методом Ховарда. Первый эксперимент— это управление уличным движением на перекрестке, второй—игра в угадыва- ние с человеком. Типичный результат эксперимента показан на рис. 6.36. Его графики по- казывают времена Т задержек автомо- билей на перекрестке от момента начала работы адаптивной системы управления. На рис. 6.36 приведены две различные Рис. 6.35 реализации адаптивного управления при одних и тех же интенсивностях пуассоновых потоков автомашин. Пунктирная линия соответствует минимально возможной задержке, отвечающей оптимальному управлению. Величины задержек даны в секундах, а по оси абсцисс отложено число п тактов управления. Игра в отгадывание состоит в следующем: человек последователь- но загадывает единицы и нули, а отгадывающий, реализованный в ЭВМ программой, отгадывает эти числа. В случае правильного отга- дывания ЭВМ выигрывает, при неправильном угадывании она проигры- вает и столько же выигрывает человек. Выигрыш за правильное уга- дывание и проигрыш за неправильное — одинаковые. В основу стратегии угадывающего было положено предположе- ние о марковском характере поведения человека. В соответствии с этой гипотезой проводилась идентификация и по идентифицированной марковской модели загадывания строился оптимальный прогноз,
380 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ который и назывался отгадывающим. В общем, эта гипотеза оправда- лась: ЭВМ спустя некоторое время, в течение которого она адаптиро- валась к загадывающему, как правило, уверенно выигрывала. При этой игре человека можно было информировать на каждом шаге о ее результатах, а можно не информировать и заставить играть «втемную». Оказалось, что, как правило, в первом случае проигрыш человека больше, чем во втором. Иногда программе выиграть не удавалось, правда, она и не проигрывала. Это были случаи, когда попадался человек, знающий теорию игр и выбирающий числа 0 и 1 независимо и равновероятно. Однако и таких людей подчас удавалось втянуть в состязание с программой, сообщая им результаты партий, после чего программа торжествовала победу. 2. Адаптивные системы с поиском стратегии управления. Перейдем к обсуждению возможностей непосредственного поиска или подстрой- ки требуемой стратегии управления. Подстройка или поиск страте- гии должны происходить в соответствии со стремлением к некоторой цели. Поэтому необходимо начать именно с нее. Причем желательно, чтобы цель управления была сформулирована так, чтобы можно было ясно судить, когда мы ближе и когда дальше от нее. Ради конкретности вернемся к задаче об управлении велосипе- дом, точнее, к задаче стабилизации его вертикального положения. Цель здесь состоит в том, чтобы угол 0=0 и чтобы, если велосипед уклонится от этого положения, он к нему вернулся. Эта формулировка цели не позволяет правильно судить о том, когда мы ближе и когда дальше от нее: при 0=0 и 0 большом мы значительно дальше от це- ли управления, чем при небольшом отличии 0 от нуля и 0=0. Поэто- му изменим количественную оценку уклонения от цели, приняв, на- пример, что она дается величиной вида V^l©2 + v004-102 (|v|<l). (8.15)
§8. АДАПТИВНОЕ УПРАВЛЕНИЕ 381 Цель управления теперь состоит в том, чтобы V=0 , и чем V боль- ше, тем мы дальше от цели. Такова цель. Для ее достижения нужно уменьшать величину V, и чем быстрее это делать, чтем быстрее будет достигнута цель. Это указывает путь к организации поиска: нужно менять стратегию управления так, чтобы убыстрять уменьшение вели- чины V. Примем, что искомая стратегия управления имеет вид (8.3), н будем искать ее, стремясь к быстрейшему убыванию функции V. Для этого найдем скорость изменения функции V и будем менять пара- метр а так, чтобы эта скорость изменения уменьшалась, т. е. чтобы величина V все быстрее уменьшалась, а V становилась все большей отрицательной. Пользуясь уравнением движения велосипеда (8.2) и предполагая стратегию управления вида (8.3), найдем, что V = 00-|-v02 4-(v0-|-0) 0 = 00-f-v02 + (v0 + 0) (®20—ап—Р«) = = v(g>2—аа) 024-(1—vPa-|-G»2—аа) 00-f-(v—Ра) 02. (8.16) Направление изменения параметра а, уменьшающее величину V и ускоряющее убывание V, определяется знаком производной —— va02—(vP + a) 00—Р©2. Подчиним в соответствии с этим изменение параметра а (настрой- ку стратегии) дифференциальному уравнению вида а — — р. = р, {va02(vP + а) 00 + Р02} (р>0), (8.17) которое следует рассматривать совместно с уравнением движения велосипеда (8.2). Выпишем эти уравнения вместе в виде системы трех дифференциальных уравнений первого порядка 0 = £2, £2 =— paQ4-(co2—aa) 0, a = р {va024-(vP-f-a) 0Q-|-PQ2}. (8.18) Фазовое пространство этой системы (8.18) управления велосипе- дом с адаптацией стратегии управления (ее параметра а) трехмерно с фазовыми переменными 0, £2 и а. Рассмотрим ее фазовый портрет. Состояния.равновесия образуют прямую 0=0, £2=0; на этой прямой обращаются в нуль правые части всех трех уравнений (8.18). Им отве- чает. вертикальное неподвижное положение велосипеда (0=0=0) при всевозможных значениях параметра а. Исследуем устойчивость состояний равновесия и выясним пове- дение фазовых траекторий вблизи каждой из точек этой прямой сос- тояний равновесия. Асимптотическая устойчивость, естественно, воз- можна только по переменным 0 и £2. Из характеристического
382 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ уравнения р —1 о аа—со2 р+^Р О О 0 р = Р (p2 + fl₽p + «a — со2) = 0 (8.19) видно, что один корень нулевой, а два других корня имеют отрица- тельные действительные части, если а>акр=со2/а, а при а<акр из этих корней либо один положительный, а другой отрицательный, либо оба комплекс- ные сопряженные с положительной действи- тельной частью. Как известно, в этом случае в окрест- ности прямой равновесий фазовые траекто- рии располагаются на непересекающихся поверхностях La, каждая из которых прохо- дит через свое состояние равновесия (0=0, 0=0, а). На каждой из этих поверхностей La поведение фазовых траекторий такое же, как и в двумерном случае состояния ^равновесия с двумя ненулевыми корнями характеристи- ческого уравнения (8.19). В соответствии с этим поведение фазовых траекторий вблизи линии равновесий 0=0=0 имеет вид, пока- занный на рис. 6.37. Там, где а>акр, фазовые траектории при возрастании времени стре- мятся по поверхностям La к соответствующим равновесиям. При а<акр возможны два разных типа поведения фазовых траекторий в зависимости от того, имеет ли место седло или неустойчивый фокус. Эти случаи также показаны на рис. 6.37. Отметим, что в случае сед- лового равновесия возможны особые случаи стремления фазовой точ- ки к состоянию равновесия по его сепаратрисе S + . Все остальные фазовые траектории от седлового состояния равновесия уходят. Для того чтобы понять, как ведут себя фазовые траектории не только вблизи прямой равновесий, найдем, как меняется вдоль фа- зовой траектории положительно определенная функция ^ = У + щ/а-О2, (8.20) где а* > акр. Непосредственные вычисления дают, что Г = у+1 (а-а*) а = У-(а-а*) , и поскольку параметр а входит в функцию V линейно, то № = П=а’ = = v (со2—аа*) 02 -|- (1 — vf3a* -|- со2—аа*) 00 + (v—(За*) 02. (8.21)
§8. АДАПТИВНОЕ УПРАВЛЕНИЕ 383 При подходящих v и а* > акр квадратичная форма V (8.20) опре- деленно отрицательна и при некотором а > 0 V <— аК (8.2?) Из оценки (8.22) вытекает, что функция W может только убывать, поэтому, если (0О, 0О, а0) — начальное положение фазовой точки, то она в дальнейшем не покидает ограниченной области < ^0=0», 0=0» +щг а*^ ~ = |0? + v0o0o + 4®o + 2ir(«o-«*)2. (8-23) имеющей вид эллипсоида, изображенного на рис. 6.38. На поверх- ности этого эллипсоида все фазовые точки идут внутрь него, кроме точек 0=0=0, где скорость движения фазовых точек обращается в нуль. Эта особенность поведения фазо- р вых траекторий нашла отражение на рис. 6.38 в величинах стрелок, изображающих скорости движения фазовых точек. Интегрируя обе части неравенства (8.22) по времени от начального момента /=0 до конечного t=x, найдем, что Гт — ^0<— J Vdt. (8.24) о Из неравенства (8.24) следует, что суще- ствует такое т, при котором фазовая точ- ка находится внутри окрестности (6 > 0) (8.25) и после этого уже из нее не выходит. Для любого 6>0 существует такое т, и поэтому с какого-то момента фазовая траектория попадает в любую сколь угодно малую окрестность прямой равновесий и из нее не выходит. В общем случае из этого следует, что она стремится к одному из устойчивых состояний равновесия, но в особом случае она может стремиться по поверхности S+ к седловому равновесию. Для обоснования сказанного достаточно показать, что в против- ном случае интеграл \Vdt, (8.26) о стоящий в правой части неравенства (8.24), неограниченно растет при т-г>оо. А это так и будет,] поскольку с каждым выходом фазовой
384 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ траектории из области (8.25) в силу ограниченности производной V интеграл (8.26) возрастает на конечную величийу, большую /С6 (/£>0). Итак, почти все фазовые траектории (а при отсутствии седловых равновесий — все) адаптивной системы управления (8.18) стремятся к одному из устойчивых состояний равновесия 0=0, 0=0, а>акр. Это соответствует эффективной работе рассматриваемой системы адап- тивного управления и приходу к стратегии управления, обеспечива- ющей устойчивость велосипеда. Возможно, проведенное рассмотрение выглядит как стрельба из пушки по воробью. Но кто мешает оставить пушку, а воробья заме- нить на дракона, подменив его более общим объектом управления, например системой вида x=Ax-)-bu, (8.27) где х — n-мерный вектор, А —матрица пХп, b— n-мерный вектор и и — скалярное управление? Все сказанное полностью повторяется и для такой системы. А может быть, рассмотреть сразу еще более об- щий объект вида х = X (х, и) (X (0, и) = 0), (8.28) придерживаясь той же цели управления и того же пути поиска стра- тегии управления? В соответствии с этим удаленность от цели будем определять по- ложительной функцией У(х). Точка х=0 — единственная, где У(х) обращается в нуль. Далее, пусть V (х) возрастает при возрастании ||х|| так, чтобы V (х)—>оо при ||х||->оо. Стратегию управления примем вида и = <р(х, а), (8.29) где а — вектор неизвестных параметров размерности т, подлежащих подстройке. Цель управления будет заведома достижима, если при некоторых а=а* и <т>0 выполнено условие У = (ухУ)тХ(х, ф(х, а*)) < — стУ. (8.30) Путеводная нить поиска стратегии управления — это по-преж- нему изменение параметров а в направлении убыстрения убывания функции У(х) вдоль фазовой траектории, т. е. для подстройки пара- метров примем а = -И?иУ. (8.31) Ранее р в такой же формуле (8.17) было произвольным положи- тельным числом, теперь р может быть симметричной матрицей тхт, но такой, чтобы вектор руаУ образовывал острый угол с вектором VaV. Это требование будет выполнено, если для любого т-мерного
§8. АДАПТИВНОЕ УПРАВЛЕНИЕ 385- вектора b квадратичная форма bTpb > О, соответствующая скалярному произведению векторов b и pb, опре- деленно положительна. При выполнении этого условия параметры а будут изменяться согласно (8.31) в направлении убыстрения убывания функции V(x). Таким образом, приходим к адаптивной системе управления х= Х(х, <р (х, а)) = X (х, а), а = — pVaV. (8.32) Осталось показать, что она обладает теми же свойствами, что и рас- смотренная выше адаптивная система управления велосипедом. При фиксированном а=а* функционал У(х) для первого из уравнений (8.32) является функцией Ляпунова и указывает на асимптотическую глобальную устойчивость состояния равновесия х=0, так что для любого решения x(Z) V(x(/)) < V(x(0))e-4 (8.33) При условии, что прн малых ||х|1 при некоторых аХ) и k>Q IIX ||“ < kV (х) (под||х|| понимается евклидова норма, т. е. || = + xf ф-... 4-х„, где хи хг....хп— компоненты вектора х), имеет место с* 1 1 || х || < е “ V “ (х (0)) k “. В этом случае состояние равновесия х=0 при а=а* асимптотиче- ски экспоненциально устойчиво и все корни характеристического урав- нения лежат строго слева от мнимой оси. Правые части обоих уравнений (8.32) обращаются в нуль при х=0. Поэтому m-мерное многообразие х=0 состоит из состояний равновесия. Функция У(х) дифференцируема по х. В точке х=0 она равна ну- лю, а при х=7^0 положительна. Отсюда следует, что VxV(x)|x=o = O. (8.35) В силу этого обращается в нуль не только правая часть второго из уравнений (8.32), но и ее частные производные по компонентам пара- метра адаптации а и компонентам вектора х. Это означает, что ха- рактеристическое уравнение любого из состояний равновесия мно- гообразия х=0 имеет вид p“Det(g|x=o-p£)=O. (8.36)
386 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ Все эти утверждения повторяют то, что имело место при рассмотре- нии состояний равновесия системы адаптивного управления велоси- педом. Так что качественное поведение фазовых траекторий в окрест- ности состояний равновесия одинаково. Осталось убедиться, что и глобальное поведение фазовых траек- торий не изменилось. Как и прежде, рассмотрим изменение вдоль фазовой траектории системы (8.32) функции №=У-Ц-(а—а*»’1 (а—а*). (8.37) Непосредственно находим, что Г = у_(а—a*)TVaV. (8-38) Для того чтобы все было, как и прежде, достаточно принять, что параметры а входят в V линейно, т. е. что правая часть X (х, а) пер- вого из уравнений (8.32) линейно зависит от а. При этом № = V|a=a. <— оК (8.39) и все дальнейшие выводы полностью повторяются. Применим теперь изложенный способ построения адаптивного управления к линейному объекту управления (8.27). Пусть С — по- ложительная симметричная матрица и У(х) = уХтСх, (8.40) а стратегия управления вида и = атх, (8.41) где ат — матрица 1хп. Тогда непосредственно находим, что уравне- ние адаптации стратегии управления принимает вид а — — pVaV = — ру/а хТС Их + baTx) = — цхЬтСх. (8.42) В правую часть уравнения (8.42) не входит матрица А, и поэтому может показаться, что ее знание для построения адаптивного управ- ления совершенно не нужно. Однако это не совсем так. Некоторые ап- риорные сведения о матрице А содержатся в формулировке целевого условия с помощью функции Ляпунова (8.40): эта функция У(х) при некотором значении параметра а=а* является функцией Ляпунова для системы (8.27), и для нее выполняется условие достижимости цели управления в виде (8.30). Необходимым для такой возможности является наличие области устойчивости по параметру а у системы х = (Л + Ьат) х, (8.43) недостаточным — определенная положительность при некотором а=а* квадратичной формы V = хтС (Л-f-Ьат) х. (8.44)
§ 8. АДАПТИВНОЕ УПРАВЛЕНИЕ 387 Рассмотрим теперь задачу, содержательно существенно отличную от задачи управления велосипедом, но формально приводящуюся к тому, что опять-таки некоторую величину V нужно привести к нулю путем поиска или настройки параметров системы, которая выдает эту величину. Задача следующая. Имеется линейная динамическая система» вход u(t) которой связан с ее выходом x(t) дифференциальным урав- нением вида x=Ax-f-bu, (8.45) где А —матрица пХп и b — матрица nxl или, что то же самое, вектор-столбец размерности п, и — скаляр. Эта система устойчива, и для изменения положительно определенной квадратичной формы Q=xT Сх при и=0 и любом х должно быть Q = xTCAx<—oQ (о>0). (8.46) Больше о системе (8.45) ничего не известно. Задача состоит в том, что- бы найти матрицы А и Ь. Это задача идентификации. Приступим к ее решению согласно изложенной выше схеме. Для этого подадим входное воздействие и (/) еще и на имитационную модель, для которой выход у (t) связан со входом дифференциальным уравнением у= Ду + bu(Z), (8.47) а элементы матриц А и b являются подстраиваемыми параметрами. Образуем разность 6 = х—у. Примем в качестве количественной оценки этой разности величину У = 6тСб. (8.48) Используем имеющуюся у нас систему адаптации для изменения матриц Д и Ь в направлении уменьшения величины V. Ясно, что это необходимо для того, чтобы А —>- А и b —> Ь. Вопрос о том, когда из обращения в нуль невязки 6 следует совпадение матриц Л и b соответственно с А и Ь, оставим в стороне, считая, что эти условия выполнены и наша задача состоит только в обращении в нуль невязки 6. Согласно предыдущему примем, что А-----ЬУдУ = + № (х—У)т С^У = ЬЙ1. (8 49> ь = — р,2уъУ= 4- p2Vb(x—у)т Cbu = p,2C6u. Как видно, реализация этих изменений не требует знания матриц А и Ь. Имеющихся сведений о идентифицируемой системе оказалось достаточно. Общая структурная схема системы идентификации изоб- ражена на рис. 6.39. Однако приведет ли в этой новой задаче изменение
388 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ параметров а (Л, Ь), согласно уравнению (8.49), к обращению невязки в нуль? Из (8.45) и (8.47) находим, что 6 = Лб4-(Д —Л)х+(b —b)u(Z). (8.50) Это уравнение, в отличие от ранее рассмотренного (8.27), содержит явно входящее время. Какие изменения это может повлечь? Параметры подстройки входят в него линейно, при а=а*, т. е. при А =А и b=b, оно допускает глобальную функцию Ляпунова в соответствии с (8.46). Рис. 6.39 Из линейности вхождения подстраиваемых параметров и выпол- нения целевого условия следует уменьшение невязки 6 до нуля. Так что разница может быть только в поведении фазовых траекторий в окрестности многообразия 6=0 размерности п24-п (общее число эле- ментов матриц Л и Ь). Разница есть, и прежде всего в том, что теперь не любая точка (х=0> а (Л, Ь)) является состоянием равновесия. Если невязка 6 может равняться нулю только при Л=Л и b=b, то это озна- чает, что система (8.47), (8.50) имеет единственное состояние равнове- сия х=0, а=а*. Это состояние равновесия глобально устойчиво, и к нему стремятся все фазовые траектории. Тем самым достигается реше- ние задачи идентификации. Вернемся к системе адаптивного управления (8.32). Эта система обеспечивает достижение цели управления: х->0 при £->оо. При этом параметр а стремится к некоторому а*, принадлежащему в общем случае области устойчивости системы управления без адаптации со стратегией управления (8.29). При разных начальных условиях эти предельные значения а* — разные, что соответствует наличию у си- стемы управления с адаптацией (8.32) многообразия состояний равно- весия х=0. Таким образом, система (8.32) как бы не имеет никакой цели по параметру адаптации а, ее цель как бы только в том, чтобы прийти к х=0.
§8. АДАПТИВНОЕ УПРАВЛЕНИЕ 389 В силу этого может показаться, что при действии помех адаптив- ная система будет случайно блуждать вдоль многообразия х=0. Од- нако ее поведение оказывается совсем не таким. Напротив, помехи придают системе адаптивного управления «цель» и по параметру а. Чтобы придать этому утверждению точный смысл, допустим, что слу- чайные воздействия ограничены и пропорциональны некоторому пара- метру е. Тогда в установившемся режиме вероятность нахождения па- раметра а в сколь угодно малой окрестности некоторого определенного а* сколь угодно близка к единице, если только 8 достаточно мало, т. е. фазовая точка блуждает не вблизи многообразия х=0, а вблизи неко- торой его точки х=0, а=а*. С ростом 8 область случайных блужданий расширяется. Анализ поведения адаптивной системы управления при наличии случайных возмущений — достаточно сложная задача. Отметим толь- ко, что один из возможных подходов к ее решению основывается на известном методе усреднения в предположении медленности процессов адаптации по сравнению с процессами в объекте управления. При этом в первом уравнении (8.32) можно принять параметр а по- стоянным и найти установившуюся плотность вероятностей состояний х, а после этого, усредняя второе уравнение по х, найти уравнение, определяющее процесс адаптации параметра а при наличии случайных возмущений. 3. Заключительный, в котором говорится о распознавании обра- зов и адаптивном управлении. Итак, несмотря на отсутствие мате- матической модели объекта управления, по скудным сведениям о нем можно указать адаптивное управление, приводящее к достижению поставленной перед ним цели. Таким образом, и черным ящиком можно управлять. Но кое-какие сведения о нем иметь нужно. Попробуем ответить на вопрос: что это за скудные сведения и в чем состоит адаптивное управление? Вопрос относится не только к за- даче адаптивного управления, о которой только что говорилось, но в равной мере и к задаче распознавания образов, о которой говорилось ранее в гл. 5, и, возможно, ко многому другому. Это общий вопрос о том, откуда появляется способность к обучению и в чем она состоит. Причем нас интересуют не содержательные конкретизированные от- веты, нас интересует абстрагированная математическая модель этих явлений, нас интересуют ответы на уровне таких моделей. Начнем с обучения распознаванию образов: есть ученик, которого учат, и учитель, который учит. Тот, кто учится, обладает некоторой структурой, наделяющей его способностью к разделению на классы и зависящей от ее параметров. Эта структура может рассматриваться как некоторая функция Х(х, а) (8.51) от переменной х — описания воспринимаемого объекта и внутренних параметров а ученика, которые он может менять.
390 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ В соответствии с этой функцией (8.51) ученик делит все объекты х на два класса: один, для которого эта функция положительна, и дру- гой, для которого она отрицательна. Каждый объект х — это некоторая точка пространства X. Учитель «умеет правильно» делить объекты на два класса. Это соответствует некоторому разделению объектов х на множества А и В. Обучение должно привести к тому, чтобы ученик за счет настройки своей струк- туры, т. е. параметров а, сделал так, чтобы его разделение всех х на два класса совпадало с тем, как это делает учитель. Процесс обу- чения предполагается в виде последовательных показов элементов х с указанием, к какому из множеств А или В относит его учитель. Такова формализованная постановка задачи обучения распозна- ванию образов. Цель обучения — это отыскание значения параметров а=а*, при которых ( >0, %(x,a*)j <0> если xgX, если х£В. (8.52) Если ввести величину е(х), равную 1 при xg А и равную —1 при х С В, то (8.52) можно записать в виде е (х) %(х, а*) > 0 (8.53) при всех х. Итак, мы располагаем математической формулировкой задачи распознавания и можно перейти к ее решению. Примем как гипотезу, что такое а* существует и что не только а*, но и всякое а, достаточно близкое к а* — тоже решение неравенства (8.53). Согласно терминологии школы теории нелинейных колебаний А. А. Андронова это можно выразить, как то, что а*— грубое реше- ние задачи распознавания. Если такое грубое решение существует, то при довольно общих предположениях искомое значение параметра а находится с помощью рекуррентной процедуры вида aft+1 = afc-|-p.*8*VaX (хй, а*)> (8.54) где если если если хй£ А и %(xfc, ай) < О, хй С В и х (хй, ай) > 0, Xй € А и х (хй, ай) > 0 или Xй С В и х (хй, ак) < 0- Достижение требуемого значения параметра а происходит после конечного, не большего некоторого k*, числа его изменений, т. е. ученик при обучении, согласно (8.54), делает не более чем k* ошибок. Заметим, что при этом не указывается, после какого числа пока- зов прекращаются ошибки, говорится лишь о том, что общее число ошибок не превзойдет k*.
§8. АДАПТИВНОЕ УПРАВЛЕНИЕ 391 Не будем формулировать общие условия, при которых имеют место высказанные утверждения. Напомним только, что для персептрона при частном виде функции х эти утверждения были доказаны. Напом- ним еще, что для персептрона процесс обучения можно было трак- товать как последовательные изменения состояния динамической системы, а доказательство обучаемости основывалось на прямом ме- тоде Ляпунова исследования устойчивости. Именно эта трактовка процесса обучения персептрона и метода исследования его обучаемости позволяет перебросить мостик от рас- познавания образов к задачам адаптивного управления. Запишем формулу (8.54) в общем виде afc+1 = F(afc, xfc). (8.55) Вектор параметров а можно трактовать как состояние распознающей системы ученика. Уравнение (8.55) определяет закон изменения этого состояния. Этот закон изменения состояния зависит от показанного объекта х\ т. е. система распознавания — это детерминированная не- автономная динамическая система. Рассмотрим ее фазовый портрет. Ее фазовое пространство — пространство векторов параметров а — обозначим через Ф. Точка а^Ф, для которой при всех х а = Е(а, х), (8.56) является равновесным состоянием для динамической системы (8.55). Согласно принятой гипотезе состояния равновесия образуют некоторое множество А*, содержащее некоторую точку а* вместе с некоторой ее окрестностью. Обучаемость с точки зрения этой динамической систе- мы означает, что любая ее фазовая траектория оканчивается в мно- жестве состояний равновесия А*. Следовательно, многообразие состоя- ний равновесия глобально устойчиво. Обычно принимается, что показы учителя — это последователь- ность независимых случайных выборок из множества A U В. Каж- дый выбор производится в соответствии с некоторым распределением вероятностей. При этих условиях (8.55) заменится некоторыми вероят- ностями смен состояний. Динамическая система, соответствующая процессу обучения, станет марковской системой, а множество А* — это множество ее концевых состояний, к которым она приходит с ве- роятностью единица. Уравнения адаптивной системы управления в дискретном варианте записываются в виде х*+1 = х (xk, afc), aft+1 = F (xfc, aft). (8.57) Эта автономная динамическая система, но ее состояние включает не только подстраиваемые параметры а, но и состояние объекта уп- равления х. Целью этой адаптивной системы управления является обращение в нуль некоторой функции У(х) при любом начальном состоянии.
392 ГЛ. 6. ОПТИМИЗАЦИЯ СТРАТЕГИИ УПРАВЛЕНИЯ Это целевое условие заменим другим: V (X (х, а)) < eV (х) (ст < 1), (8.58) из выполнения которого вытекает выполнение исходного целевого условия. Напомним, что функция У(х) предполагается положительно определенной и У(0)=0, а условие (8.58) должно выполняться при любом х. Целевому условию (8.58) можно придать вид стУ (Х)_у (X (Х> а)) > 0, (8.59) совпадающий с целевым условием (8.53) в задаче распознавания обра- зов, и поэтому в обоих случаях задача состоит в том, чтобы некоторая функция переменных х и а стала отрицательной при всех х. Таким образом, цели совпадают. Но есть и различия. Они в ус- ловиях обучения. При распознавании образов последовательность х1, х2, х3, . . . либо задана, либо определяется случайным выбором. В задаче адаптивного управления она определяется шаг за шагом в соответствии с (8.57). Однако независимо от этого к искомому значе- нию а* можно прийти с помощью подстройки параметров а согласно (8.54). За счет чего же так сравнительно просто достигается цель обучения распознаванию образов или адаптивного управления? Позвольте за- кончить шуткой: разве трудно достигнуть цели, если она известна и известно, что она достижима? Трудно увидеть новую достижимую цель, и если, прочитав эту книгу, вы увидели достижимые цели теории управления, это и есть то, к чему в первую очередь стремились авторы. А так как познаю- щий подобен неустойчивому маятнику, то посмотрите, как с ним спра- вляется адаптивная система управления (рис. 6.40) Ф—со2 sin<р = —ajtp—а2ф, а1 = — а2 = — . (8-60) Как видно из рис. 6.40, сначала на участке 1—2 «боязно», а затем «само собой» (участок 2—3).
ИМЕННОЙ указатель Адамс (Adams J.) 35 Ампер (Ampere А. М.) 7 Андронов А. А. 20, 49, 72, 175, 192, 193,396 Аристотель 15 Архимед 33, 113 Байрон Дж. Г. (Byron G. G.) 15 Беллман Р. (Bellman R.) 25, 123, 134, 306, 311, 332, 357 Бер П. (Bert Р.) 205 Бернштейн Н. А. 205 Боголюбов Н. Н. 20 Браун В. (Braune W.) 205 Бродбент (Broadbent S. R.) 92 Буль (Boole G.) 15 Бурбаки Н. (Bourbaki N.) 21 Буш Р. (Busch R. R.) 265 Бэбидж Ч. (Babbage Ch.) 15 Ван-дер-Поль (Van der Pol В.) 20 Ватсон (Watson G.) 91 Винер H. (Wiener N.) 7, 21, 337, 338 Вознесенский И. Н. 175, 192 Вольтерра В. (Volterra V.) 80 Вышнеградский И. А. 13, 14, 19, 163, 164, 166, 170, 171, 172, 173, 174, 175, 192, 193, 195, 285 Ирншоу C. (Earnshaw) 13 Капица П. Л. 106 Кеплер И. (Kepler J.) 27, 51 Кирхгоф Г. Р. (Kirchhoff G.) 69, 76 Кифер Дж. (Kiefer J.) 239, 242, 250, 309 Кларк (Clark W. А.) 265 Колмогоров А. Н. 55, 337, 338 Коперник Н. (Copernicus N.) 27 Крылов А. Н. 18 Крылов Н. М. 20 Лавлейс A. (Lovelace А. А.) 15 Лагранж Ж. Л. (Lagrange J. L.) 13, 17, 26, 30, 31,36, 164, 167, 181, 182, 208, 212 307 Лаплас П. С. (Laplace Р. S.) 33, 53 Леверье У. (Le Verrier U. J. J.) 35 Леонардо да Винчи (Leonardo da Vinci) 205 Леонтович A. M. 96 Лоренц X. (Lorentz H. A.) 37 Лоренц Э. (Lorenz E. N.) 59 Лотка (Lotka A. J.) 80 Ляпунов A. M. 20, 60, 169 Галилей Г. (Galilei G.) 18, 27 Гальтон Ф. (Galton F.) 52, 91 Гамильтон У. Р. (Hamilton W. R.) 31 Гаусс К. Ф- (Gauss С. F.) 55 Герц Г. (Hertz Н. R.) 35 Григорьева И. А. 221 Гурвиц (Gurwitz А.) 147, 170, 285 Гюйгенс X. (Huygens Н.) 18 Майер А. Г. 192, 193 Макколок (McCulloch W. S.) 265 Максвелл Д. К. (Maxwell J. C.) 13, 33, 35, 36, 163, 164, 166, 170, 171, 172, 173, 174, 175 Мандельштам Л. И. 20 Михайлов 285 Мостеллер Ф. (Mosteller F.) 265 Дарвин Ч. (Darwin Ch. R.) 21 Зальцман (Salzmann J.) 59 Нейман фон Дж. (von Neumann J.) 7, 15 Ноздровский С. А. 178, 180 Ньютон И. (Newton I.) 26, 36, 51
394 ИМЕННОЙ УКАЗАТЕЛЬ Питтс (Pitts W.) 265 Платон 7 Ползунов И. И. 9, 10, 12, 166 Понтрягин Л. С. 25, 36 Попов В. М. 285 Птолемей К- 27 Пуанкаре A. (Poincare J. Н.) 20, 61, 62, 159 Пуассон С. (Poisson S. D.) 231 Фарадей M. (Faraday M.) 33, 36 Фельдбаум A. A. 377 Фишер О. (Fischer О.) 205 Фуко Л. (Foucault L.) 178 Фэрли (Farly В. J.) 265 Хаммерсли (Hammersly J. M.) 92 Хевисайд О. (Heaviside О.) 20 Ховард (Howard R. A.) 261, 279 Раус (Routh Е. J.) 147, 170, 285 Рийке (Rijke) 18 Рэлей (Рейли; Rayleigh, Strutt J. W.) 18 Розенблат (Rosenblatt M.J 9, 265, 268 Цетлин M. Л. 267 Цыпкин Я- 3. 282 Черток Д. М. 379 Стодола A. (Stodola) 170, 175 Шеннон К. (Shannon С. Е.) 7, 17 Шрёдингер Э. (Schrodinger Е.) 36 Тай M. Л. 96 Уатт Дж. (Watt J.) 9, 11, 12, 163, 166 Эйлер Л. (Euler L.) 26, 31,32 Эйнштейн A. (Eistein А.) 38 Эшби Р. (Ashby R.) 265
ПРЕДМЕТНЫЙ Автоколебания 68, 72 — стохастические 203 Автомат конечный детерминированный 47 — стохастический 47 — шагающий 205 Автопилот 285 Авторулевой 123 Адаптация 24 , 293 Алгоритм 16 — минимаксный Кифера 309 — поисковой оптимизации 239 -------оптимальный 240 — случайного поиска 309 Аппроксимация стохастическая 279, 281 УКАЗАТЕЛЬ Граф 39 — смены состояний 115 Движение оптимальное 133 — планет 26 — транспорта на перекрестке 221 Диаграмма Вышнеградского 174, 195 Динамика сосуществования видов 80 Диффузия 48 Доска Гальтона 52 Д-разбиение 285 Жидкость 30 Байеса формула 341, 342, 364 Веллмана принцип динамического прог- раммирования 25, 123, 134, 306, 311 — рекуррентное уравнение 332 Бифуркация 93 Блуждание случайное 47 Буша и Мостеллера модель 265 Величина шага 251 Винера — Колмогорова фильтрация 337 Воздействие внешнее 367 Возмущение 169 Вольтерра — Лотки модель 80 Выборка обучающая 275 Вышнеградского диаграмма 174, 195 — параметр 192, 193 Газ 30 Гальтона доска 52 Гамильтона уравнения 31 — функция 31 Гамильтона — Кэлн теорема 299 Гаусса закон 34 Гибель 91 Гироскоп 178 Гиростабилизатор 196 Задача протекания 92 Закон больших чисел 52 — Гаусса 34 — Кирхгофа 69, 76 — управления релейный 108 — Фика 48 Закономерность 51 Запаздывание 143 Затухание апериодическое 108 Игра детерминированная 41 — стохастическая 41 Идеальность жидкости 32 Идентификатор 379 Идентификация 289, 374 — активная 375 — пассивная 375 Измерение 367 Изодром 175 Имитатор 379 Имитация 289 Импульс толчковый 207, 211 Инерционность в измерителе 146 Интеграл энергии 65 Информация 17, 221 — полная 225 Ирншоу теорема 13 Исчисление операционное Хевисайда 20
396 ПРЕДМЕТНЫЙ Калмана — Бьюси фильтр 330, 336 Катаракт 19, 172 Качество переходных процессов 285 Кибернетика 7, 20 Кирхгофа закон 69, 76 Кифера алгоритм минимаксный 309 — стратегия минимаксная 239 Классификация изображений 270 Коллектив независимых автоматов 252 Константа Липшица 257, 262 Контур управления замкнутый 315 Коперника система гелиоцентрическая Коэффициент усиления фильтра 331 ---— матричный 344 Критерий качества 291, 326 — Рауса — Гурвица 170 — эргодичности 47 Лаваля турбина 18 Лагранжа — Максвелла уравнения 36 Лагранжа метод множителей 307 — теория малых колебаний 17 — уравнения 26, 167, 182, 208 — формализм 181,208 — функция 31 Левитация 113 Лечение 22 Липшица константа 257, 262 Ляпунова функция 215, 385, 386 Максвелла уравнения 33 Матрица стохастическая 46 Матье уравнение 105 Машина паровая 164 — с саморегулированием 172 Маятник 103 — физический 64 Метод динамического программирова- ния Веллмана 306, 311 — Д-разбиений 285 — множителей Лагранжа 307 — Ховарда 361 Механика статистическая классиче- ская 47 Микромир 36 Минимакс 226, 241 Минимизация эмпирического риска 279 Минимум функции 239 ----глобальный 308 ---локальный 308 Множитель Лагранжа 307 Модель адаптивная стохастическая 248, 256 — Буша и Мостеллера 265 — Вольтерра — Лотки 80 — динамической системы 61 УКАЗАТЕЛЬ Модель игры 38 — имитационная 378 — конвективной турбулентности/дис- кретная 59 — лодки 124 — математическая 8 — обучения 265 — рулевой машинки 143 — системы управления 144 — солнечной системы 28 — среды 254 — функциональная 62 — электродинамических систем 33 Момент вибрационный 106 — гироскопический 178 — кинетический 178 Наблюдаемость 289, 297 Наблюдение 367 — неполное 347, 368 — полное 347, 367 Навье — Стокса уравнения 32 Невязка 375 Неидеальность исполнительного устройства 147 Неравномерность дифференциальная 168 Несжимаемость жидкости 32 Ньютона модель солнечной системы 28 — уравнения 26 Область притяжения состояний равно- весия 73, 187 — управляемости 304 —устойчивости 145, 148, 174 Образ 269 Обучаемость 265 — персептрона 270 Обучение 24 — показами 293 Объект наблюдаемый 289 Ома закон 52 Оператор 63 Оптимизатор 251 — автоматический 348 — автоматный 253 Оптимизация 23 — градиентная 251 — динамических процессов 305 — поисковая 239 --- глобальная 248 — при идентификации 375 — стратегии управления 283 — функций 305 Опыт Рейке 18 Ось прецессии 180 — стабилизации 179
предметный указатель 397 Оценивание 337 Оценка несмещенная 377 — состояния 336 Ошибка фильтра 295 Параметр Вышнеградского 192, 193 — существенный 156 — физический 156 Переменная циклическая 164 Персептрон 265 Планирование календарное 247, 315 Поверхность секущая 159 — сепаратрисная 187 Подвес карданов 179 Поиск случайный 309 — стратегии управления 374 Поле скоростей 31 — электромагнитное 33 Полезность информации 224 Ползунова регулятор поплавковый 10, 166 Понтрягина принцип максимума 25, 306 Портрет фазовый динамической систе- мы 62, 64 ---физического маятника 64 Постоянная времени 144 Поток пуассонов 223 Прецессия 180 — собственная 188 Признак, сцепленный с полом 87 Принцип динамического программиро- вания Веллмана 25, 123, 134 , 306, 311 — максимума Понтрягина 25, 306 Программирование выпуклое 307 — квадратичное 307 — линейное 307 — математическое 307 Пространство состояний 62 ---марковской системы 46 — фазовое 62 Протекание 92 Процесс апериодический 139 — диффузионный 47 — колебательный 139 Прямая переключения 157 Пуассона распределение 231 Равновесие неустойчивое 128 — устойчивое 138 Размножение 91 Распознавание образов 265, 389 Распределение по Пуассону 231 Рауса — Гурвица критерий 170 ---условия устойчивости 147 Регулирование непрямое 175 — прямое 163, 175 Регулятор 163 — изохронный 174 — поплавковый Ползунова 10, 166 — центробежный 11, 163, 194 Режим скользящий 151 — триггерный 74 Рийке опыт 18 Рибосома 22 Риск эмпирический 279 РНК транспортная 22 Самосборка одномерных цепочек. 96 Связь обратная 10, 166 — прямая 166 Сепарабельность 310 Сепаратриса 67 Сервомотор гидравлический 175 Сеть нейронная 265 Сечение золотое 248 Симплекс 46 Синергетика 99 Система адаптивная 24, 293 --- с поиском стратегии 380 — гелиоцентрическая Коперника 27 — динамическая 26, 29, 34, 64 ---автономная 311 --- управляемая 103 — измерения 297 — линейная 326 — марковская 38, 46, 47, 122, 234,. 347 ---однородная с конечным числом состояний 46 — материальных точек 30 — механическая дискретная 30 --- распределенная 30 — полностью управляемая 291, 300 — прямого регулирования 163, 167 — самообучаемая 24 — управляемая по отношению к нача- лу координат 303 Случайность 51 Смена состояний ошибочная 352 --- правильная 352 Сопровождение радиолокационное 285 Состояние 26, 29 — механическое 26 Спуск градиентный 251 Стабилизатор гироскопический силовой одноосный 179 Стабилизация гироскопическая 178 — перевернутого маятника 103 -------вертикальными колебаниями* 105
УКАЗАТЕЛЬ 398 ПРЕДМЕТНЫЙ Стабилизация перевернутого маятника вращением 104 -------средствами управления 107 — скорости вращения 163 Стратегия дуальная 120 — квазиоптимальная 376 — наилучшего решения по имеющейся информации 235 — поиска минимума минимаксная 238 —стационарная 118 — управления 15, 114, 135 --- оптимальная 336 Структура персептрона функциональ- ная 275 Струна 32 Схема структурная 142 ---адаптивной системы 294 ---динамической системы 310 ---системы идентификации 387 Тело твердое 30 — упругое 30 Теорема Гамильтона — Кэли 299 — Ирншоу 13 — об обучаемости персептрона 271 — разделения 337 Теория автоматического регулирования 175 ------- детерминированная 284 ------- стохастическая 291 — информации 17 — малых колебаний Лагранжа 17 — относительности 37 — передачи сообщений 17, 290 — принятия решений статистическая 277 — протекания 92 Траектория фазовая 62 Трение сухое 182, 195, 198 Турбина Лаваля 18 Уатта регулятор центробежный 11,163, 194 Унимодальность функции 242 Управление адаптивное 371 — двухпозиционное 152 — допустимое 302 — дуальное 120, 377 — марковской системой адаптивное 375 — оперативное 315 — программное 130, 133, 248, 315 — релейное 196 Управляемость 291, 297, 300 — полная 300 Уравнение в возмущениях 169 — линеаризованное 169 — Матье 105 — неразрывности 31 — рекуррентное Веллмана 332 — фазовых траекторий 66 — Шрёдингера 36 Уравнения Гамильтона 31 — Лагранжа 26, 167, 182, 208 — Лагранжа — Максвелла 36 — Максвелла 33 — материальные 34 — Навье — Стокса 32 — Ньютона 26 — Эйлера 26, 32 Условия устойчивости Рауса — Гур- вица 147 Устойчивость авторулевого 144 — асимптотическая глобальная 101 — консервативная 107 — процесса регулирования 168 — равновесия линеаризованной си- стемы 169 Фибоначчи число 246 Физика высоких.скоростей 37 — статистическая 47 ---классическая 47 --- квантовая 47 Фика закон 48 Фильтр 331 — абсолютно оптимальный 346 — Калмана — Бьюси 330, 336 Фильтрация 290, 337 — Винера — Колмогорова 337 — динамическая 337 — линейная оптимальная 337 — оптимальная 292, 295 Формализм Лагранжа 181, 208 Формирование обобщенных образов 265 Формула Байеса 341, 342, 364 Функция Гамильтона 31 — Лагранжа 31 — Ляпунова 215, 385, 386 — последования 158 — производящая 93 — сепарабельная 310 — унимодальная 242 Характеристика кулоновская 182 Хевисайда исчисление операционное 20 Ховарда метод 361 Ходьба двуногая автоколебательная 205
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 39» Цепочка одномерная 96 Цикл предельний 71 ----устойчивый 72 Число Фибоначчи 246 Чувствительность измерителя 169 Шагалка 206 Шрёдингера уравнение 36 Эволюция генотипа 84 Эйлера уравнения 26, 32 Экология математическая 80 Электродинамика квазистацйонарная 36 Эргодичность 47 RC-цепь 68
Юрий Исаакович Неймарк Николай Яковлевич Коган Владимир Петрович Савельев ДИНАМИЧЕСКИЕ МОДЕЛИ ТЕОРИИ УПРАВЛЕНИЯ Редакторы: Л. А. Чульский, В. И. Левантовский Художественный редактор Т. Н. Кольченко Технический редактор С. Д. Шкляр Корректоры Г. В. Подвольская, И, Я- Кришталь ИБ № 11729 Сдано в набор 29.01.85. Подписано к печати 15.07.85. Т-12380. Формат 60x90*/^. Бумага тип. № I. Гарнитура литературная. Печать высокая. Усл. печ. л. 2 5. Усл. кр.-от. 25. Уч.-нзд. л. 25,12. Тираж 4700экз. Заказ № 677. Цена 3 р. 80 к. Ордена Трудового Красного Знамени издательство «Наука» Главная редакция физико-математической литературы 1 17071 Москва В-71, Ленинский проспект, 15 Ордена Октябрьской Революции и ордена Трудового Красного Знамени МПО «Первая Образцовая типография» имени А. А. Жданова Союзполнграфпрома при Государственном комитете СССР по делам издательств, полиграфии и книжной торговли. 113054 Москва, Валовая, 28 Отпечатано во 2-ой типографии издательства «Наука» 121099’Москва Г-99, ’’Тубинскнй пер. 6