/
Автор: Айзекс Р.
Теги: математика математический анализ математическая физика военная техника военное дело
Год: 1965
Текст
Дифференциальны
игрь
DIFFERENTIAL
GAMES
A Mathematical Theory with Applications
to Warfare and Pursuit, Control and
Optimization
RUFUS ISAACS
Office of the Chief Scientist
Center for Naval Analysis
John Wiley and Sons, Inc., New York • London • Sydney
1965
ПРЕДИСЛОВИЕ
Когда собака гонится за кроликом, то даже если она все вре-
мя видит его, она не знает его дальнейшего поведения и может
руководствоваться лишь знанием физических возможностей кро-
лика и своих собственных. Таково своеобразие задачи преследо-
вания одного управляемого объекта другим управляемым объек-
том, математическому изучению которой посвящена настоящая
книга. Конечно, здесь речь идет не о животных, а о технических
объектах, но у этих объектов предполагается некоторая свобода
действий, аналогичная свободе воли животных. Заранее нужно
сказать, что рассматриваемые ? книге технические объекты чрез-
вычайно элементарны, и весь вопрос ввиду его новизны нахо-
дится еще на очень низком уровне развития. В книге изучаются
игры, в которых участвуют два игрока: убегающий и преследо-
ватель. Такие игры преследования Айзеке назвал дифференци-
альными потому, что в них поведение обоих игроков описывается
дифференциальными уравнениями. Перейдем, однако, к точным
формулировкам.
Объект называется управляемым, если его состояние опре-
деляется вектором некоторого фазового векторного простран-
ства, а движение описывается векторным дифференциальным
уравнением
x = f(x,u), (D
где х — вектор, определяющий состояние объекта, х — производ-
ная вектора х по времени, аи — управляющий параметр, кото-
рый, вообще говоря, является не числом, а точкой некоторого
множества. Уравнение A) задает не конкретное движение объ-
екта, а его технические возможности. Это объясняется нали-
чием в уравнении A) управляющего параметра и, в котором
Предисловие
воплощается свобода воли объекта. По мере течения времени
управляющий параметр тем или иным способом получает опре-
деленные значения и в конечном счете становится известной
функцией времени, так что уравнение A) можно решать.
В частном случае, когда мы имеем дело с механическим объ-
ектом, часть координат вектора х определяет геометрическое
положение объекта, а остальные координаты задают скорости
изменения геометрических координат.
В задаче о преследовании рассматриваются два объекта:
объект х с уравнением A) и объект у с уравнением
y = g(y, v), B)
имеющий, вообще говоря, другое фазовое пространство и с дру-
гим управляющим параметром v. Задача преследования состоит
в том, что убегающий объект у движется согласно своим техни-
ческим возможностям, т. е. в силу уравнения B), в каждый мо-
мент времени используя свою свободу воли (свободу выбора
параметра v), а объект х стремится как можно скорее догнать
у, двигаясь в силу уравнения A) и используя всю свою свободу
воли для быстрейшей поимки объекта у; при этом объект х в ка-
ждый момент времени знает лишь свое состояние, состояние
объекта у в тот же момент времени и, быть может, значение уп-
равляющего параметра v, но он ни в коем случае не может знать
дальнейшего поведения у. Преследование считается завершен-
ным в момент, когда объекты х и у геометрически совпадут,
т. е. тогда, когда геометрические координаты вектора х ста-
нут равными геометрическим координатам вектора у. В книге
Айзекса, впрочем, вопрос ставится несколько иначе, но об этом
ниже.
При разборе задачи преследования удобно объединить оба
вектора х и у в один вектор z=(x,y), т. е. составить прямую
сумму R фазовых пространств обоих объектов; тогда совокуп-
ность уравнений A) и B) можно записать в виде одного век-
торного уравнения
z = Z(z,u,v). C)
Предисловие
В фазовом пространстве R совокупность всех точек z, в кото-
рых игра преследования считается завершенной, составляет не-
которое многообразие М. Теперь мы можем сформулировать зна-
чительно более общую задачу, чем задача преследования, кото-
рая и называется дифференциальной игрой.
В некотором векторном пространстве R задано дифферент
циальное уравнение C), правая часть которого зависит от двух
управляющих параметров и и v\ кроме того, в пространстве R
задано многообразие М произвольной размерности. Игра со-
стоит в том, что по мере течения времени каким-то способом за-
даются значения управляющего параметра v, а значения упра-
вляющего параметра и выбираются в каждый момент времени
так, чтобы закончить игру по возможности быстро. Игра счи-
тается законченной, когда вектор z оказывается принадлежа-
щим многообразию М.
Здесь наличие двух игроков выражается в наличии двух
управляющих параметров С исходной задачей — игрой пресле-
дования— связано также предположение, что правая часть
уравнения C) распадается в сумму двух слагаемых, одно из
которых зависит только от управляющего параметра и, а дру-
гое— только от управляющего параметра v:
Z{z,a,v) = X{z,a)+-Y{z,v). D)
Методика Айзекса требует, чтобы размерность многообразия
М была в точности на единицу меньше размерности простран-
ства R. В связи с этим ограничением ему приходится считать,
что преследование завершено не тогда, когда объекты геометри-
чески совпали, а тогда, когда расстояние между ними стало рав-
но некоторому положительному числу. В такой постановке за-
дачи преследования есть свои плюсы и свои минусы.
В предлагаемой вниманию читателей книге Айзекса нет об-
щих теорем. Она содержит лишь некоторые общие соображения
и разбор на основе эгих соображений многочисленных конкрет-
ных задач. Это связано с тем, что вопрос находится еще в на-
чальной стадии своего развития.
Книга Айзекса представляет собой сводку его работ, опуб-
ликованных в закрытой печати, так что работы эти не были
Предисловие
ранее доступны советскому читателю. Однако введенный Айзексом
термин «дифференциальная игра» дошел до Советского Союза и
стал употребляться советскими математиками. В частности, и я
воспользовался им, еще не имея никакого представления о ра-
ботах Айзекса.
Дифференциальные игры открывают новую интересную тема-
тику для исследований и в перспективе своего дальнейшего раз-
вития приведут к решению актуальных технических задач.
Л. С. Понтрягин
1 января 1967 г.
ОТ РЕДАКТОРА ПЕРЕВОДА
Автор любезно предоставил в наше распоряжение целый ряд
добавлений и исправлений к английскому тексту книги, за что
редакция очень ему признательна. Кроме того, в процессе пе-
ревода были устранены некоторые неточности.
В конце книги помещено приложение — обзор некоторых ре-
зультатов по теории дифференциальных игр. Обзор снабжен
большим списком литературы.
М И. Зеликин.
ПРЕДИСЛОВИЕ АВТОРА К РУССКОМУ ИЗДАНИЮ
Я получил большое удовлетворение, когда узнал, что мои ис-
следования пустили корни в плодородной научной почве Совет-
ского Союза. Эта страна вправе гордиться своими свершениями,
и, по-видимому, в будущем она неизбежно будет все чаще иг-
рать роль научного инициатора.
Мои работы по дифференциальным играм были впервые
опубликованы в шести выпусках «Rand Reports» в период с 1951
по 1953/54 г., когда вышла заключительная серия из четырех
работ. Выпущенные ограниченным тиражом, они тем не менее
имели некоторое хождение в Соединенных Штатах, но, насколь-
ко я знаю, ни один из выпусков не достиг Советского Союза.
Других источников информации, по-видимому, не было. Эта
книга могла выйти в свет на много лет раньше, если бы мне уда-
лось раньше получить необходимые субсидии.
Тем временем вышеупомянутые выпуски «Rand Reports» и
мои неофициальные лекции в Rand Corporation (около 1950 г.)
дали неожиданные плоды. Стала развиваться теория дифферен-
циальных игр с одним игроком, которая получила название тео-
рии управления. С тех пор эта теория чрезвычайно разрослась;
появились посвященные ей журналы, стали проводиться между-
народные конференции, и ею начали заниматься многие ученые.
Среди них одно из основных мест занимали советские ученые.
Некоторые из них — Л. С. Понтрягин, А. М. Лётов, Р. В. Гам-
крелидзе, Л. А. Петросян и другие — в настоящее время прояв-
ляют серьезный интерес к задаче с двумя игроками. Итак, тео-
рия дифференциальных игр появилась независимо в Советском
Союзе в качестве обобщения теории управления; в моей стране
наблюдался обратный процесс. Когда писалась книга, я не знал
об этих направлениях, поэтому читатель должен быть готов
10 Предисловие автора к русскому изданию
найти много отличий в деталях и обозначениях от того, что
стало теперь стандартным.
Между «принципом перехода» и принципом максимума
Понтрягина параллели, несомненно, должны существовать;
имеются и некоторые различия; например, я стараюсь избегать
таких постановок задач в играх преследования, когда захва-
том называется совпадение точек.
В настоящее время я предоставляю другим выяснение связей
между двумя этими версиями по существу одного и того же кру-
га идей.
Руфус Айзеке
Арлингтон,
Виргиния, США, 1966 г.
Моей жене Розе
чье терпение во время моей
работы над этой книгой было шк
необходимо для ее завершения.
ИЗ ПРЕДИСЛОВИЯ К АМЕРИКАНСКОМУ ИЗДАНИЮ
Хотя первой причиной, побудившей меня взяться за книгу,
были задачи военного характера, постепенно тематика книги
отошла далеко от этих задач. В результате получилось матема-
тическое исследование, представляющее собой своеобразный
сплав теории игр, теории управления и вариационного исчисле-
ния, причем в результате такого объединения появились эле-
менты, новые по отношению ко всем трем этим наукам.
Возникавшие проблемы, как правило, требовали новых ме-
тодов. Для их решения понадобилась новая теория, представ-
ляющая по существу основное содержание этой книги.
Она выкристаллизовалась в процессе решения конкретных
задач. При рассмотрении многих из них пришлось столкнуться
с новыми, на первый взгляд непонятными явлениями, причем,
как только удавалось разобраться в одних, появлялось много но-
вых, столь же непонятных. Невозможно предсказать все захва-
тывающие неожиданности, которые может повлечь за собой раз-
витие теории дифференциальных игр. На пути развития этой
теории новые затруднения, по-видимому, никогда не перестанут
появляться, и поэтому нелегко определить, до какой степени она
сейчас завершена.
Читателю, который хочет только ознакомиться с настоящей
теорией, я предложил бы следующий порядок чтения книги.
В гл. 1 говорится о природе дифференциальных игр, а также
очерчена область явлений, которые можно описать дифферен-
циальными играми. Здесь изложены некоторые типичные задачи,
однако ничего не говорится о методах их решения.
Идею таких методов можно почерпнуть из гл. 3, посвященной
дискретным моделям; некоторые из них представляют собой
квантованные варианты непрерывных задач. Поскольку их
12 Из предисловия к американскому изданию
можно решать шаг за шагом, читатель сможет понять сущ-
ность нашего подхода к решению задач без формальных мате-
матических приемов.
В гл. 2 переводятся на математический язык понятия, содер-
жащиеся в первой главе; однако в сущности основные положе-
ния теории изложены начиная с гл. 4. Таким образом, чтения
гл. 1 и 3 и беглого просмотра гл. 2 достаточно для первого озна-
комления с теорией дифференциальных игр.
Читатель, интересующийся приложением теории к вопросам
военного дела, после такого предварительного чтения или сразу
же может обратиться к гл. 11. Часть задач, также имеющих от-
ношение к военному делу, изложена в предыдущих главах, одна-
ко для понимания их требуется последовательное чтение текста.
Возможно, что отсутствие теорем существования и единствен-
ности покажется некоторым ересью. Мне кажется, в данном
случае будет правильным уделить основное внимание особенно-
стям конкретных задач вопреки общепринятой математической
тенденции. Без этого трудно понять, как можно объяснить мно-
гие новые явления, с которыми приходится сталкиваться теории.
Кроме того, большое разнообразие этих явлений устраняет во-
прос о теоремах существования и единственности; в самом деле,
как бы громоздки они ни были, эти теоремы не могут охватить
всех возможных случаев. Области приложений оказались гораз-
до разнообразнее, чем я думал вначале; читатель может в этом
убедиться, просмотрев книгу.
После первых публикаций [1], пересмотренный материал ко-
торых составляет теперь гл. 1—4, прошло несколько лет, в тече-
ние которых мне не удалось уделить дифференциальным играм
достаточно времени.
Я вернулся к этой тематике, лишь когда стал работать в
Авиационной компании Хьюза в связи с проблемой избежания
столкновений. Теория избежания столкновений самолетов и су-
дов оказывается гораздо более трудной, чем это можно ожидать
вначале. Серия происшедших катастроф ускорила наши иссле-
дования. При этом обнаружилась неожиданная и изящная связь
этой проблемы с дифференциальными играми. Проблема избе-
жания столкновений относится к типу игр, где участники не пре-
Из предисловия к американскому изданию 13
следуют противоположные цели, а кооперируются; она подчине-
на тем же математическим принципам, обеспечивающим «мак-
симакс» вместо «минимакса». Недостаток места не позволяет
включить в книгу полученные результаты по этому вопросу; они
будут помещены в отдельных статьях.
Настоящая работа представляет собой оригинальное иссле-
дование. Однако неизбежная задержка публикаций, по-видимо-
му, заставила потускнеть блеск ее новизны. Как это часто слу-
чается в истории науки, одни и те же концепции возникают в со-
ответствующее время одновременно и независимо у различных
исследователей. Долгое время я занимался этой проблемой один
и не подозревал, что в это же время она развивается другими
авторами.
Действительно, через несколько дней после завершения ра-
боты над рукописью (в марте 1963 г.) я впервые увидел книгу
Понтрягина и др. [2], где изложен подход к проблемам миними-
зации, аналогичный предлагаемому здесь. Этот подход приме-
ним для исследования игр одного игрока. В диссертации Ке-
ленджеридзе [3] этот метод распространен на игры двух игро-
ков, и поэтому в некоторых отношениях его работа совпадает
с моей.
Кроме советских, появились американские публикации [4],
посвященные в основном логическим обоснованиям дифферен-
циальных игр. Берковиц применяет вариационное исчисление к
стратегиям одного игрока, считая, что стратегия его противника
временно фиксирована. Флеминг определяет непрерывную стра-
тегию как лежащую между двумя дискретными. Эти интересные
работы появились слишком поздно для того, чтобы их можно
было использовать в настоящей книге.
Однако одновременно с этой развивалась другая самостоя-
тельная теория, терминология которой столь сильно отличалась
от терминологии теории игр, что при написании этой книги я не
подозревал их сходства. Теория оптимального управления [5]
идентична дифференциальным играм одного игрока и поэтому
является частным случаем таких игр. Я заменил два термина из
«Rand Reports» на используемые в настоящей книге термины
фазовые координаты и управления, принятые в теории управ-
ления. Поверхности переключения в этой теории аналогичны
14 Из предисловия к американскому изданию
сингулярным поверхностям в дифференциальных играх Вопрос
об управляемости (каких состояний можно достичь из задан-
ного начального состояния?)—основной вопрос в так называе-
мых играх качества (гл 8 и 9). Таким образом, обе эти теории
дополняют др>г друга- задачи оптимального управления мож-
но превратить в дифференциальные игры, если ввести еще од-
ного участника, а изложенные здесь методы можно применять
к задачам управления, рассматривая их как игры одного игрока
Тем не менее я сохранил в общем случае для игроков назва-
ния преследующий и убегающий, порожденные рассматривае-
мыми вначале играми преследования, я упоминаю об эгом для
того, чтобы у читателя не сложилось впечатления, будто в книге
рассматриваются только такие игры
Р. Айзеке
Вашингтон
Октябрь 1964 г
ГЛАВА 1
Введение
Настоящее введение предшествует строгому математическо-
му описанию теории дифференциальных игр.
1 1. ТЕОРИЯ ИГР
Со времени создания теории игр Дж. фон Нейманом и
О. Моргенштерном прошло всего несколько лет В их работе [15]
были введены такие основные понятия, как стратегия, цена игры
и, по-видимому самое главное, обоснован эффективный путь для
отыскания оптимальной стратегии, которая может быть как чи-
стой, так и смешанной.
Предполагается, что читатель знаком с таким понятием, как
игра двух лиц с нулевой суммой, но в дальнейшем специальные
знания теории игр понадобятся не часто В нашей книге по ходу
изложения будут даны все необходимые сведения, и хотя без
основополагающей работы фон Неймана и Моргенштерна книга
вряд ли могла бы появиться, однако идеи этой работы будут для
нас скорее образцом, чем рабочим аппаратом.
С самого начала теория игр по общему признанию стала
классической наукой, вызвав появление целого потока статей
и книг. По временам казалось, что теория игр совершит перево-
рот в ряде прикладных областей, особенно в военном деле и эко-
номике.
Однако эти нацежды не оправдались, по крайней мере в об-
ластях, которые нам хорошо знакомы Каковы же причины кру-
шения этих надежд^
По-видимому, их две Одна состоит в возросшей трудности
задач, когда — и это есть сущность теории игр — имеются два
противника с противоположными целями и каждый должен при-
нять наилучшее возможное решение, понимая и принимая в рас-
чет, что его противник сделает то же самое Такая ситуация це-
ликом отличается от той, которая возникает в соответствующих
задачах классического анализа, ибо последние, как мы увидим в
гл 3, можно отнести к играм с одним игроком Дополнительные
трудности, связанные с наличием двух игроков, могут оказаться
весьма существенными.
16 Гл 1 Введение
Второй причиной является отсутствие методов, приводящих
к окончательным результатам Основная масса работ по теории
игр касается, как правило, общих теорем и результатов, часто
на высоком математическом уровне, но мало приспособленных
к решению практических задач. Такие решения, как уже гово-
рилось, получить нелегко, но даже если это и не так, подобные
цели обычно даже не ставятся Современные математики тяго-
теют к более абстрактным и общим положениям.
Этот вопрос обсуждается в гл. 11 в связи с военными прило-
жениями. За исключением некоторых параграфов, гл. 11 можно
читать независимо от предыдущих глав в виде дополнительного
введения.
Почти все элементарные введения в теорию игр начинаются
с матричных игр и связанных с ними понятий Это прекрасный
подход к формулировкам и доказательствам основных теорем,
без которых теория игр не могла бы существовать. Но мат-
рицы, за исключением некоторых очень простых моментов, яв-
ляются неподходящим средством для получения окончательного
решения реальной игры, поскольку недостаточно точно описы-
вают ситуацию. Теоремы, которыми мы располагаем, отнюдь не
являются завершением теории, а для таких целей, как получе-
ние явных решений, они совершенно непригодны1).
Если не считать крайне простых игр — скажем, таких, когда
решение каждого игрока состиит в выборе либо из малого числа
дискретных возможностей, либо из континуума с элементарной
логической структурой, — матрицы, как правило, оказываются
астрономических размеров.
Если бы существовал метод получения решения средствами
математического анализа, то игра должна была бы иметь вну-
треннюю логическую структуру, поддающуюся такому анализу
Эта мысль, строгое объяснение которой нам всегда казалось за-
труднительным, более подробно развита в гл. 3, -и читатель при
желании можег обратиться к ней уже сейчас.
Определение понятия дифференциальных игр будет связано
со следующей концепцией. Само название «дифференциальные
игры» предполагает, что в качестве основного подхода к зада-
чам теории игр используются такие средства классического ана-
лиза, как дифференциальные уравнения В основном так оно и
есть Однако мы предпочитаем представлять себе нашу теорию
') Представим себе ортодоксального спецна чиста по теории игр, столк-
нувшегося с классической задачей о корнях полинома р(х) Он рассматри-
вает проблему как игру с одним игроком, который минимизирует плату \р(х)\
и получает тем самым корни Стратегиями служат все комплексные числа х
Применив парочку общих теорем существования, теоретик отделывается от
задачи А зачем тогда вся литература по теории )равнении^
12 Фазовые координаты и управления 17
как такую, которая исследует игры, где противники принимают
длинный ряд последовательных — дискретных или непрерыв-
ных — решений, которые так логически связаны друг с другом,
что эта связь может послужить основой наглядной и поддаю-
щейся счету модели.
1.2 ФАЗОВЫЕ КООРДИНАТЫ И УПРАВЛЕНИЯ
Типичными примерами дифференциальных игр являются сра-
жения, воздушные бои, футбол, преследование судна торпедой,
перехват самолета зенитной ракетой, охрана объектов от напа-
дения. Если один из игроков выключается из игры, мы полу-
чаем обычную задачу максимизации. Она уже относится к ва-
риационному исчислению и составляет основную часть теории
управления.
Решения игроков всегда заключаются в выборе некоторых
величин, называемых управлениями. Они в свою очередь опре-
деляют собой значения других величин - фазовых координат.
Последние обладают тем свойством, что знание их значений в
любой момент времени полностью определяет течение игры.
Смысл этого положения поясним тремя эквивалентными утвер-
ждениями.
1. Для определения исхода игры нужно знать значения фазо-
вых координат в начальный момент.
2. Фазовые координаты являются именно теми величинами,
значения которых в каждый момент времени должен принимать
во внимание игрок при выборе своего решения.
3. Если игрок должен быть заменен другим на протяжении
партии, то информация, необходимая последнему для возобнов-
ления игры, представляет собой текущие значения фазовых ко-
ординат.
В процессе игры фазовые координаты меняются. Если их
число равно п, то мы будем обозначать их хи . .., хп и рассма-
тривать как координаты точки в /г-мерном евклидовом простран-
стве. Это пространство, или, скорее, некоторое его подмноже-
ство, является пространством игры, или пространством состоя-
ний; мы будем обозначать его W-
Движение точки x( = {xh ..., хп}) все время находится под
частичным контролем двух игроков, который может осущест-
вляться путем надлежащего выбора управлений.
Текущие значения фазовых координат всегда известны обоим
игрокам; таким образом, мы изучаем игры с полной информа-
цией. Это, по-видимому, самое сильное ограничение на данном
этапе развития теории, которое исключает многие применения
ее в военном деле. Распространение теории на случай неполной
18 Гл. 1. Введение
информации явилось бы благодатным полем для дальнейших ис-
следований. Глава 12, которую можно читать вне связи с осталь-
ными главами, посвящена многообещающим идеям такого
обобщения.
Развитие игры характеризуется движением точки х в У . Иг-
ра заканчивается, если выполняются некоторые условия, и всег-
да можно сделать так, чтобы эти условия состояли в попадании
точки х на некоторую поверхность, или (п—1)-мерное много-
образие, которую можно принять за часть границы простран-
ства с?.
По окончании партии становится известной численная вели-
чина, называемая платой. Целью одного игрока является се мак-
симизация, а другого — минимизация. Как это принято в теории
игр, наилучшее значение платы, ее минимакс, будет называться
ценой игры. Она равна плате при оптимальном действии обоих
игроков. Если один из них станет действовать не оптимально, то
его противник получит возможность достичь платы, более выгод-
ной для него, чем цена.
Рассмотрим теперь эти понятия для одного общего класса
приложений.
1.3. ВОЕННЫЕ ИГРЫ
Фазовые координаты должны быть такими величинами, кото-
рые характеризуют положение дел в той мере, в какой по необ-
ходимости упрощенная модель задачи соответствует реальному
процессу. Фазовыми координатами могут, в частности, быть чис-
ло людей, самолетов, танков, судов; может оказаться целесооб-
разным разделить их на группы по расположению в различных
районах или по какому-либо другому признаку, например по
удаленности от линии фронта и т. д.
Пусть армия 1 —«минимизирующая» — имеет в своем распо-
ряжении управления qpi, ... , фь соответственно армия 2 — «мак-
симизирующая»— имеет управления т|зь ..., т|зи. Выбор управ-
лений обусловлен обстоятельствами. Предположим, например,
что платой является разница в живой силе (или снаряжении и
т. п.) в конце игры или в фиксированный момент времени Т.
Пусть Xi — соответствующая координата г-й армии, тогда плата
равна х2 — Х\. Механизм развития подобной игры лучше всего
продемонстрировать на конкретных примерах.
Пусть Xi — количество живой силы армии 1 в некотором сек-
торе; это количество может уменьшаться за счет воздушных на-
летов противника. Пусть х3 — число самолетов армии 2 (против-
ника), которые можно использовать для этой цели. Через ifi
@-Сг|I^С1) обозначим долю общего числа самолетов х3, которую
противник решает использовать в некоторый момент времени.
1.4. Игры с движущимся объектом 19
Теперь нужно из опыта или каким-либо другим образом опре-
делить, как ожидаемые потери в живой силе зависят от числа
Ф1^3 посланных самолетов противника. Пусть они прямо пропор-
циональны %х3 и коэффициент пропорциональности равен с.
Для того чтобы иметь возможность использовать мощный
аппарат математического анализа, будем предполагать, что про-
цесс является не дискретным, а непрерывным. Это дает непре--
рывную аппроксимацию дискретной игры1).
Представим себе, что армия 1 получает пополнение с фик-
сированной скоростью г. Тогда имеем уравнение
xl = r — dflxu + .... A.3.1)
Многоточие в правой части означает различные другие члены,
как, например, изменения в результате других действий армии
2 или маневрирования живой силой внутри армии 1. Если игра
полностью симметрична, то имеем такое же уравнение, только
армии меняются ролями.
Пусть Х4 — некоторый непополняемый запас военного снаря-
жения армии 1, который служит для ее снабжения. Пусть Ъ —
максимальная скорость такого снабжения. Пусть qpi(O4^qpi^l) —
доля от Ь, которую армия 1 решает использовать в данный мо-
мент. Тогда
х4 = — bcpv A.3.2)
При определении пространства состояний If мы будем требо-
вать, чтобы выполнялось условие х^О. Тогда A.3.2) предста-
вляет собой ограничение на использование этого запаса и дает
игроку возможность распоряжаться этим запасом с учетом его
ограниченности.
В левых частях уравнений A.3.1) и A.3.2) стоят обычные
производные от координат по времени. Уравнения такого типа
служат основным средством описания развития дифференциаль-
ной игры. Они называются уравнениями движения и имеют вид
xi~fi(xv •••. •*«> <Pi. •••> Фа.. 4>i. ¦••. Фх). «=1. ¦••> я- A-3.3)
Итак, скорость изменения фазовых координат является заданной
функцией от фазовых координат и управлений обоих игроков.
1.4. ИГРЫ С ДВИЖУЩИМСЯ ОБЪЕКТОМ
Возьмем в качестве примера движущегося объекта автомо-
биль и рассмотрим при этом уравнения движения, фазовые ко-
ординаты, управления и различия между последними. Мы
!) Можно оставить также и дискретный подход. См., например, гл. 3.
2*
20 Гл. 1. Введение
выбрали автомобиль, так как его свойства известны всем. Наши
рассуждения можно применить, лишь с небольшими изменения-
ми, к любому движущемуся объекту — к танкам или кораблям
(от моторных лодок до крейсеров). Летательные аппараты дви-
жутся, разумеется, в трехмерном пространстве, но принцип
остается тем же.
Геометрическое положение объекта, например автомобиля,
описывается тремя фазовыми координатами: хи х2 — декартовы
координаты некоторой фиксированной точки автомобиля и х%—
угол, образуемый осью автомобиля с фиксированным направле-
нием, например направлением хь Предполагается, что движение
происходит во всей плоскости Х\, Х2. Если автомобиль фигури-
рует в дифференциальной игре, то нам нужно знать о нем боль-
ше. Предположим, что автомобиль управляется с помощью мо-
тора и рулевого колеса1). Мотор управляет тангенциальным ус-
корением. Эта величина, находящаяся под контролем игрока,
является управлением и будет обозначаться через фь Чтобы
иметь простой и единообразный вид границ управлений, мы при-
мем ускорение равным Лф,. Здесь А — максимальное возможное
ускорение, и управление ф! подчиняется теперь ограничению ви-
да 0^Сф1-^1. Таким образом, оно является долей полного ускоре-
ния и находится под контролем водителя. Скорость х4 не нахо-
дится под непосредственным контролем водителя, но ее вели-
чину, как и величины хг, х2, х3, оба игрока, участвующие в игре,
должны принимать в расчет. Следовательно, она должна рас-
сматриваться как фазовая координата.
Положение рулевого колеса определяет кривизну траектории
автомобиля. Но нереально считать, что водитель может менять
ее произвольно. Имеет смысл принять кривизну траектории авто-
мобиля за еще одну фазовую координату хъ (очевидно, физиче-
ски это есть угол поворота передних колес), а долю скорости
ее изменения — за управление q>2. Итак, если W — максималь-
ная скорость изменения величины хь ю скорость, выбираемая
водителем, равна Wcp2, где —l^^-^Cl.
В этих предположениях движение автомобиля будет опреде-
ляться следующими уравнениями движения:
X,=X4COSX3, A)
х2 = х4 sin x3, B)
X3=XtX5, C)
x4 = A^, ()<ф1<1, D)
х5 = Wy2, — 1 < ср2 < 1. E)
') Мы пренебрегаем возможностью автомобиля переключать скороаь и
давать задним ход.
1.4. Игры с движущимся объектом 21
Здесь A), B) есть просто разложение скорости автомобиля по
осям координат; C) устанавливает, что скорость изменения на-
правления равна скорости, умноженной на кривизну. Что ка-
сается D), то скорость изменения скорости есть ускорение, а
E) уже было обсуждено.
Резюмируя, можем сказать, что величины хи . .. , х5 описы-
вают те свойства нашего автомобиля, которые существенны при-
его участии, скажем, в игре преследования. Они называются
фазовыми координатами. Водитель управляет с помощью вели-
чин ф1 (положение педали акселератора) и ф2 (доля скорости
вращения рулевого колеса). Эти величины являются управле-
ниями, и только они одни в каждый момент времени находятся
под контролем игрока. Они, в отличие от фазовых координат, не
могут быть измерены противником.
Читатель немедленно почувствует недостатки нашей модели.
Наиболее явный из них состоит в том, что скорость оказывается
неограниченной. Это можно исправить, налагая ограничения на
xit но более естественно изменить само уравнение D). Во-пер-
вых, утверждение, что сила, развиваемая мотором, пропорцио-
нальна величине, на которую отжата педаль акселератора,
следует считать сверхупрощением динамики автомобиля. Во-вто-
рых, самое важное, эта сила пропорциональна ускорению авто-
мобиля, только если мы пренебрегаем трением. Если предполо-
жить для простоты, что трение пропорционально скорости и
направлено в противоположную ей сторону, то мы получим
улучшенный вариант уравнения D):
— Кх4.
Здесь Лф1 @^Сф1^1) —величина, на которую отжата педаль
акселератора1), F — результирующая сила (на единицу массы
автомобиля), развиваемая мотором, а К — коэффициент трения.
Тогда скорость будет ограничена величиной F(A)/K 2)-
Другая существенная поправка состоит в ограничении кри-
визны хь. (Всякий, кто пытался развернуть машину на узкой
улице, не нуждается в дальнейших пояснениях.)
Итак, уравнения движения можно усложнить для получения
более точного соответствия с действительностью или упростить
для облегчения математических выкладок. В большинстве задач,
которые будут приведены в следующих главах, мы предпочли
делать последнее, поскольку иногда математическая сторона
') Тем самым смысл величины tpi несколько изменен.
2) Если автомобиль движется по прямой с полностью отжатым акселера-
тором, то простое применение теории дифференциальных уравнений показы-
вает, что эта величина является пределом, к которому стремится его скорость.
22 Гл. 1. Введение
окажется там достаточно сложной и без утонченных деталей, в
принципе мало что добавляющих.
Рассмотрим второй пример. Точка движется на плоскости с
тем лишь1) ограничением, что величина ее скорости w постоян-
на. Управляющий игрок выбирает направление движения и мо-
жет резко менять его в любой момент времени. Имеется един-
ственное управление ф—направление скорости. Уравнения дви-
жения имеют вид
х, = -да cos ф,
. A-4.1)
Х2= W Sin ф.
Здесь только две фазовые координаты: хх и хг. Такой случай
будем называть простым движением.
1.5. ИГРЫ ПРЕСЛЕДОВАНИЯ
Много примеров игр преследования можно привести из об-
ласти военного дела: торпеда и корабль, корабль и подводная
лодка, ракета и бомбардировщик, танк и «джип».
Чтобы получить общую картину, будем обозначать пресле-
дователя через Р, а преследуемого — через Е2). Соответствую-"
щие движущиеся объекты могут управляться человеком или ав-
томатически. В более сложных случаях участников игры может
быть больше двух, например группа боевых самолетов противо-
стоит эскадре вражеских бомбардировщиков или — уже из дру-
гой области — в футболе3) несколько нападающих играют с
удерживающим мяч противником. В общем случае Р и Е — ра-
зумные противники с противоположными интересами. Но если
каждый из них управляет лишь одним движущимся объектом,
то символами Р n E будут обозначаться сами эти объекты. Так,
Р может быть некоторой фиксированной точкой преследующего
объекта, например его геометрическим центром (но не его по-
ложением — этот термин обозначает также направление, ско-
рость и все те величины, которые являются фазовыми коорди-
натами).
Игра преследования обычно считается оконченной, когда про-
изошел захват. Это означает, что расстояние РЕ стало меньше
некоторой наперед заданной положительной величины I4).
!) Траектории с острыми углами не являются незаконными. Вопрос о том,
из какого класса функций от времени выбирать управление ф, мы оставтяем
пока открытым.
2) Первые буквы слов Pursuer (преследующий) и Evader (убегающий).—•
Прим. перев
3) Речь идет об американском футболе — Прим перев.
4) Другим критерием может быть, например, минимизация среднего рас-
стояния РЕ в течение игры.
1.5. Игры преследования 23
Для пояснения наших идей остановимся на некоторых типич-
ных моментах. За Е обычно принимают вторгающийся бомбар-
дировщик, самолет или управляемый снаряд, а за Р — защи-
щающий перехватчик, также самолет или снаряд. Во-первых,
спрашивается: как наилучшим образом должен Р преследовать
?? Далее, если в каждый момент времени Р знает и свое поло-
жение и положение Е, то как он должен в этот момент изменять
имеющиеся в его распоряжении управления? Под положением
понимаются не только координаты точек Р или Е, но и другие
характеризующие состояние величины, такие, как направление
полета, ориентация, скорость, короче — фазовые координаты.
Во-вторых, нужно определить, что означает «наилучшим об-
разом». По терминологии теории игр необходимо выбрать плату.
Критерий наиболее очевиден, если захват всегда осуществляется.
В том случае, когда интерес представляют только два исхода игры
(или другое конечное число), будем говорить о проблеме как о
некоторой игре качества (в отличие от игр степени, которые
имеют континуум возможных исходов). Но Р может быть пере-
хватчиком с ограниченным запасом горючего. Тогда наиболее
реальный критерий должен основываться на том, сможет ли про-
"изойти захват раньше некоторого определенного момента време-
ни. Если Е — бомбардировщик, цель которого — достижение дан-
ного объекта, то наиболее интересным является вопрос, сможет
ли быть осуществлен захват прежде, чем Е выполнит свое на-
значение. Если Р использует снаряды, ракеты или другое подоб-
ное оружие, то захват состоит в том, чтобы оказаться в зоне до-
стижимости Е. Если же Р не уверен, что попадет в цель точно,
он может ставить своей задачей оказаться в зоне достижимости
Е в течение определенного времени.
Все вышеописанные случаи соответствуют дискретной, точ-
нее, двузначной плате, и мы будем классифицировать соответ-
ствующие им игры как игры качества. Но бывают случаи, когда
противники стремятся минимизировать или максимизировать
определенную переменную величину. Эта величина есть плата, и
игра является игрой степени.
Часто в качестве платы удается выбрать такую непрерывную
величину, что она автоматически содержит в себе определен-
ный выше дискретный критерий. Например, предположим, что
нас интересует только один вопрос: может ли быть осуществлен
захват? В качестве платы можно взять время захвата, причем
цель Р — сделать это время по возможности меньшим, а цель
Е — по возможности большим. Бесконечное время соответствует
случаю, когда захват неосуществим. Тогда, если Р действует в
соответствии с этим предписанием, он, конечно, достигнет своей
основной цели всякий раз, когда захват осуществим. Притом он
24 Гл 1. Введение
сделает это в кратчайшее время. Теперь предположим, что
вначале целью Р был захват за время, не превосходящее некото-
рого фиксированного Т. Минимизируя время захвата, Р, разу-
меется, добьется успеха, если у него есть для этого возмож-
ность; нужно только взять минимальную величину времени за-
хвата, которой смог добиться Р, и посмотреть, превосходит эта
величина Т или нет.
Эта мысль является достаточно общей. Если, скажем, перво-
начально было желательно узнать, сможет или нет Е достичь оп-
ределенной приближенности к некоторому объекту, в качестве
платы можно выбрать расстояние до объекта в момент захвата.
Имея в виду, что Р стремится максимизировать это расстояние,
можно быть уверенным, что он не только выполнит свою задачу
защиты объекта, если это возможно, но и достигнет наибольшего
резерва безопасности или же сделает все, что в его силах, если
он окажется не в состоянии расстроить планы Е.
Итак, ответом на вопрос, что означает в играх «наилучшим
образом», является установление численного значения платы.
Для игр качества это можно сделать несколько искусственно,
приписав два (или более) числовых значения величине платы
для двух (или более) исходов. «Наилучшим образом» для Р оз-
начает сделать эту плату наиболее малой1).
Предположим, что плата выбрана; как Р должен минимизи-
ровать ее? Если он преследует снаряд Е, как ему действовать?
Должен ли он, например, используя данные о положении Е,
пытаться экстраполировать будущее движение Е и маневриро-
вать так, чтобы преградить ему путь?
Краткое размышление показывает, что такие вопросы бес-
смысленны. Ответ зависит от того, как будет вести себя Е. Если
он принял наивное решение двигаться по прямой с постоянной
скоростью, то Р, разумеется, сможет преградить ему путь, при-
чем довольно просто подсчитать, как это сделать наилучшим
образом. Но если Р всегда будет действовать так, то Е, если он
достаточно проницателен, может легко расстроить планы Р,
предприняв обманный маневр и тем самым заманив Р в ловуш-
ку. Таким образом, никакой план преследования не будет дляР
оптимальным, если противник движется произвольно.
Из этого следует, что нельзя говорить об оптимальном пре-
следовании, не определив, что такое оптимальное уклонение. Не-
обходимо одновременно рассматривать всевозможные способы
') Удобно всегда обозначать через Р минимизирующего игрока, а через
С—максимизирующего. Если в действительности происходит наоборот, как,
скажем, в приведенном примере, где Р максимизирует расстояние от защи-
щаемого объекта, можно сохранить единообразие обозначений, рассматривая
естественную плату с обратным знаком.
1.5. Игры преследования 25
поведения обоих противников, для того чтобы разработать ме-
тоды анализа игровых ситуаций. Именно это и делается в на-
стоящей книге.
Оптимальное уклонение можно классифицировать так же,
как оптимальное преследование. Все замечания, сделанные выше
относительно Р и его цели преследования, сохраняют свой смысл
и для Е с его целью уклонения. Например, мы могли бы (и дей-
ствительно будем) говорить о способах избежать захвата или
по крайней мере предупредить его до истечения времени Т. Ес-
ли за плату принять расстояние до объекта в момент захвата, то
можно обсуждать вопрос о том, как Е должен максимизировать
.С
•Р
Рис. 1.5.1.
это расстояние. В военных задачах, разумеется, обе стороны
рассматривают оба класса этих вопросов. Выше обсуждались
задачи игры и понятие платы только с точки зрения преследо-
вателя Р, но это делалось лишь для того, чтобы облегчить опи-
сание.
Вниманию читателя предлагается следующая простая игра
преследования, решение которой изложено далее в этой главе.
Ответ можно установить с помощью элементарных геометриче-
ских рассуждений, но для большинства случаев, которые будут
рассматриваться в дальнейшем, этот способ не типичен. Требуе-
мые рассуждения просты, однако задача предполагает наличие
у читателя некоторой изобретательности, и лишь немногие дают
правильный ответ.
На рис. 1.5.1 С есть область расположения объекта, который
Р защищает от атакующего врага Е; Р и Е оба совершают про-
стое движение с одинаковой скоростью и начинают двигаться из
положения, изображенного на рисунке. Примем здесь для про-
стоты, что захват означает совпадение точек Р и Е. Платой
является расстояние от точки захвата до С (если захват
возможен); Р должен максимизировать это расстояние, а
26 Гл. 1. Введение
Е ¦— минимизировать его. Если Е может достичь С и захвата не
произойдет, то этот исход считается для Е наилучшим. Как дол-
жны двигаться оба игрока?
Вообразим, что Е — носитель могущественного оружия, ска-
жем ядерной боеголовки, и если он не может достичь объекта,
то стремится взорваться возможно ближе к нему. Соответствен-
но перехватчик Р стремится встретить его в наиболее удаленной
от С точке.
Приведем второй пример, уже далеко не простой. Он пред-
ставляет собой игру преследования, где один из противников вы-
нужден двигаться так, чтобы кривизна его траектории не пре-
вышала некоторой величины. Это кинематическое ограничение
типично. Позже мы обратимся к случаю, когда подобным обра-
зом ограничены оба противника, однако рассмотрение такого
случая не дает в принципе ничего нового и тем самым не может
компенсировать возросшую трудность задачи.
Несмотря на то что задача, которую мы сейчас приведем, ти-
пична для определенного класса игр преследования, ее мрачное
название (смотрите следующий пример), возможно, поможет яр-
че представить себе сущность подобных ситуаций. Представим
себе автомобиль на бесконечной пустой площади, который пы-
тается наехать на пешехода. Таким образом, рассматривается
игра преследования, где Р обладает превосходящей скоростью,
но меньшей маневренностью по сравнению с Е.
Эта простая игра включает в себя столь богатый ассорти-
мент явлений, типичных для теории игр, что часто она служила
автору чем-то вроде указательного столба при построении тео-
рии. Поскольку и читателю она может сослужить ту же службу,
мы приведем эту игру сейчас. Еще раз повторяем, что в следую-
щих главах книги она будет служить не только примером, но и
своеобразным пробным камнем нашей теории.
Игра достаточно проста для того, чтобы быть наглядной, од-
нако ее решение состоит из различных этапов, подчас далеко
не очевидных. Появляется семейство сингулярных поверхно-
стей1), многие оказываются очень типичными. Все же возможно
интерпретировать многие аспекты геометрически, не прибегая к
теоретическим исследованиям; сравнение результатов позволит
пояснить и проверить наши рассуждения. Геометрический ва-
риант, а также и завершение решения приведены в гл. 10.
Пример 1.5.1. Игра «шофер-убийца». Игра происходит на пло-
скости. Преследователь Р движется с фиксированной скоростью
1) Поверхности в Z , где имеют место некоторые особенности и нерегу-
лярности. Как будет показано, сингулярные поверхности играют важную роль
в нашей теории.
1.5. Игры преследования 27
Wi, радиус кривизны его траектории ограничен заданной ве-
личиной R; Р управляет выбором значения этой кривизны в ка-
ждый момент. Таково грубое приближение схемы движения ав-
томобиля, лодки, летательного аппарата; допущение о том, что
управление положением происходит путем изменения радиуса
кривизны, также является идеализацией, выражающейся в том,
что этот радиус может быть изменен мгновенно.
Убегающий Е обладает простым движением. Это значит, что
его скорость w2 фиксирована, и управление состоит в том, что в
каждый момент выбирается направление движения. В этом слу-
чае допустимы любые крутые повороты; траектория может не
иметь касательной в каждой точке.
Захват происходит, когда расстояние РЕ не больше заданной
величины /, радиуса захвата. Преследователь обязан быть бы-
стрее: Wi>W2.
Нас интересуют два вопроса.
1. Игра качества. Когда Р может поймать ?? Ясно, что если
R велико, / мало и wi не очень превышает ш2, то Е всегда может
избежать захвата. Можно считать, например, что он делает это,
просто отступая в сторону всякий раз, когда появляется угроза
захвата. Ограничение кривизны траектории преследователя за-
прещает ему слишком резкие повороты. Он может промчаться
мимо Е и, вернувшись обратно для новой попытки, может быть
снова обманут тем же маневром Е.
Задача состоит в том, чтобы определить точные условия: зна-
чения R, I, wjw2, которые разграничивают эти возможности. Это
будет сделано в примере 9.1 и в гл. 10.
2. Игра степени с временем захвата в качестве платы. Те-
перь предположим, что Р всегда может поймать, и выберем
платой время, в течение которого происходит захват. В тер-
минах принятой нами мрачной терминологии мы можем счи-
тать, что пешеход надеется на прибытие спасения и потому, если
он сам не может избежать захвата, то по крайней мере ста-
рается отсрочить его. Разумеется, Р стремится действовать на-
столько быстро, насколько позволяют обстоятельства.
Если вначале Е находится более или менее впереди Р, опти-
мальный ход игры очевиден. На рис. 1.5.2, а точка Р изображает
начальное положение преследователя, его скорость направлена
вверх; убегающий находится в точке Е, впереди Р и, скажем,
немного правее его. На рисунке изображена часть окружности
максимальной кривизны, допустимой для траектории преследова-
теля; вектор скорости касается ее а ючке Р. Согласно предпи-
санию своей оптимальной стратегии, Р должен начать движение
28
Гл. 1. Введение
по этой дуге, делая максимально крутой поворот вправо — до
точки /\, где его скорость направлена на Е. Далее он дви
жется по касательной, как показано. Соответственно Е движется
по той же касательной, и это простое преследование продол-
жается вдоль прямой вплоть до свершения захвата, скажем, в
точке С.
Рис. 1.5.2.
Пусть теперь Р начинает преследование из положения, когда
Е находится у него в тылу, как показано на рис. 1.5.2,6. Если Р
будет действовать, как описано выше, может случиться, что Е
успеет попасть внутрь окружности максимальной кривизны рань-
ше, чем Р успеет его задавить. Ясно, что тогда маневр Р будет
тщетным.
Для осуществления захвата Р должен действовать менее пря-
молинейно, например, как показано на рис. 1.5.2, в. Вначале он
движется прочь от Е и, отступив достаточно далеко, возвращает-
/ 7. Стратегии 29
ся по дуге окружности, чтобы начать прямое преследование. Со
своей стороны Е, учитывая, что время является платой, стре-
мится отсрочить захват. С этой целью он начинает свое отступ-
ление, сперва следуя за Р, скажем, вдоль ЕЕ%. В некоторой точ-
ке Ех он поворачивается и убегает в направлении, выбранном
так же, как в случае а.
Такой тип преследования будет называться маневром разво-
рота1). Он составляет наиболее интересный с точки зрения ма-
тематики аспект игры степени. Но каково точное решение и как
его найти? Каковы точные оптимальные траектории Р и ??
Ответы на эти вопросы приведены в гл. 10.
1.6 ИГРЫ КАЧЕСТВА И ИГРЫ СТЕПЕНИ
Мы уже упоминали, что в играх преследования иногда лучше
использовать игру степени для изучения игры качества. Мысль
эта, разумеется, общая. Целью боя может служить некоторый
конкретный исход типа «да-или-нет». Тогда мы имеем игру каче-
ства. Будем считать, что плата может принимать два значения,
соответствующих случаям, когда цель достигается или не
достигается; меньшее число является желательным для миними-
зирующей стороны. Как и раньше, иногда оказывается целе-
сообразным превратить игру качества в некоторую игру степени.
Например, одна из сторон пытается достичь своей цели с мини-
мальными затратами некоторых средств. Тогда платой будет
некоторый определенный интеграл, взятый по времени от начала
игры до окончания ее.
В войнах на истребление, скажем, партия считается окончен-
ной лишь в тон случае, когда одна из сторон уничтожена. Здесь
в качестве платы можно взять количество уцелевших сил побе-
дившей стороны.
1 7. СТРАТЕГИИ
В теории дискретных игр стратегия игрока состоит из мно-
жества решений, указывающих, как следует ему вести себя в ка-
ждой из ситуаций, которая может возникнуть на протяжении
партии. Если каждый игрок выбрал стратегию, исход игры тем
самым полностью определен.
Естественной аналогией в дифференциальных играх является
выбор управлений как функций фазовых координат. Это проис-
ходит так: для каждого положения, которое может возникнуть
в игре, т е. каждого множества допустимых значений фазовых
координат, оба игрока решают, как им действовать, т. е. выби-
рают значения своих управлений. Легко видеть, что при этом
') Мы не имеем здесь в виду точное математическое определение, тер
мин введен просто для облегчения рассуждений.
30 Гл 1. Введение
исход партии здесь также определен. Действительно, пусть Р вы-
бирает cpj и Е выбирает ijjj как функции от Xj1). Если эти функ-
ции достаточно просты, то после подстановки их в уравнения
движения A.3.3) правые части последних становятся функциями
от Xj. Тогда уравнения движения превращаются в систему обык-
новенных дифференциальных уравнений. Их можно интегриро-
вать, используя в качестве начальных условий значения Xj в мо-
мент начала игры. Решение определяет х3 как функции времени
t и описывает развитие игры, соответствующее выбранным стра-
тегиям.
Теперь становится возможным подсчитать плату. Мы нахо-
димся уже в области теории игр. Целью игроков является выбор
таких стратегий ф;(х) и \J3J(x), которые могли бы соответствен-
но минимизировать и максимизировать плату.
Хотя это эвристическое описание механизма нашей теории
хорошо согласуется с практикой, в следующей главе будет дано
более точное определение стратегии. Принцип остается таким
же, но при этом будут преодолены некоторые трудности матема-
тического характера.
В задачах преследования стратегия допускает прямую, ме-
ханическую интерпретацию. Автоматическая система управления
должна заключать в себе, во-первых, измерительное устройство
для получения необходимой информации о текущем положении
противников и, во-вторых, решающее устройство, которое регу-
лирует управление в соответствии с этой информацией. Основ-
ным является вопрос, как лучше сконструировать решающий ме-
ханизм. Ответ следует немедленно. Конструктивная схема для
решающего устройства — это как раз и есть выбор стратегии в
определенном ранее смысле. Для этого измерительное устрой-
ство должно установить значения фазовых координат, а решаю-
щее устройство должно выбрать значения управлений, завися-
щих от них. Сконструированная так схема просто предписывает,
что управления должны быть определенными функциями фазо-
вых координат. Но именно это мы как раз и называем страте-
гией.
1.8. ВОЗДУШНЫЕ БОИ, СРАЖЕНИЯ, ПРОГРАММИРОВАНИЕ
И СПОРТИВНЫЕ ИГРЫ
Чтобы ознакомиться с дифференциальными играми, рассмо-
тренными в книге, лучше всего было бы, по-видимому, бегло
пролистать ее; но мы дадим и здесь несколько кратких заме-
чаний.
•) Обозначения Р и Е для игроков будут применяться не только в играх
преследования, но также и во всех других случаях и не должны вводить
в заблуждение читателя.
1.8. Воздушные бои, сражения, программирование и спортивные игры 31
Воздушный бой предполагает наличие летательного аппарата
с оружием, имеющим определенную зону действия. Исход зави-
сит от того, кто из игроков первым окажется в зоне достижимо-
сти противника. Вместе с уравнениями движения летательных
аппаратов сформулированная задача представляет собой игру
качества. Альтернативой является непрерывная плата — вероят-
ность попадания в цель (или разница этих вероятностей для
двух игроков), выраженная некоторым интегралом с интервалом
интегрирования от начала игры до момента, когда один из игро-
ков оказывается в зоне достижимости противника.
Другой класс военных игр — игры, где один из противников
имеет определенный запас оружия для стрельбы по подвижным
целям. Тогда стратегии первого могут включать в себя распре-
деление ограниченного количества оружия; стратегиями же по-
движной цели могут быть маневры. Наиболее подходящей пла-
той здесь была бы вероятность попадания в цель (см. § А.5
дополнения).
Наши методы пригодны также для задач минимизации1). Та-
кие задачи формально можно рассматривать как игры, где один
из игроков пассивен, т. е. не имеет управлений. Таким образом,
эти методы позволяют решать определенные классы задач, цель
которых — нахождение оптимальной программы действий; сюда
относится такая хорошо известная область, как теория управле-
ния. Формально можно считать, что в теории управления при-
меняются уравнения, аналогичные нашим уравнениям движе-
ния, где, скажем, управления г|э3- отсутствуют. Такой пример при-
веден в § А.4 дополнения. Задача распределения ресурсов как
один из типов проблемы оптимизации рассмотрена в примере 5.6.
В § А.З дополнения показано, как нашими методами можно
получить оптимальную траекторию управляемого снаряда.
Иногда в таких задачах мы приходим к аналитическим ре-
зультатам, эквивалентным результатам вариационного исчисле-
ния, хотя наш подход, казалось бы, совсем иной. В следующих
главах будут сделаны соответствующие замечания по этому по-
воду. С другой стороны, мы будем иногда брать какую-нибудь
хорошо известную классическую задачу вариационного исчисле-
ния, добавлять еще одного участника и рассматривать ее как
игру двух игроков.
В принципе наша теория может оказаться пригодной для ис-
следования некоторых спортивных игр. Таков, например, фут-
бол. Ситуация, когда единственный игрок с мячом противостоит
единственному защитнику, представляет собой не что иное, как
') Разумеется, логически это эквивалентно задачам максимизации; до-
статочно просто заменить знак минимизируемой величины па противополож-
ный.
32 Гл. 1. Введение
простую игру преследования, где платой является расстояние or
ворот до точки встречи игроков. Ситуация относится к области
теории игр и в том случае, когда несколько взаимодействующих
нападающих сталкиваются с препятствующими их цели игро-
ками второй команды.
1.9 ДВА ПРИМЕРА
Рассмотрим здесь две задачи преследования. Обе они ка-
жутся до некоторой степени искусственными, зато они настолько
просты, что решения их убедительны и понятны уже сейчас, ког-
да вводятся только начальные положения теории. Обе игры по-
ясняют некоторые идеи, и в особенности природу стратегий.
Раньше уже было введено такое определение захвата: захват
считается осуществленным, если расстояние между Р и Е не пре-
восходит /. Для простоты положим здесь 1 = 0.
Пример 1.9.1. Простейшая игра преследования. Пусть оба игро-
ка, Р и Е, обладают простым движением и перемещаются на
плоскости; скорости их равны соответственно W и w, W>w. Пла-
той является время захвата.
В этой простой постановке, если не предполагать никаких
посторонних воздействий, которым подвержены Р и Е, решение
игры очевидно. Оба игрока движутся вдоль прямой линии, ко-
торая соединяет точки их начальных положений; Е убегает, Р
преследует его; так продолжается до тех пор, пока Р не до-
гонит Е.
Этот случай изображен на рис. 1.9.1, а (скорости игроков
представлены на рис. 1 9 1,6). Захват происходит в точке, отме-
ченной значком X; плата равняется (приближенно) 15,5 еди-
ницы времени. Это число есть цена игры, под которой пони-
мается следующее.
Как бы ни действовал Е, он не сможет отсрочить захват бо-
лее чем на 15,5. Если он предпримет еще какой-нибудь маневр,
кроме убегания по прямой, Р сможет настичь его раньше, чем за
15,5. Соответственно Р не может осуществить захват за время,
меньшее чем 15,5, а если он не осуществляет прямого преследо-
вания Е, последний может оставаться на свободе дольше чем 15,5.
Напомним введенное раньше понятие стратегии — управле-
ние как функция фазовых координат; мы видим, что предста-
вляют собой здесь оптимальные стратегии Для Р это есть пред-
писание двигаться по направлению к Е при любом его положе-
нии. На рис. 1.9.1,6 изображена та же самая игра, когда Е ведет
себя неоптимально; он движется вдоль прямой L. Тогда Р пре-
граждает ему путь и в точке X настигает его за 6 единиц вре-
мени.
Рис. 1.9.1
3 Зак 522
34 Гл 1. Введение
Но Р, казалось бы, может действовать лучше. Если Е будет
двигаться вдоль прямой L, то Р может экстраполировать его
будущее положение, вычислить точку столкновения и двигаться
прямо в эту точку. Этот исход изображен на рис. 1.9.1, г, где Р
совершает захват за время около 4,3. Почему такой образ дей-
ствий не является для Р оптимальной стратегией?
Дело в том, что у Р нет оснований делать какие-либо пред-
сказания относительно поведения Е. Мы сформулировали игру
так, что Е может выбирать направление движения, как хочет.
Выбранная математическая модель ни в коем случае не дает
права предполагать, что Е будет упорствовать в своем движении
по L.
Предположим, что Е забывает о захватнических планах Р в
течение первых двух единиц времени. Затем, спохватившись, он
запоздало принимает решение придерживаться оптимальной
стратегии, покидает прямую L и начинает убегать прочь от Р.
На рие. 1.9.1, в и 1.9.1, г изображено это движение Е и соответ-
ствующее ему поведение Р, точки захвата обозначены символом
X', плата равна соответственно 9,3 и 10. Первый способ дей-
ствия Р оказывается лучшим; здесь Р использует лишь свою ин-
формацию о положении Е в данный момент и ничего более.
Поведение Р, изображенное на рис. 1.9.1, в, можно описать
следующим образом. В каждый момент Р действует так, как ес-
ли бы он встретил в будущем оптимальное противодействие со
стороны Е. Такая трактовка оптимальной стратегии относится
к обоим противникам во всех играх преследования в нашей фор-
мулировке.
Если Р знает о том, что Е не всегда обнаруживает пресле-
дователя, и мы хотим принять это в расчет, то нужно форму-
лировать новую игру. Можно было бы, например, оценить рас-
пределение вероятности времени, в течение которого Е не реаги-
рует на присутствие Р. В этой новой игре преследования платой
должна была бы быть случайная величина — время захвата, а Р
здесь имел бы, возможно, уже другую оптимальную стратегию
С другой стороны, когда Р замечает, что Е по забывчиво-
сти следует вдоль L, должен ли он сделать из этого вывод, что
Е совсем не в состоянии обнаружить Р или уклониться в сто-
рону? Если да, то, конечно, стратегия, рассчитывающая на столк-
новение и изображенная на рис. 1.9.1, г, является наилучшей.
Пересмотренная заново игра может быть построена с учетом
оценки вероятности того, что Е никак не реагирует на присут-
ствие Р. Но такой подход дает немного; это просто ют случай,
когда решение человека-пилота может превзойти формальную
стратегию.
1.9. Два примера 35
Пример 1.9.2) •. Защита объекта. Оба игрока обладают простым
движением и имеют одинаковые постоянные скорости. Цель Р —
защитить от нападения Е объект С, который мы принимаем за
некоторую область на плоскости. Платой является расстояние
от С до точки, где происходит захват. Задачу иллюстрирует
рис. 1.9.2, а, где точки Р и Е означают начальные положения
противников.
Оптимальные стратегии находим следующим образом. Про-
ведем перпендикуляр к отрезку РЕ через его середину. Каждую
точку верхней полуплоскости игрок Е достигнет раньше, чем Р;
для точек нижней полуплоскости наоборот. Пусть D — ближай-
шая к С точка перпендикуляра. Оптимальные стратегии для обо-
их игроков состоят в движении в точке D. Здесь происходит за-
хват, и длина пунктирного отрезка есть цена игры.
Посмотрим, что случится, если Р действует оптимально, а Е
нет; скажем, он решил двигаться вдоль прямой L (см. рис. 1.9.2, б).
В этом случае Р всегда направляется в ближайшую к С точ-
ку на перпендикуляре (относительно текущего положения Р и
Е). Несколько положений этой точки обозначены D, D', D", ....
Заметим, что длина пунктирных отрезков увеличивается. Это со-
ответствует росту штрафа, который Е платит за свою неудачную
стратегию. Каждая длина есть плата, соответствующая текуще-
му моменту, в который Е мог бы вернуться к оптимальной стра-
тегии и, следовательно, это лучшее, на что он может на-
деяться.
Поскольку точки D, D', D", ... последовательно являются
целями движения Р, он описывает криволинейную траекторию2)
до тех пор, пока D не достигнет L. С этого момента точка D
остается неподвижной, оба игрока движутся прямолинейно, и
игра становится оптимальной для обеих сторон. Захват происхо-
дит в точке, отмеченной значком Х-
Приведенное в примере 1.9.1 рассуждение о том, что игроки
не должны делать никаких предсказаний, применимо и здесь.
Если Р заранее уверен, что Е никогда не покинет прямую L, то
наилучший образ его действий — движение по прямой в точку У
(точка пересечения перпендикуляра с прямой L). Если Р не уве-
рен в этом, он раньше сворачивает вправо, так как знает, что
когда Е недалеко от начального положения, верхняя правая
часть объекта С наиболее уязвима, и Р движется так, чтобы
прикрыть именно ее. По мере продвижения Е вперед опасность
уменьшается, и, наконец, целью Р становится захват.
') Задача изложена в § 1.5
) Читателю предлагается самому убедиться в ^тоы путем последователь-
ных геометрических построений.
Рис 1.92
/ 10. Возможности для уточнения 37
Рис. 1.9.2, в соответствует случаю, когда Р действует неопти-
мально, двигаясь вдоль прямой L. Теперь Е должен всегда на-
правляться в движущуюся точку D. Пунктирные отрезки укора-
чиваются, и когда Е находится в точке А, точка D фактически
достигает С. Из точки А он движется прямо по направлению к
D и действительно достигает С, а Р уже ничего не может сде-
лать, чтобы остановить его (Р находится в В, когда Е нахо-
дится в Л).
1 10 ВОЗМОЖНОСТИ ДЛЯ УТОЧНЕНИЯ
Несмотря на то что это может шокировать некоторых мате-
матиков, а другим, возможно, покажется ересью, настоящая кни-
га не содержит теорем существования. В самом деле, теоремы и
леммы появляются на этих страницах с более низкой плот-
ностью, чем общепринято Небольшой экскурс в историю разви-
тия теории игр объяснит, почему это так.
Вначале нас интересовали методы работы с большим клас-
сом задач, которые должны были бы удовлетворять двум требо-
ваниям: иметь некоторое сходство с действительностью и быть
разрешимыми. Тем самым нашей целью было не обоснование
теорем, а получение ответов.
Отыскание сходства с реальностью не всегда преследует
строго утилитарные цели Сами идеи, постепенно проявляясь,
предписывали направление дальнейших изысканий. Игра «шо-
фер-убийца» в этом смысле типична. Едва ли можно назвать эту
задачу математической и указать в точности ее конкретные при-
ложения. Все же очевидно, что если мы хотим исследовать во-
просы преследования и уклонения с учетом сколько-нибудь
реальных кинематических условий, то ограничение радиуса кри-
визны траектории оказывается неизбежным. Сперва был рас-
смотрен случай, когда такому ограничению подчинен один из
игроков; такова задача «шофер-убийца». Это рассмотрение ука-
зывало путь подхода к задаче о двух движущихся объектах с
ограничением на кривизну траекторий (§ 9.2), и хотя появив-
шиеся в связи с таким нововведением трудности в принципе пре-
одолимы, однако они влекут за собой вычисления, которые не-
легко выполнить элементарными средствами. Несмотря на то что
подобные задачи, так же как задача об избежании столкновения
движущихся объектов, нужны для некоторых приложений, недо-
статок места заставил нас не включать их в эту книгу.
Но давайте посмотрим, что произошло, когда задачи такого
рода стали исследоваться лишь с целью получения ответа. Пер-
вое, что удалось сделать в этом направлении, — это создать
стандартную схему решения, аналогичную методам дифферен-
циальных уравнений и изложенную в гл, 4 Были, разумеется, и
38 Гл I Введение
такие этапы, когда приходилось руководствоваться дискретными
моделями (см. гл. 3).
Но вскоре стало очевидно, что во многих случаях одних лишь
методов дифференциальных уравнений совершенно недоста-
точно. Различные случаи особого, или сингулярного, поведения
решения часто оказывались преобладающе важными. В про-
странстве игры У такие явления имеют место, как правило, на
поверхностях. Под «поверхностью» здесь, как и в будущем,
понимается (п—1)-мерное многообразие в n-мерном простран-
стве. Наряду с сингулярными поверхностями встречаются
многообразия меньших размерностей, но здесь они большей
частью не учитывались ввиду того, что при этом появляются
ограничения для наших методов, а также потому, что поверх-
ности наиболее интересны, ибо они обычно разделяют У на от-
дельные области.
С увеличением числа рассматриваемых задач быстро возра-
стало количество различных типов сингулярных поверхностей, и
каждый тип, казалось, нужно было исследовать отдельно. Клас-
сификационная схема приведена в гл. 6, но она представляет со-
бой скорее каталог возможных типов, чем последовательный тео-
ретический анализ.
Вначале пришлось столкнуться с так называемыми барье-
рами (гл. 8) и универсальными поверхностями (гл. 7), затем
были изучены другие типы. Поскольку теория каждого типа син-
гулярных поверхностей имеет свою специфику и отличается от
других, исследованию их будет уделено много места в последую-
щих главах. Иногда казалось, что уже исчерпаны все типы, важ-
ные для практических целей; но последующие задачи влекли за
собой появление новых. Сейчас трудно сказать, насколько об-
ширно то многообразие типов сингулярных поверхностей, кото-
рое еще подлежит исследованию.
Итак, общий вид типичного решения дифференциальной иг-
ры следующий: пространство игры ef разделено некоторым чис-
лом сингулярных поверхностей на составляющие области. Вну-
три каждой области решение может не существовать вовсе, но
если оно существует, то удовлетворяет определенным дифферен-
циальным уравнениям с граничными условиями, выполняющи-
мися на сингулярных поверхностях. Оптимальные траектории —
пути изображающей точки х в У при оптимальной игре обеих
сторон, — если они в разумном смысле единственны, могут иметь
острые углы, только если они пересекают сингулярные поверхно-
сти. Кроме того, может случиться, что некоторые области содер-
жат сингулярные многообразия меньшей размерности, чем
поверхности, или такие многообразия могут лежать на самих
сингулярных поверхностях.
1.11. Перспектива дальнейшего развития 39
В связи с наличием столь большого скопления особенностей
трудно представить себе, что здесь могла бы иметь место тео-
ррма существования, охватывающая все возможные случаи. Ее
можно было бы сформулировать лишь при столь большом числе
допущений и ограничений, что они полностью лишили бы ее
практической ценности.
Таким образом, мы освободились от обязанности построить
такую теорему, попытавшись вместо этого развить другие идеи,
более отвечающие, по нашему мнению, требованиям настоящей
теории.
Дальнейшие главы содержат вполне законченную методику
для получения гех зависимостей, которые пока мы будем назы-
вать формальным решением. На большом количестве примеров
мы продемонстрируем этот процесс в действии. Таким образом,
перед нами встает задача показать, что формальное решение
в некотором разумном смысле является действительным реше-
нием.
Для этого требуется, во-первых, достаточно точное определе-
ние решения в этом «разумном смысле» и, во-вторых, метод, с
помощью которого можно было бы показать, что формальное
решение совпадает с ним. Первое достигается с помощью поня-
тия /(-стратегии, введенного в гл. 2; второе — с помощью теоре-
мы 4.4.1. Правильное применение этой теоремы позволяет пока-
зать, что для некоторых конкретных примеров, когда найдено
формальное решение, его можно превратить в основную состав-
ную часть /(-стратегического решения.
Такой подход, не будучи ортодоксальным, оказывается впол-
не приемлемым для настоящей теории. Конечно, мы не можем и
не будем предъявлять каких-либо универсальных требований
существования решений дифференциальных игр. В черновых
набросках этой книги отдельные главы содержали примеры,
где решение не существует; но патологичность этих случаев
говорит в пользу того, что болыпинаво интересных игр в дей-
ствительности может быть решено. А это и является нашей
целью.
1.11. ПЕРСПЕКТИВА ДАЛЬНЕЙШЕГО РАЗВИТИЯ
Итак, первоначальная наша цель — получить действительное
решение в конкретных примерах — оказалась вознагражденной.
По ходу дела выяснилось, что сталкиваться с исключениями
приходится довольно редко. Тем не менее иногда они чрезвычай-
но сбивали с толку, особенно если физическая сущность искомого
решения оставалась загадкой. Мы отметим некоторые не остав-
ляющие сомнений моменты.
40 Гл. I. Введение
Маневр разворота в игре «шофер-убийца» обладает убеди-
тельной эвристической очевидностью своего существования; од-
нако каковы его количественные черты? Сколько времени пре-
следователь должен разворачиваться вначале и как далеко дви-
гаться затем по прямой? В каком направлении должен двигаться
убегающий и как долго? Ответ на эти вопросы приходит только
с отысканием так называемых экивокальных поверхностей
(см. гл. 10), причем ничего подобного не встречается в игре од-
ного игрока или в вариационном исчислении.
Долгое время оставались неясными многие моменты в игре
«изотропные ракеты», которая впервые появляется в примере
5.5. Она отличается от игры «шофер-убийца» только тем, что
преследователь движется здесь, управляя направлением движу-
щей силы фиксированной величины, но это различие производит
заметное действие. Трудным вопросом оказалось решение игры
качества — отыскание условий, при которых преследователь все-
гда может настигнуть убегающего, в отличие от того случая,
когда последний всегда может избежать захвата. Интуитивно ка-
жется бесспорным, что вторая возможность будет выполняться,
если фиксированные параметры (величина силы, скорость убе-
гающего и т. д.) достаточно благоприятны для убегающего. Как
и в игре «шофер-убийца», Е может всегда увернуться от более
быстрого, но менее поворотливого преследователя.
В этой задаче пространство игры ef можно свести к
трехмерному. Множество точек пространства, для которых та-
кое отступление в сторону возможно, оказывается отделимым
поверхностью, похожей на полубесконечный суживающийся гент
(см. подробности и рисунки в гл. 9). Существовала столь есте-
ственная интерпретация этой поверхности, что трудно было усо-
мниться в ее корректности.
Однако тент оказался открытым с одного конца! Он не раз-
делял пространство. Это означало, что должно было выполнять-
ся одно из двух предположений. Либо существовали траектории,
соединяющие две стороны тента через открытый конец (наличие
таких траекторий означало бы, что либо преследователь может
поймать противника независимо от значений параметров, либо
убегающий может избежать захвата, даже находясь перед са-
мым носом врага), либо существовал какой-либо способ заго-
родить открытый конец тента. Первое предположение кажется
неправдоподобным, и мы пытались снова и снова проверить вто-
рое.
Только специальный класс поверхностей годится для того,
чтобы сыграть эту роль, ведь казалось невозможным провести
такую поверхность черея границы тента. В конце концов совер-
шенно другая задача — игра с наличием линии, за которую
1.12. Как читать книгу 41
нельзя переходить («линия смерти», пример 9.5.2), — навела ав-
тора на мысль об ответе. Это как раз то, что мы назвали барье-
ром-огибающей (§ 8.5.III). Он заключает в себе замечательную
особенность непроницаемости, потому что состоит из траекторий,
на которых все усилия убегающего, направленные к уклонению,
приводят к тому, что он вынужден все же оставаться на границе
области захвата в течение положительного интервала времени!.
С разработкой подобных идей у нас стало больше средств
для решения, и совокупность решаемых задач возросла. Но ка-
ковы наши максимальные возможности? Значительно позднее, и
неожиданно, появилось затруднение, по-видимому, другого тина.
На первый взгляд задача кажется детски простой; в самом деле,
вначале она была сформулирована как элементарный пример,
иллюстрирующий некоторое положение. Задача была названа
«погоня с препятствием»; она описана в гл. 6. Мы оставляем
читателю отыскание решения этой игры, которая сперва кажется
довольно безобидной, но тем не менее не поддается нашим ме-
тодам.
Мы можем перечислить и некоторые более общие еще не ре-
шенные задачи.
Критерий универсальных поверхностей (гл. 7) найден лишь
для случая, когда размерность пространства ef не превосходит
четырех. Было бы желательно указать полный критерий для
п = 4, не говоря уже о том, чтобы перенести критерий на про-
странство любой размерности.
Следовало бы также изучить сингулярные многообразия
меньших размерностей, чем поверхности.
Но важнее всего освободиться от предположения о наличии
полной информации. Это обсуждается в гл. 12.
1.12. КАК ЧИТАТЬ КНИГУ
Мы уже подчеркивали значение примеров для пояснения об-
щих идей. В книге приведено много примеров, в связи с чем в
ней много страниц, заполненных формальными выкладками.
Со стороны читателя была бы естественной тенденция бегло
просмотреть эти примеры, стараясь усвоить лишь новые поня-
тия. Даже автор поступал так, когда просматривал часть руко-
писи, которая несколько месяцев находилась в ящике стола. Но
примеры — слишком привлекательная часть настоящих исследо-
ваний, чтобы пропускать их. Как же к ним следует относиться?
Во-первых, мы приняли стандартную схему написания диф-
ференциальных уравнений, которая часто будет повторяться;
схема приведена в гл. 4. Нужно было выбирать между эконо-
мией места, которая достигалась бы отсутствием повторений, и
42 Гл. I. Введение
ясностью утверждений; второе нам казалось более желатель-
ным. Написание нескольких лишних строк — небольшой труд по
сравнению с тем, что нужно сделать для восстановления какого-
нибудь неясного значения; и действительно, в результате избы-
точность оказывалась редким явлением. Как только кто-либо
достигнет способности разбираться в этих задачах, он может и
будет делать свои собственные сокращения, а здесь их лучше
избежать.
Во-вторых, несмотря на стандартное формирование, примеры
не шаблонны. У каждого есть отличия, неясности, нетривиаль-
ные особенности, принадлежащие только ему, и их можно по-
знать, только полностью усвоив специфику примера.
В-третьих, мы допускаем, что некоторые читатели не пойдут
по пятам за текстом, предпочитая исследовать примеры своим
собственным тернистым путем. Для них опыт автора послужит
указательным столбом, а текст книги — наводящим соображе-
нием. Такой читатель найдет в книге как поучение, так и удо-
вольствие.
ГЛАВА 2
Определения, формулировки и предположения
В этой главе основные понятия, связанные с теорией диф-
ференциальных игр, переводятся на математический язык и тем
самым становятся точными. Высказываемые утверждения обос-
новываются и иллюстрируются примерами. Использование не-
которых предположений оправдано тем, что они, как правило,
оказываются полезными в дальнейших исследованиях.
Здесь и далее рассматриваются игры с полной информацией.
Это означает, что оба игрока в каждый момент времени чнаюг
значения фазовых координат.
2 1. КИНЕМАТИКА
Местом действия является У —область в n-мерном евкли-
довом пространстве и ее граница. Эта граница состоит из ку-
сков некоторых поверхностей (под поверхностями понимаются
(п— 1)-мерные многообразия) '). Уравнения
xJ = f)(.x1, .... хп, ф„ ..., (fx, i^, ..., %), j=\, ..., п, B.1.1)
или, короче,
х = f (х, ф, ф),
описывающие движение некоторой точки \—{хи ..., хп) в фазо-
вом пространстве W , будем называть уравнениями движения.
Функции fj заданы; мы предполагаем их достаточно гладки-
ми, т. е. будем считать, что существуют все их частные произ-
водные, которые нам понадобятся. Переменные ф и г|з будем
называть управлениями. Игроки могут изменять их в любой
момент. Тем самым движение точки х определяется желаниями
двух сторон. Если они действуют с противоположными целями —
а нас интересуют именно такие случаи2)—в ситуации появляем-
ся нечто от природы игры. Как принято в теории игр, точкой х
Ц Поверхности предполагаются kj сочно-гладкими.
2) Могут быть исключения, как в за иччах об избежании столкновения,
где участники кооперируемся.
44 Гл 2 Определения формулировки и предположения
будем обозначать положение, или состояьие, и называть ее
координаты Xi, , хп фазовыми координатами, если они описы-
вают это состояние, действующие стороны называют игроками
Фазовые координаты описывают состояние в следующем
смысле Если развитие дифференциальной игры останавливает-
ся до ее завершения, величины хи , хп в момент прекращения
игры должны содержать в себе все данные, необходимые для
возобновления партии Если новая партия начинается с тех же
значений хь то она эквивалентна продолжению старой
В частности, значения х3 в начале игры представляют собой
все необходимые для хода игры начальные данные Таким об
разом, термин игра относится не к единственной партии, а ко
всей совокупности их Партии, начинающиеся в различных
точках пространства ef, считаются различными
В общем случае на оба вектора ф и г|з налагаются некото
рые условия, зависящие в основном от х Обычно эти условия
записываются в виде аг(х)^Сфг^С6г(х) В дальнейшем мы всегда
будем предполагать, что <р и г|з удовлетворяют таким условиям,
если не оговорено противное
При фиксированных г|? и х в ? множество векторов
/г(х, ф, г))) для всех ф будем называть вектограммои для Р, или
^-вектограммои (аналогично вводится определение для г|з векто-
граммы) Полную вектограмму получаем в том случае, когда
оба управления ф и г|з пробегают все допустимые значения
Например, простое движение на плоскости в каждой точке
описывается вектограммои в виде окружности фиксированного
радиуса, равного скорости Такая <р вектограмма ') изображена
на рис 2 1 \,а На рис 2 1 1,6 приведен простой пример пол-
ной вектограммы, когда /г = 3, а <р и г|з имеют по одной компо
ненте
Принимая за количественное определение платы выражение
B 4 1), обозначим игрока, который ее минимизирует, через Р,
он имеет управление ф Игрока, максимизирующего плат},
обозначим через Е а его управление — через г|з Эти обозначения
соответствуют тем, которые были введены в играх преследова-
ния С таких игр и начиналась настоящая теория, но, как по
кажут дальнейшие примеры, теперь она охватывает гораздо
более широкий круг явлений Из того, что мы сохранили за
игроками буквы Р и Е, читатель не должен делать поспешного
заключения, что слова «преследование» и «убегание» заменяют
слова «дифференциальные игры» Просто игры преследования,
>) В ciyiae ксндл >прав1ение имеет шшь одн> компоненту шцек<_
2 1 Кинематика
45
особенно в начальных главах книги, — прекрасный объект для
иллюстрации некоторых положений всей теории
Названия Р и Е для игроков являются не столь бессодержа-
тельными, как, скажем, «первый игрок и второй игрок» или
«красный и синий» Наши обозначения придают игрокам инди-
видуальность, или, если хотите, персональность, не нарушая
при этом некоторой симметрии их ролей, что существенно в тео-
рии игр в противоположность задачам с одним игроком
Рис 211
Для фазовых координат мы часто будем в конкретных за-
дачах использовать более наглядные обозначения, чем,
хи , хп Например, точку на плоскости можно обозначать та-
кими стандартными координатами, как (х,у) или (г, 0), а если
этих точек несколько, то к буквам можно добавить соответ-
ствующие индексы Иногда для обозначения таких количеств,
как численность войск, военные запасы, оружие, время и т д,
мы будем употреблять начальные буквы слов
Пример 2.1.1. Плоское преследование при простом движении
игроков. Если в примерах 19 1 и 192 обозначить через (хи у{)
координаты Р, через (х2,у?) координаты С, а через w{ и w2 со-
ответственно и\ скорости, то уравнения движения можно запи-
сать так
хх — Wy sincp,
ух = wl cos ф,
Х-, W2 Sini|),
46
Г л 2 Определения, формулировки и предположения
Пример 2.1.2. Игра «шофер-убийца». Чтобы записать уравнения
движения игроков в этой игре, достаточно задать пягь фазо-
вых координат: по две координаты для обозначения положения
Р и Е и еще одну для обозначения направления движения Р.
Обозначим их через хи уи х2, у2, 6 (рис. 2.1.2); задание этих
фазовых координат полностью и однозначно определяет состоя-
ние игры в каждый момент. Перейдем теперь к управлениям.
Рис. 2 1.2
Управление для Е выглядит проще. Для описания направления
его движения достаточно задать угол г|з, как это показано на
рисунке. Теперь выберем управление для Р. Проведем через
точку Р прямую С'РС {\C'P\ = \PC\—R), перпендикулярную
вектору скорости преследователя. По своему желанию Р выби-
рает мгновенный центр кривизны своей траектории в любой
точке, например в Сь лежащей на этой прямой вне интерва-
ла С'С. Управление ф будем считать равным по абсолютной ве-
личине R/\PCi\, положительным для точек С4, лежащих справа
от Р, и отрицательным — слева; таким образом, —1-*=С<р-^1.
Тогда уравнения движения можно записать так:
х1 = w1 sin Э,
ух =- wx cos Э,
х2 — w2 sin if,
Игроки могут управлять настоящим и будущим, но никак не
воздействуют на прошлое. Таким образом, мы интерпретируем
левые части уравнений движения как производные по возра-
стающем) аргументу.
2 2 Естественное и редуцированное пространства 47
2 2. ЕСТЕСТВЕННОЕ И РЕДУЦИРОВАННОЕ ПРОСТРАНСТВА
Когда мы строим модель игры исходя из физического про-
тотипа, множество фазовых координат, вообще говоря, должно
быть таким, чтобы можно было получить непосредственное и
исчерпывающее описание ситуации. Однако число п, размер-
ность пространства ef, может оказаться для этого слишком
большим. Часто разумным выбором фазовых координат число п-
может быть понижено. В тех случаях, когда это удается сде-
лать, мы будем говорить о редуцированном пространстве. Для
него будет сохранено обозначение ef', как и для первоначаль-
ного пространства, которое мы будем называть естественным1).
И в том и в другом случаях п будет означать размерность.
Преимуществами редуцированного пространства с его пони-
женным числом фазовых координат является меньшая избыточ-
ность и простота записи. Так, если п можно сделать равным 3
или меньше, удобство геометрической наглядности подчас ока-
зывает большую помощь в запутанных ситуациях. Но имеются
также соображения в пользу естественного пространства. Урав-
нения движения, хотя и более многочисленные, здесь иногда
выглядят много проще. Если задача касается движущихся объ-
ектов, их траектории в естественном пространстве являются
реальными траекториями; в редуцированном же пространстве
даже такое простое движение, как перемещение по прямой ли-
нии с постоянной скоростью, может казаться неузнаваемо
сложным.
Пример 2.2.1. Если в примере 1.9.2 защищаемый объект пред-
ставляет собой полуплоскость, лежащую, скажем, ниже оси х,
можно получить трехмерное редуцированное пространство вме-
сто четырехмерного, как в примере 2.1.1.
Если положить х = Х{—Хч, то ясно, что знания значений х, уу,
у2 вполне достаточно для описания состояния игры. Тогда полу-
чим следующие уравнения движения (положив Wi = w2, если это
условие имеет место, как, скажем, в примере 1.9.2):
х ~ чюх sin ф — w2 sin ф,
уг -=- w1 cos ф,
у2~- ф
Упражнение 2.2.1. В предыдущем примере показать, что ес-
ли защищаемым объектом является окружность радиуса R
>) Мы предпочитаем скорее разрешить себе эти нечеткие определения,
чем связывать себя в дальнейшем стро!остью требований Применение их в
последующих примерах пояснит эту мысль. Мы не справились с общей про
блемой установления минимально возможного числа п.
48
Г л 2 Определения, форму гировки и предположения
с центром в начале координат, то п можно уменьшить до 3; на-
писать соответствующие уравнения движения.
Упражнение 2.2.2. Показать, что в примере 1.9.1 можно найти
одномерное редуцированное пространство.
Заметим, что такое сокращение размерности может быть не-
возможным, если естественное пространство неоднородно; на-
пример когда скорости перемещения игроков являются функ-
циями от х и у
Пример 2.2.2. Игра «шофер-убийца». Эта игра допускает пони-
жение размерности пространства игры с 5 до 2. Представим
себе, что на плоскости выбрана подвижная система координат,
связанная с автомобилем Р Координаты пешехода х, у можно
рассматривать в этой системе как составляющие единственного
переменного вектора х; ось у будем считать всегда направлен-
ной вдоль вектора скорости автомобиля.
Пусть Р в момент t выбирает центр кривизны своей траек-
тории в точке С= (/?/ф, 0), и пусть расстояние СЕ равно d
Рис 2.2.1
(рис. 2.2.1). Тогда вращение Р вокруг точки С эквивалентно
вращению х вокруг С в противоположном направлении, но с той
же угловой скоростью. Таким образом, вектор х движется со
скоростью, равной по модулю Wiidq/R), в направлении, пер-
пендикулярном СЕ. Составляющие его скорости получаются
умножением модуля соответственно на —y/d и (х—R(q>)/d.
Уравнения движения имеют вид
R
¦г/Ф
у = ~ хер - wx-\- лз2 cos \\\ — 1 < ц < 1
2 3 Окончание игры 49
(здесь г|з, разумеется, не то же самое, что в естественном
пространстве).
Обозначим через Ч? окружность радиуса I с центром в точ-
ке Р и возьмем в качестве ef часть плоскости х,у, внешнюю
к <<? (см. § 2.3). Заметим, что если Е движется по прямой, а
Р отклоняется от прямого пути, то г|з будет зависеть от време-
ни. Это является типичным неудобством, присущим редуциро-
ванному пространству.
2 3 ОКОНЧАНИЕ ИГРЫ
Имеется некоторая поверхность &, называемая терминаль-
ной поверхностью и представляющая собой часть границы про-
странства ef- Когда х достигает сё', игра оканчивается.
Приняв такую формулировку окончания игры как часть ка-
нонического определения, необходимо пояснить мотивы, побудив-
шие нас к этому. Почему поверхность? Почему часть
границы пространства <if ?
Игра преследования обычно заканчивается захватом, кото-
рый должен состоять, как это кажется на первый взгляд, в сов-
падении точек Р и Е. Тогда, если xt(i=\, ..., п)—полный на-
бор переменных, описывающих положение Р и Е, то соответ-
ствующее захвату подмножество пространства ef должно иметь
размерность, меньшую чем п—1 Мы отказываемся от такого
определения захвата по двум причинам.
Во-первых, оно нереально. Точка Р или Е может быть в
приложениях некоторой фиксированной точкой на большом сна-
ряде (самолете, корабле, торпеде и т. д.), служащей для указа-
ния местоположения снаряда. Уже по этой причине Р и Е ни-
когда не совпадут. В тактических ситуациях часто для осуще-
ствления захвата непосредственный контакт не нужен, нужна
лишь некоторая близость. Таким образом, более разумный кри-
терий захвата — определить некоторое положительное число и
считать, что захват осуществляется, когда расстояние между Р
и Е равно этому числу Iх) Множество всех точек захвата мож-
но описать одним уравнением, и, следовательно, это множество
представляет собой поверхность в <f.
Вторая причина является главной. Для нахождения реше-
ний мы в основном будем применять аппарат дифференциаль-
ных уравнений Терминальная поверхность, используемая
для получения начальных условий, должна иметь как раз та-
кую размерность, которая обеспечила бы единственное реше-
ние Уменьшение размерности многообразия влечет за собой,
') Мог)т быть, конечно, случаи, когда «область захвата» имеет друую
фор\п
4 Зак 522
50 Г л 2. Определения, формулировки и предположения
вообще говоря, появление особых точек. (В гл. 6 приведены при-
меры игр, патологичные из-за того, что эта размерность недо-
статочна.) Если нам встречались игры, где терминальное
множество Sf оказывалось слишком малой размерности, мы ис-
правляли это, используя границу его 6-окрестности как терми-
нальную поверхность. При желании можно исследовать пре-
дельный случай при 6—*0').
Предположим, что при формулировке игры, не имеющей фи-
зического смысла, оказалось, что поверхность Ч? находится не
на границе, а внутри &. Тогда она собою разделяет W или,
иначе, с<5 имеет две «стороны». Часто мы будем считать окон-
чанием игры только те случаи, когда х достигает If с какой-то
определенной стороны. Например, предположим, что описанная
выше игра преследования начинается, когда \РЕ\<1. Ясно, что
мы не будем считать захватом выполнение условия \РЕ\=1.
Мы просто исключим из <if все положения, для которых
|Р?|</, и <? станет частью границы.
Однако могут быть случаи, в которых желательно, чтобы
<? была внутри У. Тогда мы будем различать приближение х
к If с разных сторон. Мы можем представлять себе ef «раз-
резанным» вдоль if, а саму поверхность *? считать двусто-
ронней. Таким образом, в этом смысле мы восстанавливаем If
в ее роли границы.
Как будем мы действовать в том случае, если х никогда не
достигает If? Представляется разумным и вполне практичным
поступать следующим образом. Выбираем некоторое большое
значение времени Т и по истечении этого времени считаем игру
завершенной. Можно сделать эту ситуацию канонической, если
ввести время как новую фазовую координату xn+i. Тем самым
мы увеличиваем систему уравнений движения добавлением
уравнения in+i=l и берем в качестве нового пространства У
прямое произведение старого W на отрезок [0, Т\\ новая по-
верхность <? есть прямое произведение старой на [0, Т], причем
многообразие xn+i = T ограничивает новое W. Мы просто рас-
сматриваем игру большей размерности, начинающуюся из то-
чек х, для которых х„+1 = 0.
Поскольку %* является поверхностью, т. е. (п—1)-мерным
многообразием, мы можем выразить ее через п—1 параметр.
Сделав это обычным способом, получим
xi = hi{s1, .. ., sn_1) = hi{s), i = \,...,n. B.3.1)
') В тех случаях, когда задачи решаются простыми геометрическими
методами, как в примерах гл 1, удобным теоретическим критерием захвата
оказывается именно совпадение Р и Е. См. § 67 и 68.
2.4. Плата 51
Будем полагать эти функции дифференцируемыми. В рас-
сматриваемых задачах <? может быть в худшем случае кусоч-
но-гладкой; тогда каждый кусок мы будем рассматривать от-
дельно.
2.4. ПЛАТА
Численная величина, которую игроки стараются минимизи-
ровать или максимизировать в играх степени, может иметь
различный вид. Мы предпочитаем взять за образен следующую
форму платы:
" G(x, ф, ty)dt-\-H(s). B.4.1)
Будем предполагать, что функция G, так же как /,, обладает
частными производными. Интеграл берется вдоль траектории,
которую х проходит в W на протяжении партии; нижний пре-
дел интегрирования (мы можем положить его равным нулю)
соответствует начальной точке в W; верхний предел есть вре-
мя окончания игры — когда х достигает & ,
Функция Н является гладкой функцией, определенной на *?.
Для каждой партии второе слагаемое в B.4.1) есть значение Н
в терминальной точке, т. е. в точке, где х встречается с <? и
игра оканчивается.
Случай, когда обе функции Н и G тождественно равны ну-
лю, мы исключаем как не имеющий смысла. Если # = 0, мы го-
ворим, что игра имеет интегральную плату; если G = 0 — тер-
минальную плату. Этими двумя типами платы охватывается
большинство практических случаев. Например, игра преследо-
вания со временем захвата в качестве платы является игрой
с интегральной платой, здесь G=\. Игра в примере 1.9.2 имеет
терминальную плату — расстояние от Е до защищаемого объ-
екта в момент захвата.
Для определенных теоретических целей оказывается полез-
ным рассмотрение игр с терминальной платой; так, нам при-
годится следующая теорема.
Теорема 2.4.1. Игру с платой в форме B.4.1), где G Ф 0,
можно преобразовать в эквивалентную игру с терминальной
платой.
Доказательство. Для обозначения новой, эквивалент-
ной, игры примем буквы со штрихами; первоначальной игре
будут соответствовать буквы без штрихов. Пусть с?' — прямое
произведение '<fy,L, где /-.= (—оо, оо)—область изменения
новой фазовой координаты x,,+i. Аналогично
52 Гл 2. Определения, формулировки и предположения
Уравнения, описывающие %*'. аналогичны B.3Л) плюс еще
уравнение
xa+1 = sa. B.4.2)
К прежним уравнениям движения добавляется
xn+l = G(x, Ф, ф). B.4.3)
Плата будет терминальной, и ее можно записать так:
H'(s') = H(s) + sn. B.4.4)
Теперь рассмотрим партию в новой игре, начинающуюся из
точки х° с координатами х°. и оканчивающуюся в точке s' мно-
жества &'. Если мы спроектируем траекторию на ef, то ее
проекция совпадет с одной из траекторий в первоначальной
игре, поскольку х„+1 не входит в первые п уравнений движения.
И обратно, любая партия в старой игре соответствует един-
ственной партии в новой. Для конкретной партии хи ..., х„, так
же как ср и г)з, являются известными функциями от t\ их можно
подставить в B.4.3), и тогда это уравнение можно проинтегри-
ровать с начальным условием хп i @) =.*"__ г
Каково значение платы в новой игре? Оно получается из
формулы B.4.4), где s' есть терминальная точка на 8°', имею-
щая те же компоненты, что s на ? и еще одну компоненту sn.
Интегрируя B.4.3) от / = 0 (в точке х°) до его конечного значе-
ния (в s'), получаем, используя B.4.2),
jG(x, ф,
где интегрирование производится вдоль траектории в ef" или,
что то же самое, вдоль ее проекции на ©\ ибо xn+i не входит
под знак интеграла. Подставляя sn в B.4.4), получаем
Плата = H(s)+ j G(x, q>, ^)dt + x°n+v
Если мы предпишем начальной точке значение x°n+i, рав-
ное 0, то плата будет точно такой же, как в первоначальной
игре.
Заметим, что при таком ограничении на начальное значение
xn+i существенной потери общности не происходит. Так как
xn+i не входит ни в одну из правых частей уравнений движе-
ния, то все траектории в cf', отличающиеся в начальном по-
ложении только значениями x°n^v —просто сдвиги на это зна-
чение в направлении хп+1 соответствующей траектории в &.
К виду B.4.1) можно привести также и другие типы платы.
Предположим, что время / входит явно в правые части урав-
нений движения, в /j, в G или даже в Я. В последнем случае
2.4. Плата 53
плата является функцией не только состояния, но и времени
окончания игры. Тогда мы к уравнениям движения добавляем
уравнение xn+i=l, берем новые W и &' как прямые произве-
дения первоначальных <f и Ч? на прямую (—оо, оо)— область
изменения xn+i — и заменяем аргумент t в f3, G и Я на хп+1.
Проанализировав преобразованную игру, мы отбрасываем все
начальные точки, кроме тех, у которых хп+[ = 0.
Существуют задачи, где плата имеет вид
г
j G(x, ф, ф)Л;
о
здесь Т — некоторое наперед заданное положительное значение
времени (^ = 0 означает время начала игры). По существу
здесь Т можно считать фазовой координатой. Мы добавляем
к уравнениям движения еще уравнение
и принимаем за новое cf прямое произведение старого на луч
[0, оо). За *? мы берем ту часть границы нового ef, где хп+1 = 0.
Преобразованная игра имеет интегральную плату с подинте-
гральной функцией G. Мы используем затем только те начальные
точки, у которых xn+i равно заданному значению Т.
Предположим, что нам дана функция /С(х), определенная
на W, значение которой в момент Т является платой. Этот
случай можно рассматривать аналогично предыдущему, считая
К терминальной платой Н.
Рассмотрим еще один тип платы, который по крайней мере
в простых случаях можно привести к стандартному виду. Пусть
в & задана функция /((х). Платой является минимум этой
функции, который достигается за время игры. Например, как
близко от убегающего может оказаться преследователь?
Пусть efi — подмножество в ef, на котором Е может за-
ставить /С(х) возрастать, что бы ни делал при этом Р. Тогда
Уг есть множество тех точек х, для которых
п
max min 2 Kxh (х, ф, ф) > 0. B.4.5)
ф ер /=-1 '
Пусть <?—граница подмножества W\. Ясно, что если вопреки
оптимальному противодействию со стороны Е минимум К до-
стигается, то он будет достигнут на %"'). Таким образом, мы
') Все заданные функции предполагаются непрерывными и дифференци-
руемыми В общем случае %\ будет открытым множеством, "?—поверхно-
стно Действительно, # определяется формулой B 4 5), где иык неравенства
заменен знаком равенства.
54 Гл. 2. Определения, формулировки и предположения
можем свести задачу к игре с терминальной платой, равной
значению К на множестве <?. Читатель, однако, легко может
построить примеры игр, в которых Р добивается наименьшего
значения платы лишь тогда, когда траектория входит в мно-
жество efi, а затем покидает его; в таких случаях осуществить
предложенную идею будет трудно.
Пусть
S
где ut(i=], ..., п)—координаты некоторого вектора и.
В наших исследованиях существенную роль будет играть
Предположение о мини максе. Для всех и и всех
min max Q = max min Q.
ф ф i| ф
Во всех приложениях, с которыми нам приходилось сталки-
ваться, ft и G можно было представить в виде суммы двух
функций, одна из которых не зависит от ф, а другая — от if.
В таких случаях предположение о минимаксе очевидно выпол-
няется.
2.5. ИГРЫ КАЧЕСТВА И ИГРЫ СТЕПЕНИ
Когда мы говорим о результате игры степени, мы имеем
в виду одно значение из континуума возможных значений, ко-
торые может принимать плата, как было описано в предыду-
щем параграфе. Игра качества имеет конечное число возмож-
ных исходов (обычно два), зависящих от того, сможет или нет
один из игроков достичь определенной цели. В игре преследо-
вания, например, целью одного игрока может быть захват дру-
гого; в боевых играх — полное истребление противника.
Если задано пр.авило остановки игры, то игра качества ста-
новится игрой с терминальной платой, для которой Я прини-
мает конечное множество значений. Игра вкладывается в нашу
схему и не требует специального истолкования. Однако часто
оказывается желательным и возможным любой игре качества
сопоставить некоторую игру степени и иметь дело с этой по-
следней.
Решение игры качества может быть существенно неодно-
значным. Оно сводится к делению ef на два (иногда более
подмножества, и для каждого игрока одно из них (возможно,
пустое) бывает предпочтительнее другого. Если начальная
точка лежит на множестве, предпочтительном, например, для Р,
то он может достичь своей цели. Тогда обычно некая стратегия
оптимальна для него до тех пор, пока позволяет ему оставать-
2 6. Стратегии 5Ь
ся на этом множестве, в то время как для противника опти-
мальна любая стратегия. Эги идеи будут развиты в гл. 8.
Рассмотрим два вида игр качества.
1. Игра преследования, целью которой является захват.
2. Та же самая игра, цель которой — захват за время, не
превосходящее некоторого фиксированного значения Т. Такой
случай может быть, скажем, если Р является перехватчиком
с ограниченным запасом горючего.
В обоих случаях мы ничего не потеряем, а выиграть можем
многое, если в качестве платы выберем время захвата, которое
можно взять равным бесконечности, если захват не осущест-
вляется. Теперь мы можем надеяться выделить одну оптималь-
ную стратегию из целого класса оптимальных стратегий, описы-
ваемых неравенствами. В случае 1 стратегия будет теперь не
только указывать, как Р может осуществить захват, но и как
ему сделать это возможно быстрее. Соответственно она указы-
вает, как Е может отсрочить захват. В случае 2 нам нужно всего
лишь получить цену игры ') и посмотреть, превосходит она Т
или нет. Мы получаем решение случая 2 сразу для всех зна-
чений Т.
Однако мы не будем проповедовать отказ от игр качества;
действительно, некоторые из следующих глав посвящены им.
Бывают случаи, когда непосредственное решение много проще,
чем предложенное сведение игр качества к играм степени, а до-
полнительная информация мала. Иногда также игра качества
является частью какой-то игры степени. Например, игрок может
быть не в состоянии добиться цели, если он сперва не преодо-
леет некоторые препятствия. Вопрос о том, сможет или нет он
преодолеть их, составляет игру качества, решение которой
можно считать первым этапом полного решения игры.
Когда мы будем говорить об игре, не указывая, является
она игрой качества или степени, мы будем подразумевать по-
следнее.
2.6. СТРАТЕГИИ
В теории дискретных игр стратегия определяется как множе-
ство решений игрока, каждое из которых однозначно соответ-
ствует возникшему положению. Если каждый из игроков вы-
брал стратегию, то партия, а следовательно, и плата одно-
значно определены.
В теории дифференциальных игр существуют аналогичные
обстоятельства. Выбор решения в каждом возможном положении
') Это понятие появится в нашем тексте в следующем параграфе.
56 Гл 2 Определения, формулировки и предположения
состоит в определении каждым игроком своего управления
как функции фазовых координат. Если игроки выбрали ср(х) и
¦ф(х) и эти функции подставлены в уравнения движения, по-
следние становятся дифференциальными уравнениями. Так как
данные, определяющие игру, должны включать в себя началь-
ное значение х, ясно, что это значение играет роль начального
условия. Таким образом, мы можем надеяться, что в реальных
условиях траектория, а следовательно, и плата определяются
однозначно.
Как и в общей теории игр, цена есть минимакс платы. Обо-
значим ее
V(x) = minmax платы.
<Г(х) ф(х)
Здесь min (max) берется по всем допустимым стратегиям
ф(х)[г|)(х)]. Мы будем считать, что min max эквивалентен
max min, и это допущение, основанное на «предположении о ми-
нимаксе» (§ 2.4), в дальнейшем оправдывается.
Цена игры V есть функция от начального состояния х, она
будет играть основную роль в дальнейших исследованиях.
В каждый момент в течение хода игры игроки сталкиваются
с полной вектограммой. Если мы представим себе, что каждый
из них выбирает значение своего управления, то получим, что в
результате он выбирает в каждый момент времени значение
вектора скорости. Таким образом, выбору хода в дискретных
играх соответствует здесь происходящий каждое мгновение не-
прерывный выбор ф и ty. Читатель может возразить, что мы
требуем от игроков подвигов, превышающих человеческие воз-
можности, а от математических задач — чрезмерной строго-
сти. Мы постараемся его успокоить.
Попытка определить стратегии в форме (q>(x), t|>(x)) немед-
ленно приводит к затруднениям. Во-первых, мы должны быть
уверены, что дифференциальные уравнения, к которым свелись
уравнения движения, интегрируемы. Напоминаем, что в их ле-
вых частях стоят производные по возрастающему аргументу.
Далее, критерий существования решения для таких уравне-
ний здесь должен быть гораздо шире, чем в классической тео-
рии, а ограничения носят совершенно иной характер Действи-
тельно, рассмотрим систему
x, = fi(Xi> x2), i = l, 2;
здесь xt — производная по возрастающему аргументу, а
Г A, 1) при хх <0,
(f,, f2)= @, 2) при х^О,
I (-3, 0) при хх>0.
2 6 Стратегии 57
Легко проверить, что эта система имеет единственное решение
для каждой начальной точки плоскости Позднее мы увидим,
что функции такого рода вовсе не редкость в решении диффе-
ренциальных игр.
Пусть теперь
{ A, 1) при х,<0,
'~~\ (—3, 0) при хг _>U.
Мы оказываемся в затруднении, если решение начинается или
ПрИХОДИТ В ТОЧку, ДЛЯ КОТОрОЙ Х\ — 0.
Теории подобных дифференциальных уравнений посвящен
целый ряд работ, см., например, [16]1); но здесь мы не исполь-
зуем этих методов.
Впоследствии мы разработаем методы решения дифферен-
циальных игр. Результаты будут включать в себя значения <р
и ¦§, которые мы будем называть оптимальными; обозначим их
ф(х), ^(х). После подстановки их в уравнения движения по-
следние становятся по крайней мере кусочно-интегрируемыми
(или интегрируемыми в смысле дифференциальных уравнений
с производными по возрастающему аргументу). Тогда решения
(траектории, плата и т. д.) можно вычислить, и они оказывают-
ся оптимальными в смысле достижения минимаксной платы
Но остается еще вторая трудность. Утверждение, что <р,
скажем, оптимально, требует знания хода игры для некоторого
класса противодействующих управлений ty. Каков этот класс?
Он должен включать в себя такие функции ^, чтобы пара ср, ty
всегда приводила к интегрируемым уравнениям движения, а
все ^ представляли собой реальные действия оппонента.
С. Карлин выдвинул идею, которая устраняет эту трудность.
Стратегия для Р определяется теперь выбором не только функ-
ции ф(х), теперь уже не подчиненной никаким условиям, кроме
ограничений на область значений, но и возрастающей последо-
вательности 0г = {/о = О, tit /2, ...} значений времени, стремящейся
к бесконечности. Такая стратегия будет названа /(-стратегией.
Предположим, что Р придерживается ее и что в момент 4 со-
стояние игры описывается точкой x<ft> (х<°> — начальное состоя-
ние). Пусть в полуинтервале [4, (р.+\) он сохраняет постоянное
значение <р, равное ф(хС')).
Предположим, что/(-стратегия,т. е i|i(x) и a't — \[t'(l = 0, t'v .],
определена также и для Е. Таким образом, мы имеем две
1) Более по ipo6uoe описание эгих четснов появится скоро в сборнике
Contributions to tht theory of nonlinear oscillations, т V, no i редакцией
С Лефшеца
58 Гл. 2. Определения, формулировки и предположения
последовательности значений времени {tj} и \tj}> и в каждом
подинтервале обе функции ср и г|з постоянны. Тогда уравнения
движения очевидно интегрируемы. Мы строим траекторию, ис-
пользуя для каждого интервала в качестве начального значения
конечное значение х в предыдущем интервале.
Итак, для каждой начальной точки и каждой пары /(-стра-
тегий траектория точки х и, следовательно, плата однозначно
определены. Назовем ценой игры sup inf (= inf sup) платы, где
sup и inf соответственно берутся по классам /(-стратегий игро-
ков. Таков естественный аналог минимакса, определение кото-
рого было дано выше в этом параграфе.
В мире действительности нелегко отыскать пример, где по-
следовательность принимаемых решений не была бы дискрет-
ной. Таким образом, /(-стратегия несколько приближает нас к
реальности.
Мы будем называть функцию <р(х) [или ^(х)], которая со-
ставляет /(-стратегию игрока, его тактикой1).
Ясно, что, вообще говоря, /(-стратегии реализуют не опти-
мальные, а лишь е-оптимальные стратегии, т. е. такие страте-
гии, для которых плата отличается от V не более чем на е (этого
можно достичь с помощью все более мелкого разбиения оси t
последовательностями {tj}, {t'j}).
Можно ли утверждать, что описанные стратегии определяют
все наилучшие способы развития игры? Давайте на мгновение
отбросим ухищрения и примем введенное ранее определение
стратегии. Предположим, что один из игроков, скажем Е, дей-
ствует согласно правилу Se, которое не является стратегией.
Например, SE может задавать ty как функцию от xJt высших
производных от х} (и каким-нибудь способом — в тех точках,
где эти производные не существуют), от предшествующих зна-
чений х„ интеграла от этих значений и т. д. Если Е, действуя
согласно Se> противостоит оптимальной стратегии Sp игрока Р,
то можно ли сказать, что он не добьется для себя лучшего зна-
чения платы, чем V?
Мы попытаемся найти ответ на этот вопрос двумя спосо-
бами. Первый из них — эвристический. Он основан на том, что
фазовые координаты полностью описывают состояние в том
смысле, как это обсуждалось в § 2.1.
') Термины стратегия и тактика не имеют ничего общего с военным лек-
сиконом. Первый из них, введенный фон Нейманом и Моргенштерпом, стал
общепринятым в теории игр, и мы употребляем очевидное обобщение этого
понятия на случай дифференциальных игр. Второй термин мы вводим лишь
на тот случай, когда будем говорить о /(-стратегиях. Его употребление в
этой книге будет весьма ограничено.
2.6. Стратегии 59
Чтобы проиллюстрировать это, рассмотрим игру преследо-
вания, в которой Р есть движущаяся на плоскости точка. Обо-
значим ее координаты через хи х2. Пусть Р обладает простым
движением, уравнения которого имеют вид
Мы утверждаем, что для Е целесообразнее всего основывать
свои действия только на знании значений х{ и х2. Эти действия
могут, конечно, зависеть от хх, Хг, прошлых значений х} и т. д.,
как, например, в случае, когда Е пытается экстраполировать
будущее положение Р. Но скорость Р в соответствии с по-
становкой задачи может в каждый момент резко изменяться,
и эти изменения невозможно предугадать. Поэтому Е не может
полагаться на какие-либо предсказания или строить свое пове-
дение, исходя из каких-либо других величин, кроме значений
xt и х2.
Теперь предположим, что движение Р несколько усложни-
лось. Пусть теперь он регулирует свои ускорения ср(, ср2 (подчи-
ненные некоторым условиям, что пока не имеет значения).
Уравнениями движения Р будут
ХА = ф2-
Сейчас Р уже не может допускать резких скачков скорости,
и потому Е в соответствии со здравым смыслом мог бы осно-
вывать свое поведение на знании значений х1У х2. Но эти значе-
ния теперь равны х3, xt и также входят в число фазовых коор-
динат. Однако те же рассуждения, что и выше, показывают, что
если бы Е действовал, исходя из ускорений Р, он мог бы быть
введен в заблуждение.
Можно продолжить подобные рассуждения, создавая цепь
все более и более сложных типов движения Р и получая при
этом много вариантов. В каждом случае, отбирая те данные, на
основании которых Е мог бы строить свое разумное поведение
при выборе решения, мы обнаруживаем, что все они входят в
число фазовых координат.
Второй способ математический. Предположим, что игра на-
чинается из некоторой фиксированной точки, Р применяет опти-
мальную стратегию SP, a E действует согласно S^. В результате
управление г|\ заданное правилом S?, определено как функция
60 Гл 2 Определения, формулировки и предположения
времени. Предположим, что эта функция кусочно-непрерывна.
Тогда для Е найдется стратегия SE, которая будет соответство-
вать SE всякий раз, когда партия сводится к той же самой тра-
ектории. Таким образом, до тех пор пока Р применяет страте-
гию Sp, E выигрывает одно и то же, действует ли он в соответ-
ствии с SE или SE. Поскольку стратегия SP оптимальна, Е не
может добиться для себя лучшего значения платы, чем V.
2 7. КАНОНИЗАЦИЯ ВЕКТОГРАММ
В теории дифференциальных игр, как и в других областях
анализа, иногда удобно произвести некоторую замену перемен-
ных. Например, если 8"—гладкая поверхность, всегда можно
выбрать фазовые координаты так, чтобы терминальное множе-
ство лежало на поверхности, где х4 = 0. Но сейчас мы будем го-
ворить о таком преобразовании управлений, которое приведет
вектограммы к некоторым довольно удобным каноническим фор-
мам.
Мы будем предполагать, что размерность управлений не яв-
ляется избыточной, а именно: каждой точке, скажем, ср-векто-
граммы соответствует только одно множество величин фЬ . . ., щ.
Из этого следует, что К^Сп.
Другое довольно очевидное требование к вектограммам та-
ково. Они должны позволять х перемещаться во всем ?, а не
ограничивать область изменения его подмножеством меньшей
размерности В последнем случае мы можем переформулировать
задачу, взяв в качестве ef это подмножество.
Пример 2.7.1. Пусть ге = 3, л=1, х = 0. Уравнения движения имеют
вид
где у(х)=[аХ$\Ф0. Если
у ¦ rot у = 0,
то из известного результата классического анализа следует, что
ef покрыто семейством поверхностей, в касательных плоскостях
к которым лежат векторы аир. Тогда точка х должна всегда
оставаться на той же самой поверхности, на которой она нахо-
дилась вначале, и мы можем принять эту поверхность за область
игры <?.
Назовем вектограмму выпуклой, если любая линейная комби-
нация 2uCtvt ее элементов vu .,., vk, где Ct^0, 2jC; = 1<
принадлежит ей.
2 7. Канонизация вектограмм
61
Менее тривиально, чем предыдущие,
Предположение о выпуклости. Все ((-вектограм-
мы и ^-вектограммы выпуклы.
Если это предположение нарушается, решение может не су-
ществовать. Мы не отказываемся от рассмотрения таких игр, но
заменяем их другими, в которых ср- и 1|з-вектограммы представ-
ляют собой выпуклые оболочки прежних вектограмм, т. е. новые
вектограммы являются наименьшими выпуклыми вектограмма-
ми, содержащими прежние. Если новую игру можно решить, ее
решение даст существенные сведения о первоначальной игре.
Поясним сказанное примером.
Пример 2.7.2. В этой игре отсутствует \р, так что на самом деле
это скорее задача минимизации, чем игра. Здесь ef — часть
плоскости над кривой & (рис. 2.7.1). Вектограммы одни и те же
Рис. 2 7 1.
для всех х; одна из них нарисована. Пусть М — высшая точка
кривой 8°; Р начинает движение из х° прямо над М и достигает
& в кратчайшее время. Ясно, что решением является зигзагооб-
разная траектория, которая получается при использовании Р
крайних значений скорости. Таких траекторий здесь будет много.
Пример 2.7.3. Обозначим через L вертикальную линию, прохо-
дящую через М. Изменим задачу, считая теперь, что вектограм-
мы сохраняют свою форму, но уменьшаются по величине с уве-
личением расстояния от L. Тогда ясно, что Р, двигаясь по
62 Г л 2 Определения, форму шровки и предположения
пилообразной траектории, действует тем лучше, чем ближе эга
траектория прижимается к L. Решения не существует1).
Заменим теперь векгограммы их выпуклыми оболочками.
Тогда игра имеет решение: Р движется вдоль L к точке М. По-
нятно, в каком смысле это решение аппроксимируется решения-
ми первоначально сформулированной задачи. Итак, заменяя в
случае необходимости вектограммы их выпуклыми оболочками,
можно преодолеть трудности вышеупомянутого типа и с по-
мощью полученного решения легко интерпретировать рассма-
триваемую игру.
Если v является элементом некоторой ср-вектограммы, то си,
где 0<с<1, также является ее элементом в силу предположе-
ния о выпуклости вектограмм 2). Но оказывается, что для боль-
шинства практических задач стратегии, соответствующие таким
векторам, не оптимальны. Например, в задачах о движущихся
объектах нас интересует лишь наилучшее направление скорости,
а оптимальность стратегии почти всегда приводит к максималь-
но допустимому значению ее величины. Поэтому во многих рас-
сматриваемых задачах не нужно требовать выпуклости векто-
граммы в этом смысле (их всегда можно сделать такими, вво-
дя новое управление типа вышеупомянутого с, но оптимальное
значение с, как правило, равно 1), однако вектограммы обяза-
ны иметь выпуклое замыкание по отношению к векторам раз-
личных направлений.
Сформулируем теперь
Предположение о замкнутости. Все <р- и ^-век-
тограммы замкнуты.
Основания для такого предположения аналогичны основа-
ниям для предположения о выпуклости. Если имеется, напри-
мер, сходящаяся последовательность членов ^-вектограммы, на
которых значения платы увеличиваются, то это означает, что
практически решение игры отсутствует. Тогда разумно включить
в вектограмму предельное значение скорости, которое мы пред-
полагаем оптимальным. Тем самым трудности подобного рода
преодолеваются.
Подобно тому как раньше, встречаясь с игрой, имеющей не-
выпуклую вектограмму, мы заменяли эту вектограмму ее вы-
пуклой оболочкой, так теперь вместо незамкнутых вектограмм
будем брать их замыкания и исследовать последние.
') Однако V существует
Здесь предполагается, чг0 вектенрамма содержит нулевой вектор,—
Прим ред.
2 7 Канонизация вектограмм 63
Мы можем, следовательно, считать, что длина векторов в лю-
бой вектограмме ограничена, ибо в противном случае из пред-
положения о замкнутости следовало бы существование векторов
бесконечной длины. Тогда решение задачи об оптимальной стра-
тегии оказалось бы паталогическим или тривиальным. Поэтому
бесконечную скорость вместе с некоторой ее окрестностью мож-
но удалить из вектограммы, не потеряв при этом ничего суще-
ственного.
Из всего этого следует, что
Все ф- и ^-вектограммы предполагаются замкнутыми и огра-
ниченными и, следовательно, компактными.
Теперь мы приходим к нужному нам результату.
Ограничения на управления можно считать постоянными.
То есть если, например,
а,<Ф,<Л. B.7.1
то аг, Ьг не зависят от х. В самом деле, каждая вектограмма по
предположению есть компактное, связное (ввиду ее выпукло-
сти) множество, а из общих допущений относительно Д следует,
что эти множества гладко меняются вместе с х. Тогда мы можем
найти гладкое отображение множеств векторов {ф[, ..., ср?) в
единичный куб Х-мерного евклидова пространства; это отобра-
жение задается гладкими функциями от х. Принимая эти функ-
ции за новые ср,, получаем B.7.1), где а, = 0, 6г=1. Аналогично
можно поступить и с ^-вектограммой.
В играх с терминальной платой, где имеет значение лишь
состояние х в момент окончания игры, изменение масштаба вре-
мени существенно не меняет задачу. Можно даже менять ею
локально, т. е. от точки к точке. Формально это равносильно
умножению правых частей уравнений движения на одну и туже
положительную функцию от х, т. е. обычные уравнения движе-
ния заменяются уравнениями
X/= И (X)/, (X, ф, f).
Поскольку и(х)>0, вид траекторий не меняется и стратегии при-
водят к той же плате, что и раньше.
Так как мы можем считать вектограммы ограниченными,
можно взять такую функцию и(х), что при каждом х ее произ-
ведение на самый длинный из членов полной вектограммы огра-
ничено на всем ef Таким образом, можно утверждать, что
64 Гл 2. Определения, формулировки и предположения
Игры с терминальной платой допускают такое преобразова-
ние, что полученная в результате игра эквивалентна прежней
и имеет вектограммы, равномерно ограниченные на всем ef.
2.8. ЛЕММА О КРУГОВЫХ ВЕКТОГРАММАХ
При рассмотрении многих задач мы будем часто использо-
вать следующий простой результат.
Лемма" 28.1. Пусть и, v — такие числа, что р = ]/ и1 -4- v2 >
>0. Тогда
max (и cos ф -f- v sin ф)
ф
достигается на таком ф, где
-и . — v
СО8ф = — , S1П ф = — ,
^ о ' р
и этот максимум равен р.
Доказательство. Величина в круглых скобках есть ска-
лярное произведение векторов (и, v) и (cos ф, sin ф) и, следова-
тельно, является проекцией вектора (и, и) на луч, проходящий
через начало координат и образующий с осью и угол ф. Макси-
мум ее достигается, когда луч направлен по вектору (и, v) (и
минимум — когда направление его противоположно). Это соот-
ветствует утверждению о ф. Максимум есть длина вектора
(и, и), которая равна р; минимум — длина того же вектора, взя-
тая с обратным знаком.
ГЛАВА 3
Дискретные дифференциальные игры
3.1. ВВЕДЕНИЕ
Подобно многим проблемам математического анализа, диф-
ференциальные игры допускают дискретные модели. Гладкие,
непрерывные процессы заменяются последовательностями от-
дельных шагов или перемещений.
Одна из целей такой замены — иметь возможность применять
методы приближенного вычисления. При современном уровне
вычислительной техники такой способ получения решения ка-
жется весьма соблазнительным, особенно когда принципиальное
исследование затруднительно. Но общность при этом теряется;
без подсчета огромного количества случаев уже нельзя усмо-
треть, как зависит решение от начальных условий и ог различ-
ных параметров, описывающих игру. Кроме того, как будет по-
казано на некоторых примерах, многие математические вопросы,
например вопрос об особых поверхностях или даже о единствен-
ности решения, могут при этом оставаться неясными.
Мы не будем здесь подробно обсуждать эту точку зрения;
в частности, не будем касаться вопроса сходимости, а именно
доказательства того, что с уменьшением шага дискретное реше-
ние приближается к непрерывному.
Наша цель — дать грамотное общее представление о проб-
леме; тогда дискретные игры могут мотивировать и пояснять
многие из наших идей. В следующих разделах будет показано,
что даже классическая дискретная игра двух игроков с нуле-
вой суммой и полной информацией порождает некоторые парал-
лели в нашей теории.
Затем мы перейдем к примерам дифференциальных игр, ко-
торые легче всего поддаются квантизации. В § 3.3 будет рассмо-
трена боевая игра, где каждый игрок стремится уничтожить
боевые силы противника. Аналогию этой игры молено найти, на-
пример, в бизнесе, когда каждая из двух коммерческих фирм
старается разорить конкурента. Подобные игры можно рассма-
тривать и как игры степени, где платой является количество уце-
левших ресурсов победившей стороны, и как игры качества, цель
которых — истребление. Овладев при чтении последующих глав
основными идеями, читатель сможет легко получить непрерыв-
ные варианты таких игр.
5 Зак 52J
66 Гл 3 Дискретные дифференциальные игры
Мы рассмотрим далее две игры преследования. Первая из
них, «полицейский автомобиль», действительно лучше вклады-
вается в дискретную схему, чем в непрерывную. Вторая — прес-
ловутая игра «шофер-убийца»: уже здесь обнаруживаюгся ее не-
которые интересные моменты Ряд вопросов, связанных с этой
игрой, не удается решить в настоящей главе — это типичные
ограничения, присущие дискретному методу. В последнем пара-
графе намечена техника вычисления по шагам, требующая толь-
ко частичной квантизации.
Умудренные опытом математики могут пропустить эти при-
меры без ущерба для дальнейшего чтения, ибо они не содержат
материала, который понадобится в будущем; цель этих приме-
ров — дать некоторый предварительный просмотр конкретных
решений, возможный потому, что определенные трудности при
дискретном подходе можно обойти. В то же время менее подго-
товленный читатель, даже если он не станет читать дальше, по-
чувствует, прочитав эту главу, общую тенденцию нашего под-
хода к проблеме, поняв аналогию с развиваемыми здесь идеями
и приведенными здесь примерами Однако общее обсуждение ре-
шений в § 3.2 является основой для философии теории игр.
В заключение отметим, что иногда бывает желательно обра-
тить принятую в этой главе процедуру; например когда мы стач-
киваемся с такой игрой, где перемещения дискретны, но неко-
торым образом логически согласованы1), может оказаться вы-
годным заменить дискретную игру ее непрерывной моделью Так
мы и сделали, не оговаривая это особо, в примерах 5.4 и 11.9.
3 2. ОБЩАЯ ДИСКРЕТНАЯ ИГРА
Будем рассматривать игры двух игроков с нулевой суммой
и полной информацией. Каждую такую игру можно представить
диаграммой в так называемой экстенсивной форме, образец ко-
торой приведен на рис. 3.2.1. Некоторые размышления приво-
дят к определенным параллелям с дифференциальными играми.
Каждое положение представлено кругом или прямоугольни-
ком, и из каждого положения, спускаясь вниз, можно перейти
в какое-то другое. Маленькие круги соответствуют случаю, когда
минимизирующий игрок Р выбирает свой ход. Квадраты озна-
чают то же для Е. Самый верхний, большой круг соответствует
началу игры: Р выбирает одно из трех возможных состояний, ка-
ждое из которых дает право Е делать следующий шаг.
Можно представить себе фишку, расположенную вначале в
верхнем круге; партия состоит в ее последовательных переме-
') Точное определение такого типа игр затп\ щите 1ыю Мы еще вернемся
к нему в этой главе
Начало
Рис. З.2.1.
68 Гл 3 Дискретные дифференциальные игры
щениях. Занятый круг (или квадрат) является дискретным ана-
логом состояния х в дифференциальной игре. В конце концов
фишка, или х, достигает одного из нижних прямоугольников,
которые соответствуют окончательным положениям; игра счи-
тается оконченной, а число в прямоугольнике означает плату.
Эти финальные положения соответствуют поверхности <? в диф-
ференциальной игре; ясно, что здесь мы имеем своего рода «тер-
минальную плату». В предыдущей главе было показано, что лю-
бую дифференциальную игру можно привести к такому виду;
настоящий пример является частным случаем дискретной игры
с терминальной платой, однако вскоре мы увидим, что дискрет-
ные игры могут быть и другого типа.
Игра может допускать и случайные перемещения: следую-
щий шаг выбирается не игроками Р или Е, а определяется слу-
чайным образом с некоторой заданной вероятностью. Пусть из
положения, изображенного на рис. 3.2.1 большим кругом С, воз-
можны три выхода с вероятностями, значения которых указы-
вают цифры на линиях, ведущих к этим трем положениям. Из-за
наличия случайного элемента мы должны определить цену игры
V как минимакс математического ожидания платы.
Найдем теперь решение этой игры. В положении а у Е два
выбора, оба ведут к окончанию игры с платой, равной —2 и О
Цель Е — максимизировать плату, поэтому он выберет второй
из них. Отнесем квадрату, соответствующему положению а, чис-
ло 0. В положении b у Р те же самые два выбора, но он предпо-
чтет —2; это число мы отнесем кругу Ь. В положении с у Е есть
три выбора с платой —2, —2 и 0; последнее значение является
наибольшим, поэтому в квадрате с пишем 0. Действуя таким об-
разом, поднимаемся из финального положения вверх, достигаем
начального положения и записываем соответствующее ему чис
ло; это число и есть цена V. Оптимальные стратегии представ-
лены линиями, ведущими к положениям со значением V.
Случайное положение С является, конечно, исключением Ко-
гда мы определим плату, соответствующую каждому из трех воз-
можных вытекающих из С положений, го самому С мы относим
математическое ожидание платы, т. е. линейную комбинацию по-
лученных чисел с коэффициентами '/г, 'At, 'At-
Упражнение 3.2.1. Завершить решение игры и показать, что здесь
Подведем итоги.
1. Числа, которые сопоставлялись каждому положению в
рассмотренной игре, можно считать значениями некоторой
функции, аналогичной основной функции V(x) в дифференциаль-
ных играх
3 2. Общая дискретная игра 69
Заметим, что каждое положение на диаграмме можно рас-
сматривать как начальную точку некоторой подигры. Зафикси-
руем какую-нибудь точку и выделим только те положения, в ко-
торые за какое-то число шагов можно прийти из данной точки;
все остальные положения отбросим. Полученная диаграмма бу-
дет соответствовать этой подигре. Другими словами, подагрой
здесь названа игра, развивающаяся из любого положения х как
из начального.
Аналогично в дифференциальных играх: V(x) есть цена игры,
начинающейся из точки х.
2. Оптимальные стратегии непосредственно и просто связаны
с V(x). Когда Е (или Р) решает, как ему двигаться из некото-
рого положения х, ясно, что наилучший вариант для него тот,
который максимизирует (минимизирует) V{\1), где хг пробегает
те положения, в которые можно попасть из х за один шаг.
Непрерывный аналог этого утверждения приводит к получе-
нию уравнения, которое мы будем называть основным уравне-
нием дифференциальных игр. Оно является уравнением в част-
ных производных первого порядка относительно V(\).
Путь точки х в дискретной игре при оптимальном ходе ее со-
ответствует оптимальной траектории в дифференциальной игре
Оптимальные траектории удовлетворяют системе обыкновенных
дифференциальных уравнений и служат характеристиками основ-
ного уравнения.
3. Наше решение дискретной игры начиналось из конечного
положения и заключалось в перемещении вверх при последова-
тельном вычислении V{x). Трудно указать какой-либо иной
принцип отыскания V(\), если вначале цена игры V известна
только для терминальных положений.
Соответствующая аналогия имеется и в дифференциальных
играх. Мы будем использовать терминальную поверхность ?"
как множество начальных условий при интегрировании вышеупо-
мянутых дифференциальных уравнений для оптимальных траек-
торий в ef. Этим будет мотивировано обращение времени и ре-
грессивная форма, в которой будут получены интегралы.
4. Наше последнее замечание носит более общий характер,
и его труднее точно выразить. Исследование игр приведенным
выше способом (рис. 3.2.1) едва ли можно систематизировать,
поэтому нам не остается ничего другого, как разбирать до конца
каждый отдельный случай. Если речь идет о диаграмме огром-
ных размеров, то этот недостаток весьма существен.
Даже для детски простой игры построение диаграммы хоть и
выполнимо, но достаточно трудно Что же будет при рассмо
трении такой игры, как шахматы' Каждая позиция по существу
соответствует некоторому возможному расположению фигур на
70
Гл. 3. Дискретные дифференциальные игры
шахматной доске ') со всевозможными вариантами дальнейших
ходов соответствующего игрока. Размеры диаграммы были бы
поистине астрономическими, так чго такое решение подобной
задачи недоступно современной вычислительной технике.
Р и с. 3 2 2.
С другой стороны, рассмотрим игру, диаграмма которой изо-
бражена на рис. 3.2.2. Правило ее построения очевидно. Фор-
мула ответа возникает сразу же в процессе построения решения.
Действительно, легко можно доказать индукцией по п, что зна-
чения V для четырех верхних положений на рисунке таковы:
2 (п -1-1)
2 (/1—1) 2л
') Иногда нужна некоторая дополнительная информация Например, два
состояния игры с одинаковым расположением фигур, в одном из которых
уже произведена рокировка, а в другом еще пет, следует считать двумя раз-
личными позициями.
3 2. Общая дискретная игра 71
Очевидно, что при достаточно большом а размеры этой диа-
граммы могут оказаться много больше, чем в шахматной
игре ').
Отличительной чертой рассматриваемой модели является
присущая ей логическая структура. Эта игра поддается технике
разностных уравнений или рекуррентных соотношений, ибо ка-
ждое положение следует из соседних с определенной законо-
мерностью, что отсутствует в играх типа шахмат.
Но подобная закономерность тривиальна с математической
точки зрения. Орбиту планеты в принципе можно рассчитать, по-
скольку движение планеты подчинено закону Ньютона, а вот ры-
нок и биржа непредсказуемы, так как не найдена логическая си-
стема, управляющая ими.
Мы надеемся, смысл наших идей стал ясен; четкое описание
их затруднительно. Наше утверждение о том, что шахматы не
обладают типом логической структуры, позволяющим решать их
с помощью математического анализа, вовсе не эквивалентно ут-
верждению, что шахматы — беспорядочная, нелогичная игра2).
Скорее это значит, что анализ, по-видимому, может состоять
лишь в построении по частям цепей из причин и следствий; ма-
тематик здесь оказывается в состоянии делать не более, чем
подражать выводам компетентного игрока.
Квинтэссенцией дифференциальных игр является не исполь-
зование ими классических приемов анализа (хотя термин «диф-
ференциальные», казалось бы, подразумевает это), а их отноше-
ние к играм с внутренней логической структурой. Аналитическая
техника, например техника дифференциальных уравнений, мо-
жет быть заменена дискретными методами, если непрерывную
игру можно заменить некоторой приближенной квантизованной
моделью3). В любом случае должна быть связь между близ-
кими состояниями, которая позволяла бы установить законо-
мерность взаимоотношений игроков на протяжении всей партии
или хотя бы какой-нибудь ее полной фазы. Такая связь делает
возможным построение теории дифференциальных игр.
') Читателя не должна вводить в заблуждение длинная узкая конфигу-
рация диаграммы па рис 3 2.2, из-за чего она кажется «одномерной», в то
время как диаграмма на рис 32 1 выглядит скорее «чвумерной» Это не
имеет решающего значения; можно построить «многомерные» варианты, но
все же решить игру благодаря ее рекуррентности
2) Или что она не будет поддаваться технике, отличной от классиче-
ской математической, например технике самообучающихся вычислительных
машин
3) Такие модели иногда ближе к действительности (как, скажем, выше-
упомянутый пример 5 4. — «воина на изн>рение и нападение»), но дтя них
«дифференциальный» по \\о,\ бывает более эффективным
72 Гл 3. Дискретные дифференциальные игры
3 3. ИГРЫ НА УНИЧТОЖЕНИЕ
В простейшем случае имеются всего лишь две фазовые ко-
ординаты, х и у, которые означают силы двух противников. Иг-
ра оканчивается, когда какая-нибудь из этих координат сведена
к нулю; платой для выжившего игрока является количество его
уцелевших сил.
Примем за ef первый квадрант плоскости х, у; тогда ^ со-
стоит из положительных полуосей х и у. Если у соответствует
максимизирующему игроку Е, то Н~—х на полуоси х и Н — у
на полуоси у.
Возможности выбора игроков, выраженные в «уравнениях
движения», позволяют им либо быстрее вести партию к
окончанию, либо возможно быстрее истощать силы врага. Для
каждого из игроков эффект возрастает с ростом его собственной
мощи или с уменьшением мощи противника.
Трудно, разумеется, с помощью всего лишь двух фазовых
координат и вышеописанных допустимых перемещений получить
модель, сколько-нибудь схожую с реальностью. Поэтому мы не
требуем, чтобы у рассматриваемой игры существовал какой-то
реальный прототип. Однако мы сохраним низкую размер-
ность пространства S5 для того, чтобы проще иллюстрировать
дискретный метод и избежать сложностей, связанных с много-
мерностью. Разумеется, необходимость в таких упрощениях отпа-
дает, когда задача решается с помощью вычислительных машин.
Рассматриваемый пример является образцом того случая,
когда дифференциальная игра может быть хорошо приближена
дискретной. Диаграммы, построенной по приведенной в преды-
дущем параграфе схеме, у этой игры нет; она ближе к диффе-
ренциальной игре с терминальной платой.
Пример 3.3.1. Простейшая игра на уничтожение. Пространство
игры ef есть множество узлов прямоугольной решетки, изобра-
женной на рис. 3.3.1, с обычными координатами х, у. Левые и
нижние граничные точки решетки образуют *?; здесь силы од-
ного из противников обращаются в нуль. Возможные значения
Н отмечены на рисунке. Слева и внизу нарисованы вектограм-
мы для Е и для Р. Например, если у принимает значения 0, 1,
2 или 3, то Е может выбирать один из двух ходов, изображен-
ных на его нижней вектограмме; для у = 4, 5, б или 7 он уже
имеет возможность выбрать любой из трех ходов средней векго-
граммы, а при г/^-8 он использует верхнюю вектограмму.
Противники ходят поочередно. Можно представлять себе
фишку х, расположенную в начале игры в некотором узле ре-
шетки (как и в непрерывном случае, каждая точка может слу-
жить начальным положением). Игроки движутся попеременно,
3 3 Игры на уничтожение
73
выбирая одно из допустимых перемещений согласно соответ-
ствующей вектограмме. Партия оканчивается, когда х достигает
или пересекает ©. Платой является значение Н в узле решетки,
ближайшем к той точке, где прямая стрелка, изображающая пе-
ремещение, пересекает %*. Будем считать, что середине отрезка
— —¦!
——¦
\
-—-
к,
й
-А -
1
(
\
-10 -12
Рис. 3 3.1.
между двумя узлами решетки соответствует величина платы,
большая по модулю.
Будем решать эту игру, как и раньше, находя функцию
V(x,y), т. е. цену игры, когда (х, у)—начальная точка. Но
здесь, в отличие от рассмотренного выше случая, эта функция
зависит также от того, кто из противников начинает игру пер-
вым, так что решение игры требует нахождения двух различ-
ных функций V(x,y). В последующих диаграммах мы будем пи-
сать значения цены справа и сверху от узла решетки для случая,
когда движется Е, и слева внизу, когда движется Р.
Выделим сперва те точки, начинаясь в которых, игра должна
закончиться за один ход, независимо от выбора игроков. Тогда
для каждого партнера можно определить значение V в этих точ-
ках, выяснив, какой из возможных исходов является для него
наилучшим. В результате получаем диаграмму, приведенную
на рис. 3.3 2. Например, в точке A, —1)') два имеющиеся
]) В качестве координат здесь использованы значения Н.
74
Г i о Дискретные дифференциальные игры
в распоряжении у Е хода приводят его либо к достижению <? в
точке C,0), либо к пересечению <? в точке l-j, 0J; при этом пла-
та равна соответственно 3 и 1; Е выбирает максимум, равный 3,
что и записываем справа и сверху от точки A, —1). В то же
время имеющиеся в распоряжении Р два хода позволяют ему,
отправляясь из этой точки, окончить игру с платой —] и —2;
последнее значение, как минимальное, записываем слева и снизу
°J
7
6
5
Л
j
г
1
п
=
-2
У
8
7
б
5
5
4
3
-3
9
9
8
7
б
-4
-II-
-5
-5
-г -4
Рис 332
от точки A, —1). Мы пока ничего не можем написать в тех точ-
ках, 1де оба допустимых хода не позволяют игрокам достичь ?"
(например, точка C, —2))
Этот первый шаг можно рассматривать как часть общей про-
цедуры, подчиняющейся следующему правилу.
Двигаясь из точки х и зная значения цены игры для против-
ника во всех точках, куда он может переместиться за один ход,
игрок выбирает ту точку, где значение цены максимально (если
это Е) или минимально (если Р)х).
Повторное применение этого правила полностью определяет
V для обоих игроков. Например, если Р движется из точки
E,—1), он может оказаться либо в C,0), где К=// = 3, либо в
D,—2), где V для Е равна 6; минимальная величина 3 есть зна-
чение V для Р в точке E, —1). Теперь известны оба исхода для
Е, находящегося в точке C. —2), и для него можно аналогично
определить V в этой точке. Продолжение этой процедуры дает
диаграмму, изображенную на рис. 3.3.3
Теперь оптимальные стратегии иявестны сразу для двух игро-
ков; игрок выбирает решение в соответствии с нашим правилом.
') На множестве *6, разумеется, Н совпадает с V для обоих игроков.
3.3. Игры на уничтожение
?5
На рис. 3.3.4 изображены оптимальные траектории для двух со-
седних начальных точек A1, —14) и A0, —14), в которых V
(для Е) равна 4 и —3. Сплошные стрелки означают движение
Е, пунктирные — движение Р. Если в какой-либо точке игрок
15
14
13
12
11
10
9
7
6
5
4
3
2
I
n
13
12
11
10
9
8
7
6
4
J
2
1
0
-2
16
14
lb
13
14
12
13
11
12
10
11
9
10
8
9
7
8
6
7
5
6
4
5
4
5
3
4
-1
3
-3
116
15
14
12
11
1з'
12
11
10
9
9
8
7
)
3~
2
1
9
9
7
6
2
1
-3
-3
-4
17
12
16
11
15
10
14
9
13
7
12
6
4
5
10
4
7
6
5
4
-3
4
-4
4
-4
3
-5
15
11
14
10
13
9
12
161
15
14
¦3
8|
8
Ь
9
5
8
4
-8 _
7
6
-3
5
-4
-
-5
-2
-5
-2
-6
11
10
9
6H
5
4
10
9
9
b
4
4
F2
-4
?
-3
-3
-6
-7
14
13
9
12
7
11
5
10
9
4
9
2
7
-3
4
-4
4
-6
3
-7
-3
-7
~8
-3
13
12
6
11
5
10
11
10
10
4
9
9 [9
• 1 'I
2
-3
6
-5
4
-7
-8
-5
-8
~3
-q
-5
-9
-3
8
-4
-4
J*
-2
-8
-3
-8
-4
_4
-9
-4
— 10
— Ц
— ¦
-4
5
9
4
9
-3
'1
5
-4
Г -4| -5
-5
-8
-3
-9
-3
-9
-4
-10
-3
-7
-9
-4
-10
-4
-10
-5
-11
-4
-10, -1
-8 j-9
-11
-11
-12
-8
- 12
9
7
-4
6
-5
-8
-8
-10
-4
-11
-4
6
-9
-3
-1.
-5
-8
-6 |-7
-121 -12
-a 1-9
-12
-13
-9
-13
-H
-11
-14
-10
-14
4
-8
2
-9
-.0
-7
-9
-13
-S
-13
-10
-12
-11
К
L
-8
-8
-10
—
-1 -2 -3 -4 -5 -6 -7 -8 -Ч -10 -11 -12 -13 -14 - 1Ь
Рис 33 3
имеет более одного оптимального хода, все они показаны на ри-
сунке. Таким образом, на рисунке изображены все оптимальные
траектории, исходящие из выбранных начальных точек.
Укажем одну трудность, незначительную для рассмотренного
случая, но которая может оказаться серьезной в других вариан-
тах. Сформулируем ее в виде задачи
Задача 3.3.1. Заметим, что на нижней векюграмме для Е
(рис. 3.3.1) и на крайней справа для Р имеется пара равных н
противоположно направленных векторов, составляющие кото-
рых по горизонтали и вертикали равны соответственно 1 и 2
Для некоторых точек пространства 8°, где допустимы оба эти
Гл 3. Дискретные дифференциальные игры
хода, возможен такой исход, когда оба игрока упорно останав-
ливают свой выбор лишь на этих ходах, так что х колеблется
между двумя точками и партия никогда не оканчивается При-
пишем не имеющей конца партии плату, равную нулю.
/\
Рис. 3 3.4.
Показать теперь, чго при оптимальном ходе игры партия
всегда оканчивается, и указать, как находить V для пары крити-
ческих точек.
Исследовать общий вопрос о критерии оптимальности для
подобного рода бесконечных колебательных движений.
Задача 3.3.2. Заметим, что на рис. 3.3.4 при движении из точки
A1, —14) (верхняя картинка) ) Р часто есть выбор из несколь-
ких оптимальных ходов, в то время как оптимальная траекто-
3.3 Игры на уничтожение 77
рия Е единственна. В то же время на нижней картинке большей
свободой действий обладает Е.
Выяснить, хотя бы приближенно, какие факторы определяют
количество ходов игрока, допускаемых оптимальной стратегией.
Предположим теперь, что нас не интересует количество уце-
левших сил игрока, но мы просто хотим знать, который из игро-
ков — разумеется, если борьба ведется до конца, — оказывается
уничтоженным. Тогда мы имеем игру качества, в которой игрок,
уничтоживший своего противника, является победителем1).
Конечно, полученное раньше решение позволяет сразу же ре-
шить и эту новую игру; мы просто находим величину V и смот-
рим, какого она знака. Но нет ли прямого метода, позволяю-
щего решить игру качества без отыскания решения для всего
множества ef ? Такой метод есть, как об этом вскользь упоми-
нается в гл. 8 и 9 при обсуждении проблем игр качества, и мы
его сейчас рассмотрим.
Для определенности будем предполагать, что Е начинает иг-
ру первым. Тогда имеется множество точек, при движении из ко-
торых он может победить, т. е. заставить х достичь положитель-
ной части оси у, и имеется другое множество точек, двигаясь из
которых он проиграет. Можно ожидать, что эти два множества
разделены третьим, для которого игра оканчивается вничью —
при оптимальной игре х достигает начала координат. Если это
третье множество известно, тогда задачу можно считать решен-
ной. Можно ожидать, что это множество содержит меньше точек,
чем два вышеописанных; в самом деле, оно должно, по-видимо-
му, иметь конфигурацию, схожую с кривой, проходящей через
начало координат. Оно является аналогом того множества, ко-
торое впоследствии для непрерывного случая будет названо
барьером.
Пример 3.3.2. Игра на уничтожение (игра качества). Описанная
выше игра на уничтожение, рассматриваемая как игра качества,
имеет решение, показанное на рис. 3.3.5, где отмеченные узлы
решетки образуют барьер.
С каждой отмеченной кружком точкой барьера (за исключе-
нием начала координат) связаны одна или несколько стрелок,
обозначающих оптимальную стратегию для Е2). Читатель мо-
жет убедиться в том, что если Е выбирает один из этих ходов,
то как бы ни действовал в ответ на это Р, точка х не может ни
оказаться ниже барьера, ни достичь оси х (кроме, быть может,
') Примером такой игры могут служить шашки.
2) В главе 8 мы узнаем, что аля игр качества оптимальные стратегии
определены толшо в точках барьера.
78
Г л 3 Дискретные дифференциа гьные игры
начала координат). Предположим, что Р заставляет х вновь
оказаться на барьере; Е отвечает на это одним in оiмеченных
на рисунке ходов. Пока такие чередования ходов будут продол-
жаться, х, как легко видеть, будет перемещаться влево. А если
какой-либо ход Р приведет х выше барьера, то Е может предот-
вратить движение х вниз и заставить х переместиться влево еще
Р и с. 3.3.5.
больше Тогда точка х должна достичь оси у, и, таким образом,
либо выигрывает Е, либо игра оканчивается вничью.
Далее, заметим, что барьер является самой нижней «кри-
вой», обладающей только что описанным свойством. Это замеча-
ние поясняет следующее построение: предположим, что точки
барьера построены на прямых х — 0, 1, ..., п. Чтобы построить
следующую точку (на прямой х—п+1), мы берем точки этой
прямой, начиная с нижней, и, двигаясь вверх, проверяем, обла-
дают ли они требуемым свойством, просматривая для этого ка-
ждый раз все допустимые ходы Е1). Первая точка, успешно про-
') Практически нет необходимости пе антично проверять все точки, ясно,
"то ни одна точка барьера не может бьпь расположена ниже, чем ее левая
соседняя точка
3 4 Дв" дискретные игры преследования 79
шедшая такую проверку, будет новой точкой барьера. Это по-
строение, разумеется, можно начинать с нулевой точки.
Приведенное построение также поясняет утверждение о свой-
стве нижних от барьера точек. Оно состоит в том, что если на-
чальная точка расположена ниже барьера, то Р может добиться
победы ').
Упражнение 3.3.1. Построить барьер для случая, когда Р начиг
нает игру.
3 4. ДВЕ ДИСКРЕТНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ
Обе эти игры, как и предыдущая, заимствованы из области
непрерывных дифференциальных игр. На их примере видно, как
можно добиться краткости и сжатости рассмотрений, пользуясь
редуцированным пространством. Первая игра особенно поучи-
тельна в этом отношении, хотя она оказывается по сути ничем
иным, как изящной безделушкой.
Пример 3.4.1. Игра «полицейский автомобиль». Полицейский
автомобиль Р гонится за автомобилем преступников Е по ули-
цам города; эти улицы образуют идеальную прямоугольную ре-
шетку неограниченной протяженности. Скорость автомобиля Р
вдвое превышает скорость Е, однако Р обязан подчиняться пра-
вилам движения транспорта, которые запрещают левые и
U-образные повороты; преступники Е этими правилами прене-
брегают.
В дискретном варианте этой игры, который сейчас рассма-
тривается, игроки совершают перемещения поочередно. Если Е
находится в точке Е решетки, как показано па рис. 3.4.1, то он,
когда наступит его очередь передвигаться, может выбрать одну
из четырех соседних точек решетки Предположим, что Р нахо-
дится в точке О и что он переместился сюда предыдущим ходом
из точки С. Далее он может или двигаться прямо вперед к точке
А, или повернуть направо к В Будем считать, что поимка пре-
ступников произошла, если Р и Е совпадают либо оказываются
в соседних точках решетки, т е. если Р находится в точке О, то
Е считается пойманным, если в это время он оказался в одной
из девяти точек, отмеченных знаком Х- Игра оканчивается хо-
дом Р, и платой является число его ходов от начала игры до
поимки преступников.
Введем теперь редуцированное пространство. Примем точку
О, положение автомобиля Р, за начало координат, а ось tj
') Огчетнм, чго барьер содержит не все ючки. прпво 1ящие к нулевом\
исходу, по содержит некоторые из точек, позволяющих Г победить В случае
непрерывных шр такие точки iu барьерах отсутствмот
80
Гл 3 Дискретные дифференциальные игры
направим по направлению предыдущего перемещения Р. Тогда
позиция полностью определяется заданием вектора \=(х,у),
где х, у — координаты ? в этой новой, связанной с Р системе ко-
ординат. Ее можно представить себе как карту города, выпол-
ненную в полном масштабе и связанную с какой-либо пло-
скостью полицейской машины, скажем с ее крышей; тогда поло-
жение Е определяется вектором х на этой карте.
в'
—->
-
<.-
О
А
х
II
С
<—i
В
X
а'
Рис. 3.4.1.
Рис. 3.4.2.
Недостатком редуцированного пространства является то, что
движение в нем становится, как правило, более сложным1).
Предположим, что Р переместился на две единицы по направ-
лению к А. Это эквивалентно перемещению х на две единицы
в обратном направлении к точке Л', как показано на рис. 3.4.1.
Пусть теперь Р повернул направо к точке В. Направив ось у
вдоль вектора ОВ, мы видим, что х при этом оказывается ле-
вее В на четыре единицы и впереди на одну. В первоначальной
(неподвижной) системе координат это эквивалентно перемеще-
нию х в точку В'.
Перейдем теперь непосредственно к построению решения.
Как и в предыдущем примере, это достигается последователь-
ным подсчетом V(x) в каждой точке пространства S3, начиная
от области захвата. Точками ef здесь являются узлы прямо-
угольной решетки; будем сопоставлять каждой точке соответ-
ствующее значение V и отмечать ее этим значением.
') Для случая непрерывных шр соответственно усложняются уравнения
движения.
3 4 Две дискретные чгры преследования 81
Начало координат и восемь его соседних точек, составляю-
щих область захвата, сразу можно отметить значением 0, так
как в этих точках Р совершает захват, не сделав ни одного
хода. Принимая во внимание, что игра оканчивается ходом Р,
можно сразу найти и отметить точки, для которых V=l; на
рис. 3.4.2 они отмечены цифрой 1.
Начиная с этого момента процесс приобретает общность.
Следующий шаг состоит в отыскании таких узлов решетки, ко-
торые с точки зрения Е ограничены значениями 0 или 1, а имен-
но таких х, что если бы Е находился в х, то все четыре точки,
куда он мог бы отсюда перемещаться, уже были бы отмечены,
причем по крайней мере одна из них — значением 1. На рис.
3.4.2 все такие точки обведены пунктирной линий. Далее выде-
лим из точек, для которых значение V еще пока не установлено,
такие, что один ход Р может перевести их внутрь области, окру-
женной пунктирной линией. Легко видеть, что этому условию
удовлетворяют четыре точки: две из них, отмеченные а, соот-
ветствуют случаю, когда Р движется прямо вперед, и две, от-
меченные Ь, когда он сворачивает вправо. Следовательно, точ-
кам а и b отвечает значение 1/=2.
В самом деле, проверим это последнее утверждение. Если
х находится в одной из точек а или Ь, то Р может перевести х
в одну из точек, расположенных внутри выделенной пункти-
ром области, двигаясь прямо либо сворачивая (такие перемеще-
ния являются частью его оптимальной стратегии). Теперь на-
ступает очередь для Е; его оптимальная стратегия предписы-
вает ему переместиться в точку с наибольшим значением V,
которое здесь равно I1). Затем снова движется Р, причем мы
уже знаем (заметьте индукцию!), что он может из этого поло-
жения осуществить захват за один ход, сделав, таким образом,
всего два хода.
Дальнейшие шаги нахождения V аналогичны описанным.
Предположим, что точки со значениями V, равными 0, 1, 2, ..., п,
найдены и отмечены. Пусть множество S состоит из таких то-
чек х, для которых все четыре соседние точки отмечены, и по
крайней мере одна из них отмечена значением п. Теперь если
есть еще такие неотмеченные точки, что одно перемещение Р
переводит их в S, то мы сопоставляем этим точкам значение V,
равное п+{.
Если читатель выполнит это построение сам, он столкнется
с любопытным явлением. Для V'= 11 он получит фигуру, изобра-
женную на рис. 3.4.3, и обнаружит, что дальнейшие шаги невоз-
можны; построение завершено.
') Для Е было бы даже лучше двигаться в точку, не отмеченную ника-
ким значением V. Но при настоящей постановке задачи это невозможно,
6 Зак 522
82
1л 3 Дискретные дифференциальные игры
Если игра начинается в какой либо из неотмеченных ючек,
Е неизменно может избежать захвата Какова его стратегия-
Проблема 3 4 1 Если мы увеличим скорость Р, позволив ему пе-
ремещаться на 3 или более единицы за один ход (вместо 2), бу-
дут ли существовать начальные точки, позволяющие Е неизмен-
но избегать захвата? Разумеется, область захвата тогда должна
быть соответственно увеличена, чтобы исключить случаи, когда
Р проходит мимо Е, не захватив его
8 II
Ч Н
3 1 7 IQ
г з а 1
0
0
0
7
!0
0
1
ft
0
4
7
8
11
0
-0
3
4
5
8
Р
1
•*¦ 1
1
?
6
И С
1
1
1
3
6
9
343
10
Рис 344
Упражнение 3 4 2 Нарисовать несколько траектории оптималь-
ной игры в естественном пространстве
Пример 3.4.2. Игра «шофер-убийца» (дискретный вариант). Ди
скретный вариант этой игры мы будем интерпретировать на
треугольной решетке, а основные идеи, используемые в преды-
дущем примере, солраним Перемещения снова совершаются
поочередно, Р движется первым, за один ход он перемещается
на две единицы, а Е — на одну
Пусть Р находится в точке О (рис 34 4 ), к\ ia on предыду-
щим лодом переместился из точки С, тогда в качестве своего
3 4 Две дискретные игры преследования
83
с 1едующего хода он может выбирать одно из трех перемеще-
ний, переводяших его в одну из точек А, В и D Таким образом
мы интерпретируем дискретный вариант более быстрого, чем Е,
преследователя, кривизна траектории которого ограничена В то
Рис 345
же время Е за один ход может перемещаться на одну единицу
в любую из шести соседних точек
Захват осуществляется, если Р находится, скажем, в точ-
ке О, а ? занимает О или одну из соседних точек, все они от-
мечены значком X Как и в предыдущем примере, в качестве
платы выбираем число ходов Р до захвата
Снова введем редуцированное пространство — подвижную си
стему координат, где начало координат О совпадает с Р, вектор
предыдущего перемещения СО принят за вертикальную ось, а х
означает положение Е в этой системе координат Предоставляем
84
Гл 3 Дискретные дифференциальные игры
читателю самому определить, какие перемещения х отвечают ка-
ждому из допустимых ходов Р
Техника нахождения решения здесь та же, что и в предыду-
щем примере мы определяем V, начиная с области захвата
(отмеченной значком X), и продолжаем
процесс за ее пределы Точки, где У = 0
или 1, можно найти сразу же Как и
раньше, если мы знаем точки, где V = 0,
1, .. . , п, мы сперва находим множество
S таких х, что если Е находится в х,
то для всех шести соседних точек V-^n
и max V = n. Тогда множеством точек, где
V = n+l, будут такие еще не обозначен-
ные точки, которые одним ходом Р мож-
но перевести в 5.
В результате получим картину, изо-
браженную на рис. 3.4.5. Здесь значение
V уже определено для каждого узла тре-
угольной решетки; Р всегда может осу-
ществить захват Из-за симметрии левую
сторону диаграммы мы не привели Об-
ратите внимание на расположение по-
следовательных значений V. На верхней
части диаграммы точки с одинаковыми
значениями V расположены рядами, па-
раллельными сторонам шестиугольни-
ка — «области захвата»; каждый ряд ис-
кривляется вслед за предыдущим, и так
происходит вплоть до V=9 Ряд со зна-
чением У=9 простирается через всю
нижнюю часть диаграммы, оставляя сво-
бодной лишь область снизу от двойной
стрелки со значениями У от 10 до 13.
Точкам этой области соответствуют опти-
мальные траектории с маневром разво-
рота (см § 15).
Оптимальные траектории в естествен-
ном пространстве для начальной точки, где У=12, изображены
на рис. 3.4.6. Заметьте, что Р должен сделать два шага влево,
прежде чем развернется и начнет догонять Е; заметьте также,
что вначале Е следует за ним, стараясь заставить Р как можно
больше маневрировать.
Картина не должна быть обязательно именно такой, ибо в
этой игре оптимальная стратегия часто не единственна Нетруд-
но понять, что причина здесь просто в квантизации. Пусть, ска-
3 5 Квазидискретные игры
85
жем, Е хочет возможно быстрее пройти какой-ниб>дь длинный
горизонтальный участок (в соответствии с принятой на диа-
грамме ориентацией). Он мог бы это сделать различными спо-
собами, затратив одинаковое время, например двигаясь сперва
наискось вверх, потом вниз или же делая зигзагообразные дви-
жения вокруг горизонтального направления
Из-за некоторых причин, подобных этой, многие тонкости
игры «шофер-убийца» затемняются в дискретном ее-варианте.
В дальнейших главах мы изучим кривую, называемую барьером,
которая описывает начальные точки, ведущие к маневру разво-
рота. На этой кривой V разрывна. Аналогию барьера можно
усмотреть в дискретном сл\чае, сравнивая на рис 3.4 5 пару со-
седних точек, в которых V отличается более чем на 1.
3 5 КВАЗИДИСКРЕТНЫЕ ИГРЫ
Использование дискретных моделей и отыскание решений
для них иногда помогает догадаться, каково б>дет решение диф-
ференциальной игры, если вначале было не ясно даже, как при-
ступить к задаче Иногда для этой цели лучше подходят моде-
ли, которые являются частично дискретными, частично непре-
рывными. Поясним кратко одну такую возможность.
86 Гл 3 Дискретные дифференциальные игры
Сохраним непрерывные векюграммы дифференциальных игр,
но время разделим на ряд интервалов определенной длины
(обычно одинаковых). Игроки движутся поочередно. Каждый
из игроков движется в течение всего интервала, при этом его
управления сохраняются постоянными.
Рассмотрим снова игру «шофер-убийца». Вектограммы для Р
и Е изображены на рис. 3 5.1, а (это соответствует последнему
примеру) ^). За один ход каждый игрок перемещается на отрезок
определенной длины в направлении, которое выбирает из кон-
тинуума допустимых Используя то же самое редуцированное
пространство, что и раньше, возьмем в качестве области захва-
та окружность ^ вместе с внутренностью круга, ею ограничен-
ного (рис. 3.5.1,6). Сначала найдем в ef подмножество 5j та-
ких точек х, что одно перемещение Р переводит их на 'ё? или
внутрь круга. На рисунке множество S4 (множество точек, для
которых V=l) ограничено снизу частью окружности If и сверху
кривой А\. Далее находим в Si подмножество точек, где Е не
может избежать захвата, т. е таких точек х в Sb что ника-
кое перемещение Е не выводит х из Si. На рисунке оно распо-
ложено ниже кривой В Следующий цикл начинается с нахож-
дения S2 — множества таких точек, не принадлежащих ни 'ё',
ни Si, для которых существует перемещение Р, переводящее
их на множество между В и ?f; оно ограничено кривыми Ах и
А2. Тогда S2 есть множество, где У = 2, и т. д.
При п>2 эти построения чересчур громоздки. Для плоского
случая, который здесь описан, на практике можно использовать
два листа кальки: один для кривых типа А, другой — для кри-
вых типа В, и поочередно переходить от одного к другому.
') Здесь мы не следуем в точности предписаниям предыдущего пара-
графа, а именно не основываем свои рассмотрения на ф-вектограммах для
непрерывного варианта в редуцированном пространстве Такие векгограммы
будут приведены в § 10.2.
ГЛАВА 4
Математические обоснования и техника решения
в малом
В этой главе сформулированы основные математические по-
нятия, которые позволяют продолжить наши исследования. Сна-
чала приведены два способа получения уравнения для цены
игры, оно представляет собою уравнение в частных производ-
ных первого порядка относительно V(x) и называется основным
уравнением. Затем следует теорема, утверждающая, что соот-
ветствующий основному уравнению интеграл действительно яв-
ляется ценой игры; теорема доказывается, и ее применение ил-
люстрируется примерами.
Последние разделы посвящены построению стандартного ме-
тода нахождения решения в малом, т. е во всех тех случаях,
когда отсутствуют сингулярные многообразия.
4 1. ПРИРОДА РЕШЕНИЯ
Когда конкретная дифференциальная игра решена, резуль-
тат должен содержать следующие функции.
1. Цена игры: функция V(x), определенная на cf.
2. Оптимальные стратегии: вектор-функции ср(х) и -ф(х), оп-
ределенные на cf. Они не обязательно единственны. Когда они
не единственны, нас либо может интересовать получение мно-
жества всех оптимальных стратегий, либо нас может удовлет-
ворить нахождение всего лишь одной их пары
3. Оптимальные траектории: если оптимальные стратегии
единственны или по крким-то причинам мы остановим свой вы-
бор на определенной их паре, то мы получим множество траек-
торий, которые описывает х, перемещаясь в соответствии с этими
стратегиями. Эти траектории должны заполнять ef, и каждая
из них должна оканчиваться на %°.
Нам встретятся случаи, когда не все из перечисленных функ-
ций существуют, по крайней мере не во всем cf. Простой иллю-
страцией тому является рассматриваемый ниже пример 7.8.1.
Встречаются и более тонкие случаи, некоторые из них в каче-
стве противоречащих примеров описаны в работах по вариа-
ционному исчислению (которое можно рассматривать как изу-
чение игр одного игрока). В таких случаях мы рассматриваем
88 Г i 4 Математические обоснования и техника решения в малом
решение просто как некоторую инфоомацию об игре, получае-
мую в таком количестве, как это позволяют обстоятельства
Мы предпочитаем не ограничивать понятия решения слишком
жестким определением Даже тогда, когда во всем У или части
его какие-то из перечисленных функций не существуют или на-
лицо другие патологические моменты, мы рассматриваем игру
как решенную, если эти особенности поняты и объяснены Само
по себе несуществование решения не является бедствием; обыч-
но оно допускает простое и ясное истолкование.
Даже в полностью непатологических случаях, когда все эти
три функции везде существуют, иногда нет необходимости оп-
ределять их все Например, если известна V(\), то оптималь-
ные стратегии, как мы скоро увидим, можно получить как функ-
ции фазовых координат и частных производных от V. Если
известны оптимальные стратегии, то оптимальные траектории
следуют из интегрирования уравнений движения; если V — инте-
грал, то его можно найти в процессе решения этой системы.
Нам будут встречаться случаи, когда процессы подобного
рода, будучи в принципе совершенно стандартными, при явном
вычислении оказываются чрезвычайно утомительными. Стоит ли
идти на преодоление таких трудностей, часто зависит от того,
с какой целью рассматривается та или иная задача Если, как
нередко встречается в этой книге, целью является иллюстрация
некоторых идей, то часто эти трудоемкие вычисления все равно
не дают необходимой ясности. Иногда даже в практических
задачах нужными для приложений оказываются лишь некото-
рые аспекты решения.
С этой точки зрения следующие примеры дают много пово-
дов для размышлений о том, насколько детально надо изучать'
решение с учетом затрат труда на это изучение.
Чтобы придать рассуждениям логическую строгость, доста-
точно было бы выразить решение в виде /(-стратегии. Однако
оставим пока в запасе этот вспомогательный подход, который
позволяет в случае необходимости получить строгое решение и
доказать его законность. Как именно это делается, будет про-
демонстрировано в этой главе позднее. В дальнейшем мы будем
допускать такую возможность; однако чаще будем рассматри-
вать стратегии, а не тактики, и в основном направим свои уси-
лия на интегрирование уравнений движения.
Напоминаем, что данные об игре должны включать в себя
начальную точку в %" и что мы используем термин «игра» для
обозначения множества ее траекторий. Когда мы говорим о ре-
шении игры в некотором подмножестве %" в ?\ мы тем самым
имеем в виду все траектории, начинающиеся в любой точке из %".
4 1 Природа решения 89
Процесс решения игры распадается на две фазы В основном
оказывается, чго область <? подразделяется на некоторое число
областей поверхностями, которые позже будут названы сингу-
лярными1). В каждой такой области решение будет 1ладким,так
что V принадлежит классу С\. Это означает, что поверхности по-
стоянных значений V имеют непрерывно меняющиеся касатель-
ные плоскости, аналитически это означает, что для малых зна-
чений вектора u=(ub ..., ип) справедливо равенство
п
l/(x + u)-l/(x)->]^^«,-bo(|u|)> D.1.1)
где функции дУ(х)/дхг непрерывны. Аналогично оптимальные
стратегии будут непрерывными функциями в ef (за исключе-
нием лишь, может быть, сингулярных поверхностей), если они
единственны, будем обозначать их ср(х) и ^л(х), в противном
сл\чае мы часто будем предполагать, что такие непрерывные
функции можно выбрать.
На сингулярных поверхностях могут возникать особенности
различного вида. Это обстоятельство делает неприменимой си-
стематическую теорию, так что приходится исследовать каждый
тип отдельно. Попытка создать упорядоченную классифика
ционную схему приведена в § 6.1, но изложенные результаты
представляют собой немногим более чем каталог некоторых
возможных случаев. Мы отвели много места теории, относящей-
ся к сингулярным поверхностям, причем для каждого типа их
теория различна.
Иногда мы будем использовать термин в малом, говоря о
гладких частях решения, находящихся между сингулярными по-
верхностями. При выявлении сингулярных поверхностей и объ-
единении гладких частей решения в полное решение будем упо-
треблять термин в большом
Мы увидим, что техника нахождения решения в малом ни-
чем не отличается от техники дифференциальных уравнений.
Эта фаза в настоящей проблеме играет роль, аналогичную роли
уравнений Эйлера в вариационном исчислении. Но эту технику
пришлось несколько обновить. Действительно, хотя наши мето-
ды годны для решения классических задач, если последние рас-
сматривать как игры одного игрока2) (второй игрок пассивен,
т. е. имеет нулевую вектограмму), однако в игровых задачах
') Вообще говоря, могут встречаться сингулярные многообразия размер-
ности, меньшей чем п—1, они, конечно, не могут разделять f В дальней
шей теории мы ими будем пренебрегать Термин «поверхность» означает
(га— 1) мсоное многообразие в п мерном пространстве
2) См, например, задач) о долнхобрахистохропе (§ ~>2).
90 Гл 4 Матеиатические обоснования и техника решения в малом
мы не можем искать просто экстремаль, а должны с самою на-
чала различать минимум и максимум — как же иначе можно
рассматривать игры>
Но не все типы сингулярных поверхностей чужды классиче-
скому вариационному исчислению1) Однако до тех пор, пока не
была принята настоящая точка зрения теории дифференциаль
ных игр, не было побуждающих мотивов для их классифика-
ции, и в классических исследованиях даже не упоминалось о
наличии этих особенностей Здесь мы не только рассматриваем
различные типы сингулярных поверхностей, но на примере тео-
рии игр доказываем их принципиальную важность
Трудно сделать категорическое утверждение об относитель-
ной важности фаз «в большом» и «в малом» В некоторых зада-
чах решения между сингулярными поверхностями просты, зато
сами эти поверхности многочисленны, разнообразны и трудны
для отыскания В других интегрирование приводит к сложному
семейству траекторий, которые заполняют cf с небольшими
особенностями в поведении или ч,аже совсем без особенностей
Игра «шофер-убийца» относится к первой из этих категорий
задач, а в следующей главе (§ 5 5) рассмотрена задача «изо
тропные ракеты», которая является вариантом той же самой
проблемы, но ее можно отнести ко второй категории. Вскоре мы
сможем прийти к общему выводу о том, что линейные векто-
граммы (управления входят линейно в правые части уравнений
движения и в G) приводят к большому числ^у сингулярных по-
верхностей; некоторые гипы их могут встречаться только в та-
ких линейных случаях
4 2 ПРИНЦИП ПЕРЕХОДА И ОСНОВНОЕ УРАВНЕНИЕ
Приемы, с помощью которых мы будем решать дифферен-
циальные игры, вообще говоря, отличаются от использованных
в дискретных случаях гл 3 С 1951 г, когда впервые была пуб-
лично сформулирована [17] общая идея, на которой основаны
эти приемы, появилось несколько других вариантов той же идеи
(принцип оптимальности, принцип максимума Понтрягина), от-
носящихся к играм с одним игроком (теория управления) Эту
идею мы назвали
Принцип перехода Если в игре произошел переход из
одного положения в другое и если во втором положении значе-
ние V известно, то в первом оно определяется следующий тре-
бованием игроки должны оптимизировать приращение функ-
ции V (г е добиться его минимакса) за время перехода
') См пример 7 2 !
42 Принцип перехода и огновное уравнение 91
В дискретных играх принцип перехода применяется непо-
средственно, а в непрерывном случае в результате его примене-
ния получаются дифференциальные \ равнения
Предположим, что цена дифференциальной игры существует.
Она будет зависеть от начальной точки х, и мы обозначаем ее
V(x). Покажем, что если V(x) принадлежит классу Сь то она
удовлетворяет уравнению в частных производных первого по-
рядка, которое мы будем называть основным уравнением Здесь
и далее будем писать V, вместо dV/dx3(] = l, ..., п) Основное
уравнение имеет вид
min max [2 VJ (х, <р, ф) + G (х, Ф, ФI = 0. D.2.1)
Ф М L у I
Суммирование производится от 1 до п, где п — размерность про-
странства ef.
В силу предположения о минимаксе уравнение не изменится,
если в D 2 1) min и max поменять местами, mm и max берутся
по всем допустимым (векторным) значениям <р и т|з, удовлетво-
ряющим соответствующим условиям
Мы дадим два способа вывода основного уравнения Первый
изложим в этом параграфе. Подход наш является по сути эври-
стическим, что вполне допустимо ввиду того, что строгие обос-
нования мы приведем при втором способе (математик легко
сможет усмотреть, как сделать наши рассуждения строгими)
Преимущество первого способа заключается в его прямом и по-
учительном характере Он основан на принципе перехода.
Суть его состоит в том, что рассматривается совокупность
траекторий, исходящих из различных начальных точек Возьмем
некоторый интервал времени в середине игры Пусть к началу
этого интервала траектория достигла некоторой определенной
точки в е Рассмотрим всевозможные точки, которые могут
быть достигнуты в конце этого интервала для всех допустимых
управлений, выбираемых обоими игроками Предположим, что
для каждой такой точки х решение \же найдено, т е известно
значение V(x) Тогда можно подсчитать плату, соответствую-
щую каждой паре управлений <р, ^определенных на этом интер-
вале, управления следует выбрать так, чтобы добиться мини-
максного значения платы Уменьшая затем длину интервала и
устремляя ее к нулю, получаем в результате дифференциальное
уравнение
Изложим теперь все это формально П>сть в момент време-
ни t состояние игры описывается некоторой точкой х, принад-
лежащей cf, и пусть значение V в точке х известно Через малый
промежуток времени h положение изменяется и мы переходим
02 Г л 4 Математические обоснования и техника решения в магом
в точку х°. Тогда плата в точке х равна
t\h
S?{x)= j G(x, ф, $)dt -f V(x°).
Действительно, за время h плата получила приращение, рав-
ное интегралу в правой части равенства. Чтобы получить плату
в точке х, нужно прибавить этот интеграл к значению платы в
точке х° (которое равно, разумеется, сумме такого же интегра-
ла, взятого по оставшемуся времени продолжения игры, и зна-
чения Н в терминальной точке). Мы предполагаем, что, начиная
от точки х°, игра развивается оптимально, так что плата в х°
равна ^(х0).
Будем теперь считать точку х фиксированной, а х° будем ме-
нять. Для этого достаточно изменять ф и ф на интервале
(t, t+h).
Разложим интеграл в ряд Тейлора по формуле
jh2ff(t-\-Qk), 0
t
Точку х° можно представить в виде
Х° —X + U,
где для достаточно малого h
ибо fj есть х; при выбранных ф и ф. Выполнив все чги пре-
образования с учетом соотношения D.1.1), получим
{x, Ф, ф) + 2 Vy,(x, Ф, ф) + а(
где ф г|з — значения управлений в точке х1), а а стремится к
нулю вместе с h.
Мы должны взять минимакс S° по отношению к ф и ф. Это
значит, что нужно взять минимакс выражения, заключенного в
скобки Но, по определению, минимакс S? (х) есть V(x), по-
этому минимакс заключенной в скобки суммы должен быть ра-
вен нулю. Устремив теперь h к нулю, получим основное уравне-
ние D2.1).
Если мы действительно найдем ф и ф, обеспечивающие мини-
макс D21) (или некоторый разумный их набор для случая,
когда они определяются неоднозначно), то они будут, вообще
') Ичи, Л)чше, некоторые средние значения их в интервале (t, t + h).
4 2 Принцип перехода и основное уравнение 93
говоря, зависеть от хг и Уг (г=1, ..., п). Вектор {Vi, . . , V,,}
удобно записывать, как Vvl). Тогда управления, доставляющие
минимакс основному уравнению D 12), будем обозначать
Ф(х, Vx) и ф(х, Vx). D 2.2)
Если эти функции подставить в D.2 1), то выражение в скобках
обратится в нуль, и мы получим
2l/,f,[x, ф(х, Vx), ф(х, Vx)] + G[x, ф(х, Vx), ф(х, Vx)] = 0.
D.2.3)
Это уравнение в частных производных первого порядка относи-
тельно V, которому должна удовлетворять иена игры.
Мы уже обозначали раньше через ф(х) и ф(х) оптимальные
стратегии Заметим, что функции D 2 2) вовсе не являются стра-
тегиями, ибо мы предполагаем, что на этой стадии мы еще не
знаем Vx Однако это противоречие в обозначениях не приводит
к каким-либо недоразумениям и устраняется введением какого-
нибудь нового обозначения для D 2 2), скажем ф и \|з Как толь-
ко V становится известной, ее частные производные подстав-
ляются в D 2 2), эти функции превращаются в оптимальные
стратегии <р(х) и \|з(х) и упомянутое выше неудобство исчезает.
В дальнейшем при написании уравнения D 2.3) аргументы
х, Vx функций ф и \|з часто для краткости будут опускаться Об
этом нужно помнить всякий раз, когда будет идти речь об
уравнении D 2 3)
В приведенных здесь упражнениях уравнения движения та-
кие же, как в примерах 44 1—4 45 (для выполнения упражне-
ний, однако, нет необходимости вникать в сущность примеров).
Упражнение 4 2 1 Пусть плата терминальная и уравнения дви-
жения имеют вид
х -— иф -(- w sin ф,
ц — 1 ~f w cos ф, - 1 < Ф < 1,
где '/ и w — 1ладкие положительные функции or x и у Напи-
сать основное уравнение в форме D 2 1) и D.2.3) и показать,
что уравнение в форме D.2 3) имеет вид
н!/,ф — wp~ Vv —О,
') Обычно его обозначают grad V. Введенное обозначение, как правило,
не применяется ч конкретных задачах Гак, если х означает фазовую коорди-
нату то Vx, конечно, означает dVjdx
94 Гл 4 Математические обоснования и техника решения в малом
где
81Пф
(Использовать лемму 2.8.1.)
Упражнение 4.2.2. Игра «шофер-убийца». Написать основное
уравнение в форме D.2.1) и D.2.3) для уравнений движения в
естественном пространстве (пример 2.1.1) и в редуцированном
пространстве (пример 2.2.2). Для Vx в первом случае ввести
обозначения Vi, .. ., V5, где индексы относятся к соответствую-
щим фазовым координатам в том порядке, как они появляются
в уравнениях движения (Читатель может сравнить написанные
им основные уравнения с теми, которые появляются далее на
этих страницах.)
Отметим, что вдоль оптимальной траектории
V^IiVjfjix, ф, ф) = -G(x, ф, я|>)
и что V постоянна на всех таких траекториях в том и только в
том случае, когда плата является терминальной.
Существует другая точка зрения на применение принципа пе-
рехода, и хотя впоследствии она не будет использована в явном
виде, читателю следует иметь ее в виду для лучшего понимания
дальнейшего материала.
Пусть & — дифференциальная игра с пространством игры
ef и терминальной поверхностью %". Для данной начальной точ-
ки х рассмотрим в с? поверхность 9S*, пересекающую оптималь-
ные траектории, исходящие из окрестности точки х. Пусть <f* —
подобласть в У, содержащая х и имеющая %'* частью своей гра-
ницы. Построим новую игру с&* с пространством игры У* и тер-
минальной поверхностью ъ*. Эта игра формулируется так же,
как и &, только терминальную плату Я* на & f мы примем
равной V — цене игры $ в соответствующей точке поверхности
&*. Тогда ясно, что принцип перехода означает:
Решения игр & и 5?-'* в окрестности точки х (цена, оптималь-
ные траектории и стратегии) совпадают в ef *.
Второй вывод основного уравнения опирается на некоторую
новую концепцию, изложенную в следующем параграфе.
4 3 ПОЛУПРОНИЦАЕМЫЕ ПОВЕРХНОСТИ И ВТОРОЙ ВЫВОД
ОСНОВНОГО УРАВНЕНИЯ
Мы будем считать что каждый малый участок рассматривае-
мых поверхностей разделяет пространство. Поскольку для на-
4.3 Полупроницаемые поверхности и вывод основного уравнения 95
ших целей важна ориентация, выделим два направления, в ко-
торых траектории могут пересекать поверхность, и назовем их
Р- и Е-направлениями. «Сторона» поверхности, достигаемая при
движении в Р-направлении, будет называться Р-стороной; ана-
логично определяется Е-сторона. Возьмем точку х на ориентиро-
ванной таким образом поверхности и рассмотрим полную векто-
грамму в этой точке. Будем называть поверхность полупрони-
цаемой в х, если найдется по крайней мере одно такое значение
ф, что при ф = ф ни один вектор г|)-вектограммы не пересекает по-
верхность в ^-направлении; соответственно найдется вектор
г|) = г|), который препятствует пересечению поверхности в Р-на-
правлении ').
Поверхность, каждая точка которой обладает описанным
свойством, назовем полупроницаемой поверхностью.
Мы уже видели, что каждую игру с платой в форме B.4.!)
можно преобразовать в игру с терминальной платой (теорема
2.4.1). Рассмотрим такую игру; пусть решение ее найдено и V(\)
принимает по крайней мере два различных значения.
Любая поверхность, разделяющая с? на части, где V>c и
V<c (с — некоторая константа), полупроницаема, причем V
убывает, когда поверхность пересекается в Р-направлении. Дей-
ствительно, если в некоторой точке х поверхности не нашлось бы
ф, обладающего нужным свойством, то Р не смог бы помешать
Е переместить х на ту сторону, где V больше (аналогично отно-
сительно а|;). Таким образом, если х находится на этой поверхно-
сти, игроки должны применять управления соответственно ф и
г|5, которые здесь составляют оптимальные стратегии.
Предположим теперь, что в некоторой области пространства
ef функция V принадлежит классу Су и не является константой
в этой области. Тогда поверхность, на которой V постоянна, по-
лупроницаема Вектор 1/т = {1/г} нормален к такой поверхности.
Пересекает ли движущаяся точка эту поверхность в том или
ином направлении или не пересекает вовсе, зависит от знака со-
ставляющей ее скорости по этому направлению. Таким образом,
условие полупроницаемости2) для поверхности, где V постоянна,
имеет вид
^/i(x, ф, i|>) = 0. D.3.1)
') Символы ф, г|) мы б>дем использовать для обозначения величин ф, г|)
с описанным свойством Хотт тем самым, казалось бы, мы придаем этим
обозначениям отличный от прежнего смысл, вскоре выяснится, что они экви-
валентны принятым раньше обозначениям.
2) Белее подроби)ю интерпретацию этого условия для гладких полупро-
ницаемых поверхностей можно найти в § 8 3.
96 Гл 4 Математические обоснования и техника решения в налом
А это не что иное, как основное уравнение для игр с юрминаль-
ной платой.
Если рассматривать Vx как скорость течения некоторого ве-
щества в If, то равенство D.3.1) можно интерпретировать как
условие того, что течение вещества сквозь полупроницаемую по-
верхность отсутствует, когда применяются ф и г|), доставляющие
сумме соответственно min и max Мы видим теперь, что, приме-
няя только ф и if, каждый игрок может помешать пересечению
поверхности в чужом направлении. Отсюда название поверхно-
сти — полупроницаемая.
Предположим, что игру общего типа мы преобразовали в со-
ответствии с теоремой 2.4.1 в игру с терминальной платой Если
первоначально игра содержала п фазовых координат, то сумма
в D.3.1) будет иметь п+\ слагаемых, где fn+i = G. Мы знаем, что
для преобразованной игры H' = H + sn (см. 2.4.4) и новые опти-
мальные траектории сдвинуты относительно старых в направле-
нии xn+i. Таким образом, если в какой-либо начальной точке
xn+t уменьшается, то V будет уменьшаться точно так же. Следо-
вательно, ]/„+!= 1.
Предыдущие рассуждения показывают, что последнее сла-
гаемое суммы в D.3.1) есть G и, таким образом, уравнение
D.3.1) идентично основному уравнению D.2.1).
Изложенная концепция дает нам новый подход к дифферен-
циальным играм, который кажется более привлекательным Рас-
смотрим вначале случай, где для простоты все характеризующие
игру функции предполагаются гладкими и нет сингулярных по-
верхностей '). Плата терминальная; мы знаем, что к такому слу-
чаю можно свести многие игры.
На ?> функция Н задана. Мы предполагаем, что кривые
((п — 2)-мерные многообразия) постоянных значений Н покры-
вают эту поверхность регулярно Допустим, что нам удалось за-
полнить <f семейством таких поверхностей, что через каждую
точку в ef проходит только одна поверхность, причем
1) эти поверхности полупроницаемы и соответствующим об-
разом ориентированы,
2) каждая пересекает %* по кривой постоянного значения Н.
(Наша техника решения, составляющая основное содержа-
ние этой книги, логически эквивалентна построению такого се-
мейства поверхностей.)
Тогда, конечно, вполне разумно утверждать, что на этих по-
верхностях V постоянна (и равна значению И на %*) В самом
') В общем ciyide по выполняется при построении решения в пылом
4.4 Некоторые достаточные условия оптимальности 97
деле, для любой точки в У минимизирующий игрок Р, если Е иг-
рает оптимально, не может заставить х перейти к поверхности
с более низким значением V. Аналогично Е не может добиться
более высокого значения V. Действительно, чтобы помешатьпро-
тивнику добиться платы лучшей, чем V, каждый из игроков вы
нужден прибегать к значениям ф и г|э, которые были введены при
определении полупроницаемой поверхности. До тех пор, пока иг
роки делают это, х остается на той же самой поверхности; если
игрок отступает от этого правила, то его противник получает
возможность проникнуть на более выгодную для него поверх-
ность.
Если при использовании игроками управлений ф ы г|э точка
х достигает %", то значения платы на соответствующей полупро-
ницаемой поверхности являются значениями цены игры. Выде-
ленное курсивом предположение типично для игр качества. Мы
еще вернемся к этому вопросу, иллюстрируя его двумя типич-
ными примерами D.4.4 и 4.4.5).
4.4. НЕКОТОРЫЕ ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ
Поскольку разнообразие особенностей, которое возникает ла-
же в самых типичных задачах, столь велико, что исключается
возможность установления теоремы существования, мы приме-
ним другой подход — разработаем сначала технику решения за-
дач. Тогда вопрос будет состоять в том, является ли найденное
формальное решение — цена игры V(x) и соответствующие ей
оптимальные стратегии ф(х) и ф(х) —действительным реше-
нием задачи, и если да, то в каком смысле.
Оказывается, что оно является действительным решением в
смысле ^-стратегий. Это доказывается в теореме 4.4.1. Ее мож-
но применять на различных стадиях процесса решения, каждая
из которых состоит в нахождении интеграла основного уравне-
ния, удовлетворяющего надлежащим граничным условиям, та-
ким, как совпадение функций V и Я на 8s'.
Мы сформулируем и докажем теорему 4.4.1 и продемонстри-
руем ее применение на нескольких примерах. Напоминаем ос-
новные допущения: каждая функция Д(х, ф, гр) непрерывна по
всем трем своим векторным аргументам; множества допустимых
значений ф и г|5 компактны и не зависят от х; будем называть
эти множества ?ф и Е$.
Лемма 4.4.1. Если ф и г|э постоянны, а х принадлежит ком-
пактному множеству Ех, ю f(x, ф, ф) равномерно непрерывна по
х для всех допустимых постоянных значений ф и г|5.
7 Зак 522
Гл. 4 Математические обоснования и техника решения в малом
Доказательство. Нужно показать, что для каждого
е>0 найдется такое 6 = 6(е), что
\f(xl, ф, t)-/(x2, Ф, 4?)|<е
для всех х1, х2 ? ?\, для которых Ix1 — х2, <б, и всех ф? ?ф и
¦ф(- ?^ Но f непрерывна по всем трем своим векторным аргумен-
там на компактном множестве Е^хЕ^хЕ^ и, следовательно,
равномерно непрерывна на нем. Лемма утверждает частный слу-
чай такой непрерывности.
Теорема 4.4.1. Пусть W — подобласть1) области <f в
игре степени с терминальной платой, имеющая своей границей
область 'tS'ci'tS. Пусть функция V(x), определенная на <f', об-
ладает следующими свойствами:
!) V(x) удовлетворяет основному уравнению D.3.1);
2) V{x) принадлежит классу СУ,
3) V(x) равна Н на %';
4) ^(х) является единственной функцией, обладающей свой-
ствами 1, 2, 3.
Если ф(х) и г(з(х)—любые функции, доставляющие мини-
макс в D.3.1), то V(x) есть цена игры в %" в смысле К-стратегий,
а ф и г|) являются оптимальными тактиками, если только вектор
х достигает множество сё' из любой начальной точки в W.
Доказательство. В конце § 2.7 было показано, что из-
менением масштаба времени можно добиться (существенно не
меняя игру), чтобы все модули скоростей в каждой полной век-
тограмме в %" были ограничены. Поэтому будем считать, что
они не превосходят !.
Выберем такую тактику ф(х) для Р, что для каждого х уп-
равление ф минимизирует сумму в уравнении D.3.1). Пусть Е
применяет некоторую /^-стратегию, и пусть г|)(х) —его тактика.
Игра начинается в точке х°. Зададим е>0 и дополним /(-страте-
гию для Р построением последовательности at. Будем считать,
что Р играет бесконечно; разумеется, когда <? достигается, нуж-
но просто урезать предлагаемую схему.
Сначала разобьем время на единичные интервалы /„ = {/: я^С
¦<i^C« + l}, я = 0, 1, 2, ... . В течение интервала /„ точка х не
может переместиться относительно начальной точки х° более чем
') Советский математик М И Зеликин показал, что условия теоремы
непочны. мы должны быть уверены, что траектории, выходящие из этой под-
области останутся в ней. К условиям теоремы надо добавить еще следую-
щее если Р и Е придерживаются любой ^(-стратегии, то траектория, начи-
нающаяся из любой точки подобласти %', все время остается в ней, пока не
достигнет поверхности %'.
4.4. Некоторые достаточные условия оптимальности 90
на п+\, и поэтому х принадлежит некоторому компактному
множеству. Поскольку 1/, непрерывны в силу второго свой-
ства, из леммы 4.4.1 следует, что функция ^ Vt (x) f((х, ф, ф)
i
равномерно непрерывна на этом компактном множестве, когда
Ф и г|5 постоянны, причем если ф и if> рассматривать как пара-
метры, то равномерно непрерывна также и по ним.
Возьмем такое целое число шп, что если х изменяется мень-
ше, чем на \/пгп, сумма ^jVJt изменится меньше, чем на e/2n+I.
i
Разобьем далее интервал /„ на пг„ равных частей, присоединив
точки деления последовательности о,. На протяжении любого из
этих подинтервалов ^j VJi изменяется, как и раньше, менее чем
i
на e/2n+1. Каждый подынтервал снова можно разбить на отрезки
одной или несколькими точками t'k из /(-стратегии для Е. Но по-
скольку Р использует управление ф, минимизирующее сумму
в D.3.1) в начале каждого отрезка времени длиной 1/т„, мы
имеем
Аргументы ф, г|) являются кусочно-постоянными тактиками
/(-стратегий игроков, и потому левая часть не достигает e/2n+I за
время \\m-a и, следовательно, за все время /„.
Теперь рассмотрим траекторию точки х, соответствующую
/(-стратегиям. В каждом из полученных в конце концов подин-
тервалов, где обе функции ф и г|) постоянны, траектория яв-
ляется интегралом уравнений движения с этими постоянными
аргументами. Таким образом, вся траектория представляет со-
бой «многоугольную» последовательность гладких отрезков. Так
как на всей траектории V непрерывна, то на каждом отрезке
dV/dt существует и равна ^jV,fi(x, <p, t) с соответствующими
константами ф и г|з. Из предыдущего абзаца следует, что за вре-
мя /„ функция V возрастает меньше чем на e/2n+1 и, следова-
тельно, за все время меньше чем на е('/2+74+ ...)=е.
По определению и в силу третьего свойства плата будет рав-
на V(x), когда х достигает ъ'. Следовательно, плата меньше,
чем V(x°)+e. Аналогично можно построить последовательность
o't для Е, обеспечивающую плату большую, чем V(x°) — е. Та-
ким образом, V есть цена игры.
Применения теоремы 4.4.1 могут быть очень разнообразны
Пусть, например, ё" и <ё' удовлетворяют условиям теоремы
Построим другую поверхность <?" в ef'. Если использовать эгу
поверхность так же, как *?', приняв за Я на <ё" значения V(x).
100 Ft 4 Ma re магические обоснования и техника решения о магом
полеченные в первом решении, то новое решение на стороне по-
верхности <ё", не смежной с <ё', будет совпадать со старым
Этот принцип позволяет получать решение во всем <? последо-
вательными этапами. Сингулярные поверхности различного типа
можно рассматривать как поверхности 1?", относящиеся уже к
новому этапу решения.
Каков же основной вывод теоремы? Произойдет ли оконча-
ние игры или нет — это вопрос некоторой игры качества, а трак-
товка таких игр также подпадает под эгиду /(-стратегий. Эта
тема подробно разбирается в гл. 8, но мы уже здесь должны
изложить некоторые предварительные соображения.
Можно рассматривать игры, считая, что один из игроков, ска-
жем Р, желает окончания игры, а его противник не желает.
В наиболее интересных случаях, а именно такие и рассматри-
ваются в этой книге, наряду с точками, начинаясь в которых,
игра оканчивается, существуют точки, начинаясь в которых, игра
может и не окончиться. Множество точек первого типа, т. е. та-
ких, где Р обладает стратегией, обеспечивающей окончание игры
при любом поведении противника, назовем терминальным мно-
жеством. Множество точек второго типа, т. е таких, где Е мо-
жет помешать окончанию игры, назовем нетерминальным. Эти
два множества разделены поверхностью, которая должна быть
полупроницаемой; мы называем ее барьером1). Представим се-
бе, что барьер вложен в слой, состоящий из соседних «парал-
лельных» полупроницаемых поверхностей, и определим (времен-
но) гладкую "функцию U(x) на этом слое, которая равна нулю
на барьере, строго убывает в направлении окончания, или Р-на-
правлении, и постоянна на каждой полупроницаемой поверхно-
сти. Тогда U удовлетворяет тому же самому уравнению D.3.1),
что и V, и потому можно построить /(-стратегию для Р, как эго
было сделано в доказательстве теоремы 4.4.1. Для любой на-
чальной точки х°, расположенной на терминальной стороне и
удовлетворяющей условию ?/(х°)<0, выберем е^—2~1U(x°).
Для всех х, расположенных на траектории, исходящей из этой
точки, получим ?/(х)<0. Тогда какую бы /(-стратегию ни при-
менял Е, он не сможет заставить х пересечь барьер и переме-
ститься на нетерминальное множество. Аналогично для началь-
ных точек на другой стороне барьера Е будет иметь /(-страте-
гию, удерживающую х от перехода в терминальную область.
Как только вопрос о том, происходит окончание или нет, тем
или иным путем разрешен, можно применять теорему 4.4 1, при-
няв за ?" область, состоящую только из терминальных точек.
Тогда мы будем знать наверное, что окончание произойдет.
') Подробнее об этом см в гл. 8.
4 4. Некоторые достаточные ус ювия оптимальности 101
Мы решим здесь много примеров в том смысле, как это об-
суждалось в § 4.1, т е. найдем функции V(x), ф(х), г|)(х).
В принципе мы должны каждый раз применять теорему 4.4.1,
чтобы показать, что действительное решение совпадает с фор-
мальным. Но это приведет к монотонным повторениям, поэтому
мы дадим здесь ряд простых, но типичных иллюстрации, яв-
ляющихся вариациями одного и того же примера, которые
пояснят многие стороны общего процесса. Цепь этих примеров
обязательно нужна для понимания некоторых дальнейших
идей. Читатель может бегло просмотреть эти примеры сей-
час, возвращаясь к ним снова по мере прочтения следующих
глав, а может сам проделать некоторые выкладки в соответ-
ствии с изложенными далее указаниями.
Напомним еще раз суть /(-стратегий. Когда мы нашли, ска-
жем, функцию ф(х) и применяем ее как оптимальную тактику,
она будет успешно противостоять любой стратегии г|з(х), допу-
скаемой ограничениями. И мы уже можем не делать предполо-
жений функционального характера (таких, как кусочная непре-
рывность, дифференцируемость и т. д.) о стратегиях противника.
Пример 4.4.Г. В качестве (? возьмем верхнюю полуплоскость, в
качестве 8*—ось х. Вектограмма для Е изображена на
рис. 4.4,1, а. Расположенный в середине ее вертикальный вектор
направлен вниз и имеет единичную длину; геометрическое место
концов векторов ') есть горизонтальный отрезок, полудлина его
и(х,у) является гладкой положительной функцией. Вектограмма
для Р представляет собой окружность радиуса до, причем
w(x,y)—также гладкая положительная функция и до всегда
меньше и. Кроме того, до^с<1, где с — некоторая константа.
Полная скорость точки х есть сумма двух векторов, один из ко-
торых принадлежит Р-, а другой ?-вектограмме. Аналитически
это означает, что уравнения движения имеют вид
х = и (х, у) ф + w (х, у) sin ф,
у — \-\-w{x, у) cos ф, — 1 < \|- < 1.
Плата терминальная, Н=х на <? (где у = 0). Тогда целью Е
будет достичь ^ в точке, наиболее удаленной вправо, а Р со-
ответственно стремится влево.
Ясно, что Е всегда будет применять свой крайний правый
вектор. (Это значит, что t|; = l в уравнениях движения.) На
рис. 4.4.1,6 этот вектор обозначен ХА Пунктирная линия ХВ
есть касательная, проведенная из точки X к окружности радиуса
') В дальнейшем геометрическое место концов векторов вектограммы для
Плоского сличая будем называть базовой шнией.
102 Pi 4 Математические обоснования и техника решения в чаюй
до с центром в А Тогда ХВ — это надлежащим образом ориен-
тированное полупроницаемое направление Если такие направле-
ния являются касательными в каждой точке к кривым некото-
рого семейства (решениям обыкновенного дифференциального
б
Рис 44 1
уравнения), то эти кривые будут полупроницаемыми Если те-
перь каждую из этих кривых мы отметим числом, равным зна-
чению Н в точке встречи кривой с %\ то тем самым получим
функцию 1/(х)
Эти заключения, следующие из наших аналитических мето-
дов, можно также получить из геометрических соображений
Так, лемма 10 2 2, где ситуация очень похожа, помогает усмо-
треть тот факт, что ХВ есть полупроницаемое направление
Кривые постоянных значений V, которые являются также и
оптимальными траекториями, могут выглядеть, скажем, как на
рис 4 4 1, в Функция 17(х), полученная таким способом, удо-
4 4 Некоторые достаточные усювия оптииа гьности
103
влетворяет четырем условиям теоремы 4 4 1 Далее, так как ско-
рость точки х вниз всегда не меньше, чем 1 — с, мы можем быть
уверены, что каждая партия окончится Таким образом, здесь
не возникает трудностей при использовании теоремы
Пример 4.4.2. Задача та же самая, однако функция Я здесь дру-
гая, она возрастает всюду, кроме некоторого интервала, где она
постоянна и равна d, график ее представтен на рис 442 Это
приводит к появлению области в ef, где V постоянна, эта об-
ласть на рис 442 запирихована, здесь V~d
Рис 442
Поскольку для этой области все V, равны 0, основное уравне-
ние здесь, разумеется, удовлетворяется Любые ф и г|) дают мини-
макс и являются оптимальными Вникая в природу этой игры,
мы видим, что в заштрихованной области это действительно так
Теорема 4 4 1 справедлива
Дело здесь просто в том, что, несмотря на то что V единст-
венна, ф и г(з вовсе не обязаны определяться однозначно
Пример 4.4.3. Снова рассматривается та же самая задача, но
теперь Я = х2 Тогда Ь будет стремиться пересечь & возможно
дальше от точки, где х = 0, а Р — возможно ближе к этой точке
Очевидно, что для точек б У, лежащих далеко справа, со-
храняется предыдущее построение, а для точек, удаленных вле-
во, имеет место симметричное построение, так как здесь Е ис-
пользует крайний левый вектор своей вектограммы
Итак, мы построили два семейства траекторий, они изобра-
жены на рис 4 4 3 Подобные случаи рассматриваются в гл 6,
где показывается, что куски траекторий после их пересечения
нужно отбросить (считая, что движение по ним начинается от
104 1 г i Матечагические обоснования и техника решения в маюм
?fj Траектории пересекаются по кривой 35, в каждой точке ко-
торой значения V(x) для обоих игроков равны (позшее кривая
3) будет названа рассеивающей поверхностью)
Мы можем применить теорему 4 4 1 для точек х, расположен-
ных по любую сторону от кривой 3>, но при этом мы должны за
<f' принять часть пространства cf, расположенною на той же
О к<в
Рис 44 3
стороне, а за ??'— часть поверхности ?f, лежащую с той же сто-
роны от 3), и саму 35 В качестве Я берем прежние значения
Н на оставшейся части поверхности ?? и общее для обеих сторон
значение V на кривой 3). Таким образом, выполняются все усло-
вия теоремы, и можно пользоваться ее заключениями Заметим,
что никакая другая разделяющая кривая, кроме 3), не дает
этого результата
Итак, мы видим, что в начальных точках, лежащих на 3,
у каждого игрока есть два равноценных значения управления
Он может выбрать любое из них, т е применить смешанную
стратегию, делая свой выбор с вероятностями ('/г, '/г)- Этот во-
прос обсуждается в гл 6
Сделаем здесь еще два замечания Мы урезали часть реше-
ния основного уравнения; следовательно, не все формальное ре-
шение обязано быть ценой игры Более тонкие моменты, связан-
ные с так называемыми экивокальными поверхностями, будут
разъяснены в гл 10
Второе замечание состоит в том, что здесь 3) является син-
гулярной поверхностью, и хотя V(x) непрерывна, ее частные
производные на 3), конечно, не существуют. Но оказалось, что
при разумном подходе теорему можно применить и к таким за-
дачам, в которых появляются сингулярные поверхности
4 4 Некоторые достаточные условия оптимагьности 105
Пример 4.4.4. Пусть теперь ef— вся плоскость,%°—положитель-
ная часть оси х. Положим Н = х, как в примере 4 4 1
Новое здесь то, что если начальные точки находятся далеко
влево, то х может не попасть на 'ё и игра никогда не окон-
чится Интереснее, конечно, чтобы Р стремился окончить игру, а
Е — избежать окончания, если возможно, а в противном случае
заставить х достичь Й° как можно правее
Мы могли бы охарактеризовать эту ситуацию численно, при-
писав бесконечную положительную плату случаю, когда игра не
Рис 444
оканчивается, но это оказывается скорее пустой формаль-
ностью. В этом параграфе мы уже коротко объясняли природу
сингулярных поверхностей, названных барьерами, и отсылаем
читателя к гл 8, где этот вопрос изложен подробно В данном
случае барьером служит «левая» полупроницаемая поверхность
(в смысле примера 4 4 3), проходящая через О и обозначенная
38 на рис. 4 4 4.
Как было выяснено раньше, если х лежит слева от 38, то
Е имеет /(-стратегию, гарантирующую, что х не пересечет Я?, и,
следовательно, окончание не произойдет Если х лежит справа
от 38, то Р обладает /(-стратегией, которая удерживает х от пе-
ресечения 38 и таким образом обеспечивает окончание игры
(Относительно начальных точек, лежащих на 38, мы пока ни-
чего не утверждаем )
Что касается начальных точек, расположенных правее <38 и
выше ??, то, поскольку оба игрока знают о неизбежности окон-
чания, игра здесь становится игрой степени Дальнейшие рассу-
ждения аналогичны рассуждениям в примере 4 4 1, только здесь
за У нужно принять область в <f, ограниченную барьером $
и поверхностью <?
Тот факт, "то оптимальная стратегия для Р, которая обеспе-
чивает окончание игры, отличается от оптимальной страте!ии,
106 Гл. 4. Математические обоснования и техника решения в малом
которая минимизирует значение платы, не имеет существенного
значения. Он может не заботиться об окончании, пока х не ока-
жется достаточно близко от 38. (Поскольку нельзя точно опре-
делить, что значит «достаточно близко», мы можем считать, чго
последняя стратегия оптимальна лишь внутри <f'.) Но если Е
окажется столь неразумным, что попытается избежать оконча-
ния, находясь внутри cf', то Р может не спешить расстраивать
его замыслы, пока х не подойдет очень близко к 38 (если это
вообще случится), применяя тем временем оптимальную
стратегию игры степени. Тогт.а Е не только не сможет избе-
жать окончания, но еще будет наказан уменьшением
платы.
Снова мы выяснили, что часть формального решения V(x)
(слева от <&) не имеет отношения к оптимальной стратегии Ос-
новным здесь является нахождение терминальной области Рас-
смотрим еще один подобный пример
Пример 4.4.5. Та же самая задача, что и в 4.4.1, но условия, на-
ложенные на w, другие В точках пространства У, достаточно
удаленных вправо, радиус w(x,y) удовлетворяет старым усло-
виям, а с уменьшением х он возрастает, так что в точках, до-
статочно удаленных влево, w>l и w>u. В таких начальных
точках Р уже может распоряжаться перемещением х; если, в
частности, он хочет избежать окончания, он всегда может это
сделать.
Пусть теперь Р хочет избежать окончания, а Е стремится
к нему, когда это возможно. Так может быть в точках, доста-
точно удаленных вправо.
Снова можно отделить терминальные точки от нетерминаль-
ных полупроницаемой поверхностью того типа, которая в гл.8
названа естественным барьером; читатель может непосредствен-
но обратиться к этой главе. Мы не станем здесь приводить ка-
кие-либо предварительные подробности, так как это заняло бы
слишком много места.
Как только этот барьер известен, дальнейший анализ стано-
вится точно таким же, как в предыдущем примере, поэтому не
будем повторять его здесь.
Единственное, что мы хотим здесь подчеркнуть, по-видимому,
не так уж важно. Во всех предыдущих примерах основную роль
играла неизбежность окончания; только в примере 4.4.4 допу-
скалась другая возможность. Не кажутся ли наши примеры ис-
кусственными? В первом случае было неизбежным движение
вниз; во втором была исключена из %° отрицательная часть оси
х. Мы хотели показать, что наши идеи можно применять и в бо-
лее «естественных» обстоятельствах.
4 5 Уравнения характеристик 10/
4 5 УРАВНЕНИЯ ХАРАКТЕРИСТИК
Теперь мы снова займемся техникой получения решения Ма-
териал этого и последующих параграфов мы будем широко ис-
пользовать в дальнейших рассмотрениях.
Отправным пунктом на этот раз будет основное уравнение
2 VJt (х, ф, ф) + О (х, ф, *) - 0, D.2.3)
i
где ф Hf — функции от х и Vx.
Найдем теперь частные производные от D.2.3) по каждому
*/,.. Сделав это по обычным правилам, получим
Но так как
dVt __ д*У __ dVk
ТО
dxk dxtdxk dxi ll "
dV'
где Vh — производная по времени от Vh вдоль траектории, соот-
ветствующей стратегиям ф и я|з. Обозначим
Теперь рассмотрим
Мы предполагаем, что каждое ф; подчинено ограничению B.7.1)
из § 2.7. Минимизирующее значение ф; может лежать как вну-
три отрезка [а}, 6,], так и на конце его. В первом случае частные
производные д(-)/<Эф; (в 4.5.2) равны нулю в силу минимизирую-
щего свойства ф^; в последнем нулю равны dcpj/dxk, так как <р; —
108 Г i 4 Математические обоснование и техника решения в магом
конааша В обоил случаях с>мма D 5 2) равна 0 То же самое
справедливо и для i[v Итак,
-r-Gft[x, ?(x, Vx), п-(х. V,)l{. D.5.3)
Подставляя в уравнения движения выражения для управлений,
пол)чаем
xk- /ft[x, <7(x, VK), Пх, V,)\. D.5.4)
Эти Ъг уравнений D.5,3), D.5.4) с 2п неизвестными будут на-
зываться уравнениями характеристик. Действительно, они яв-
ляются характеристическими уравнениями основного уравнения
D 2 3) (несколько особыми из-за того, что члены D.5.2) обра-
щаются в нуль). Решения основного уравнения D.2.3) можно
построить обычным способом1) исходя из значений интегралов
уравнений характеристик; вскоре мы применим этот способ для
наших целей.
Заметим, что правая часть в D.5.3) есть не что иное, как
результат формального дифференцирования уравнения D.2.3)
лишь по явно входящим туда х^.
4 6 РЕГРЕССИВНЫЙ ПРИНЦИП
При решении игры мы обращаем время- начинаем с терми-
нального множества %" и движемся внутрь '<э С точки зрения
дифференциальных уравнении причина (акого обращения понят-
на. В предыдущем параграфе задача построения решения была
сведена к задаче интегрирования уравнений характеристик. Но
мы не можем получить соответствующие частные решения без
начальных условий, и, приступая к решению, мы будем иметь
все необходимые данные только на №, где нам известно, что
V = tf.
Быть может, естественнее было бы усмотреть необходимость
этого принципа из дискретных примеров гл. 3, где построение
решения при движении назад от конечных состояний было един-
ственным имеющимся в нашем распоряжении способом. Кроме
того, можно показать, что любую дифференциальную игру мож-
но приблизить некоторой дискретной
Будем теперь всегда через т обозначать вред!я, необходимое
для юго, чтобы точка х достигла %° (или некоторой другой по-
'J См , например, [Ь]
4 6 Регрессивный принцип 109
верхности, играющей такую же роль), так что на любой огни
мальной траектории
т = const — /.
Символом х б\дем обозначать dx/dx, т. е.
х — х.
Уравнения характеристик, переписанные в этих новых обозна-
чениях (знаки правых частей при этом изменятся), будем на-
зывать уравнениями характеристик в регрессивной форме, н
в основном с ними в дальиеншем мы б^дем иметь дело. Эти vра-
внения имеют вид
xk^- — fk(x, ц, ф), D.6.1)
Vk = 2 VJlk (x, Ф, Ф) + Ok (x, ф, ф). D.G.2)
Заметим еще раз, что правая часть уравнения D.6.2) есть фор-
мальная производная от D.2.3) по явно входящему туда х/,.
Вспомним, что D.6.2) было получено в предположении, что
ограничения на управления постоянны. Хотя такое преобразо-
вание управлений всегда можно осуществить, но иногда возни-
кают задачи, где это приводит к некоторым неудобствам '). В та-
ких случаях в D.6.2) нужно добавить члены, соответствующие
производным от управлений. Интересно отметить, что уравнения
характеристик в регрессивной форме являются уравнениями Га-
мильтона — Якоби, но само по себе установление этого факта
не приносит какой-либо пользы при рассмотрении наших задач.
Упражнение 4.6.1. Написать уравнения характеристик в регрес-
сивной форме для основного уравнения D 2.3), приведенного в
упражнении 4.2.1. Положить и=\+х2, w= (]/2)е~3у- Проверить,
что частная производная по т от левой части основного уравне-
ния равна нулю.
Упражнение 4.6.2. Найти уравнение характеристик в регрессив-
ной форме в естественном пространстве для игры «шофер-убий-
ца». Здесь основное уравнение D 2 3) имеет вид
да, (l/j sin в + V2 cos 0) + w2p + -^y- V5(f +1 — 0,
где
P =
') См хотя бы пример 5 6.
110 Г i 4 Man шпичсские обоснования и техника решения в милом
1/ у
sin ф —=—-, cosi|? — —-.
Уравнения движения приведены в § ].
(Ответы на эти два упражнения можно найти в конце этой
главы.)
Задача 4.6.1. С помощью решения упражнения 4.6.2 показать,
что решение в малом игры «шофер-убийца» состоит для Р из
возможно более резких поворотов вправо-влево, а для Е в дви-
жении по прямой. Таким образом, можно ожидать, чго решение
iiMcci много сингулярных поверхностей.
4.7. НАЧАЛЬНЫЕ УСЛОВИЯ
Термин «начальные условия-» здесь употребляется по отно-
шению к уравнениям характеристик в регрессивной форме. Нас
интересуют известные значения х и Vx на <? (или какой-то дру-
гой поверхности, играющей такую же роль), которые могут слу-
жить начальными условиями при интегрировании по т. Но по
отношению к первоначальным уравнениям, где дифференцирова-
ние происходит по возрастающему аргументу t и которые опи-
сывают реальное развитие игры, эти условия, разумеется, будут
конечными.
Во многих играх не все точки множества %° приемлемы для
окончания. Например, если в игре «шофер-убийца» рассматри-
вать ?? как плоскую проекцию автомобиля, управляемого Р, то
эффективной будет лишь передняя часть этой проекции; в са-
мом деле, довольно трудно, не используя задний ход, переехать
убегающего пешехода задней частью автомобиля.
Чтобы изучить это явление в общем случае, рассмотрим точ-
ку, близкую к 'ё'. Любой из игроков может быть в состоянии
приблизить или отдалить надвигающееся окончание вопреки лю-
бому противодействию своего оппонента. Пусть v= (vi,... ,vn) —
вектор нормали к В* в точке х???. направленный в с?. Если
min max 2 v(f< (х, ф, Ф) > 0, D.7.1)
то Е может помешать немедленному окончанию игры, начатой
из точек, достаточно близких к ??. Если в D.7.1) знак неравен-
ства обратный, то Р может добиться немедленного окончания.
Весь вопрос в том, какую пользу принесут игрокам такого
рода действия. Иногда ответ очевиден. В качестве примера мож-
но взягь случай, когда платой является время окончания игры;
ясно, что Е в меру своих сил оттягивает окончание. Но может
'7 Начальные условия 111
случиться, скажем, и такое: Е видит, что, избегая окончания иг-
ры, он попадает, как говорится, из огня да в полымя. Мы остав-
ляем этот вопрос ввиду возникающей в связи с ним путаницы,
считая, что каждый подобный случай требует индивидуального
рассмотрения. Однако здесь нам не придется сталкиваться с та-
кого рода трудностями. Для определенности будем считать, чго
Р хочет окончить игру, а для Е выгодно избежать окончания.
Тогда мы получаем, что если выполняется D.7.1), то Е может
отсрочить приближающийся конец.
Аналогично для тех точек множества ?\ где справедливо об-
ратное по отношению к D.7.1) неравенство, Р форсирует окон-
чание. Множество таких точек будем называть допустимой об-
ластью. При оптимальной игре окончание будет осуществляться
лишь в точках этой области.
Множество точек х?%\ для которых выполняется само не-
равенство D.7.1), будем называть недопустимой областью. Кри-
вую ((п — 2)-мерное многообразие) в <?, которая разделяет эти
два множества, т. е. такую, для которой выполняется условие
min max 2 vji (х, ф, Ф) — 0, D.7.2)
назовем границей допустимой области.
Для многих задач допустимой областью может быть все мно-
жество сё, например если в уравнения движения входит Т= — 1,а
%° лежит в плоскости 7 = 0. Но встречается много задач, когда
для нахождения решения первым делом надо выделить допусти-
мую область.
Начальные условия, необходимые для интегрирования урав-
нений D.6.1), D.6.2), являются значениями хг и Vt {i=\, . . . , п)
в допустимой области. Если %° можно задать в виде
.*, = */($„...,$„_,), D-7.3)
то это дает первые п начальных условий. Для получения V, в
допустимой области вспомним, что V = #(si, ..., sn_i) на ??.
Дифференцирование по sh дает
= 2УЧ?- ^=1 я -1; D.7.4)
г. е. мы получили п — 1 уравнений для определения п неизвест-
ных V,. К этим уравнениям следует присоединить еще основное
уравнение D.2.3), в котором вместо хг надо подставить их зна-
чения D.7.3).
Вообще говоря, у этой системы уравнений могут быть два
решения. Причина состоит в том, что предложенное рассмотрение
112 Г л 4 Математические обоснования и техника решения в налом
не дает способа различать две стороны поверхности %*. На-
пример, в игре преследования в качестве & можно взять гра-
ницу области захвата. Здесь нас интересуют лишь те случаи,
когда х встречает <? на пути извне области захвата внутрь ее.
Однако игры, оканчивающиеся пересечением %° при движении х
изнутри, также охватывают широкий круг явлений1).
В конкретных задачах, как правило, всегда можно указать
некоторые соображения, позволяющие сказать, какое из возмож-
ных решений следует оставить. В рабочем порядке предупре-
ждаем начинающих быть осторожнее, ибо это один из пунктов,
где можно ошибиться.
Упражнение 4 7.1. Найти допустимую область для игры «шофер-
убийца», используя редуцированное пространство. За %° при-
нять окружность
x = /sins, i/~/coss.
Найти начальные условия в допустимой области для траек-
торий, как выходящих из %°, так и направленных внутрь <?.
Наше решение задач в малом фактически уже найдено. По-
сле интегрирования уравнений характеристик в регрессивной
форме с соответствующими начальными условиями мы получаем
2п функций хг и ]/г от аргументов
т, sv ..., s,,_i. D.7.5)
Затем обращаем первые п функций и выражаем D.7.5) как
функции от хг. (Иногда эта формальная операция бывает очень
сложной, но в большинстве конкретных случаев можно с по-
мощью некоторой изобретательности обойти подобные трудно-
сти.) Далее находим V. Для этого достаточно подставить вновь
найденные функции в остальные п интегралов, получить
Vl{x\, ..., хп) и, проинтегрировав, найти V с точностью до по-
стоянного слагаемого, которое определяется с помощью извест-
ных значений V на ??. А можно и непосредственно вычислить
\Q dt-\-H. Для этого подставляем хг и 1/, в ф(х, V\) и ^(х, Vx),
полученные из основного уравнения D.2.3), и находим оптималь-
ные стратегии.
Решение в большом, разумеется, приводит к изучению син-
гулярных поверхностей, отдельные случаи которых мы рассмо-
трим в следующих главах.
>) Например, если бы внутренность е6 находилась под надзором какого-
1<иб\ ш обнаруживающего устройства, скажем радара, установленного на Р,
то цетью Е было бы >йтн из этой области, а целью Р — помешать ему.
4 8 Теорема о построении ИЗ
4 8 ТЕОРЕМА О ПОСТРОЕНИИ
Цель ее состоит в том, чтобы показать, что при интегриро-
вании уравнений характеристик в регрессивной форме с подхо-
дящим выбором граничных условий мы действительно получаем
значение V, удовлетворяющее основному уравнению D.2.3).
Итак, эта теорема является в некотором смысле обратной по от-
ношению к нашим предыдущим результатам. Доказательство
строится по образцу доказательства Куранта — Гильберта [6]
для аналогичной теоремы, относящейся к общей теории диффе-
ренциальных уравнений в частных производных.
В этом параграфе будут несколько изменены наши обычные
обозначения: мы будем использовать как символ V,, так и
dV/dxt. Первый будет относиться к множеству функций, полу-
ченных с помощью формального интегрирования, и мы докажем,
что эти функции — не что иное, как частные производные от V.
Будем считать, что исходная игра имеет терминальную пла-
ту; мы знаем, что общность при этом не теряется.
Пусть М—область n-мерного евклидова пространства,
частью границы которой является поверхность <?, заданная ура-
внениями
xl = hl(sv .... $„_!), - D.8.1)
где, как всегда, i=l, . . ., п. Функции hx гладкие, и ранг матрицы
(dhi/dsj) равен п— 1.
В области <$ задано дифференциальное уравнение в частных
производных относительно неизвестной функции V
где ф есть конечное множество таких функций <pu(x, dV/dx), что
для каждого и мы имеем dQ/dq>u = O или <pH = const. To же заме-
чание относится и к г)}. Граничное условие для V состоит в том,
что на 8"
V = H(sv ..., 8п_г), D.8.3)
где Н — заданная гладкая функция.
Рассмотрим систему 2п обыкновенные дифференциальных
уравнений
*; = -f;(x, Ф.ф), D.8.4)
^S^IJm*. V't) D-8-5)
8 -1аь 522
114 Гл. 4. Математические обоснования и техника решения в малом
С начальными условиями на сё: при т = 0
V^vUs,, -.., *„..,), D.8.7)
где последняя система функций удовлетворяет соотношениям
2x*,9*, ф*) = 0, D-8-8)
Здесь под ф^ понимается ф(х*\ vf) и т. д.
Пусть интегралы этой системы дифференциальных уравнений
с данными начальными условиями имеют вид
xi = xi(sl, . .., *„_!, т), D.8.10)
V^Viis» .... *„_„ х) D.8.11)
и траектории D.8.10) заполняют М, а их якобиан в этой обла-
сти не равен нулю:
J -= Й<ЛГ|' ¦¦¦' х") ф о
t*(s, «„_,, т)
Тогда в области <# можно разрешить D.8.10) относительно
переменных sb .. . , 5n_i, т. Подставив полученные выражения
для sft в функцию Я, мы получим функцию от х{, которую обо-
значим
D.8.12)
Теорема 4.8.1. Функция V, определяемая формулой
D.8.12), удовлетворяет дифференциальному уравнению D.8.2)
в области М и граничному условию D.8.3) на поверхности ^.
Кроме того, в области М функции Vu заданные формулой
D.8.11), после подстановки в них выражений для s^ как функ-
ций от х удовлетворяют соотношению
1Л = -|?. D-8.13)
Доказательство. Если за координаты в № принять
su . . . , s,,-i, х, то мы будем иметь V — H(si, . . . , sn-i). Следова-
тельно, dV/dx = 0. С другой стороны, используя D.8.4), полу-
чаем
V dv f (х w Л>
Так что V удовлетворяет уравнению D.8.2).
4.8. Теорема о построении 115
Граничное условие D.8.3) немедленно следует из D 8.12).
Остается доказать D.8.13), Положим
s
dRk\
дх -
i
- V v
/ dxi
' дх '
. дх,
' ds/, '
V
V дх'
1 dsk •
Имеем
где в силу формулы D.8.5) первая сумма равна
V 1/ ^' ^х'
а подстановка D.8.4) во вторую сумму дает
Далее,
где выражение, стоящее в скобках, есть полная производная от
Ф„ по sh, причем нужно учесть, что sh входит во все 2п ее аргу-
ментов; многоточие выражает точно такие же члены для г|х Если
фи = const, то выражение, стоящее в квадратных скобках, обра-
о
щается в нуль. Если же нет, то в выражении для Rh коэффи-
циент при квадратных скобках для такого и есть
¦уч ,, dfi dQ p.
Следовательно, квадратные скобки вносят нулевой вклад в об-
щую сумму; то же верно относительно пропущенных членов, со-
держащих iJj. Это означает, что вторая сумма равна
dfi дх/
У v ди дх'
-J ' Ox/ dsk
' Ox/ dsk '
i- i
т. е. первой сумме, взятой с противоположным знаком. Следова-
тельно, /?А = 0.
116 Г; t Магечатически обоснования и техника решения в иа юм
Но по формхле D 8 9) Rh = dH/dSh = dV/dsk на ъ и, значит,
во всей области <ж
/?t=J?. D.8.14)
Подобным же образом получаем
V \г IС^' V д1' ()(
*ml l \~0x~ ~~ jmJ ~dX~j ~~0-
l \ }
Выражение, стоящее в скобках, равно нулю, что нетрудно пока-
зать способом, аналогичным предыдущему аргументы ф и ty не
играют в конечном итоге никакой роли.
В силу формулы D 8 8) S = Q на *ё и, следовательно,
5 = 0 всюду в М. D.8.15)
Формулы D 8 14) и D 8 15) означают, что V, в области №
удовлетворяют соотношениям
г дх, 3V
l dsk
Но величины dVjdxt также должны удовлетворять той же си-
стеме п линейных уравнений Следовательно, поскольку детер-
минант / этой системы не равен нулю, она должна иметь един-
ственное решение, поэтому Vx — dd
Ответы
Упражнение 4 6.1
х= -A +x2)t +\
где 4 = sgn Vx, \> -\ V\
где
Ответы 117
Упрамсненае
-)
о
о
4
sin
cos
v3
9
6.2.
в,
0,
о
3
= 0
-=:0
_
е__ --^-ф, I', wx (Vl cos 0 V'j sin 0).
sgnl/0, p=^/H
ГЛАВА S
Основные примеры; поверхности переключения;
интегральные ограничения
Дальнейшее развитие теории, приведенное в этой главе, даст
возможность приступить к решению основных примеров. Вна-
чале мы исследуем один тип нерегулярного поведения на поверх-
ностях, называемых поверхностями переключения; мы приве-
дем метод расчета этих сингулярных поверхностей, который
потребуется при рассмотрении последующих задач.
Наш первый пример аналогичен классической задаче о бра-
хистохроне. В 1696 г. И. Бернулли поставил перед математиче-
ским миром задачу о брахистохроне, или кривой наискорейшего
спуска. Ньютон, Лейбниц, Лопиталь, Эйлер и сам Бернулли по-
лучили ее решение; так зародилось вариационное исчисление.
Как известно, эта задача формулируется так. Материальная
точка под действием силы тяжести спускается без трения из
заданной точки в какую-то другую, расположенную ниже. Если
при этом она вынуждена двигаться по некоторым кривым, то
какая из них минимизирует время спуска? Местом назначения
может быть не точка, а некоторая кривая.
Теперь вместо материальной точки, спускающейся по пред-
писанным маршрутам, представим себе объект, управляемый пи-
лотом, который в каждый момент может свободно менять напра-
вление движения объекта. Модуль скорости его при этом равен
t>=yg7z; можно считать, что пилот располагает круговой век-
тограммой.
Предположим, что имеется второй игрок со своей вектограм-
мой, цель которого — замедлить время спуска пилота. Так мы
оказываемся в области теории игр. Задачу нашу по аналогии
с классическим случаем назовем задачей о долихобрахисто-
хроне.
После исследования этой задачи в § 5 3 будет дан общий от-
вет на вопрос о том, каково соотношение между дифференциаль-
ными играми и классическим вариационным исчислением.
Второй основной пример этой главы представляет собой
упрощенный вариант одной из главных задач военной поли-
тики: как должны противники распределять свои усилия в за-
тяжной воине — уничтожать ли источники, снабжающие против-
5 1 Поверхности переключения 119
ника оружием, или непосредственно атаковать военные объекты.
Даже для принятой нами простой модели этой игры решение
далеко не очевидно, по крайней мере количественно. Мы еще раз
рассмотрим эту задачу в гл. 11 и обсудим ее связь с действи-
тельностью; в частности, § 11.9 содержит видоизмененный ва-
риант этой же задачи, решение которого весьма отличается от
приведенного в этой главе.
Приведенная в § 5.5 задача «изотропные ракеты» является
игрой преследования, где Р выбирает направление своей движу-
щей силы, а Е обладает простым движением. Как и в игре «шо-
фер-убийца», при некоторых обстоятельствах здесь возможен
«маневр разворота», но в отличие от той игры решение задачи
«изотропные ракеты» в общем гладкое, а не разделенное син-
гулярными поверхностями.
Последний из рассматриваемых в этой главе примеров де-
монстрирует применение наших методов к экономическому пла-
нированию. Игры одного игрока можно рассматривать, считая
одного из противников пассивным; тогда задача сводится к пря-
мой оптимизации. Приведенный пример является идеализиро-
ванной картиной процесса производства стали, где имеющиеся
ресурсы должны быть распределены между собственно произ-
водством стали, строительством прокатных станов и созданием
запасов; нужно найти распределение, максимизирующее запас
стали к окончанию срока планирования.
В конце главы дано описание техники решения для случаев,
когда по крайней мере один из игроков подчинен ограничению, со-
стоящему в том, что вдоль траектории должен сохранять по-
стоянное значение интеграл от некоторой функции, зависящей от
х, ф и ар; такая задача аналогична классической задаче на ус-
ловный экстремум в вариационном исчислении. Недостаток ме-
ста не позволяет привести здесь новые варианты знаменитых за-
дач, но в дополнении мы все же привели игру «бомбардировщик
и батарея», где успешно применили высказанные соображения.
5 1. ПОВЕРХНОСТИ ПЕРЕКЛЮЧЕНИЯ
Этот тип сингулярных поверхностей, возможно самый про-
стой из всех, возникает только в связи с линейными вектограм-
мами. Пусть одно из управлений, например cpb входит линейно
в каждое уравнение движения и в G (как это было определено
в § 2.4) с коэффициентами, не зависящими от других управле-
ний. Тогда в основное уравнение D.2.1) qn также войдет линей-
но и коэффициент Л при нем будет зависеть лишь от xt и V,,
Пусть а и Ь — постоянные, ограничивающие фь
120 Гл 5. Основные примеры; поверхности переключения
Предположим, что в некоторой точке x?ef решение известно.
Тогда в этой точке известно и значение А, и если cpi — минимизи-
рующее управление, то в точке х
ffi = b, если А < 0,
Ф1 = а, если А > 0.
Для определенности положим, что в некоторой окрестности
точки х выполняется первое неравенство, т. е. Л<0. Вдоль опти-
мальных траекторий, проходящих через точки этой окрестности,
ф1 = 6. Предположим теперь, что, двигаясь вдоль каждой траек-
тории в направлении возрастания т, мы встречаем точку, где
впервые А обращается в нуль. Мы будем считать, что такие
точки образуют некоторую поверхность J1.
Для определения решения по другую сторону от J" можно
использовать эту поверхность как множество начальных усло-
вий, т. е. J" будет играть роль ^, и обычный процесс нахо-
ждения решения даст исходящие из нее траектории. В качестве
начальных условий можно взять значения xt и Vt, получающие-
ся при интегрировании уравнений характеристик в регрессивной
форме на траекториях, которые ведут к J". (Разумеется, V тоже
можно вычислить на J", и тогда здесь ее можно принять за Н.
Если теперь применить стандартный способ определения Vt на
J1, считая их частными производными от Н, то нетрудно ви-
деть, что мы получим те же значения для Vt1).)
На новых траекториях знак cpi будет локально определяться
знаком А. Так как Л = 0 на J1, то сначала мы должны получить
о
А. Эту производную можно найти простым вычислением; общий
способ нахождения ее приведен в § 7.4, где показано, что она не
зависит от ф1.
В дальнейшем мы узнаем, что А равна нулю на J" только
для особого класса поверхностей, исследованию которых отве-
дено много места в гл. 7. Поэтому у нас есть все основания
предполагать, что АфО. Мы еще вернемся к этому вопросу в
§7.11.
Итак, можно заключить, что когда оптимальная траектория
о
пересекает поверхность J", на которой А—О, АфО, коэффициент
А меняет знак и поэтому cpi резко перескакивает с одного край-
него значения на другое Отсюда и название для поверхности
J" — поверхность переключения.
') При этом мы должны использовать основное уравнение D 2 3) Но
таь как Л = 0 на J', то неважно, положим мы tfi равным а или Ь.
52 До шхобрахистохрона 121
5 2. ДОЛИХОБРАХИСТОХРОНА
В классической задаче о брахистохроне «екоторое тело в од-
нородном поле тяжести принуждено скатываться вниз по задан-
ной кривой. При этом начальная точка фиксирована. Фиксиро-
вано и конечное положение, которое может быть либо также
некоторой точкой, либо — в более общем случае — некоторым
участком заданной кривой. Последнее больше соответствует на-
шему подходу к проблеме. Мы будем считать, что тело к концу
своего падения должно быть в какой-то точке определенной кри-
вой If. В какой именно точке, мы не знаем, но устанавливаем
это в процессе решения.
Задача состоит в том, чтобы найти траекторию, которая по-
зволяет за минимальное время достичь ^, исходя из заданной
начальной точки.
Если тело падает вниз из некоторой точки с нулевой началь-
ной скоростью на расстояние у по вертикали, то независимо от
пути скорость его, как известно, равна y2gy • Поскольку ясно,
что искомая кривая — брахистохрона — не зависит от гравита-
ционной постоянной g, мы можем принять скорость равной У у .
Теперь представим себе точку, которая передвигается в верх-
ней полуплоскости х, у таким образом, что в каждый момент
времени мы можем выбирать направление ее движения, а мо-
дуль скорости ее при этом равен всегда У у- Ясно, что если точ-
ка движется так, что минимизирует время полета, то ситуация
равносильна вышеописанной; оптимальная траектория будет
брахистохроной.
Уравнения движения точки имеют вид
х = У у coscp,
У = У У sin cp,
поскольку модуль скорости в точке х= (х, у) равен У у, а на-
правление ее ф всегда в нашем распоряжении (лучше ска-
зать — в распоряжении Р). В каждой точке Р обладает круговой
вектограммой. Далее, интегральная плата с функцией G—\ при-
водит к минимизации времени перехода. При выборе координат-
ных осей принято связывать направление вверх с положитель-
ным направлением оси у; поэтому мысленно обратим направле-
ние гравитации, и пусть читателя не приводит в замешательство
«падение» тела вверх.
В качестве терминальной кривой If выберем положительную
часть оси у, в качестве пространства игры ef — первый квад-
рант плоскости (хХ), у^О). Начальной может быть любая точ-
ка из ef, если предписать ей начальную скорость, равную У у.
122
Гл 5 Основные Wfniuepu, поверхности пепскчюченич
Тогда единственным множеством начальных точек, согласую-
щихся с первоначальной постановкой задачи, является положи-
тельная часть оси х. *Если требуется рассмотреть случай стацио-
нарного старта, то этого всегда можно добиться подходящим
выбором осей; но чаще мы будем просто видоизменять началь-
ные условия ').
В задаче о долихобрахистохроне второй игрок Е стремится
максимизировать время падения, добавляя новый векгор к век-
тограмме Р Пусть вектограмма Е изображена на рис 5 2,1, а.
У w
ш
Рис 521.
Два крайних вектора ее имеют одинаковую длину w. Один из
них позволяет Е задерживать продвижение точки х к &, пере-
мещая ее вертикально вниз и тем самым принуждая ее перейти
в область малых значений у и, следовательно, низких скоростей
для Р\ другой крайний вектор горизонтален и направлен вправо
от if (на рис. 5.2.1,6 изображен типичный момент игры). Ос-
тальные векторы представляют собой выпуклые линейные ком-
бинации этих двух крайних векторов, т. е. мы имеем типичную
линейную вектограмму. Задача Е состоит в выборе самой вы-
годной для него при данных обстоятельствах комбинации его
крайних векторов.
Конечно, здесь можно усмотреть также и некоторую игру
качества2). В области y<w2 скорость Е намного больше ско-
') Встречаются классические задачи, где задана начальная скорость на
траектории Их можно свести к нашему случаю, используя начальною точку
с подходящим значением у
2) Это будет обсуждаться в примере 8 6 4.
5 2 До ш^обрахистохрона 123
рости Р, так что последний не может здесь добиться окончания
игры. В самом деле, нетрудно видеть, что Е в этой области, по-
переменно применяя крайние векторы своей вектограммы, может
передвинуть х как угодно далеко от %\ Однако мы не будем
без особой необходимости рассматривать эту игру качества.
Если в последующих выкладках считать, что всюду w = 0, то
мы получим один из вариантов классической задачи о брахисто-
хроне.
Уравнения движения имеют вид
Эти уравнения без последних членов уже были выписаны рань-
ше в этом параграфе. Последние члены принимают значения
(w, 0) при ф— 1,
@, — w) при ф = —1, к '
так что крайним допустимым значениям г?> соответствуют край-
ние скорости ?-вектограммы. Ясно, что промежуточным значе-
ниям ф соответствуют векторы, заполняющие всю ?"-векто-
грамму.
Поскольку платой является время окончания игры, она опре-
деляется интегралом, где G=\. Основное уравнение D 2.1)
имеет тогда вид
min max У у (V х cos ф-j- Vy sin q>) -f-
С помощью леммы 2.8.1 определяем функцию ф, доставляю-
щую минимум выражению в квадратных скобках; тогда
¦ u
SItl<p=— -у
где
и первая круглая скобка в основном уравнении равна —р.
Коэффициент при ауф/2 в этом уравнении равен
п максимум достигается при
124 Гл 5 Основные примеры, поверхности переключения
Тогда основное уравнение D.2.3) будет
или
- Yyp + wyK + \=0 при А>0,
- У~У Р — wVy Л~ 1 = 0 при А<0.
При Л > О (t —1) уравнения характеристик в регрессивной
форме имеют вид
— о
При Л<0 (я|) = — 1) слагаемое —w в уравнении для ,г исчезает,
о
а в уравнении для у появляется слагаемое +w. Это легко прове-
рить, взглянув на уравнения движения. Кривая ^ описывается
уравнениями
л'^-0, y = s>0, E.2.2)
и на ней
V{=H) = 0.
Найдем теперь допустимую область. Для этого заметим, что
скорость, направленная по нормали к Ч§, горизонтальна и равна
величине X при х = 0, y = s. Для того чтобы точка х смогла пере-
сечь Ч§ вопреки любым противодействиям Е, минимакс этой
скорости должен быть отрицательным, т. е.
min maxx= minmax \Ys cos ф + -^-
) \т=—
Это значит, что допустимой областью является та часть прямой
?f, для которой
Для того чтобы можно было интегрировать уравнения характе-
ристик, мы должны знать Vx и Vy в допустимой области. В этой
области
Очевидно, что Vx^-0 на &. Так как V — 0 на %, то V>0 в близ-
ких правых точках, поскольку V — это время, необходимое для
5 2 Дсмихобрахистохрона 125
того, чтобы достичь 4f. Тогда А = Vx + V4= V-C^-Q, и поэтому на
^ и вблизи нее можно принять г|з= + 1. Тогда на ?? основное ура-
внение D.2.3) имеет вид
(мы положили Vy = 0, p=Vx), т. е. на %*
V^-.J—, E.2.3)
у s — w
так что Vx положительна в допустимой области. Итак, Vx, Vy
и х, у на *& известны, и мы используем их в качестве начальных
условий для интегрирования уравнений характеристик в регрес-
сивной форме.
Интегрирование правого верхнего из этих уравнений сразу
дает E.2.3), причем это соотношение выполняется теперь уже не
только на %\ но и в некоторой области в «?. Чтобы проинтегри-
ровать остальные уравнения, проще всего использовать сначала
основное уравнение D.2.3). Положив г|з=1, получим
=1 + wVx=- 1 Ь =?.
У s —w У s — w
Возводя в квадрат и разрешая относительно Vy, получаем
,7 _ , Vs/y -1
V S — W
Какой выбрать знак у Vy? На это сразу же можно ответить,
если исходить из того, что для больших значений у скорость Р
больше, чем для малых, и потому время достижения *&, равное
V, меньше; следовательно, Vy<0. Более формальное обоснова-
ние мы предоставляем выполнить читателю в качестве упражне-
ния.
Упражнение 5.2.1. Показать, что правому нижнему уравнению
из уравнений характеристик в регрессивной форме удовлетво-
,, Vs/y — 1
ряет лишь Vц— т= •
г У s — w
3?метим, что
и левое нижнее уравнение из уравнении характеристик превра-
щается в уравнение
у
126 Г л 5 Основные примеры поверхности переключения
Для начального условия y(Q) — s это уравнение, как легко
видеть, имеет решение
{j) E.2.4)
если только
т<д/<?. E.2.5)
Верхнее левое уравнение из уравнений характеристик инте-
грируется обычным способом; в результате получаем
Оптимальные траектории определяются уравнениями E.2.6)
и E.2.4). Заметим, что при ш = 0 это уравнения циклоиды, пере-
секающейся с %* под прямым углом. Порождающая ее окруж-
ность катится по оси абсцисс, имеет радиус, равный s/2, и за
время т поворачивается на угол t/]/"s- Неравенство E.2.5), не-
о
обходимое для установления нужного знака у у в уравнениях
характеристик, означает, что дуга циклоиды соответствует вра-
щению, не превышающему половины оборота (х не может до-
стичь, а затем покинуть ось х).
Вернемся, однако, к игре двух игроков; мы получили Л>0,
из чего следует, что г|) = 1, т. е. Е применяет свою крайнюю гори-
зонтальную скорость. Посмотрим, как долго он будет придержи-
ваться этого правила. Имеем
и А остается положительным все время, пока y>s/2. При y = s/2
можно ожидать наличие поверхности переключения, где Е ме-
няет свою стратегию с -ф = 1 на г|з =— 1. Из E.2.4) следует, что
на поверхности переключения cos(t/Vs) ==0, а из E.2.5), что
т = т0 = 2 "• E.2.7)
Тогда из E.2.6) получаем, что на этой поверхности при т—т0
-WjVI. E.2.8)
Заметим, что в области, расположенной слева от поверхности
переключения (см. рис. 5.2.2),
V=-t. E.2.9)
r: 2 Дошхобрахистохроий
127
Поверхность переключения определяется уравнениями E.2.8)
и y = s/2; на ней V — хо~~ (л;2) Ys Она представляет собой па-
раболу с наклонной осью, изображенную на рис 5 2.2, и пол-
ностью определяет оптимальную стратегию для Е. В каждой из
Рис. 5 22
областей, разделенных поверхностью переключения, Е должен
применять все время один из своих крайних векторов, как это
показано на рисунке. _
Мы уже нашли выражение для ф — оптимальной стратегии
р — через Vx, Vv. Слева от поверхности переключения
COS ф =
Vy
Однако выражение ф через х, у довольно громоздко. Чтобы
найти его, нужно разрешить уравнения E.2.4) и E.2.6) относи-
тельно s и т и подставить полученное значение s в формулу
Y/V
Оптимальные траектории слева от поверхности переключе-
ния, как видно из их уравнений, представляют собой нечто вроде
циклоид, а именно: каждая описывается точкой окружности, ко-
торая катится вправо по прямой, скользящей влево со ско-
ростью w.
Чтобы продолжить решение на правую сторону поверхности
переключения, требуется дальнейшее интегрирование, которое,
будучи в принципе элементарным, при выполнении оказывается
128 Га 5 Основные примеры; поверхности переключения
довольно утомительным. В качестве начальных условий возьмем
1
у -=- — s,
Мы должны использовать эти условия при интегрировании
уравнений характеристик, считая ty =— 1. Основное уравнение
D.2.3) имеет вид _
V\~ 1 =-0.
Чтобы установить, что все эти вычисления действительно за-
вершают решение, необходимо проверить следующие утвержде-
ния:
1) новые траектории полностью и однозначно покрывают об-
ласть в У, расположенную справа от поверхности переключения
и выше прямой y = w2;
2) Л<0 всюду в этой области (кроме самой поверхности пе-
реключения, где Л = 0).
Первое утверждение кажется в высшей степени вероятным
(доказательство, не использующее прямое интегрирование, воз-
можно, будет не столь уж трудным). А второе следует из пер-
вого, ибо вдоль оптимальной траектории
5.3. СВЯЗЬ С УРАВНЕНИЕМ ЭЙЛЕРА
Исследуем в общих чертах при w = 0 связь между нашим и
классическим подходами к проблеме, проиллюстрированную пре-
дыдущим примером. Будем рассматривать плоские игры одного
игрока с интегральной платой и единственным управлением; по-
лученные результаты можно использовать для более тщатель-
ного анализа конкретных задач.
Начнем с уравнений движения
x = fx(x, у, ф),
у =f2{x, у, ф).
Плата ff~', определяемая формулой
G{x, у, 4)dt, E.3.1)
5 4 Война на изнурение и нападение 124
должна оыть минимизирована. Выражение для плаш можно за-
писать в виде
-их. E.3.2)
U (х у, ц>)
Из E.3.1) следует также, что
E.3.3)
U (х, у, ц>)
Мы разрешаем E.3.3) относительно ф (что, как правило, воз-
можно) и подаавляем результат в E.3.2), тем самым придавая
этому интегралу хорошо известную в вариационном исчислении
форму
JF{x,y,yf)dx. E.3.4)
Случай, когда F не зависит от у', играет особую роль в на-
шей теории и будет не раз встречаться позднее при рассмотре-
нии так называемых универсальных поверхностей.
Если же плата задана в виде E.3.4), то можно получить раз-
личные уравнения движения и функцию платы E.3.1), посколь-
ку в E.3.4) не входит явно t. Простейшие имеют вид
x = coscp,
у = sin<p,
O = F(x, у, tgcp)coscp.
5.4. ВОИНА НА ИЗНУРЕНИЕ И НАПАДЕНИЕ
Пусть две вступившие в затяжную войну стороны Р п Е
имеют в момент времени t запасы вооружения хх и х2 соответ-
ственно. На всем протяжении войны каждая из сторон может
выбирать, как распределить свои силы между изнурением про-
тивника, т. е. уменьшением темпов его снабжения вооружением,
и нападением, т. е. непосредственным введением вооружения
в боевой конфликт. Запасы вооружения могут быть подсчитаны;
каждая сторона стремится накопить их больше, чем противник,
и разница составляет плату.
Таким образом, оптимальное решение здесь лежит между по-
литикой «дальнего прицела» — «изнурением» противника — и
прямолинейной политикой «нападения» на него. Мы разберем
сейчас простейший возможный вариант этой общей задачи, к ко-
торой вернемся в § 11.9, где рассматривается еще один ее ва-
риант.
Фактически оптимальные стратегии состоят из ряда дискрет-
ных решений. Но мы будем сглаживать их в непрерывные
9 Зак 5'2
130 Гл. 5. Основные примеры; поверхности переключения
процессы. Это, разумеется, не дальше от действительности, чем
остальные наши допущения, так что можно надеяться получить
приближение к реальности не хуже того, которое дает дискрет-
ный вариант; к тому же непрерывные модели проще в обраще-
нии и позволяют легче получить основные результаты.
Пусть Р в каждый момент времени делит свои запасы воору-
жения Xi на две части: выделяет (pXi для изнурения противника
и A —ф)*! оставляет для нападения. Здесь <р удовлетворяет ус-
ловию O^Ccp^Cl. Далее, если Р не мешает Е в производстве во-
оружения, то Е имеет возможность производить его со ско-
ростью т2. Если Р вмешивается, то Е теряет часть этой скорости
в зависимости от того, какую величину ц>х{ выделяет Р для це-
лей изнурения. За отсутствием лучшей информации примем эту
скорость пропорциональной величине ер*!. Тогда
х2 = ш2 — с2 ((рхх),
где коэффициент с2 можно рассматривать как меру эффективно-
сти оружия Р против средств защиты Е.
Поменяв игроков ролями, получим аналогичное уравнение.
Таким образом, имеем два уравнения движения.
Допустим1), что война будет длиться некоторое конечное
время Т. Пусть, скажем, каждый день командующие Р и Е по-
сылают на поле сражения соответственно A —ф)^ и A —ty)x2
вооружения. Сумма этих количеств за время Т выражает бое-
вую силу Р или Е, а разность — превосходство одной из сторон
над другой. Эта разность и будет платой, но в соответствии с
нашей тенденцией к сглаживанию мы выражаем ее в виде ин-
теграла
Чтобы свести задачу к обычной схеме теории игр, примем Т
(или *з, если угодно) за новую фазовую координату. Тогда урав-
нениями движения будут
х, — ml —
х,~ пг2—
где
0<ф<1, 0<4<i и G= A — ф)л;2— A —
Пространством игры <f является октант
х,>0, х2>0, Г>0,
') Соображения по поводу всех этих допущений изложены и гл. 11.
5.4. Война на изнурение и нападение 131
а %* есть часть его границы, где Г = 0; ?f допускает такую па-
раметризацию:
Xl = sx > 0, х2 = s2 > О, Г = 0;
эти соотношения входят в число начальных условий.
Будем считать, что
сх>с2, E.4.1)
а если справедливо обратное неравенство, то просто поменяем
обозначения').
Мы будем предполагать, что в процессе игры Х\, х2 не могут
стать отрицательными. Мы увидим, что это поможет добраться
до сути дела с меньшими затруднениями.
Обозначая частные производные от V через Vi, V2, VT, выпи-
шем основное уравнение D.2.1):
min max {(тг — с$х2) У\ -\- (т2 — с2(рхг) V2 — VT +
тогда основное уравнение D.2.3) примет вид
5!л;1ф -|- S^x^ -f- тУх -4- m2V2 — VT -\- x2 — хх = 0,
где
и
5, = 1 — c2V2, S2 = 1 — су,
J 0, если 5j > 0, _ ГО, если 5, < 0,
ф==A, если 5!<0, Ф==A, если 52 > 0.
Заметим, что здесь уже использовано допущение о том, что
х{>0, х2>0.
Уравнениями характеристик в регрессивной форме будут
уравнения
О О
О
Т=\,
о
а уравнение для VT в этой игре становится ненужным.
') В задачах подобного типа мы предпочитаем избегать симметрии вро-
де с, — с2 как чересчур маловероятного явления.
9*
132 Гл 5 Основные примеры; поверхности переключения
Найдем теперь остальные начальные условия. Так как V=0
на '&, имеем
dv ., дхх , v дх2 v дТ _ v
и анало1ично V3 —О на &. Тогда здесь
51 = 1, откуда ф = 0,
52 = — 1, откуда г|) = 0.
Таким образом, обе стороны оканчивают войну, расходуя все
свое вооружение только для нападения.
Теперь проинтегрируем уравнения характеристик в регрес-
сивной форме, используя найденные начальные условия и то,
что <р = г|) = О на ?f'. Получим
л;, — s, —/га,т, I/, = — т,
x,^=s2- n2x, 1/2 = г. E.4-2)
На оптимальных траекториях
5, = 1 — г2т, S2 = — 1 + Cjt,
откуда видно, что Si, S2 впервые перестают быть положитель-
ными, когда х=\/с2 и т= l/ci. Из E4.1) следует, что S2 раньше
обращается в нуль, чем St (считая от конца) Поэтому можно
ожидать наличия поверхности переключения при
т=Г = —. E.4.3)
с\
пе \\ должно скачком изменить свое значение с 0 на 1. Так оно
и оказывается на самом деле; это подтверждает дальнейший
анализ Тогда за время 1/й до окончания войны Е резко меняет
политику «изнурения» на политику «нападения».
Обозначим поверхность E.4.3) через JY Значение цены ме-
жду ? и ,/, определяется интегралом
т т т
V = J G dt =--- f (л;2 — хх) dt =¦ С \(s7 — mot) — (S] — /га,т)] rft =
0 0 6
= E2—s,)r —^-(/Ио —m,)P. E.4.4)
Чтобы выразить V через фазовые координаты, положим в ле-
вых уравнениях E.4.2) х — Т и исключим st, s2. Получим
V^[x2- хоГ + ^(m2^ /я,) P. E.4.5)
5.4 Война на изнурение и нападение 133
Будем теперь рассматривать J'^ как множество начальных ус-
ловий точно так же, как раньше рассматривали <?. При этом
можно подставить т=1/с( в E.4.2) и снова использовать s, и s2,
но теперь уже как параметры поверхности <7\, а можно начать
новый этап интегрирования с новыми параметрами. Выбирая по-
следнее, имеем для <7
т 1
Хх —- Sj, Х2 — S2, / — —— ,
с i
где s{ уже не те, что раньше. Из правых уравнений E.4.2) сразу
получаем, что на J1 {
v^~ -L. v,-±.
1 с{ 2 с,
Оба эти условия можно также получить нашим .стандартным ме-
тодом, если функцию E.4 5) на J\ принять за Н.
Интегрируя уравнения характеристик в регрессивной форме
с этими начальными условиями, мы принимаем ср = О, г|з=1. Пра-
вильность такого выбора подтверждается тем, что эти управле-
ния приводят к надлежащим знакам S,, в чем можно убедиться,
проделав соответствующие вычисления. В результате получаем
х\ — s\ 4- (сА — m\)x ~ у Cim2T2,
х2-- s2— щт, E.4.6)
Vx=—^-x, К2==^- + т+1с,т2. E.4.7)
Здесь т. так же как и s,, было заново выбрано на J"i и не сов-
падает с тем, которое было при первом интегрировании. Теперь
уже
с 1 С2 А 2
Ясно, что 52>0 при т>0, и это подтверждает наш выбор г|з=1.
Из E.4.1) следует, чго S4>0 при т = 0. Поэтому ф = 0 для ма-
лых т, но до тех лишь пор, пока Si>0. Уравнение Si = O имеет
один положительный корень, равный
То —
Если допустить, что это значение определяет вторую поверх-
ность переключения и что управления в дальнейшем больше
134 Г л 5 Основные примеры поверхности переключения
ке изменяются, что очень правдоподобно, то мы тем самым пол-
ностью получили оптимальные стратегии для случая (представ-
ляющего наибольший практический интерес), когда Х\ и х2 не
обращаются в нуль
Итак, за время 1/ci до окончания воины Е переходит от «из
нурения» к «нападению», а Р делает это раньше, за время
до окончания
Последнее значение соответствует, разумеется, новой поверх-
ности переключения, которую мы обозначим J, на ней
] 2
Найдем теперь V между J^ и f2 Это можно сделать двумя
способами Во первых, можно написать
Г-1/с,
V = VA)— \ xxdt,
о
где V<'> есть значение V на J'i, полученное из E 4 5) с аргумен-
тами из E4 6) Подинтегральная функция Xi( = G) также бе-
рется из E 4 6), и, наконец, мы используем эти уравнения чтобы
ИСКЛЮЧИТЬ Si И S2
Второй способ таков нужно взять V\ и V2 из E 4 7), заме-
нить т значением Т—1/ci а затем получить VT из основного
уравнения D 2 3) Интегрируя полученные уравнения, находим
V с точностью до постоянного слагаемого, которое определяется
с помощью значения V на J'i
В результате имеем
Заметим, что по другую сторону поверхности J функция G
равна нулю, а V больше уже не меняется — она определяется
здесь формулой E 4 9), где Т = — "|/ — 1 .
Сейчас мы можем либо поверить эвристическим обоснова-
ниям того, что сГг есть поверхность переключения и стратегии
больше не будут меняться, либо применить критерий, приведен-
ный в § 7 11, либо, наконец, продолжить решение на другую сто-
рону J'i Тогда мы непосредственно убедимся в том, что S\ и S2
больше не меняют знаки, и к тому же получим оптимальные
стратегии в этой области Мы предоставляем выбор, а в по
следнем из способов и весь труд читателю
5 4 Война на изнурение и нападение
135
Теперь еще осталось учесть в решении ограничение хг>-0
Наилучший метод состоит, по-видимому, в том, чтобы вначале
рассматривать части границы пространства cf, где х, = 0, как
двумерные подигры Когда цена для этих подигр б) дет известна,
ее можно использовать в качестве Я, и в ? можно построить
i/r
V
р
- о
-'
и с
1
54 1
$,' V
V
= /
новые оптимальные траектории, которые должны сливаться со
старыми
Подробнее пусть if i — множество
r = s3>0,
хх — 0, х2 ~= s2 > О,
о 2 определяется
индексом 2 и об-
принадлежащее границе пространства Й3, а
теми же уравнениями, но с заменой индекса 1
ратно
Если теперь состояние партии описывается точкой х, лежа-
щей на &\, то это означает, что у Р нет вооружения (Xj = 0K и
бы 10 бы безрассудно со стороны Е затрачивать на «изнурение»
больше средств (т е применять t|) большее), чем это нужно
для того, чтобы сохранить х\ равным нулю Действительно, на
практике выглядело бы глупо, если бы Е попусту растрачивал
вооружение на «изнурение», вместо того чтобы использовать его
для «aiaMi», и icm самым проигрывал бы в плате Но в теории,
Мб Гл 5 Основные примеры; поверхности переключения
!де игра рассматривается как чисто математическая задача,
нужно установить, какие t|), подчиненные заданным ограниче-
ниям, необходимы, чтобы удержать х внутри границ простран-
ства У.
Рассмотрим часть подмножества %", или Sf2, лежащую между
if и c/ji в этой области, как мы знаем, ф = \|э = О. Из уравнений
движения следует, что здесь х4>0, х2>0 (это ясно также из ин-
туитивных соображений: количество вооружения растет, когда
Рис 5 4.2.
отсутствует «изнурение»). Следовательно, в этих точках опти-
мальные траектории сразу же покидают *?х и ?f2 и следуют к
c<f, так что здесь не возникает никаких трудностей.
На рис. 5.4.1 изображено типичное сечение пространства ?*
для некоторого постоянного, достаточно большого х2 и пока-
заны оптимальные траектории. Траектории, найденные раньше
для области между ъ и J*,, расположены здесь выше АВ, а о
тех, которые лежат ниже АВ, мы только что говорили. Если по
ним пойдем назад (т возрастает), то достигнем ?х в одной из
точек отрезка 0.4, и это не внесет никаких изменений в наши
рассуждения.
Но в точках _множесгва 8%, расположенных с другой сторо-
ны от J'i, где t|)=l, может случиться, что х1 остается равным
нулю в течение некоторого времени Траектории здесь могут
5.4. Война на изнурение и нападение 137
быть такими, как, скажем, CDEAB на рисунке Из уравнения
движения
видно, что Х\ может оставаться равным нулю (скажем, как на
ЕА), только если
х2>^. E.4.10)
Если выполняется это неравенство, причем *i = 0, то Е вмесю
управления \|) = t|)=l должен применять
до тех пор. пока х не достигнет J^ n<?i (на рисунке — точка А).
Теперь построим следующую подигру.
Фазовыми координатами будут х2 и Т (поскольку х4 = 0);
пространство подигры задано неравенствами E.4.10) и Т>\/с1
(соответствующая область на рис. 5.4.2, изображающем про-
странство с? для исходной общей игры, расположена «на полу»
и отмечена клетками). Параметризация для терминальной по-
верхности подигры такова:
х2^=о>— (о — параметр), Г== —.
На ней Н есть цена игры, определяемая по формуле E.4.5)
а
а .
Уравнения движения имеют вид
х2 — т2,
f= -1.
Используя E.4 11) и х1 = 0, получаем
Предоставим читателю выявить подробности этой простой под-
игры без управлений. Из ее решения понадобятся лишь V2 и VT,
полученные при интегрировании уравнений характеристик в ре-
грессивной форме, а именно:
=--^+хг j щТ. E.4.12)
138 Гг 5 Основные примеры поверхности перетючения
Вернемся теперь к самой игре Нагл н\жно построить траек-
тории уравнении характеристик в регрессивной форме с началь-
ными условиями
заданными на части множества 8% Подставляя эти величины
в E 4 12), получаем остальные начальные условия Еще остает-
ся определить значение Vu оно получается из основного уравне-
ния D 2 3) при ф = 0, 1|з=1 и равно
Мы уже интегрировали уравнения характеристик в регрессивной
форме с этими начальными условиями Чтобы найти поверх-
ность переключения, исследуем теперь таким же способом, как
и раньше, изменение знака St вдоль полученных траектории
Выполнив соответствующие вычисления, мы видим, что S2
остается положительным, a Si меняет знак, но не на J"\ Оказы-
вается, что часть этой плоскости должна быть заменена криво-
линейной поверхностью
На рис 5 4 1 новые траектории представлены траекторией
АГ и лежащими ниже нее траекториями типа ED Ниже F пря-
мая ,7*2 должна быть заменена дугой, которая нарисована пунк-
тиром и на которой Si меняет знак Полная картина изображена
на рис 542 «Шов» S?, где криволинейная поверхность заменяет
JV можно получить, рассматривая траектории, исходящие из
АВ
Что означает это видоизменение JV
Вообще говоря, найденное решение предписывает обоим иг-
рокам при достаточно большом Т начинать партию, расходуя
все вооружение для «изнурения» Затем в определенный для ка-
ждого игрока момент происходит полное переключение на «ата-
ку» Эти моменты существенно зависят лишь от одних сг, коли-
чество вооружения Х\, х^ и скорости его производства mu m2 не
имеют значения Искривленная часть J^ является исключением
Она означает, что Р добивается лучшей платы, переключаясь с
«изнурения» на «нападение» раньше, чем игра достигла J'z, в
момент, зависящий от х, и х^ Это как бы подтверждает интуи
тивные соображения Р, рассуждающего так «Если впослед-
ствии мои атакующие усилия будут сведены к hjjiio вследствие
уничтожения моих сил, то лучше мне начать нападение скорее»
Аналогичное явление имеет место также на <?2 где х2 на
некотором интервале времени может быть нулем Это происхо-
дит в области, отмеченной клетками на вертикальной «стене»
5 5 Игра «изотопные ракеты» 139
(рис 5 4 2) Траектории, исходящие отсюда и идущие внутрь
<t, не достигают поверхности переключения
Наконец заметим, чго формулы для V не выполняются в об-
ластях, покрываемых траекториями, исходящими из 8% или ^2
Упражнение 54 1 Найти уравнения искривленного участка по-
верхности J Показать, в частности, что плоскости 7" = const
пересекают эту поверхность по прямым линиям
Упражнение 54 2 Исследовать ситуацию, рассматривая траек-
тории, исходящие из 8*2
Упражнение 5 4 3 Для обоих новых классов траекторий найти
значение V и сравнить его со старым
5 5 ИГРА «ИЗОТРОПНЫЕ РАКЕТЫ»
Преследователь Р движется под действием силы фиксирован-
ной величины F (точнее F есть сила, действующая на единицу
массы Р, или удельная сила), направлением которой он управ-
ляет Убегающий Е обладает простым движением, скорость
его равна w Игра происходит на плоскости, платой является
время захвата
Разумеется, нетрудно придумать более сложное и естествен-
ное движение для Е, но тогда увеличится число фазовых коор-
динат, усложнятся уравнения движения и станет более трудным
общее исследование Если рассмотреть те же уравнения движе-
ния, но поменять Р и Е ролями, то мы получим задачу почти той
же трудности и во многом аналогичную прежней Если допу-
стить, что игроки могут использовать промежуточные значения
навигационных величин, \ е что скорость Е не превосходит w и
сила, которая заставляет Р передвигаться, не превосходит F, то
это йичего не изменит, поскольку для оптимальных стратегий
(читатель может убедиться в этом) игроки используют в ка-
ждый момент крайние значения w и F
Задача, вообще говоря, аналогична задаче «шофер-убийца»
Но решение последней (несмотря на то, что локальное движе-
ние обычно очень простое) включает в себя большое количество
сингулярных поверхностей, поэтому рассмотрение ее мы отло-
жим до тех глав, где мы будем лучше подготовлены теоретиче-
ски Здесь же более сложными оказываются дифференциальные
уравнения, зато решение — более гладким, для получения опти-
мальных траекторий достаточно будет проинтегрировать урав-
нения характеристик Формально можно сказать, что здесь нет
линейных вектограмм, все максим} мы и минимумы достигают-
ся на внутренних точках, и нет резких скачков }правлений,
140 Г i 5 Основиь'р примеры поверхности переключения
которые бы запугали картину Тем не менее мы найдем здесь
некоторый аналог маневра разворота (§ 1 5)
Будем считать, чго на Р действует также сила 1рения, про-
порциональная его скорости На это имеются две причины Одна
состоит в том, что при отсутствии трения скорость Р стала бы
неограниченной Х01Я рассматриваемая игра и является идеа
лизацпей, допущение неограниченной скорости все же представ
ляется чрезмерно нереальным Если сила трения равна скорости,
умноженной на —k, то предельное значение скорости равно
Fjk К этому значению асимптотически стремилась бы скорость
Р при постоянном направтении действующей силы Вторая при
чина состоит в том, что при введении трения возникает интерес
иый вопрос при каких обстоятельствах все же возможен захват,
если w>F/k? Хотя такие игры качества будут рассмотрены по j
же (гл 8 и 9), ответ на этот вопрос удается получить уже здесь
Если читатель предпочитает обойти сложности, связанные
с учетом трения, то он может полагать ? = 0 Там, где формально
этого сделать нельзя, будут даны пояснения в квадратных скоб-
ках
Введем радиус захвата />0, т е будем считать захват осу-
ществленным, если РЕ 4^.1
Начнем рассмотрение в естественном шестимерном про
странстве Позднее мы перейдем к редуцированному трехмер
ному пространству В естественном пространстве рассмотрения
будут более простыми и наглядными, а выкладки более длин-
ными
Состояние Р описывается четырьмя координатами (две коор-
динаты для положения и две для скорости) Для Е достаточно
задать две координаты положения Пусть х, у— декартовы ко-
ординаты Р, а и, v - компоненты его скорости Координаты Е
обозначим через хЕ и yF Пусть управлением первого игрока бу-
дет угол между вектором силы F и осью у, обозначенный через
ф, а угол наклона вектора скорости Е к оси у, обозначенный че
рез тф, будет управлением второго игрока
Сравнения движения тогда имеют вид
х— и,
и = f вшф — ku,
V — F COS Cf kv,
хг — w sin ф,
уЕ w cos ф.
5 5 Игра «изотропные ракеты» 141
Первые два уравнения просто показывают, чт (и, v) — скорость
движения Р Следующие два выражают его ускорение через раз-
ность между удельной движущей силой и трением Два послед-
них уравнения описывают простое движение Е
Поскольку платой является время захвата, здесь G=l
Будем обозначать частную производную от V по хь через
VxF, аналогично для уЕ Тогда основное уравнение D 2 1) при-
мет вид
uVх + vVу-\- mmf(Vu sm(p-{- l^coscf) — k(uVu 4- vVv)~\-
ч
-\~ max w(Vxt sin tj T Vyi-costy) 4- 1 =0.
Ф
Положив
получим (из леммы 2,8)
БШф= ^-, СОЭф = ^ ,
- V - V
sin ф = ——, cos ф = ——.
°Е °Е
Теперь можно написагь основное уравнение D 2 3)
-1-0.
Уравнения характеристик в регрессивной форме находим обыч-
ным способом. Имеем
о о
7Xsl \-kti, Vu-^Vк - kVu,
v — F—- ^ kv, Vv Vt kVuy
о \ F
v* j_— (??j —Ll_ у r~r-i Q
V yF Л n
142 Гл 5. Основные примеры; поверхности переключения
Терминальная поверхность if характеризуется условием
\РЕ\=1. Введем для ее описания пягь параметров:
= 5,,
U = S3,
yE = s2 + / COS 55.
Здесь координаты Р произвольны, а Е находится на расстоянии
/ от (S\, S2), причем вектор ЕР наклонен к вертикали под уг-
лом s5.
Найдем теперь допустимую область поверхности 8s'. Поло-
жим г = \РЕ\, т. е.
Тогда для точек из <? имеем
lr = (I sin 55) (w sin ф — и) + (/ cos s5) (w cos ф — v).
Допустимая область определяется условием
max г < О
ф
и состоит из тех точек поверхности 8*, для которых
•до — s3sins5 — s4coss5<0. E.5.1)
Упражнение 5.5.1. С помощью векторной диаграммы получить
этот результат геометрически. Представляя себе область за-
хвата в виде диска с центром в Р, дать наглядную интерпрета-
цию допустимой области (например, Р может использовать для
захвата лишь переднюю по отношению к направлению скорости
часть диска и т. д.).
Определим теперь V, на ?\ пополнив тем самым множество
начальных условий, необходимых для интегрирования. Так как
1'( = //)=0 на Sf. то
VSi = 0=Vx-\- VxB,
1^ = 0=
V s=Q =
5.5 Игра «изотропные ракеты» 143
Из последнего уравнения и из первых двух следует, что для
некоторого X
— V = V ГЁ = Xs'ms5,
и I/ 7 E-5.2)
— К а = 1/у? = A, cos s5. v
Подставив эти значения Vx в основное уравнение типа D.2.3),
получим уравнение для X. Оно имеет два решения, соответствуют
щих подходу к поверхности *ё (если рассматривать ее как ок-
ружность с центром в Р) изнутри и извне. Нас интересует лишь
последний случай.
Пусть s5 = 0. Для точки х, расположенной на *<?, это озна-
чает, что Е находится на расстоянии / прямо над Р. Пусть Е
движется прямо вверх (т. е. уЕ возрастает), тогда функция V
становится положительной. Следовательно, Куе>0, когда s5 = 0.
Из второго уравнения E.5.2) получаем, что Х>0.
Подстановка в основное уравнение типа D.2.3) дает
— X E3 sin s5 -г s4 cos 55) + wX -(- 1 = 0.
(Заметьте, что р = 0 на 8s, но ре—\Х\, поэтому нам нужно было
определить соответствующий знак К.)
Таким образом,
1
S3 Sin S5 + S4 COS S^ ¦
и из E.5.1) следует, что в допустимой области
Теперь уже можно приступать к интегрированию. Прежде
всего можно сразу сказать, что равенства E.5.2) выполняются
вдоль всех оптимальных траекторий (а не только на %"), по-
о о
тому что из уравнениихарактеристик мы знаем, что Vx и Vy рав-
ны нулю. Проинтегрируем теперь третье и четвертое уравнения
из правой колонки уравнений характеристик. Получим
Va = — Ь sin s5 -!-=! ,
Vv — — X cos ss -—-r-
[Если k = 0, эти соотношения превращаются в Vu = — Xr sin s5,
Vv = —Xx cos s5.]
Здесь полезно вернуться к оптимальным стратегиям Заме-
тив, что
1 _е~*т
р _ х [= 1х, если k ~ 0],
144 Гл. 5. Основные примеры; поверхности переключения
находим
sin ф = sin s-, cos ф = cos s5,
sin ф —sins5, cos ф = cos s5,
или
Итак, мы определили, что на оптимальной траектории оба
управления постоянны и равны между собой, т. е. Е движется
по прямой, а Р сохраняет постоянное направление вектора своей
движущей силы1), причем это направление совпадает с направ-
лением прямой, по которой движется Е. Последнее утвержде-
ние означает, что в момент захвата Р находится точно позади
Е (по отношению к направлению его движения).
Задача 5.5.1. В какой степени на этот результат влияют уравне-
ния движения и в какой — вид <?? Как изменится результат
с изменением типа терминальной поверхности (например, если
область захвата более сложная, чем круг)? См. в дополнении за-
дачу о траектории снаряда, где обсуждаются подобные вопросы.
Теперь задача определения оптимальной стратегии сведена
к нахождению упомянутого общего направления. Разумеется,
оно должно быть определено для всех точек из У.
Проинтегрируем левые из уравнений характеристик. В ре-
зультате получим
екх — 1 . екх — 1 — kx
&т с . екх — 1 E.5.3)
и — s3e — F sin s5—?—, v '
x, = s, + (/ — wx) sin s5.
Для у, v, Уе формулы аналогичны, только в них sin s$ заме-
няется на cos S4, a s1; S3 на S2, S4. [Если k~0, первые две фор-
мулы превращаются в
и = 53 — ^tsinsg.)
Следующим шагом для определения полного формального ре-
шения является разрешение этих шести уравнений для фазовых
координат относительно шести неизвестных sb . . . , s5, т. В част-
ности, х(х,у, ..., ць), или т(х), будет ценой игры V(x).
Если обозначить
Q(x) = l-wt-r-F- т^-^. E.5.4)
'I Если нет грения (fc = 0), траекторией Р является [ырабола.
5 J Игра «изотропные ракеты»
145
то с помощью несложных выкладок можно получить
е
хЕ — х
ти~ Q(т) sin s,;,
v =. Q iT) cos S5.
E.5.5)
E.5.6)
[Для ^=^0 имеем
Q(x)=l — ¦ у
x? — x — их = Q sin s5 и т. д.]
Теперь можно исключить s5, возводя E.5.5) и E.5.6) в ква-
драт и складывая. Это естественным образом приводит нас к
3 -
Рис. 5.5.1.
тому типу координат, который можно использовать в редуци-
рованном пространстве.
Пусть г — вектор положения Е относительно Р, т. е. г =
= (Хв — х, уЕ — У), и и — вектор скорости (и, у). После возве-
дения в квадрат и сложения получаем
г2 — 2(г -и)
E.5.7)
Это уравнение должно быть решено относительно x=V. [Для
k = 0 уравнение принимает вид
г2- 2 (г -u)t4-u2t2=Q2.]
Заметим, что для каждой конкретной игры Q — фиксирован-
ная функция1 она не зависит от фазовых координат и опреде-
ляется только параметрами. На рис. 5 5.1 приведен ее график
для
/---^3, w=^2, /=.1, k=-\. E.5.8)
10 J.ik 522
146 Г г 5 Основные примеры, поверхности переключения
Скоро мы покажем, что левая часть уравнения E.5.7) содер-
жит все фазовые координаты, которые появляются в соответ-
ствующим образом выбранном редуцированном пространстве.
Примем пока как рабочую гипотезу допущение о том, что
Q(t)>0 для всех т>0; E.5.9)
смысл этого допущения обсудим позже. Из E.5.4) следует, чго
, т->оо. E.5.10)
Тогда наше допущение E.5.9) требует, чюбы Fjk~>w, т. е. чтобы
предельная скорость Р была большей, чем скорость Е (избавим
себя от разбора случайной ситуации F/k = w).
Заметим, что при т^И) левая часть уравнения E.5 7) ограни-
чена. Кроме того, она всегда положительна. Действительно, рас-
сматривая ее как квадратный трехчлен, видим, что дискрими-
нант его отрицателен в силу неравенства Шварца
Для любой внутренней точки пространства У уравнение
E 5 7) удовлетворяется при некотором положительном т. В са-
мом деле, при г = 0
Левая часть = г2>/2 = C@J = Правая часть,
а для больших т знак неравенства изменится на противополож-
ный.
Пусть то = то(х) =хо(х, у, . . . , уЕ) — наименьшее решение урав-
нения E 5.7) [Для & = 0 уравнение E.5.7) является алгебраиче-
ским уравнением четвертой степени. Как и раньше, изменение
знака неравенства при переходе от т = 0 к большим т>0 указы-
вает на существование положительного корня.]
Нахождение корней трансцендентного [алгебраического] урав-
нения E.5.7) в сущности завершает вычислительные операции,
необходимые для получения решения задачи. Функция то(х)
представляет собой цену игры Подстановка То(х) вместо т в
E.5.5) и E 5.6) позволяет найти функцию s5(x), определенную
на всем W. Оптимальными стратегиями будут
9=^s5(x). E.5.11)
Читатель может самостоятельно провести формальную про-
верку наших выводов. Если партия начинается в точке х и иг-
роки применяют стратегии E.5.11), сохраняя их постоянными в
течение партии, можно убедиться, что функция т0, подсчитанная
для каждой последующей позиции, убывает с единичной ско-
ростью По истечении времени то она обращается в нуль (boi по-
чему мы должны брать наименьший корень) и г впервые стано-
вится равным /.
5 5 Игра «изотропные ракеты»
147
Гораздо больше информации можно извлечь из аналогичных
рассмотрений в редуцированном пространстве. Такое простран-
ство здесь трехмерно, так что можно наглядно представить себе
всю картину.
Пусть Р и Е расположены, как показано на рис. 5.5.2, а, где
стрелка означает скорость Р, равную по величине о1). Относи-
тельные координаты X и Y являются соответственно перпендику-
лярной и параллельной составляющими вектора РЕ на направ-
ление скорости Р. Примем X, Y, v за фазовые координаты в ре-
дуцированном пространстве. Тогда терминальной поверхностью
У
Е
Рис 5.5.2.
здесь будет цилиндр X2+Y2 = l2 радиуса / с осью v, a If опре-
деляется как полупространство X, Y, v, где v^-О, без внутренних
точек цилиндра (см. рис. 5.5.2,6).
Поскольку
•* 2 у 2 _|_ V2
(г • u) = vV,
U2 = V2,
уравнение E.5.7) в новых координатах имеет вид
X2 + (г — v l~fk%J = Q2(т) E.5.12)
[или X2+(Y— vxJ = Q2 для k = 0].
Исследуем теперь поверхности E.5.12) в ef, соответствую-
щие постоянному значению т. Если зафиксировать также и v, то
E.5.12) станет уравнением окружности с центром в точке ^=0,
') Не н>жно путать со старым значением у, которое здесь уже не будет
встречаться.
10*
148
Гл 5. Основные примеры; поверхности переключения
Y=v(\ — e'ht)/k и радиусом Q. Тогда этими поверхностями бу-
дут цилиндры радиуса Q, вертикальные сечения которых пред-
ставляют собой окружности, а осями являются линии
При т = 0 эти цилиндры обращаются в &.
На рис. 5.5.3 схематично показаны такие цилиндры, соответ-
ствующие малым значениям т, а на рис. 5.5.4 уже более акку-
ратно изображено сечение при у = 2,5 для конкретного случая
E.5.8).
Заметим, что окружности постоянных значений т( = 1/), когда
т мало, имеют отчетливо видимую огибающую. Две ветви этой
Рис. 5.5.3.
огибающей встречаются с <? на границе допустимой области.
То, что нам оказывается нужным лишь наименьшее из решений
уравнения E.5.7), здесь соответствует тому, что нам не нужны
окружности целиком (для малых V), а только верхние дуги,
стягивающие точки огибающих. Таким образом, между огибаю-
щими кривыми имеется гладкое семейство кривых постоянных
значений V (эти значения отмечены на рисунке), которые сли-
ваются с допустимой областью, где, разумеется, V=0.
Когда значение V около 2, огибающие оканчиваются. Начи-
ная отсюда, мы отбрасываем те дуги окружностей, которые про-
ходят через области, уже отмеченные меньшими значениями V.
Для достаточно больших V (на рисунке это не показано) мы
оставляем полные окружности.
Огибающие разделяют пространство ^ на две части, и их
можно причислить к тому типу поверхностей, который в гл. 8
и 9 будет назван барьером. Здесь барьер касается ъ в точках
5.5 Игра «изотропные ракеты»
149
границы допустимой области Барьер является поверхностью, ко-
юрая никогда не пересекается при оптимальном развитии игры
Рис. 5.5.4.
и на которой терпят разрывы как V, так и оптимальные страте-
гии. Эта поверхность отделяет начальные точки, из которых пар-
тия при оптимальном ее ходе сводится к простой прямолиней-
ной погоне, от начальных точек, которые приводят к тому, что по
150
Гл. 5. Основные примеры; поверхности переключения
аналогии с игрой «шофер-убийца» следует назвать маневром
разворота.
Если точка расположена между барьерами, как, например,
А на рис. 5.5.4, то начинающаяся из нее партия сводится к пря-
мой погоне: Е убегает прочь от Р, который преследует его по
Рис. 5.5.5.
пятам. В принятом нами редуцированном пространстве для
начальной точки, лежащей за барьером, скажем В, опти-
мальная траектория в Й3 сначала отступает от <?, затем сколь-
зит вдоль краев барьеров и достигает ?f через узкий промежу-
ток между ними. «Физически» это означает, что кинематические
5.6. Оптимальная программа производства стали 151
ограничения делают Р недостаточно ловким, чтобы сразу пря-
мо преследовать Е; Р не может настолько отклониться от сво-
его курса, чтобы помешать Е отступить в сторону. Следова-
тельно, Р должен сначала уменьшить свою скорость так, чтобы
сделать достаточно резкий поворот, а затем следовать за Е, ко-
торый теперь движется к точке, расположенной в тылу относи-
тельно начального положения Р.
Соответствующие этим случаям реальные перемещения Р и
Е изображены на рис. 5.5.5, а, б. Здесь SP и SE означают на-
чальные положения игроков, Ср и Се — их положения в момент
захвата.
На рис. 5.5.5,6 Е сворачивает к точке, расположенной в ты-
лу у Р, тем самым вынуждая последнего к более крутому
повороту. Играющий оптимально Р предвидит этот ход Е и вы-
бирает наилучшее направление движущей силы (которое совпа-
дает с направлением траектории Е). Несмотря на то что началь-
ное положение на рис. 5.5.5, а незначительно отличается от
начального положения на рис. 5.5.5, б, здесь уже Е не может
предпринять такой же маневр; он был бы быстрее схвачен, если
бы направился назад, в тыл к Р. Заметьте, что V(А) =0,8, в то
время как У(В)==3,0.
Теперь ясно, что означает допущение E.5.9) о том, что Q>0.
Если бы оно не выполнялось, то «радиус» цилиндра постоянных
значений V где-то сжимался бы до нуля и два барьера тогда
бы пересекались. Предвосхищая выводы § 9.3, где этот вопрос
подробно исследуется, заметим здесь, что если откинуть части
барьеров после их пересечения, то оставшаяся поверхность вме-
сте с *?, по-видимому, будет отделять некоторую область в %".
Для начальных точек, лежащих внутри этой области, предыду-
щие рассуждения остаются справедливыми. Внешние же точки
таковы, что если партия начинается в них и Е играет оптималь-
но, то Р никогда не сможет поймать его.
Таким образом, как уже было отмечено выше относительно
E.5.10), если Р имеет возможность осуществить захват из ка-
ждой начальной точки, то F/k>w\ это условие необходимо, но
не достаточно [см. упражнение 9.3.1 или утверждение (9.3.7).
если k = 0].
5.6. ОПТИМАЛЬНАЯ ПРОГРАММА ПРОИЗВОДСТВА СТАЛИ
Здесь мы покажем на простом примере, каким образом мож-
но применять наш метод к планированию производства некото-
рой продукции, с тем чтобы добиться 1максимального ее количе-
ства. В соответствии с нашей тенденцией ситуацию лучше пола-
гать «дифференциальной», дискретные шаги фактически должны
152 Га '> Основны" примеры, поверхности переключения
быть сглажены в непрерывный процесс. В результате мы полу-
чаем задачу долгосрочного планирования.
Пусть государство или некоторое большое предприятие при-
ступает к планированию производства стали. Предположим —
и это действительно согласуется с практикой, — что некоторое
количество из имеющейся в наличии стали должно быть выде-
лено для добавочного производства стали. В каждый текущий
момент имеющееся в наличии количество стали должно быть
разделено на три части1 на цели добавочного производства ста-
ли, для построения сталепрокатных станов и на создание запа-
сов. Мы хотим максимизировать запас стали к концу некоторого
заранее намеченного срока Т. Как мы должны действовать? Мо-
жно предположить, например, что вначале все ресурсы пере-
даются на увеличение количества прокатных станов, а когда
число их станет достаточно большим, нужно полностью переклю-
читься на производство стали Когда должен произойти такой
переход?
Пусть М — число прокатных станов в момент времени /, а
S — количество стали в этот момент. Пусть л];-и- — доля этой ста-
ли, выделенная на строительство новых прокатных станов, фз—
доля стали, выделенная на цели дальнейшего увеличения произ-
водства стали, так что
Будем считать, что скорость производства прокатных станов
прямо пропорциональна количеству стали, выделенной для этой
цели, т е.
где с>0 — некоторое положительное число. Пусть количество
новой стали, которое производится из единицы запасов стали
в единицу времени, равно а>1. Тогда скорость, с которой про-
изводится новая сталь, равна аф85, a скорость расходования
запаса равна tysS- Кроме того, сталь, выделенная на строитель-
ство прокатных станов, безвозвратно изымается из текущего за-
паса со скоростью tyuS. Таким образом,
S -= atysS — ф55 — Фм-S.
Третьей фазовой координатой является Г, время окончания про-
граммы. Итак, мы приходим к следующим уравнениям движения
5 6 Оптимальная программа производства стали 153
Количество имеющихся в наличии прокатных станов ограни-
чивает выпуск новой стали. Поэтому для некоторого Ь>0 мы
должны принять ограничение
atsS < ЬМ,
или
, , ЬМ /с г 1 \
ts<-^s~- E.6.1)
HiaK, в этой задаче величины, ограничивающие управление,
не обязательно постоянны
Примем за ^ октант М>0, S>0, Г>0 трехмерного простран-
ства; терминальной поверхностью & будет плоскость 7 = 0 Па-
раметризация для <? такова:
M = s,>0,
5 =- s2 > 0,
т = о.
Плата терминальная, поскольку наша цель — максимизиро-
вать S при 7" = 0. Следовательно,
Н = s2.
Ограничение E.6 I) имеет смысл только при bM<CaS, или, обо-
значив R = S— (b/a)M, можно сказать, что оно имеет смысл
лишь при /?>0. В соответствии с этим плоскостью <$, на кото-
рои R — 0, можно разделить '? на две части: &и где R<0, и
ef2, где /?>0. Если точка находится в <fir то это означает, что
имеется достаточно прокатных станов, чтобы переработать всю
сталь; в точках из ?% скорость производства стали ограничена
сверху имеющимся в наличии количеством прокатных станов.
На рис. 5.6.1, а изображено пространство &. Заметим, что век-
тограммы имеют треугольное «основание» в efi и трапецеидаль-
ное в &2\ это обусловлено наложенными на управления ограни-
чениями. На рис. 5.6.1,6 показано, каким образом эти ограниче-
ния определяют форму «оснований».
Основное уравнение D.2.1) здесь имеет вид
Чтобы найти 1|з, заметим, что как в ^,, так и в &2 мы макси-
мизируем линейную функцию or tyM, tys на выпуклом много-
угольнике. Максимум ее всегда достигается в вершине. На
рис. 5.6.2 указаны значения, которые принимают выражение в
фигурных скобках основного уравнения на каждой из вершин
Вершины здесь перенумерованы так же, как на рис. 5 6 1,6, где
154
Гл. 5. Основные примеры; поверхности переключения
эти номера обведены кружками; соответствующие величины обо-
значены через га, (;=1, ¦ • ¦ , 5). Мы еще будем ссылаться на эти
Рис. 5.6.1.
локальные стратегии с их номерами; например, мы будем гово-
рить, что в вершине 4 tys = bM/aS, "фм=1 —ЬМ/aS. Разумеется,
стратегии 1, 2, 3 применяются в (fi, а 1, 2, 4, 5 — в е?2.
Рис. 5.6.2.
Тот факт, что ограничения на г|з не постоянны, приводит к не-
обходимости изменить наш обычный способ получения уравне-
ний характеристик. Это изменение несложно и выражается в
том, что при дифференцировании основного уравнения по управ-
лениям мы включаем в число аргументов ipM или ipS- Поскольку
5.6. Оптимальная программа производства стали
основное уравнение D.2.3) здесь принимает вид одного из
уравнений
my —Vr = 0, у = 1 5, E.6.2)
уравнениями характеристик в регрессивной форме будут
Сделаем теперь некоторые замечания общего характера.
Величина rrij постоянна вдоль любой
оптимальной траектории. E.6.3)
Действительно, если V — гладкая функция, то из E.6.2) и
о
последнего уравнения движения следует, что m} = Q. На поверх-
ности переключения одно т} заменяется другим, но они должны
иметь одно и то же значение в момент переключения. При пере-
сечении плоскости М функции гпз, т.ь т5 совпадают, поэтому
числовые значения их равны.
Во всех точках из ?° имеем
^s>b ^ж>0- E-6.4)
В самом деле, предположим, что мы начинаем в точке
(М, S, Т) из <? и действуем оптимально. Если количество стали
увеличить на Si, мы, пренебрегая приростом, можем приме-
нять первоначальную стратегию и получить плату, равную преж-
ней цене плюс S\. Второе неравенство получаем аналогично, рас-
сматривая случай, когда мы пренебрегаем приростом количества
прокатных станов М. Разумеется, при этом можно использовать
прежние tyM, ifs, и ограничение E.6.1) здесь уже не играет роли.
Стратегия гп\ никогда не является оптимальной1). E.6.5)
Действительно, как следует из E.6.4), ml всегда мажори-
руется функцией ms или т5.
') Далее окажется, что т2 также не оптимальна. Можно ли это уста-
новить как-нибудь уже сейчас?
156 Гл 5. Основные примеры; поверхности переключения
Если обозначить Q = cVM— V&,
то
m4 — m^ = QR E.6.6)
и
m2=^QS. E.6.7)
Этот результат получается простым вычислением при использо-
вании формул для /и, (рис. 5.6.2).
Остальные начальные условия определяем, как всегда, вы-
числяя У и и Vs на <?:
Вернемся теперь к рассмотрению решения в области <?2. По-
скольку Q = — 1, R>0 на <?, из E.6.6) получаем
/Иг; > ГП4
и из E.6.7)
щ <0.
Так как ms>0, то тахт, на ^ есть т5, т. е. tys = bM/aS,
i\>m = 0. Таким образом, к концу срока планирования оказывается
целесообразным полностью переключиться на производство ста-
ли, совсем не выделяя средств для строительства прокатных
станов.
Напишем уравнения характеристик:
где
После интегрирования получаем
S = s2 -- ks{x, Vs =
Г = T, V% —^
Следовательно,
= s2 — — s,
5.6 Оптимальная программа производства стали 157
При T = Ti = s2/sife — b/ak имеем /? = 0; траектория покидает
Уя. При т=Т2=1/с& в нуль обращается Q. В силу E.6.6) следует
ожидать, что т5>га4. На каждой траектории либо R = 0, либо
Q = 0 в зависимости от относительных значений ti и т2 и, сле-
довательно, от s2/sx. Нетрудно показать, что эти два класса тра-
екторий заполняют все <f2- где Г^т2, и пересекают плоскость
с# в точках, для которых 7"<т2. Поверхность, состоящая из точек
множества <?2, для которых
E.6.8)
2~~ bc{a—\) '
аналогично должна пересекаться с этими траекториями во всех
своих точках. Мы скоро увидим, что эта поверхность является
поверхностью переключения.
Ясно, что т2 выпадает из рассмотрения, ибо из E.6.7) сле-
дует, что т2<0, когда S>0 и т<т2.
Рассмотрим теперь траектории на дальней стороне поверхно-
сти переключения. За начальные условия принимаем
S = s2, l/5 = l,
Т -= т2, VT =~ ksi
(здесь S{ — новые параметры), Принимая в качестве стратегий
значения г|эм и ^s в вершине 4 на рис. 5.6.2, получаем следующие
уравнения характеристик:
Оптимальные стратегии можно полностью определить, не
прибегая к интегрированию этих уравнений, а для нахождения
V интегрирование необходимо.
Все время, пока траектория остается в ef2, значение R дол-
жно быть положительным. Покажем, что при этом функция Q,
равная нулю при т = 0, в остальных точках положительна Тогда
из E 6.6) должно следовать, что
В самом деле,
158 Гл. 5 Основные примеры, поверхности переключения
где ki— I +bc/a>0. Обычная формула интегрирования такого
дифференциального уравнения с начальным условием Q@)=0
дает
откуда в силу E.6.4) следует наш результат, поскольку экспо-
нента всегда положительна.
Теперь покажем, что и т2 не может доминировать; из этого
будет следовать, что здесь преобладает т$. Из соотношений,
приведенных на рис. 5.6.2, и из уравнений характеристик полу-
чаем, что
т4~т2= ^M + S M
Так как всюду М^-0 и а>\, то на поверхности переключения
а
В самом деле, если это не так, обозначим через то наимень-
о
шее из значений т, для которых VM=0. Из уравнений характе-
ристик следует, что при т = т0
что невозможно, так как производная от VV не может быть по-
ложительной в своем наименьшем нуле.
Наконец покажем, что этот класс оптимальных траекторий
полностью заполняет часть области с?2, находящуюся за по-
верхностью переключения. Пусть (М, S, Т) — точка из этой ча-
сти, так что R = S— (Ь/а)М>0. Естественная (не обращенная по
времени) траектория, исходящая из этой точки, удовлетворяет
уравнениям
и поэтому
5
Пусть /о — первое из значений времени, при которых R об-
ращается в нуль (если это вообще происходит). В эгот момент
bM = aS и
S = (a — 1) 6 > 0.
5 6 Оптимальная программа производства стали 159
т с. мы получили противоречие того же типа, что и раньше За-
метим кстати, что если траектория начинается из точки плоско-
сти М (с применением стратегии 4), то те же рассуждения по-
казывают, что R>0, и поэтому естественная траектория должна
входить в ?*2-
Итак, R>0. Так как М>0, то М>0 и S = R + ~M>0.
Таким образом, траектория остается в cf 2- В конце концов она
чолжна достигнуть поверхности переключения. Следовательно,
область ^2 за поверхностью переключения заполнена, причем
траектории проходят через каждую точку плоскости S?.
Рассмотрим, наконец, cfi Покажем, что в §°i всюду
m3 > m2, E.6.9)
и в силу E.6.5) оптимальными стратегиями будут ^Л1 и \|з8 в вер-
шине 3 на рис. 5.6.2. Из соотношений, приведенных на этом ри-
сунке, и из начальных условий получаем, что на <?
mz = s2(a— 1), m2 = — s?,
и поэтому соотношение E 6 9) выполняется Оно выполняется
также и на <$ в каждой точке встречи с траекторией, идущей
из <?*2, на которой преобладает т4 или тъ, совпадающие на S?
с пгя
Покажем теперь, что если E.6.9) выполняется в начальной
точке траектории, то оно выполняется и в каждой ее точке. На-
пишем уравнения характеристик в регрессивной форме (считая,
что ^s= 1, трч = 0):
f=\, VT^=0.
Их интегралы имеют вид (индексом 0 обозначены начальные
значения)
м = м0. vM=vm,
Тогда для т>0 (или т0)
160
Г л 5 Основные примеры поверхности перек мочения
Наши утверждения следуюi из того, что ш2 остается рав
ным своей начальной величине, а в силу E 6 3) и т3 остается
постоянным
Наконец легко видеть, что траектории системы E 6 10) (со
ответствующие левым уравнениям), исходящие из ъ и <$>, за
полняют все efi
Оптимальные стратети полностью представлены на рис 5 63
В <?i где прокатных станов более чем достаточно, мы должны,
ipM = I -ЬМ/aS
- ЬМ/aS
Рис 563
как мы уже знаем, всю сталь передать для увеличения ее произ
водства На рисунке показан один типичный случаи, когда мы
начинаем из точки X в c?i Сталепроизводство продолжается
до тех пор, пока не окажутся загруженными все существующие
прокатные станы Тогда X оказывается в точке А на S? От Л
чо В прокатные станы используются на полную мощность, а из-
быток стали идет на изготовление дополнительных прокатные
станов В точке В, за время, равное ajbc{a—1) до окончания,
строительство прокатных станов прекраыается, вся сталь идет
на производство стали, г е на увеличение ее запасов Так про
должается до точки С, лежащей на %
5 7 Интегральные ограничения 161
Итак, оптимальную стратегию мы описати полностью, траек-
тории юже, по крайней мере качественно, теперь с помощью
простого интегрирования можно вычислить цену
5 7 ИНТЕГРАЛЬНЫЕ ОГРАНИЧЕНИЯ
Материал этого параграфа мы будем использовать лишь в
дополнении
В классическом вариационном исчислении встречаются за-
дачи, где траектории таковы, что один или несколько из данных
интегралов должны иметь некоторое заданное постоянное значе-
ние В общем виде это условие выглядит так
J Z(x, <f, tydt = C, E 7.1)
интеграл здесь берется вдоль траектории от начальной точки
до 5
Мы будем рассматривать задачи с одним только ограниче
нием типа E 7 1), обобщение на большее количество таких
ограничений очевидно
Введем новую фазовую координату и добавим к уравнениям
движения уравнение
xn^ = — L(\, ф, Ф) E.7 2)
Новая терминальная поверхность совпадает с прежней, и
для нее #„+1 = 0 Следуя обычному своему методу, отбрасываем
все начальные точки, кроме тех, которые лежат на плоскости
xn+i — C Условие E 7 1) будет выполнено, и наш метод позво
лит найти минимакс относительно ф- и ^-стратегий при этом
ограничении Часто новая терминальная поверхность ?? будет
иметь недостаточную размерность Тогда мы будем, как обычно
(см § 2 3), окружать терминальную кривую б окрестностью,
использовать границу этой окрестности как <?, а затем иссле-
довать предельный случай при 6—>0
Однако более логичным кажется следующий подход Мы вво
дили б-окрестность для того, чтобы получить на ней начальные
значения Vt Но можно сделать это непосредственно, приняв
Vahl = -k, E73)
где к— параметр, который задает семейство траекторий, исхо
дящих из о (размерность поверхности *? равна п—1, поэтому
<? не может определять n-параметрическое семейство траекто
рий в (и+1) мерном пространстве) Уравнение E 7 3) вместе
с обычными п— 1 начальными ^счовиями (на <?)
И Зак 522
162 Гл 5 Основные примеры, поверхности переключения
и основным уравнением D.2.3) дает систему п+\ уравнении,
которую нужно решать относительно Vi, . .. , Vn+i как функций
ОТ Si, . . . , 5n_i, Л.
В расширенной системе уравнений движения xn+i входит
лишь в одно из них, а именно в E.7.2). Следовательно, одно из
уравнений характеристик в регрессивной форме имеет вид
?Ят1 = 0. E.7.4)
Отсюда следует, что вдоль оптимальной траектории К остается
постоянным и равным своему значению на <^'.
Преимущество такого подхода заключается в возможности
с его помощью рассматривать задачи несколько иного типа.
Часто ограничение E.7.1) нас интересует лишь как крайний слу-
чай; по смыслу задачи должно выполняться условие
j L (х, ф, г|з) dt < С. E.7.5)
На практике это случается, скажем, когда имеется ограни-
ченный запас xn+i (горючего, времени и т. д.), который один из
игроков не может перерасходовать. Обычно оптимальная стра-
тегия предписывает игроку использовать весь запас, распреде-
ляя его определенным образом; тогда, чтобы задать такое огра-
ничение, достаточно условия E.7.1), хотя критерий E.7.5)
более точно описывает ситуацию
Встречаются, однако, случаи, когда слишком большой рас-
ход запасов, хотя и дозволенный ограничением, нежелателен.
В самом деле, с точки зрения минимизирующего игрока Р это
имеет место, когда, скажем, в некоторой точке х ?f
С учетом E.7.3) и E 7.4) последнее неравенство означает, что
в этой точке ^<0. Следовательно, мы добиваемся оптимального
расходования ресурсов, налагая на начальные условия ограниче-
ние
1>0. E.7.6)
Разумеется, если интеграл должен быть больше или равен С
и не может быть меньше, рассматривается ограничение л^СО.
Поясним все это простым наглядным примером Пусть я = 2,
а в качестве уравнений движения возьмем
У = g-
5 7. Интегральные ограничения
163
Тогда основное уравнение D.2.3) примет вид
= 0, E.7.7)
где черта над буквой означает, что здесь обычные ср и ф высту-
пают как аргументы. На рис. 5.7.1, а показана поверхность
?": x = X(s), y = Y(s), на ней F = tf(s); здесь же нарисованы оп-
тимальные траектории в предположении, что решение получено
нашим обычным методом. Точки плоскости над <? образуют cf.
Рис. 5.7.1.
Рассмотрим теперь другую игру, которая возникает из этой,
если мы учитываем ограничение, заданное равенством E.7.1).
К уравнениям движения добавляется
и = — L,
а основное уравнение становится таким:
= O. E.7-8)
Заметим, что ср, гр, которые теперь уже являются функциями от
х, у, Vx, Vy, Vv, не обязательно такие, как в E.7.7); то же мож-
но сказать и о функциях f, g, G.
На рис. 5.7.1,6 изображено пространство <? для новой игры.
Новая терминальная поверхность ^f лежит в плоскости и = 0
и совпадает там со старой:
= X(s), y = Y(s), u = 0.
E.7.9
Новое пространство У состоит из точек, лежащих над поверх-
ностью, которая получается сдвигом ?? на и, т. е. таких точек
(х, у, и), что х и у принадлежат пространству прежней игры,
а и>0.
164 Гл 5 Основные примеры, поверхности переключения
Множество точек (х, у, и), для которых х, у принадлежат
прежнему ©°, а и = С, обозначим через б с- Оно состоит из тех
начальных точек, которые удовлетворяют условию E.7.1).
В качестве начальных условий теперь используем E.7.9),
значения V\, полученные при решении системы
X'(s) Vx+Y'(s) Vy = H^ (как в случае без ограничения),
У» = —А,
и новое основное уравнение E.7.8) с учетом E.7 9).
Решая с этими начальными условиями систему уравнений
характеристик в регрессивной форме, полученную из прежней
о о
добавлением уравнений ii = L и Vu = 0, находим семейство тра-
екторий, исходящих из & и зависящих от двух параметров
(s и К). Таким образом, из каждой точки кривой & исходит
семейство траекторий и каждому А, соответствует одна из них.
Можно ожидать, что траектории встречают k°c на подмноже-
стве <%, как это показано на рис. 5 7.1, б
Предположим, мы ищем решение задачи, для которого усло-
вие E.7.1) должно выполняться в начальной точке (х°, у0,). Тогда
сначала найдем соответствующую точку (х°, у0, С) в ©с Если
она лежит на <$, то проходящая через нее траектория будет оп-
тимальной для расширенной задачи, а проекция этой траектории
на плоскость н = 0 будет оптимальной траекторией для игры в
первоначальном пространстве.
Если же точка (х°, у0, С) лежит вне о?', то оптимальная
траектория отсутствует, что означает, что в первоначальном
пространстве игры невозможно из этой точки достичь &, не на-
рушая условия E.7.1). Практически границу области <# обычно
можно считать предельной кривой в Ъ°с, т. с. ей соответствует
К= ею.
Заметим, что для начальной точки на кривой в <fc, для ко
торой А, = 0, оптимальная стратегия та же самая, что и в перво-
начальной игре без ограничения E.7.1). В самом деле, если
VM = ?. = 0, то ясно, что равенство E.7.1) не вносит никаких
изменений в формальные выкладки. Траектории, для которых
>„ = 0, изображены на рис 5 7.1,6, а на рис. 5.7.1, а показаны их
проекции на плоскость н = 0.
Рассмотрим теперь случай, где требуется выполнение усло-
вия типа E.7 5). Будем считать, что в невырожденной игре двух
игроков это требование предъявляется лишь к одном\ из них.
В противном случае можно ожидать, что второй игрок нарушит
это условие, а тогда для сохранения смысла игры ои должен
получить некоторую выгоду в плате, это привело бы к суще-
ственной переделке первоначальной постановки задачи Очевид-
5.7. Интегральные ограничения
165
но, что такое допущение выполняется во многих практических
случаях. Например, если один из игроков управляет движущим-
ся объектом, ограничивающий интеграл может задавать его
область движения или запас горючего, расходом которого распо-
ряжается только этот игрок. Для определенности будем считать,
что такому ограничению подчинен минимизирующий игрок Р.
Рис. 5.7.2.
Обозначим через Q множество допустимых начальных точек.
Иными словами, множеству Q принадлежат точки, для которых
поскольку для таких и только для таких точек I
Это множество ограничено поверхностью _S?\ на которой
Х = 0 (см. рис. 5.7.2, а). Поверхность „SP пересекается с плоско-
стью н = 0 по кривой ^, а с плоскостью <fc — по кривой, кото-
рую обозначим JS'c- Ориентацию будем предполагать такой,
чтобы для рис. 5.7.2, а X было отрицательным под-S^h положи-
тельным над S*1).
Предположим теперь, что в задаче без ограничения игра на-
чинается в точке (х°, у0). В задаче с ограничением в качестве
начальной точки можно взять любую точку в Q, лежащую на
горизонтальной прямой х = х°, у = у°, О^Си^СС. Оптимальной
будет та точка, для которой V имеет наименьшее значение.
Предположим сначала, что точка (х°, у0, и) лежит в <^с под
!) Мы не будем здесь устанавливать законность такого допущения Оно
выполняется в большинстве практических случаев.
166 Fj 5. Основные примеры; поверхности переключения
кривой „SPC- Тогда проведенная через нее горизонтальная прямая
о
пересекает J?" в точке К- Из уравнений движения, Vu = 0 и на-
чального условия Vu — —^ получаем, что Vu^dV/du =—Я на
всем Q. На рис. 5.7.2, б показано изменение V вдоль этой ли-
нии. Действительно, справа от точки К производная положи-
тельна, в точке К равна нулю и т. д. Следовательно, минимум
достигается в точке К, и она должна быть начальной точкой при
оптимальной игре. Поскольку в этой точке
оптимальная траектория должна быть такой же, как если бы не
было ограничения, так что Р может не учитывать его.
Если (х°, у0, и) лежит в <?с выше JSCC, то на горизонтальной
прямой
и тогда наилучшей начальной точкой будет та, у которой и = С.
Если же точка (х°, у°, и) лежит на JS'c, то оптимальной будет
траектория, для которой Я = 0. Здесь ограничение выполняется
точно и без ущерба для платы. Итак, можно сделать следующее
заключение.
Если при рассмотрении игры с ограничением в расширенном
фазовом пространстве оказывается, что в некоторой начальной
точке Я-^0, то исходящая из нее оптимальная траектория сов-
падает с оптимальной траекторией в первоначальной игре без
ограничения; но если Х>0, эти траектории различны
Заметим, что в случае, когда максимизирующий игрок связан
интегральным ограничением, это утверждение остается справед-
ливым, если в расширенной системе уравнений движения при-
нять 1/„=
Проблема 6.3.1. Каковы формальные обоснования требования,
чтобы интеграл Г Ldt зависел от поведения только одного иг-
рока?
В качестве примера рассмотрим простые классические за-
дачи изопериметрического типа. Это задачи максимизации пло-
щади, ограниченной (или частично ограниченной) кривой задан-
ной длины с различными условиями на концах. В каждом учеб-
нике вариационного исчисления приводится задача о максими-
зации площади, лежащей ниже кривой заданной длины, соеди-
няющей две точки верхней полуплоскости.
5 7 Интегральные ограничения 167
Пример 5.7.1. Классическая изопериметрическая задача. Чтобы
сформулировать и решить задачу в принятых здесь терминах,
будем считать, что кривая описывается движущейся точкой, ско-
рость которой по модулю равна единице. Уравнения движения
имеют вид
х = cos ф,
г/ = sin ф.
Площадь под этой кривой равна yxdt, поэтому в качестве
G берем функцию
G = г/совф.
Поскольку скорость единичная, длина дуги, которую описы-
вает точка, совпадает с величиной времени движения; поэтому
в условии E.7.1) надо взять L=l. Добавочным уравнением дви-
жения будет
Г = — 1.
Основное уравнение D.2.1) примет вид
max
Ф
Обозначив
получим
COS
-+ h
\р —
/)cos
V
X
f
sin»)) =
>
р
и основное уравнение D.2.3)
Уравнениями характеристик в регрессивной форме будут тогда
f=\, vr = o.
Ясно, что любая траектория, удовлетворяющая этой системе,
является дугой некоторой окружности, ибо Vx и VT постоянны,
а из основного уравнения D.2.3) следует, что и р постоянно. То-
гда, решая подсистему линейных дифференциальных уравнений
168 Г л 5. Основные примеры; поверхности переключения
для у и Vv, получаем, что
j/ + ^ = ClCos(i- + C2).
E.7-10)
Наконец отметим, что, как следует из уравнений характеристик,
х отличается от — Vy на константу.
Чтобы показать, как определяются начальные условия, возь-
мем в качестве первоначального множества & прямую J?, где
х = Х>0, и будем рассматривать начальные точки, для которых
х^СХ, if>0, T>X — х. Нам нужно найти кривую заданной длины
Т, проведенную из точки (х, у) в некоторую точку на J? и охва-
тывающую максимальную площадь снизу от нее. Итак, в новой
игре ^ есть
х = Х, y = s(>0), T = 0.
На ней Vs = 0=Vy (поскольку V=0 на
В соответствии с вышесказанным ограничимся рассмотрением
случая
Я,>0.
Тогда, используя основное уравнение D.2.3), получаем, что
Так как из физического смысла траекторий следует, что
о
х@) -=С0, то первое уравнение характеристик дает Vx + y^-0 на
&. Тогда к начальным условиям добавляется еще
Преобразовав проинтегрированные уравнения характеристик,
получаем
X — Xsin-T-,
E.7.11)
Ясно, что найденная кривая является дугой окружности ра-
диуса К с центром на Jf и ординатой s — X. Очевидно, что если
значение Т лежит в разумных пределах, найдется только одна
такая дуга длины Т, оканчивающаяся в точке (х, у) и пересе-
кающая J3? над центром окружности. А это и есть хорошо из-
вестный классический результат.
5 7 Интегральные ограничения 169
Из основного уравнения D.2.3) с очевидностью следует, что
т. е мы никогда не теряем площади из-за слишком большой
длины.
Если Т достаточно велико, мы должны отдавать себе отчет
в том, что наша постановка задачи не запрещает точке делать
более одного цикла в своем движении по круговой оптимальной
траектории. Площадь, разумеется, подсчитывается с учетом зна-
ка, как при обычных вычислениях.
Рассмотрим, наконец, предельный случай при %—>оо. Легко
видеть, что тогда уравнения E.7.11) превращаются в
х = X — х,
y = s,
Т = х.
Эти уравнения соответствуют начальным точкам, расстояние ко-
торых от %* равно Т, так что задача выбора оптимальной траек-
тории здесь отсутствует.
Упражнение 5.7Л. Решить классическую изопериметрическую
задачу для случая, когда искомая кривая должна соединять две
заданные точки в верхней полуплоскости. (Окружить одну из
точек, скажем Ри окружностью малого радиуса б для полу-
чения 8" и т. д )
Задача 5 7.1. Сделать из задачи предыдущего упражнения игру
двух игроков, заставив второго игрока Р перемещать точку Pi
простым движением со скоростью, меньшей единицы. Длина
кривой все время должна оставаться равной Т. Цель Р — мини-
мизировать площадь под кривой или хотя бы сделать невоз-
можным для Е максимизировать ее.
Трудно извлечь что-нибудь новое из такой хорошо изученной
темы, как рассмотрен-ная изопериметрическая задача. Но сле-
дующая задача отличается от классических вариантов тем, что
содержит меньше условий на концах.
Задача 5.7.2 Найти кривую (или кривые), максимизирующую
площадь под ней, если выполняется одно из следующих условий:
1) задана только длина кривой Г>0,
2) задана одна из конечных точек.
Проблема 5 7 1. Показать, что с точностью до произвольного по-
стоянного множителя (возможно, ±1) введенное в этом пара-
графе Я совпадает с множителем Лагранжа в классическом ва-
риационном исчислении.
ГЛАВА в
Рассеивающие поверхности
Разнообразие видов сингулярных поверхностей, которые мо-
гут встречаться при решении дифференциальных игр, служит
ключом к важным, часто преобладающе важным для игр явле-
ниям, которые выпадают из области собственно дифференциаль-
ных уравнений. В этой главе мы подробно рассмотрим конкрет-
ный тип сингулярных поверхностей. Другие типы будут изучены
в следующих главах Рассеивающие поверхности, будучи в прин-
ципе простыми, тем не менее часто являются носителями сме-
шанных стратегий. Поэтому в такой ситуации часто встречаются
недоразумения, которые мы попытаемся разъяснить в следую-
щих параграфах.
Первый параграф содержит классификационную схему син-
гулярных поверхностей и некоторые общие замечания об их
роли. Здесь же введено определение рассеивающих поверхностей
и приведены некоторые их примеры.
Параграф 6.7 посвящен геометрическим методам решения
некоторых игр преследования. При этом уже встречаются упо-
мянутые выше затруднения — особые точки, где задача о выборе
стратегии сперва кажется неразрешимой.
Последний параграф содержит новые примеры, часть кото-
рых представляет собой еще не решенные задачи.
6 1. СИНГУЛЯРНЫЕ ПОВЕРХНОСТИ
Как уже отмечалось, существуют две многократно повторяе-
мые стадии при отыскании решения дифференциальных игр
Одна из них, обозначаемая термином в малом, состоит в инте-
грировании уравнений характеристик в регрессивной форме; в
примерах предшествующих глав этот процесс занимал основное
место. Вторая стадия, названная термином в большом, состоит
в отыскании некоторых сингулярных поверхностей, которые, во-
обще говоря, разделяют области с различным поведением инте-
гралов уравнений характеристик
Сингулярная поверхность есть (п—1)-мерное многообразие
в cf, в точках которого регулярность поведения решения, i e.
интеграла основного уравнения, нарушается.
6 1 Сингулярные поверхности
171
Чтобы классифицировать сингулярные поверхности, будем
рассматривать, как ведут себя оптимальные траектории с двух
сторон поверхности, поскольку мы предполагаем, что поверх-
ность, расположенная внутри cf, разделяет пространство на две
области, по крайней мере в малой окрестности.
Рис 611
Имеются четыре очевидные возможности поведения траекто-
рии на каждой поверхности; введем обозначения для каждого
из этих возможных случаев:
траектории подходят к поверхности ( + );
они покидают ее (—);
они не подходят к поверхности и не покидают ее, т. е. парал-
лельны ей в близких от нее точках (р);
траектории отсутствуют @).
Поскольку каждое условие может выполняться с любой сто-
роны, всего существует 16 различных возможностей, которые
будем обозначать, например, (—, р). Далее, сама поверхность
может содержать в себе множество траекторий; будем обозна-
чать такой случай символом (и) Например, сингулярная по-
верхность на рис 6.1.1,6 относится к типу ( + , и, +).
Такая классификация включает 32 возможных случая Не
все они обязательно встречаются в действительности, как, на-
пример, «слепой мешок» ( + , +) В примерах предыдущей
главы уже появлялись поверхности переключения — поверхности,
172 Га 6. Рассеивающие поверхности
где управление резко меняет свое значение. Они представляют
собой поверхности типа ( + , —), но к тому же типу относятся
и обычные (не сингулярные) поверхности, если в каждой своей
точке они пересекаются некоторой оптимальной траекторией.
(Но если обычная поверхность является объединением опти-
мальных траекторий, то она относится к типу (р, и, р).)
Эта классификация исчерпывает все геометрические возмож-
ности взаимного расположения поверхностей и оптимальных тра-
екторий. Для большинства наших целей она вполне достаточна,
однако полное исследование в некоторых случаях требует более
тонкого подразделения в терминах локальных оптимальных
стратегий. Например, из каждой точки сингулярной поверхности
типа (—, и, —) исходят три траектории. Оптимальное поведе-
ние может состоять в том, чтобы точка х оставалась на поверх-
ности, если она находится на ней, и двигалась по какой-либо из
боковых траекторий, если х находится вблизи от поверхности.
Возможно, что все три траектории окажутся оптимальными
или же оптимальной будет некоторая смешанная стратегия
(правда, мы вскоре увидим, что последний случай невозможен)
и т. д. Далее, случай @) может означать, что решения не суще-
ствует или что существует много решений, так что все траекто-
рии оптимальны.
Но явное перечисление само по себе не составляет еще тео-
ретического построения. Нам не удалось создать общую теорию,
основанную на приведенной классификации. Напротив, способы
исследования различных типов сингулярных поверхностей очень
сильно отличаются друг от друга. Значительная часть излагае-
мого далее материала будет отведена рассмотрению конкретных
типов.
Дифференциальные игры имеют чрезвычайно разветвленную
структуру. Независимо от того, в какой степени удастся раз-
вить теорию, возникновение новых и запутанных явлений воз-
можно даже в самых безобидных случаях. Образец подобного
рода явления читатель может найти в § 6.10.
Последовательное преодоление вновь возникающих затруд-
нений выполняется обычно с помощью какого-либо нового типа
сингулярных поверхностей, которые описывают границы обла-
стей нерегулярности или служат для определения начальных
условий, порождающих новые семейства траекторий. Именно по-
тому, что теория сингулярных поверхностей, основанная на при-
веденной здесь классификации, либо является нестрогой, либо во-
все отсутствует, мы и уделяем так много внимания изучению
конкретных типов
В этой главе будет исследована поверхность типа (—, —).
изображенная для п = Ъ на рис. 6 1.1, а На рис. 6 1 1,6 пред
6 2 Рассеивающие поверхности 173
ставлен образец поверхности типа ( + , и, +), который -будет
исследован в следующей главе; здесь поверхность вместе с вхо-
дящими в нее траекториями может иметь ту же геометрическую
форму, что и предыдущая, изменяется лишь направление траек-
торий. Несмотря на внешнее сходство рисунков а и б, изобра-
женные на них сингулярные поверхности соответствуют совер-
шенно различным явлениям.
Назовем поверхность типа (—, —) рассеивающей поверх-»
ностью, а поверхность типа ( + , и, +) —универсальной. Как
мы вскоре увидим, поверхности первого типа означают, что один
или оба игрока должны решить, по которой из дв^х траекторий
покинуть поверхность. Напротив, универсальная поверхность
состоит из особо благоприятных траекторий для игрока, управ-
ляющего созданием такой поверхности, и входящие в нее траек-
тории, вообще говоря, соответствуют его предварительным уси
лиям достичь этого желаемого для него «магистральногошоссе»
6 2. РАССЕИВАЮЩИЕ ПОВЕРХНОСТИ
При рассмотрении игры погони, когда в области игры имеет-
ся какое-нибудь препятствие — скажем, круг, — встречается
один элементарный, но типичный момент. Пусть игроки пере-
двигаются простым движением, причем скорость движения Р
Рис. 6 2 1.
превосходит скорость движения Е Если в качестве платы вы-
брано время захвата, то, не прибегая к утонченным исследова-
ниям, можно видеть, что характер оптимальной траектории ча-
сто будет подобен изображенному на рис. 6.2.1.
Касательная к окружности в точке Ь, проходящая через на-
чальное положение Е, будет наилучшей траекторией для ?, в то
время как Р сперва должен двигаться вдоль касательной Ра
к точке а, затем по д>ге ab, пока не выйдет на ЬЕ, далее он
движется по ЬЕ до осуществления захвата.
Пусть теперь начальным положениям обоих игроков соответ-
ствуют точки, лежащие на прямой, проходящей через центр
174 Гл. 6. Рассеивающие поверхности
окружности О и по разные сюроны от нее. Такая симметрия
ставит игроков в затруднительное положение; у каждого есть
два одинаково хороших касательных направления, вдоль кото-
рых он может двигаться. Множество таких симметричных на-
чальных положений образует простую, но типичную рассеиваю-
щую поверхность').
Рассеивающая поверхность встречается также и в игре «шо-
фер-убийца». Если Е находится прямо позади Р и на достаточ-
но большом расстоянии от него, каждый игрок имеет пару опти-
мальных стратегий; Р, например, должен выбирать между
поворотами с максимальной кривизной вправо или влево.
6 3. ПРИРОДА РАССЕИВАЮЩИХ ПОВЕРХНОСТЕЙ
При определении рассеивающих поверхностей мы предпола-
гаем, что существуют оптимальные стратегии, т. е. что можно
использовать любую из двух оптимальных траекторий, исходя-
щих из любой точки рассеивающей поверхности. Отсюда ясно,
что движение по любой траектории из произвольной точки
поверхности приводит к одинаковой величине платы, поскольку
эта величина есть цена игры для траектории, начинающейся из
данной точки поверхности.
В играх одного игрока, разумеется, игроку безразлично, ка-
кую из траекторий выбрать, так как обе они являются опти-
мальными. Но в играх двух игроков может возникнуть харак-
терная дилемма: выбор для каждого игрока зависит от выбора
его противника. В общем для одного игрока желательна опре-
деленная пара выборов, для его противника — пара противопо-
ложных выборов, так что в этот момент они как бы участвуют
в другой элементарной игре с матрицей
1 —1
В игре погони с препятствием, например, Р и Е могут вы-
бирать в качестве оптимальных направлений 1 или 2, показан-
ные на рис. 6.3.1. Так, например, Е может выбрать направле-
ние 1, догадавшись, что Р выбирает 1 и будет преследовать его
по верхнему маршруту; здесь Ё стремится сделать свой выбор
в соответствии с выбором Р. С другой стороны, если Е оши-
бается в своих догадках относительно выбора Р, то такая ошиб-
ка выгодна для Р.
') Разумеется, в редуцированном пространстве достаточно трех коорди-
нат скажем, расстояния ОР н ОЕ и угол РОЕ. Множество точек, где этот
угол равен я, должно составлять рассеивающую поверхность.
6.3 Природа рассеивающих поверхностей 175
Эта дилемма внутренней взаимозависимости выборов здесь
не кажется серьезной, поскольку, если игра продолжается неко-
торое конечное время, можно ожидать, что х сразу переместится
с рассеивающей поверхности. Мы выходим из затруднения с по-
мощью мгновенной смешанной стратегии. Выберем некоторое
малое значение е. Пусть оба игрока принимают свои решения
об оптимальных направлениях, соответствующих матрице
F.3.1), т. е. выбирают каждую из своих возможностей с вероят-
ностью 1/2. Пусть они придерживаются сделанных выборов в
течение интервала времени е. По прошествии этого времени
состояние игры будет описываться точкой, которая уже не лежит
Рис. 6.3.1.
на рассеивающей поверхности, и далее партия продолжается
обычным путем, уходя прочь от возможности штрафа, нара-
стающего из-за ошибочных угадываний.
В теоретических задачах математического анализа неопреде-
ленность «малого» е, разумеется, нежелательна. Но в любых
практических приложениях имеется некоторая неточность, по-
могающая установить возможное значение е: например, интер-
вал времени, требуемый для того, чтобы установить, какое ре-
шение принял противник.
Однако если принять K-стратегии, то подобные затруднения
исчезают. Первое решение (на рассеивающей поверхности) яв-
ляется смешанным, остальные чистыми.
Могут существовать рассеивающие поверхности, которые не
требуют мгновенных смешанных стратегий. Когда х находится
на рассеивающей поверхности, один из игроков может столк-
нуться с выбором оптимальной стратегии, но для другого опти-
мальная стратегия единственна. Тогда ясно, что для первого
игрока выбор стратегии безразличен ').
1) Такой случай имеет место в игре «бомбардировщик и батарея», рас-
смотренной в дополнении. Когда бомбардировщик приближается по прямой
к берегу из точки, расположенной на нормали из батареи О, он имеет чве
симметричные оптимальные траектории. Но поскольку батарея одш аково об-
стреливает обе эти траектории, бомбардировщик ничего не выигрывает от
применения смешанной стратегии.
176 Гл. 6 Рассеивающие поверхности
6.4 ВОПРОС О ПОСТОЯННО ДЕЙСТВУЮЩЕЙ ДИЛЕММЕ
Эффект, получаемый от применения мгновенной смешанной
стратегии, невелик, так как практически длительность ее при-
менения мала. Но встречаются случаи, когда необходимо при-
держиваться смешанной стратегии на значительном интервале.
Мы будем называть это явление, постоянно действующей дилем-
мой. Чтобы пояснить суть таких явлений, рассмотрим следую-
щий типичный пример.
Пример 6.4.1. Игра преследования в полуплоскости. Пусть Р
и Е обладают простым движением, скорости их равны соответ-
ственно до и 1, ау>1 '). Пространство игры <?" представляет со-
бой полуплоскость; ее граница W является «стеной», сквозь ко-
торую Е не может проникнуть. Будем рассматривать лишь те
начальные положения, когда Е находится на W. В качестве
платы выбираем время захвата.
Будем сперва рассматривать захват как совпадение точек
Р и Е
Можно либо считать очевидным тот факт, что для Е лучше
всего всегда оставаться около стены, либо считать это ограни-
чение одним из условий задачи. В последнем случае мы прихо-
дим к другой имеющей существенный интерес задаче — о пере-
хвате убегающего, когда тот вынужден двигаться по заданной
прямой.
Если начальное положение игроков таково, как, скажем, на
рис. 6.4.1, а, то оптимальное развитие игры попятно: Е движется
вверх, а Р выбирает прямолинейную траекторию, которая обес-
печивает захват Е в точке С. Хорошо известно (и это легко про-
верить), что если Р осуществляет такой «курс столкновения»,
угол наклона прямой РЕ остается постоянным (отсюда очевид-
на разумность преследования вторгшегося противника по ме-
тоду движения «под постоянным углом»).
Упомянутая выше дилемма возникает в случае, когда на-
правление РЕ перпендикулярно к W. Тогда оба игрока сталки-
ваются с возможностью выбора направлений либо 1, либо 2
(рис. 6.4.1,6), как в примере игры погони с препятствием (см.
рис. 6.3.1). Допустим, что игра развивается при условии, что оба
игрока делают совпадающие выборы (например, 1 и 1); тогда
из принципа движения под постоянным углом следует, что на-
правление РЕ остается перпендикулярным к W. Тогда в каж-
дый момент игры Е может изменить направление своей ско-
рости на противоположное, не жертвуя при этом оптималь-
') Скорости ;вижения Р и С могут быть произвольны, но скорость Р
до i/Kiid бьпь больше, w есть отношение скоростей.
6 4 Вопрос о постоянно действующей дилемме
,177
ностью своей стратегии. Тот факт, что Р все время имеет в виду
возможность такого изменения направления скорости Е и, сле-
довательно, в каждый момент сталкивается с возможностью
двух выборов, указывает нам, что в этом примере мы получаем
искомый случай постоянно действующей дилеммы.
Возможно, читатель отыщет другие примеры игр, где встре-
чаются подобные явления. Как должны при этом действовать
игроки? С точки зрения теории, непрерывное применение сме-
шанных стратегий на конечном интервале кажется абсурдным.
-w
Рис. 6.4.1.
Но эта трудность вряд ли является основанием для того, чтобы
игнорировать выводы теории.
Во многих случаях, описывающих реальные явления, бывает,
что трудности обусловлены просто неудачной постановкой за-
дачи. Если терминальное многообразие имеет размерность, мень-
шую чем п— 1 (а это в самом деле так при условии точечного
захвата), то неудобство такой постановки может проявиться в
возникновении постоянно действующей дилеммы. Как только
восстанавливается подходящая размерность, затруднение сразу
исчезает. Причина становится очевидной, если игру перенести
в соответствующим образом выбранное редуцированное про-
странство. Однако вернемся к нашему примеру.
Перейдем теперь к /-захвату, т. е. восстановим подходящую
размерность поверхности ?f'. Поместим Р в центр диска ра-
диуса / (рис 6 4.2), который является областью захвата. Снова
предполагая, что в начале игры PEA.W, мы видим, что «курс
столкновения» приводит Е в некоторую точку С, а Р в точку Р(,
лежащую на отрезке СР и такую, что \СРС\—1- Заметим, что
12 Зак 522
178
Гл б Рассеивающие поверхности
при развитии игры наклон отрезка РЕ меняется: отрезок ста-
новится менее горизонтальным, пока не превращается в РСС
в момент захвата. Таким образом, перпендикулярность сразу
оказывается нарушенной и уже не восстанавливается.
Несмотря на простоту этой игры, ее формальный анализ поз-
воляет получить много интересного, что потребуется нам в сле-
дующих главах для пояснения некоторых идей.
Рис 642
Рис. 64 3
Ясно, что редуцированное пространство здесь можно сделать
двумерным с координатами х, у, как на рис. 6.4 3, а. Тогда
легко записать уравнения движения:
= — w cos
где
вид
и —1
. Основное уравнение D.2.1) здесь имеет
min max [— w (V'х cos <р + Vу sin <p) + Vу§] = — 1.
ч> Ф
Обозначив р = У V2x-\-V2y , получаем coscp = VJt./p, sincp —
v|5 — o = sgnVy и основное уравнение D.2.3) есть
— wp-\-aVy = — 1.
Напишем теперь уравнения характеристик
x = w
о
V,,
w
6 5. Построение рассеивающих поверхностей 179
Приняв s таким, как показано на рис. 6.4.3, 6 ( — л/2 <Cs<i л/2),
получим для <?
л: —/coss,
г/ = /sins.
Таким образом,
V% = 0 = /(-V%sins + V
Следовательно,
V\ >, 1/у = ^ sin
Поскольку вектор градиента (Vx, Vy) должен быть направ-
лен внутрь <?, ясно, что ^>0; нам не требуется знать конкрет-
ное значение X. Наконец, получаем
о = sgn Vy = sgn sin s = sgn s.
о
Из условия Vt = 0 ясно, что Уг сохраняют те значения, кото-
рые они имеют на if, и тогда интегрирование уравнений
x = wcoss,
y = wsins — а
с соответствующими начальными условиями дает уравнения
оптимальных траекторий
х = (/ + чт) cos s,
(/ = (/ + wx)sins -от F.4.1)
6 5. ПОСТРОЕНИЕ РАССЕИВАЮЩИХ ПОВЕРХНОСТЕЙ
Предположим, что мы находимся в той стадии процесса на-
хождения решения, когда уже проинтегрированы уравнения ха-
рактеристик в регрессивной форме с начальными условиями,
которые могут быть заданы, скажем, на <?'. Пусть, далее, мы об-
наружили, что траектории распадаются на два пересекаю-
щихся класса (причем траектории одного класса пересекают
траектории другого, а пересечение внутри классов отсутствует),
как на рис. 6.5.1. Пусть мы нашли множество точек пересечения
траекторий этих классов, для которых цена игры совпадает
для обеих траекторий; тогда это множество является рассеи-
вающей поверхностью. Фактические траектории здесь — лишь
отрезки кривых, расположенные между терминальной и рассеи-
вающей поверхностями
Чтобы проиллюстрировать только что сказанное, обратимся
к предыдущему примеру. Из уравнений F.4 1) мы видим, что
12*
180
Гл. б. Рассеивающие поверхности
соответствующие им траектории можно разбить на два класса,
а именно для случаев s>0 и s<0. Найдем точки, где две траек-
тории, каждая из своего класса, пересекаются, причем цена
Рис. 6.5.1.
О
arcsin -—
ш
Рис. 6.5.2.
игры, здесь равная т, в этой точке имеет одинаковое значение
для обеих траекторий. Тогда для любого фиксированного т>0
должны выполняться соотношения
Х = A-\- WX) COS Sj = (/ + WX) COS S2,
y = (l-\- wx) sin Sj — т = (/-)- wx) sin s2 + T>
где S!>0>s2.
Поскольку | s | -^jt/2, первое уравнение означает, что s4 =
= —s2 = s; так что второе уравнение превращается в
у~ (I -j- ¦дат) sin s — т— [(/-f- wx) sins -т],
6.6. Дальнейшие примеры 181
откуда следует, что у = 0. Итак, ось х (где х>1) является рас-
сеивающей поверхностью, причем единственной. Полная картина
траекторий изображена па рис. 6.5.2.
Напомним, что при рассмотрении первого варианта этой
игры, где захват означал совпадение точек Р и Е, нам пришлось
столкнуться с наличием постоянно действующей дилеммы. Как
она возникает, можно проследить с помощью рис. 6.5.2, поло-
жив /, радиус области захвата, равным нулю. Из рисунка ясно,
что все траектории, для которых
| sins
будут совпадать с рассеивающей поверхностью, и она станет
«предательской траекторией».
6.6. ДАЛЬНЕЙШИЕ ПРИМЕРЫ
В этом и следующих параграфах рассматриваются взятые
из различных областей примеры, такие, в которых постоянно
действующая дилемма исчезает при соответствующем выборе ?f.
Сами эти примеры довольно просты, но они помогают изучить
типичные ситуации, которые могут встретиться в более слож-
ных играх.
Пример 6.6.1. Игра преследования с одним шансом (М.Дрешер).
Этз игра представляет собой игру качества, поэтому нам жела-
тельно в некоторой степени предвосхитить методы гл. 8.
Рисунок 6.6.1, а изображает вектограммы для Р и Е; они не
зависят от положения игроков1). Цель Р— захватить Е (под
захватом здесь понимается совпадение точек Р и ?); цель Е —
избежать захвата. Ясно, что как только Р и Е проходят один
мимо другого, возможность захвата безвозвратно теряется.
Если игроки расположены так, что линия ЕР имеет наклон
45°, возникает постоянно действующая дилемма. Тогда Р дол-
жен непрерывно предугадывать намерения Е, чтобы осущест-
вить захват, а ? в свою очередь должен угадывать намерения Р,
чтобы избежать захвата.
Обозначив через х и у относительные координаты Р в си-
стеме, связанной с Е (рис. 6.6.1,6), можно использовать их как
редуцированные координаты. Вектограммы обоих игроков нари-
сованы в точке х Захват означает достижение точкой х начала
координат. Пунктирная линия соответствует точкам, где возни-
кает постоянно действующая дилемма, ибо если Е движется
') Здесь рассматриваются вектограммы одинаковых размеров, однако
наши рассуждения с незначительными изменениями подходят для сличая по-
добных вектограмм, различных по размеру.
182
Гл. б. Рассеивающие поверхности
вертикально, Р должен двигаться горизонтально, чтобы остаться
на ней, и обратно.
Теперь посмотрим, в какой степени упростится задача, если
взять область захвата конечных размеров. На рис. 6.6.2 эта об-
ласть имеет вид диска.
Из любой точки заштрихованной области, лежащей между пря-
мыми S] и S2, игрок Р может осуществить захват. Это как раз
те линии, которые мы позднее бу-
дем называть барьерами, и читатель
лучше поймет их роль в играх каче-
ства после прочтения гл. 8. Здесь
а же достаточно заметить, что если
6
Рис. 6.6.1.
Рис. 6.6.2.
точка х находится в заштрихованной области, Р может заста-
вить ее не выходить из нее, применяя вертикальный вектор,
когда точка находится достаточно близко к S,, или горизон-
тальный — когда она приближается к В^. Такое поведение
можно легко включить в некоторую определенную стратегию,
назначив определенные ограничения на приближение к Si и В2.
Аналогичные замечания можно сделать относительно пове-
дения Е, когда точка х расположена вне заштрихованной об-
ласти. Здесь Е может помешать х передвинуться в эту область
и, следовательно, может избежать захвата.
Таким образом, исход игры однозначно определен для всех
точек х, за исключением точек, лежащих на Si и В2. Но на этих
линиях стратегии обоих игроков также однозначно определены
и для каждого обусловлены угрозой чистого проигрыша. На Ви
скажем, Р должен двигаться в вертикальном направлении, а?—
в горизонтальном, т. е. каждый вынужден действовать так, что-
бы предотвратить перемещение х в нежелательную для него об-
ласть. Следовательно, оказавшись на Sf, точка х все время бу-
дет двигаться вдоль этой линии. В результате она достигнет
6.7 Геометрический метод для простых игр преследования 183
соответствующей области захвата — диска — но касательной, не
входя в нее.
Разумеется, мы можем определить такой исход либо как за-
хват, либо как избежание захвата. В гл. 8 мы объясним, почему
ни один из этих терминов здесь не подходит, и назовем такой
исход нейтральным.
Но во всех случаях постоянно действующая дилемма исче- •
зает: для всех точек x?cf можно определить однозначные стра-
тегии.
Прежде чем рассматривать дальнейшие примеры, изложим
в следующем параграфе некоторые соображения геометриче-
ского характера.
6.7. ГЕОМЕТРИЧЕСКИЙ МЕТОД ДЛЯ ПРОСТЫХ ИГР
ПРЕСЛЕДОВАНИЯ ')
Простая задача о перехватчике и бомбардировщике, описан-
ная в первой главе (пример 1.9.2), может служить иллюстра-
цией некоторых идей, которые здесь будут несколько обобщены
Будем рассматривать игры преследования, полагая для просто-
ты, что они происходят на плоскости и игроки обладают про-
стым движением.
Назовем множество точек, которых Е может достичь, не
будучи захваченным Р, независимо от действий последнего, зо-
ной безопасности, а поверхность, ограничивающую это множе-
ство, — границей зоны безопасности.
Для многих случаев игр преследования очевидно, что при
оптимальном развитии игры захват происходит в точке U, при-
надлежащей границе зоны безопасности и обеспечивающей наи-
большее значение платы для Е2). Оптимальные стратегии та-
ковы, что оба игрока будут достигать U за минимальное время,
и здесь происходит захват.
Иллюстрацией этих понятий может служить уже рассмотрен-
ный пример 1 9.2, 1де проведенный через середину отрезка РЕ
перпендикуляр является границей зоны безопасности.
Нам хочется сделать некоторые замечания относительно раз-
личных типов границ зоны безопасности. Если отношение ско-
ростей Е и Р равно w, а захват определен как совпадение
точек Р и Е, то граница зоны безопасности есть множество таких
точек U, для которых выполняется условие
F.7.1)
') Имеются в виду игры качества. — Прим перев.
2) Однако это не все1да так. Если изменить условия в примере 1.9.2,
полагая скорость Р меньшей скорости Е, то Е всегда достигает объекта.
184
Гл. 6. Рассеивающие поверхности
При гюФ\ таким множеством является хорошо известная
окружность Апполония (рис. 6.7.1). Если w<\, то Е находится
внутри этой окружности, а Р — снаружи. Отметим следующий
легко доказуемый факт.
Если Р и Е движутся прямолинейно к точке U
на окружности Апполония, то новая такая окруж-
ность, соответствующая какой-либо паре промежу- F.7.2)
точных положений Р и Е, касается первоначальной
в точке U.
Если теперь областью захвата <? считать круг радиуса /, то
граница зоны безопасности становится эллипсом
\EU\=w(\PU\—t). F.7.3)
При ш=1 множество точек U превращается в ветвь гипер-
Е
Рис. 6.7.1.
Рис. 6.7.2.
F.7.4)
болы. Стоит отметить некоторые легко доказуемые геометриче-
ские свойства этого множества (см. рис. 6.7.2).
Гипербола проходит через середину отрезка, со-
единяющего Е с ближайшей к нему точкой на %".
Асимптоты проходят через середину отрезка РЕ и
перпендикулярны к касательным, проведенным из Е
к <?. Точки Р и Е являются фокусами гиперболы.
Задача 6.7.1. Доказать сформулированное в сноске на стр. 183
утверждение: если Р и Е оба перемещаются простым движе-
нием, но скорость Е превышает скорость Р, то Р не может пред-
отвратить достижение противником прикрываемого объекта пу-
тем захвата Е Захват здесь означает выполнение условия
\РЕ\<1.
6.8. Дальнейшие примеры: футболисты, и катера-перехватчики
185
6.8. ДАЛЬНЕЙШИЕ ПРИМЕРЫ; ФУТБОЛИСТЫ
И КАТЕРА-ПЕРЕХВАТЧИКИ
Пример 6.8.1. Футболисты1). Пусть вертикальные прямые на
рис. 6.8.1 изображают боковые линии футбольного поля. Мяч
находится у нападающего Е, который стремится продвинуться
как можно дальше вверх, возможно ближе к линии ворот. Ему
противостоит один защитник Р. Оба игрока перемещаются прос-
тым движением и имеют одинаковые скорости. Будем считать,
что совпадение точек Р и Е озна-
чает перехват мяча.
Эта задача может быгь решена
с помощью того же способа, кото-
рый был применен к примеру 1.9.2.
Нарисуем перпендикуляр, проходя-
щий через середину отрезка РЕ;
легко видеть, что этот перпендику-
ляр есть граница зоны безопасности
для нашего примера; найдем самую
верхнюю его точку 0, лежащую на
футбольном поле. Оба игрока дол-
жны двигаться по направлению к
точке U, которая, вообще говоря,
должна быть точкой боковой ли-
нии.
Постоянно действующая дилемма возникает в случае, если
отрезок РЕ вертикален. Тогда перпендикуляр к нему паралле-
лен линии ворот, и все его точки с одинаковым основанием мо-
гут быть точками перехвата мяча. Здесь каждый из игроков
имеет уже не два, а континуум одинаково хороших выборов.
Возникает искушение в качестве решения предложить сле-
дующий вариант: Р должен двигаться так, чтобы точка Р все
время оставалась зеркальным отражением точки Е относи-
тельно перпендикуляра, проходящего через середину отрезка РЕ.
Но такое поведение не может быть стратегией, так как в этом
случае Р должен был бы выбирать направление движения, ис-
ходя из направления движения Е, т. е. исходя из значения
управления2). В начале книги мы уже обсуждали причины, по-
буждающие нас отклонить такой вариант решения.
Рис. 6.8.1.
') Речь идет об американском футболе. —Прим перев.
2) Однако существуют стратегии, отвечающие определению и дающие
сколь угодно точные приближения. Если Р начинает игру из положения,
близкого к точке зеркачьного отражения, он может принять в качестве своей
стратегии предписание все время двигаться к этой точке.
186
Гл. 6 Рассеивающие поверхности
Как и раньше, изменим условие задачи, считая круг радиу-
са / с центром в точке Р областью захвата. Как было установ-
лено в предыдущем параграфе, перпендикуляр должен быть за-
менен дугой гиперболы. Если теперь отрезок РЕ вертикален, не-
определенность исчезает; Р и Е оба должны двигаться прямо
вперед.
Отметим, насколько упростилась задача. Мы сразу перешли
от случая с бесконечным числом возможных выборов к случаю,
не допускающему неопределенности. Здесь даже не требуется
применения мгновенной смешанной стратегии.
У,
Рис 682
Рис. 6.8.3.
Если Е находится снизу от Р, внутри вертикальной проекции
области захвата, из соображений геометрического характера
следует, что боковые линии в основном не влияют на решение.
Ибо в этом случае, как видно из результата F.7.4), две асимп-
тоты наклонены вниз, они исходят из середины отрезка РЕ
по направлению к боковой линии. Если боковые линии нахо-
дятся на значительном расстоянии от Р и Е, ветвь гиперболы
имеет такой же наклон, и ее высшая точка должна находиться
внутри футбольного поля.
Формальное исследование, которое будет приведено ниже, со-
впадает с этим утверждением. Оно приводит к очень простому
решению, свободному от каких-либо ссылок на алгебраические
кривые, каковыми являются границы зоны безопасности. При
этом мы не будем учитывать боковые линии; а чтобы задача не
потеряла общность, для измененной таким образом игры вве-
дем новое название.
Пример 6.8.2. Простейшая игра блокирования. Из рис. 6.8.3
ясно, как выбираются фазовые координаты и управления; ско-
6 8 Дальнейшие примеры; футболисты и катера-перехватчики 187
рости Р и Е единичные, и уравнения движения имеют вид
#1 = — COS ф,
х = — sin ф — sin ф.
Плата является терминальной, Н = у2- Напишем основное
уравнение D.2.1)
min max [— (Уг cos ф + 1/3зтф)-|--A</2со5 ф — V3 sin ф)] = 0;
обозначив
получаем
—- , sin<p =—-, СО5ф = —2-, sin ф = ^
Pi Pi Рг
, sin<p , СО5ф , sin ф
Pi Pi Рг Рг
Теперь запишем основное уравнение D.2.3)
— Pi И" Р2 = °-
Для <<? мы имеем
где Sj есть угол между РЯ и вертикалью. Так как K^
на *&, то
V,, = //,, = 0 = / (V3 cos s, — Vt sin s,),
Тогда
Если si = O, т. е. захват происходит, когда Е находится в нижней
точке поверхности Ч?, то Vi = dV/dyi>0, поскольку с возраста-
нием г/i (при фиксированных г/2 и х) V также возрастает. Сле-
довательно, к>0. Из основного уравнения D.2.3) получаем
Р] ==. к = р2 = У(\ — I cos SjJ-|-A,2 sin2
откуда
2 cos s,
188
Гл 6 Рассеивающие поверхности
Теперь можно определить оптимальные стратегии и полу-
чить полную картину развития игры, не прибегая к интегриро-
ванию. Имеем
— V[ X cos s,
COS ф = —- = : = COS Sv
Pi A
Sinip — Sin Sj,
¦COSSU
откуда q> = Si = —tjj и оптимальные траектории должны выглядеть
так, как изображено на рис. 6.8.4. Из равенства скоростей,
означающего, что \P\U{ = \EU\, и из равенства углов s{ сле-
дует, что отрезок ЕР\ вертикален. Таким образом, оптимальные
стратегии находим с помощью следующего простого построения.
Рис. 6.8.5.
Из Е проводим вертикальную линию, пересекающую <? в точ-
ке Pi (нижняя точка пересечения). Проведем отрезок PPi и
продолжим его до U — точки пересечения его с перпендикуля-
ром, проведенным через середину отрезка EPi. Оба игрока дви-
жутся по направлению к U.
Если Е находится вне вертикальной проекции поверхности
<?, то из второго замечания F.7.4) о наклоне асимптот гипер-
болы следует, что, направляясь в достаточно удаленную точку
на этой кривой, он мог бы достичь сколь угодно большой платы.
Таким образом, в этом случае решения не существует.
Легко видеть, что полученный результат согласуется с ре-
шением, полученным геометрическим способом. Во-первых, [/ле-
жит на гиперболе, что вытекает из определения ее как соответ-
ствующего геометрического места точек Далее, горизонталь-
ность касательной в точке U следует из хорошо известного
6 8 Дальнейшие примеры; футболисты, и катера-перехватчики 189
свойства отражения в гиперболическом зеркале светового луча,
исходящего из фокуса: направление отраженного луча совпадает
с направлением луча, исходящего из другого фокуса.
Упражнение 6.8.1. Найти цену игры в задаче, составленной из
комбинации примеров 6.8.1 и 6.8.2, а именно рассмотреть слу-
чай, когда футбольное поле имеет боковые линии, а областью
захвата является коуг определенного радиуса. Как и раньше,
Р и Е оба обладают простым движением и одинаковыми скоро-
стями. Искомая цена игры есть расстояние до линии ворот, кото-
рого может достичь Е при оптимальных действиях обоих игроков.
Пример 6.8.3. Два катера и корабль. Имеется два катера Pi и
Рг, которые гонятся за кораблем Е. Все они обладают простым
движением, скорость каждого катера больше скорости Е.
Платой является время захвата, под которым понимается
совпадение Pi или Р2 с Е.
Геометрическое решение получаем следующим образом. На-
рисуем две окружности Апполония (одну для Pt и Е и другую
для Р2 и Е). Пересечение соответствующих им кругов (эта об-
ласть на рис. 6.8 5 заштрихована) является областью, в которой
Е спасается от обоих преследователей; он направляется в наи-
более удаленную точку U этой области; Pt и Рг делают то же
самое.
Земба 1) получил строгое доказательство (используя идеи,
совершенно отличные от наших) того, что это решение является
корректным.
Постоянно действующая дилемма возникает, когда Р4, Р2 и ?
лежат на прямой, причем Е расположен между Р1 и Рг. Тогда
существуют две точки U, одинаково удаленные от Е. К какой
из них должны направляться все три точки? Если все они все
время выбирают одно и то же направление, то они будут дви-
гаться, оставаясь расположенными на прямой, и тогда в соот-
ветствии с замечанием F.7.2) точка U остается неизменной. Мы
получаем оптимальную партию при наличии постоянно дей-
ствующей дитеммы.
Найденное Зембой решение таково, что преследователи дей-
ствуют, исходя из скорости и положения катеров, аналогично
тому как это имеет место в предыдущем примере, когда игроки
придерживаются политики «зеркального отражения», и поэтому
оно вызывает те же самые возражения.
') Мы ознакомичись с рукописью статьи Зембы об играх преследования,
но не знаем, где зта работа была опубликована (и была ли). [Здесь речь
идет, пс-видимом}. о работе Zigba A., An example of pursuit theory, Studm
Math., 22 A962), 1—6 — Ред.]
190 Гл. 6. Рассеивающие поверхности
Пусть теперь каждый преследователь снова имеет положи-
тельный радиус захвата. Ясно, что с началом погони коллинеар-
ность сразу нарушается и дилемма превращается в мгновен-
ную смешанную стратегию.
Земба указывает, что случай симметрии, когда скорости пре-
следователей одинаковы, а Е лежит в середине между ними, эк-
вивалентен игре преследования в полуплоскости (пример 6.4.1).
В самом деле, если в таком случае поместить второго пресле-
дователя в точку, которая является зеркальным отражением
первого относительно стены, то это ограничение (стену) можно
убрать, так как симметричное расположение преследователей
вынуждает Е следовать по своему прежнему маршруту. Так
что по крайней мере в этом частном случае игра двух катеров
проанализирована до конца.
6.9. СУЩЕСТВОВАНИЕ ПОСТОЯННО ДЕЙСТВУЮЩЕЙ ДИЛЕММЫ
Может ли возникнуть такая дилемма в правильно сформу-
лированной задаче? Ответ утвердителен, как видно из следую-
щего примера.
Пример 6.9.1. Игра с постоянно действующей дилеммой. Про-
странство игры с? есть верхняя полуплоскость; в качестве Ч?
выбираем ось х. Плата должна быть терминальной, Н(х) —диф-
ференцируемая гладкая функция; она имеет максимум при
х = 0 и уменьшается при х—*¦ ±оо.
Пусть уравнения движения таковы:
У=-1.
Тогда точка х имеет фиксированную компоненту скорости, на-
правленную вниз, и, следовательно, должна достичь Ч?; Е хочет
достичь о как можно ближе к прямой х=0, а Р — как можно
дальше от нее. Напишем основное уравнение D.2.3)
ФA +2 /пТ) Vx +W* - Vy = 0,
где ф =—sgn Vx, ij) = sgn Vx, и уравнения характеристик
Поверхность Ч? характеризуется равенствами
и симметрия позволяет нам рассматривать лишь случай s>0.
6.9. Существование постоянно действующей дилеммы
191
Тогда на
поэтому ф=1, \|з =— 1. Из соответствующих уравнений характе-
ристик ясно, что Vx не меняет знак, и, следовательно, эти стра-
тегии остаются неизменными. Интегрирование системы
дает траектории
х = — 2 /л, у = 1
Случай s<0 симметричен; в результате получаем картину,
изображенную на рис. 6.9.1. Ясно, что верхняя полуось у яв-
ляется рассеивающей поверхностью. На ней оба игрока могут
выбрать любую горизонтальную скорость, по модулю не превос-
ходящую единицы. Максимизирующий игрок Е стремится к тому,
О
Рис. 6.9.1.
чтобы точка х продолжала оставаться на рассеивающей поверх-
ности, поэтому он выбирает скорость, противоположную той, ко-
торую выбирает Р. Со своей стороны Р стремится сделать согла-
сованный выбор. Таким образом, все время, пока Е продолжает
удерживать х на рассеивающей поверхности, имеет место по-
стоянно действующая дилемма.
Однако и здесь концепцию постоянно действующей дилеммы
можно обойти. Действительно, предположим, что мы квантуем
игру так, чтобы игроки имели в своем распоряжении последо-
вательность малых перемещений и каждый мог бы применять
оптимальную смешанную стратегию; тогда Е проигрывает, если
х уходиг с рассеивающей поверхности и уже на нее не возвра-
192
Гл 6 Рассеивающие поверхности
щается. Вероятность каждого такого проигрыша равна '/г- Сле-
довательно, маловероятно, чтобы точка х оставалась долгое
время на рассеивающей поверхности.
Если рассматривать игру как непрерывный процесс, как пре-
дел все более мелких разбиений, по-видимому, можно считать
законным непосредственное перемещение по изображенным
траекториям. Конечно, в практических задачах мы можем де-
лать именно так.
Задача 6.9.1. Показать, что если в последнем примере первое
из уравнений движения заменить на
то траектории станут такими, как изображает рис. 6.9 2. Таким
образом, возможны траектории, на которых имеет место по-
стоянно действующая дилемма и которые не лежат на рассеи-
вающей поверхности.
Оказывается, что для этой задачи в точках, лежащих над
кривыми А, решение отсутствует. При начале игры из любой
х
О
Р и с 6 9.2.
такой точки Р может добиться сколь угодно малой платы. Та-
ким образом, кривые А являются сингулярными поверхностями
типа @, и, р).
Легко видеть, что траектории, близкие к какой-нибудь траек-
тории К., где имеет место постоянно действующая дилемма,
должны иметь то же самое направление, что и К. То есть если К
есть рассеивающая поверхность, то исходящие из нее траекто-
рии должны иметь с ней общую касательную Этот факт можно
было использовать в наших предыдущих примерах для устра-
нения вопроса о постоянно действующей дилемме, ибо в этих
примерах траектории были прямолинейными.
6 10 Разные задачи 193
b.10. РАЗНЫЕ ЗАДАЧИ
Мы уже упоминали раньше о затруднениях, неожиданно воз-
никающих при рассмотрении дифференциальных игр. С этой
точки зрения вернемся к задаче об игре с препятствием, описан-
ной в § 6.3. Эта игра преследования была помещена там просто
для того, чтобы пояснить понятие рассеивающей поверхности на
возможно более простом примере. Для начальных точек такого
типа, как изображено на помещенных выше рисунках, решение
является определенным и не требует дальнейшего исследо-
вания. Но для других случаев игра оказывается не столь простой.
Допустим, что игра начинается из положения, когда Е рас-
положен вблизи препятствия, а Р довольно далеко и с другоп
Рис. 6.10.1
стороны его, как, скажем, на рис. 6.10.1. Если игроки будут дей-
ствовать в соответствии с нашей вполне «очевидно» оптималь-
ной стратегией, они скоро окажутся в положении Ей Pi. Здесь
препятствие уже не мешает! «Очевидное» решение с очевид-
ностью оказывается некорректным, ибо пунктирная прямая на
рисунке является лучшей траекторией. По-видимому, ни одна
из идей, изложенных в настоящей книге, не подходит для реше-
ния такой игры.
Проблема 6.10.1. Каково полное решение игры с препятствием?
При рассмотрении следующей игры оказывается, что реше-
ние ее содержит рассеивающую поверхность, определяемую из
соображений явной симметрии.
Задача 6.10.1. Пусть игра описывается уравнениями движения
х = (ф — аф) и (х),
У = — и (х), — 1 < ф, ф < 1,
где 0^а<1, а и(х) —положительная функция, имеющая мини-
мум в точке х = 0\ во всех остальных точках она монотонна, не-
оо
ограничена при х=±оо и A/н(х)) dx существует.
— оо
13 Зак 522
194 Гл 6 Рассеивающие поверхности
Здесь ? есть полуплоскость у^О, а <? задается уравнениями
x — s (—oo<s<oo), y = 0 Плата интегральная, G=\
Доказать, что 1) существует единственная рассеиваю-
щая поверхность,
2) она встречается с осью х в точке 0, лежит внутри об-
ласти
|х|<A - а)у
и имеет асимптотой прямую x = k, где k удовлетворяет усло-
вию
U со
г dx Г dx
J и(х) J и{х) '
— со к
3) для случая симметрии и(х)—и{—х) этой поверхностью
является л = 0, у>0, на ней Ухф0 и разрывна
Следующая задача по настоящему трудная Хотя значение
се для военных приложений вряд ли может быть значительным
вследствие небольшого выигрыша в плате, тем не менее она
имеет некоторые новые особенности, разобраться в которых
было бы полезно для дальнейшего развития нашей теории
С другой стороны, большую практическую ценность в этой
задаче имеет вариант игры качества, т е вопрос о том, дей-
ствительно ли для самолета оказывается возможным увернуться
от снаряда, действуя указанным ниже способом Разумеется,
возможности снаряда разворачиваться нужно считать ограни-
ченными, однако он должен делать все, что в его силах, чтобы
предугадать изменение в направлении движения своей цели
Проблема 6 10 2 Существует определенный тип зенитных ракет,
которые вследствие физических свойств установленных на них
приборов лучше определяют наличие воздушной цели при за-
ходе ей в хвост, чем на встречном курсе Допустим, например,
что овал, внутри которого находится Е (рис 6 10 2, а), представ-
ляет собой границу области, в которой снаряд Р может обна
ружить цель Тогда в соответствии с принятой нами терминоло-
гией этот овал является областью захвата, и мы будем обо-
значать его *ё
Пусть Е стремится насколько возможно оттянуть время за-
хвата, т е попадания Р внутрь W Если Р и Е находятся в та-
ком положении, как изображено на рис 6 10 2, а, представ
ляется правдоподобным, что Е достигает своей цели, уклоняясь
вправо в тот момент, когда надвигается угроза захвата, и тем
610 Разные задачи 195
самым перемещая %" прочь от Р Если бы область была такой,
как, скажем, на рис 6 10 2,6, то, по-видимому, Е достигал бы
той же самой цели, поворачивая влево
Кроме обычных для дифференциальных игр вопросов, эта
игра порождает и некоторые необычные
Куда должен поворачивать самолет? (Мы утверждаем сле-
дующее когда Р расположен, как на рисунке, самолет повора
чивает влево или вправо в зависимости от знака dD/ds в точке
Рис 6 102
встречи Р с Й", поворот влево соответствует случаю dD/ds>0,
вправо — случаю dD/ds<0 Здесь D — расстояние от Е до точки
на %\ а 5 — длина дуги овала %" от линии симметрии Сравните
а и б на рис 6 10 2)
Кажется правдоподобным утверждение, что если Р нахо-
дится далеко позади, Е должен лететь прямолинейно В таком
случае, когда он должен начинать разворот?
Рассеивающая поверхность здесь должка состоять из мно
жества точек, соответствующих положениям, когда Р находится
прямо позади Е Справедливо ли утверждение, что мгновенная
смешанная стратегия применима на одной части рассепьающеи
поверхности (Р и Е близки) и не применима на другой (Р и Е
удалены на значительное расстояние)?
13»
196 Гл. 6. Рассеивающие поверхности
Пример 6.10.1. Песчаные кучи. Если на плоскую тарелку насы-
пать максимально возможное количество песка, то его поверх-
ность почти всюду будет иметь одинаковый градиент; величина
градиента является характеристической константой песка. На-
пример, круглая тарелка поддерживает песчаный конус, а про-
долговатая — нечто похожее на двухскатную крышу. Легко
представить песчаные поверхности с несколькими пиками; од-
нако на тарелках более сложной формы могут получиться пес-
чаные поверхности причудливых очертаний.
Формально, если и(х, у)—высота песчаной кучи, то функ-
ция и должна всюду, кроме гребней, удовлетворять соотно-
шению ')
=1 FЛ0л)
и условию ы = 0 на границе тарелки, которую считаем гладкой
замкнутой кривой и обозначаем через %*.
Рассмотрим теперь следующую дифференциальную игру од-
ного игрока: точка х, расположенная вначале внутри %*, пере-
мещается простым движением с единичной скоростью и стре-
мится достичь %* за минимальное время. Утверждается сле-
дующее.
График функции V (как функции от х, у) имеет ту же форму,
что и поверхность песчаной кучи; проекция гребней на плос-
кость является рассеивающей кривой.
Очевидно, что уравнения движения для этой игры имеют вид
x = cos<p, r/ = sin<p,
откуда легко получить
_ V _ V
=: *, sincp=- ?-, F.10.2)
где р = уГ^-(-^- Напишем основное уравнение D.2.3):
-р-И=0;
отсюда следует, что V удовлетворяет соотношению F.10.1).
Очевидно, что V = 0 на 8".
Для построения решения заметим, что уравнения характери-
о о
стик содержат уравнения Vx = 0 и Vy — 0, из которых с учетом
F.10.2) следует, что оптимальные траектории прямолинейны. За-
давая гладкую кривую 8я уравнениями x = X(s), y = Y(s), полу-
чаем начальные условия на 8я
') ,\помян>тая выше характеристическая константа нормирована.
6.10. Разные задачи 197
что означает, что траектории пересекают Ч? под прямым углом.
Поскольку пройденное расстояние и время (равное V) совпа-
дают (в силу единичности скорости), для получения рассеиваю-
щей поверхности можно применить предложенный в § 6.5 спо-
соб, используя в качестве V расстояние до & по внутренней
нормали. Отсюда ясно, что график функции V должен быть
непрерывной поверхностью, зависящей от формы основания пес-
чаной кучи (от формы тарелки).
Задача 6.10.2. Провести геометрическое исследование этих рас-
сеивающих кривых. Например, если %* является многоугольни-
ком, они представляют собой куски прямых и парабол. Если &
имеет «вершину» (т. е. точку, где радиус кривизны минимален),
то рассеивающая кривая оканчивается в центре соприкасаю-
щейся окружности.
Пример 6.10.2. Дама в озере. Эта занимательная задача, поме-
щенная М. Гарднером в возглавляемом им разделе журнала
Scientific American, демонстрирует еще одну особенность рас-
сеивающих поверхностей
Дама плавает в круглом озере. Джентльмен, находящийся
на берегу, старается поймать ее при выходе из воды. Он може!
бегать по берегу, скажем, в четыре раза быстрее, чем можем
плыть дама. Как ей избежать поимки1) (предполагается, что
на берегу-то уж она от него как-нибудь да убежит)? Для полу-
чения искомого решения проведем окружность^, концентриче-
скую с озером, таким образом, что отношение радиусов этой
окружности и озера равно отношению скоростей движения
джентльмена и дамы. Тогда дама внутри этой окружности мо-
жет двигаться с большей угловой скоростью, чем ее преследо-
ватель. Она добивается успеха, направляясь сперва к центру
озера, а затем двигаясь вплавь к берегу по диаметру от пре-
следователя. Тогда у нее остается время на короткий спринтер-
ский бросок по суше.
Применив наши методы, мы сможем улучшить решение.
Пусть плата выражается в терминах центрального угла между
положением Р и Е в тот момент, когда дама коснется берега.
Оптимальная стратегия для нее, когда она находится внее^, со-
стоит в том, чтобы плыть к берегу по направлению касательной
к е%'. наиболее далекой от Р.
') Когда задача ставилась в первый раз. дама плавала по озеру па
лодке Поскольку, как мне казалось, у нее не было особых причин стараться
избежать встречи, я предложил изменить формулировку задачи и заставить
ее купаться в легкомысленном костюме или вовсе без костюма Гарднер па
писал мне, что он хотел одеть ее в бикини, но редактор не сопасичея Я нд\
иа кочпромис и предоставляю читателю одеть ее по своему усмотрению
198 Г л 6 Рассеивающие поверхности
Упражнение 6.10.1. Решить задачу как дифференциальную игру
с терминальной платой Каким образом оптимальные регрес-
сивные траектории, выходящие из линии берега %, обрываются
при достижении е2Г? Каков верхний предел отношения скоростей
(Р к Е), при котором дама может избежать поимки? (Он лежит
где-то около 4, 61...).
Когда Е находится внее/Ги на диаметрально противополож-
ной стороне от Р, существуют два оптимальных пути: мы полу-
чаем рассеивающую поверхность, для которой имеется обычная
мгновенная смешанная стратегия.
Но в данном случае есть одна особенность, которой не было
в предыдущих задачах. Предположим, что Е находится на гра-
нице s/Г, а Р на диаметрально противоположной точке берега.
Тогда Е может двигаться по касательной к s/Г в любом направ-
лении. Мы предполагаем, что она перехитрит Р, приняв одно
из двух равноотимальных решений. Но она также может при-
нять и любое другое решение, так как если она приняла исход-
ное решение неверно (она видит, что Р бежит по берегу в том
же направлении, что и она), ей просто нужно вернуться в центр
озера и начать все сначала.
ГЛАВА 7
Универсальные поверхности
7 1 ВВЕДЕНИЕ
Как было установлено в предыдущей главе, универсальные
поверхности относятся к типу ( + , и, +); общий вид такой по-
верхности для трехмерного случая изображен на рис. 6.1.1,6.
Чтобы уяснить роль универсальных поверхностей в диффе-
ренциальных играх, их можно представлять себе как объедине-
ние особо благоприятных траекторий При оптимальном разви-
тии игры точка фазового пространства х должна быть достав-
лена на универсальную поверхность и там в дальнейшем
оставаться.
Мы рассматриваем игры как такие явления, суть которых
состоит в противоположности интересов игроков. Поэтому тер-
мин «благоприятная траектория», относящийся к одному игроку,
должен иметь обратный смысл для его противника. Таким об-
разом, решение использовать при оптимальной игре некоторую
поверхность как универсальную принадлежит только одному иг-
року. А оптимальная стратегия его противника на универсаль-
ной поверхности и в ее окрестности может даже оказаться не-
прерывной.
Следовательно, большая часть наших исследований будет
относиться к играм одного игрока. При этом общность теряется
лишь в незначительной степени, ибо мы можем считать второго
игрока действующим по предписанию своей оптимальной стра-
тегии, которая уже установлена. В дальнейшем мы выясним,
каким образом она устанавливается, и тем самым вернемся к
прежнему взгляду на партнеров как на конкурирующих игроков.
Введем теперь следующие определения и обозначения:
^-универсальной поверхностью назовем поверхность, на кото-
рой ф терпит разрыв, а г|з непрерывна; аналогично определение
^-универсальной поверхности
По-видимому, наиболее интересный тип универсальных по-
верхностей возникает, когда уравнения движения (а в случае
интегральной платы также и G) линейны хотя бы относительно
одного управления Пусть cpft — такое управление.
Тогда идею о рассмотрении игр одного игрока можно раз-
вить дальше, а именно рассматривать игры с единственным
200 Гл 7 Универсальные поверхности
управлением Идея эта, как и раньше, состоит в том, что мы
нредпола1аем, что все управления, кроме cpft, заменены опти-
мальными стратегиями ср;(х), i|Jj(x). Для полученной таким об-
разом игры с одним управлением основное уравнение линейно
относительно этого управления, так как линейны уравнения дви-
жения и G Пусть А — множитель при ср/; в основном уравне-
нии. Тогда при оптимальной игре, вообще говоря, срА в зависи-
мости от знака А будет принимать одно из своих крайних зна-
чений, допустимых ограничениями, а промежуточные значения
Ф/ь может принимать лишь в точках, где Л=0.
Предположим, что существует такая поверхность ?Р, в ка-
ждой точке которой Л=0, а в некоторой ее окрестности отлично
от 0 Универсальной может быть только такая поверхность, но
не обязательно она ею будет. Если А не меняет знак при пере-
ходе через &', то & может вовсе не быть сингулярной поверх-
ностью, а если меняет, то 4? может оказаться поверхностью пе-
реключения либо рассеивающей поверхностью. Действительно,
в наших примерах уже встречалась первая из этих возможнос-
тей, а что касается второй, то здесь сами Vd могут быть разрыв-
ными и А может не существовать вовсе1).
В отличие от большинства рассматриваемых в этой книге
сингулярных поверхностей, универсальных поверхностей нельзя
достичь, двигаясь по регрессивным траекториям, ведущим к
ним2) Следовательно, их нельзя найти, интегрируя уравнения
характеристик в регрессивной форме, и их расположение, вооб-
ще говоря, не зависит от %* и начальных условий.
В книге не дана полная теория. В самом деле, тема линей-
ных вектограмм и универсальных поверхностей представляется
очень обширной, и дальнейшие исследования покажут, что эта
тема, возможно, столь же большая, как и многие проблемы ва-
риационного исчисления. Мы приведем необходимые условия в
аналитической форме для случаев, где размерность прост-
ранства не превышает четырех. Для решения многих задач это-
го достаточно, но много интересных моментов все же не ис-
следовано.
Линейность вектограмм не является необходимым условием
существования универсальных поверхностей. В следующем па-
раграфе мы рассмотрим соответствующий пример из-за его ис-
торической связи с вариационным исчислением. Возможно, такие
поверхности не представляют особого интереса, и читатель мо-
жет пропустить § 7.2 без ущерба для дальнейшего чтения.
') См примеры 73 1 и 75 1, где А=иУхф0 в окрестности рассеиваю-
щей поворхчосги
2) См tnocK) 2 на cip 214 - Прим ред
7 2 Универсальные поверхности 201
7.2 УНИВЕРСАЛЬНЫЕ ПОВЕРХНОСТИ, П\ КОТОРЫХ
ПОДЫНТЕГРАЛЬНАЯ ФУНКЦИЯ ОБРАЩАЕТСЯ В П\ЛЬ
Предположим, что в игре с интегральной платой подите!
ральная функция G зависит только от хг и обращается в нуль
на некоторой поверхности <>У, а во всех остальных точках она
положительна. Тогда ?Р представляет собой геометрическое ме-
сто точек, где минимизирующий игрок Р может перемещаться
свободно в том смысле, что перемещение точки х по & не на-
казывается штрафом в виде увеличения платы Таким образом,
при некоторых обстоятельствах поверхность & может быть
ф-универсальной.
Исследование игр одного игрока (Р) в подобных случаях сов-
сем просто
Ясно, что цена V будет постоянной на ?Р. Если <?Р пересекает-
ся с %*, то эта константа равна нулю. Если пересечения не про-
исходит, то мы, применяя наш обычный метод, вычисляем V(х),
начиная от %* и продвигаясь внутрь ef до тех пор, пока не до-
стигнем ?Р Тогда наименьшее значение V(x), полученное таким
способом на аУ, и будет этой константой. Из точки (или точек)
U(:<??, где достигается наименьшее значение V, траектория1)
(или траектории) покидает &.
Используя теперь & как множество начальных условии,
обычным интегрированием уравнений характеристик в регрес-
сивной форме находим траектории, которые ведут в ef.
При оптимальном развитии игры х сначала движется вдоль
одной из этих траекторий кё?, затем по любому маршруту до-
стигает U, а отсюда следует уже по найденной оптимальной
траектории1) к%*.
Единственное, что здесь является новым, это точка зрения
на подобные явления; сами они уже давно известны Проиллю-
стрируем, как можно рассматривать некоторые классические за-
дачи вариационного исчисления с точки зрения универсальных
поверхностей.
Пример 7.2.1. Поверхность минимальной площади вращения.
Даны две точки на плоскости над осью х; найти соединяющую
их кривую, которая при вращении вокруг оси х образует поверх-
ность минимальной площади.
Решение этой задачи хорошо известно. Когда точки располо-
жены достаточно близко друг от друга и далеко от оси х, иско-
мая кривая представляет собой цепную линию Если эти уело
вия в достаточной степени нарушены, кривая превращается в
!) Имеется в вид} траектория xt(t) с прямым течением времени — Прш
перев.
202 Гл. 7. Универсальные поверхности
совокупность трех отрезков: двух перпендикуляров, опущенных
из данных точек на ось х, и отрезка оси, соединяющего их осно-
вания. Это хорошо известное «разрывное решение Гольдшмидта».
Сформулируем задачу в наших терминах.
Рассмотрим игру одного игрока, где х обладает простым
движением с единичной скоростью. Уравнения движения будут
х = cosq>,
у = sin<p.
Поскольку элементарная формула для вычисления площади
поверхности, образованной при вращении произвольной кривой,
имеет вид S = 2л \у\ ds, примем
О = \У\.
Тогда плата будет пропорциональна интересующей нас площади.
Мы используем \у\, а не у, для того чтобы можно было в каче-
стве ef взять всю плоскость х, у
Основное уравнение D.2.3) примет вид
а уравнения характеристик в регрессивной форме —
где
Кроме того,
V _ V
-, 31Пф==
Выбор условий на концах в нашем распоряжении. Случай
закрепленных концов будет отнесен в упражнение, а сейчас рас-
смотрим кривые, проведенные из некоторой точки оси у в задан-
ную точку, находящуюся справа от этой оси. Тогда ef—это
множество точек (х, у), для которых х^>0, —со < у < со, а 8я
состоит из точек, для которых х — 0, y=s.
Обычное построение оптимальных траекторий, исходящих из
?f, сразу дает нам классические непные линии. Мы будем нахо-
дить их лишь для верхней полуплоскости и поэтому примем
у>0, s>0.
7.2. Универсальные поверхности 203
Так как 1/=0 на %*, то здесь Vb = 0=Vy. Используя основное
уравнение D.2.3) (из постановки задачи ясно, что Vx^-Q), полу-
чаем еще начальные условия
Vx = | s | = s, Vy = 0.
Непосредственное интегрирование уравнений характеристик
дает
Vx = s. Vy = x,
а также уравнения оптимальных траекторий
, y = p, G.2.1)
где р= |As2 + t2.Исключение т приводит к уравнению цепной
линии y = s ch(x/s). Разумеется, в соответствии с постановкой
задачи нужно выбрать s таким образом, чтобы траектория
G.2.1) проходила через заданную начальную точку.
Для V получаем
т
j ±[ 2±f] G.2.2)
Теперь перейдем к основному, что нас интересует в этом при-
мере, а именно к нахождению ср-универсальной поверхности.
Кривая & на которой G = 0, описывается уравнениями
х = ц, у = 0,
где \i — неотрицательный параметр. Из основного уравнения
D.2.3) следует, что на &
Vx=Vy = 0.
(Так как ?? пересекается с Й5, то V=0 ъ'&'ЗР.)
Интегрируя уравнения характеристик в регрессивной форме
с этими начальными условиями, получаем, что для исходящих
из i^* траекторий
Vx = 0, Vy = ах, р = т,
х = ц, у— от.
Здесь a = sgny, и ясно, что мы используем как 0=1, так и
о = — 1. Очевидно, что эти «притоки» к if представляют собой
вертикальные линии. Непосредственно вычисляем, что на них
К = 1т2 = 1г/2. G.2.3)
Два семейства этих траекторий пересекаются на рассеиваю-
щих поверхностях. Уравнения последних по.1>чаем, приравнивая
204
Гл 7. Универсальные поверхности
два значения V G.2.2) и G.2.3). В верхней полуплоскости имеем
Если из этого уравнения и уравнений G.2.1) исключить s и
т, то получим уравнение верхней рассеивающей поверхности, ко-
торое имеет вид
х = су.
Постоянная с удовлетворяет уравнению
с ехр-о-A -\- с2) = 1 (с — 0,53 . .).
Оптимальные траектории изображены на рис. 7.2.1.
У
/
Упражнение 7.2.1. Классическая задача с закрепленными кон-
цами Пусть Q=(a, b). Возьмем в качестве ?f
s,
так что
у = b-\-b sin s,
б (— Vх sin s -\- Vу cos s) — 0.
Поступая согласно нашим обычным правилам и рассматривая
претел при б—>0, получаем на 4S
Vx = acos s,
V у = ^sins.
Найти решение, используя эти начальные условия.
7. 3. Универсальные поверхности (интуитивные соображения) - 205
Проблема 7.2.1. Игровой вариант. Пусть теперь точка Q пере-
мещается простым движением под действием управления игро-
ка Е со скоростью, меньшей единицы, так что задача превра-
щается в игру преследования. Ясно, что при некоторых обстоя-
тельствах Е может управлять типом траектории, по которой бу-
дет двигаться Р (цепная линия или ломаная, состоящая из трех
отрезков). Как стратегия игрока Е влияет на оптимальное ре-
шение?
7 3. УНИВЕРСАЛЬНЫЕ ПОВЕРХНОСТИ ДЛЯ СЛУЧАЯ ЛИНЕЙНЫХ
ВЕКТОГРАММ (ИНТУИТИВНЫЕ СООБРАЖЕНИЯ)
Для пояснения наших общих идей рассмотрим двумерную
игру одного игрока. Чтобы в такой игре могла существовать
универсальная поверхность, необходимо, чтобы плата была ин-
тегральной, В самом деле, если бы плата была терминальной,
то, как мы знаем, цена игры должна была бы быть постоянной
на каждой оптимальной траектории. Тогда она должна оставать-
ся постоянной на универсальной поверхности и на всех входя-
щих в нее траекториях, а следовательно, и в некоторой обла-
сти, содержащей универсальную поверхность. Это значит, что в
этой области все стратегии оптимальны и универсальная по-
верхность существует лишь в самом тривиальном смысле.
Итак, плата должна быть интегральной. Предположим, что
в отличие от предыдущего параграфа бфО. Для определенности
будем считать, что всегда G>0. Задача упрощается, если G не
зависит от единственного управления ф, но вскоре мы увидим,
что то, о чем мы сейчас будем говорить, применимо и для слу-
чая, когда функция G линейна относительно ср.
Пусть в некоторой области %" градиент функции V сущест-
вует и не равен нулю. (Заметим, что это не выполняется в ок-
рестности универсальной поверхности, если на ней G = 0.) Мы
покажем приближенным геометрическим способом, что тогда
универсальная поверхность может возникнуть лишь в случае ли-
нейных вектограмм.
На рис. 7.3.1, а изображена типичная линейная вектограмма.
Представим себе, что она нарисована в очень мелком масштабе,
так что векторы ее близки к фактическим возможным перемеще-
ниям точки х в течение короткого интервала. На этом же ри-
сунке изображены отдельные кривые постоянных значений V.
Пусть V возрастает в направлении, указанном стрелкой и обо-
значенном V.
Какой из векторов этой вектограммы наилучший? Очевидно,
тот, использование которого обеспечивает наибольшее умень-
шение значения V, т. е. тот, который достигает наиболее
206
Гл. 7. Универсальные поверхности
удаленной кривой в направлении убывания V. В нашем случае
это крайний левый вектор, выделенный на вектограмме жирной
линией.
Рис. 7.3.1.
Рис. 7.3.2.
Аналогично на рис. 7.3.1,6 максимальное уменьшение V до-
стигается на крайнем правом векторе.
Рис. 7.3.3.
Ясно, что критерием является направление убывания V
вдоль базовой линии (линии концов векторов вектограммы).
Промежуточный вектор может достичь линии наименьшего зна-
7. 3. Универсальные поверхности (интуитивные сппоражения)
207
чения V лишь в случае, когда убывание отсутствует или когда
базовая линия касается локальной кривой постоянного значе-
ния V. Такой случай изображен на рис. 7.3.1,0.
Допустим, имеется кривая, в каждой точке которой выпол-
няется последнее условие: таковы, например, пунктирные линии
на рис. 7.3.2, где все вектограммы имеют горизонтальные базо-
вые линии. Только такие кривые и могут быть универсальными.
Рис. 7.3.4.
Предположим, что изображенная на рис. 7.3.1, в точка лежит
на такой кривой. Из рис. 7.3.1, а и б ясно, как выглядят
вектограммы непосредственно справа и слева; на маленьких
вектограммах рис. 7.3.1,0 выделены оптимальные направления.
Таким образом, оптимальные траектории с двух сторон сходятся
к центру, и мы получаем универсальную поверхность1).
Чтобы обосновать наше утверждение о том, что линейность
вектограмм здесь существенна, рассмотрим типичную выпуклую
вектограмму, такую, как на рис. 7.3.1, г. Снова применим крите-
рий о соответствии наклона базовой линии и направления V; на
') Однако если бы кривые постоянного значения V закручивались вверх,
маленькие вектограмми нужно было бы поменять местами, и мы получили
бы рассеивающую поверхность. Но обычно на такой поверхности V; раз-
рывны, а угол наклона кривых постоянного значения V меняется скачком.
Мы предлагаем читателю попытаться построить пример, в котором эти крн
вые были бы на рассеивающей поверхности гладкими.
208 Гл. 7. Универсальные поверхности
рисунке выделен вектор, достигающий кривой минимального
значения V. В общем случае минимизирующее значение ср яв-
ляется внутренним и изменяется непрерывно в зависимости от
х, так что появление универсальной поверхности здесь невоз-
можно. Если вектограмма лишь незначительно выпукла, можно
ожидать, что оптимальные траектории будут иметь некоторое
сходство с линейным случаем, как,, например, изображено на
рис 7.3.3.
Дж. Данциг предложил использовать эту идею для нахожде-
ния универсальной поверхности. Сделав линейные вектограммы
незначительно выпуклыми, определяем траектории, а затем изу-
чаем их предельное поведение при постепенном исчезновении вы-
пуклости.
Попытаемся теперь с помощью эвристических рассуждений
понять, что происходит в случае большего числа управлений.
Рис. 7.3.4 представляет собой трехмерный аналог плоской кар-
тинки 7.3.1. Вектограммы являются конусами и линейны в том
смысле, что основания у них плоские (базовые плоскости). На-
рисованы также поверхности постоянных значений V. Те же
рассуждения, что и раньше, показывают, что особое («собираю-
щее») поведение могут иметь лишь те кривые, на которых базо-
вая плоскость локальной вектограммы касается поверхности по-
стоянного значения V. Таким образом, здесь мы получаем ско-
рее «универсальную кривую», а не поверхность.
Кажется вполне правдоподобным, что всегда линейность век-
тограмм относительно нескольких управлений может привести к
универсальным многообразиям меньшей размерности, чем по-
верхности. Интересно было бы выяснить, не является ли такое
многообразие пересечением нескольких универсальных поверх-
ностей, каждая из которых соответствует определенному управ-
лению. По-видимому, здесь перед нами обширная, пока еще не
исследованная область.
Следующий пример может пояснить все эти соображения.
Пример 7.3.1. Рассмотрим движение в верхней полуплоскости;
пусть Р пытается достичь оси х за минимальное время. Все век-
тограммы имеют такую форму, как на рис. 7.3.5, а, а длина век-
торов— заданная гладкая функция и(х,у). Пусть уравнения
движения имеют вид
х==фм(х, у),
у=?. — и{х,у), — 1<ф<1, и>0.
На рис. 7.3.5 показан приблизительный вид поверхности
и(х, у); кривые иа этом рисунке (тонкие линии) означают сече-
7.3 Универсальные поверхности (интуитивные соображения) 209
ния, перпендикулярные плоскости страницы, Ux н U2 — гребни
хребтов, a D лежит на дне долины.
Ясно, что неособые оптимальные траектории должны иметь
наклон ±45°. Поскольку ?Д и U2 представляют собой множества
точек, соответствующих большим значениям и, можно ожидать,
что они действуют как высокоскоростные магистрали и являют-
ся универсальными кривыми. Соответственно можно подозре-
вать, что кривая низких скоростей D может оказаться рассеи-
вающей.
Р и с. 7.3.5.
Первое из этих предположений, как выяснится в примере
7.5.1, правильно, а то, что второе, вообще говоря, может быть
ложным1), легко усмотреть из задачи 6.10.1 (при а = 0). Разу-
меется, если U{ и U2 обе универсальны, то между ними должна
быть рассеивающая поверхность (кривая), но она не обязатель-
но должна лежать на дне долины.
Обратите внимание, как х, начиная движение из точки типа
Х{, сначала следует к ?/ь спускается по ней до конца, затем по
наклоненной под углом —45° траектории достигает U., и по ней
движется к Х2.
Поскольку Е/, и О оканчиваются в левой части плоскости, их
должна менять знак. Это заставляет нас подозревать, что здесь
имеется поверхность переключения, потому что Р может добить-
ся выгодного отклонения точки х по направлению к области бо-
лее высоких скоростей.
') Иногда справедливость такого утверждения очевидна, например если
Г) вертикальна и является осью симметрии функции и.
14 Зак. 522
210 Гл. 7. Универсальные поверхности
Позднее мы покажем, что универсальные поверхности ха-
рактеризуются условием
я, = 0, G.3.1)
но общих критериев, с помощью которых можно было бы раз-
личать рассеивающие поверхности и поверхности переключения,
не существует; все зависит от ^ и от начальных условий.
7.4. АНАЛИТИЧЕСКИЕ НЕОБХОДИМЫЕ УСЛОВИЯ СУЩЕСТВОВАНИЯ
УНИВЕРСАЛЬНОЙ ПОВЕРХНОСТИ ДЛЯ СЛУЧАЯ
ЛИНЕЙНЫХ ВЕКТОГРАММ
Рассмотрим игру с одним управлением (и, следовательно, од-
ним игроком). В соответствии с теоремой 2.4.1 мы можем счи-
тать, что плата терминальная. В начале предыдущего параграфа
было установлено, что если такая игра имеет универсальную по-
верхность, то размерность пространства должна быть не меньше
трех.
Пусть уравнения движения имеют вид
/ = 1, ..., п, G.4.1)
где Яг и Pi — заданные функции от Xf, в дальнейшем всюду, где
это будет нужно, мы будем считать их гладкими функциями. За
ограничения всегда можно принять
— 1<Ф<1, G.4.2)
выбирая в качестве |5 вектор, проведенный к центру базовой ли-
нии, а в качестве а вектор, проведенный от этого центра до од-
ного из концов ее1). Векторы аир мы всегда будем предпола-
гать линейно независимыми.
Допустим, что для некоторой определенной игры, содержа-
щей универсальную поверхность, мы нашли V(x), которая яв-
ляется гладкой на универсальной поверхности и удовлетворяет
основному уравнению. Обозначив Л = 2a/^> получаем
Ф = (Т= — sgnA G.4.3)
всюду, где ЛфО. Аналогично положим B — ^fiiVi. Так как дви-
жению по универсальной поверхности соответствует промежу-
точное значение ср (обозначим его ц>), то на универсальной по-
верхности должно быть
Л = 0. G.4.4)
') Для некоторых задач, где более естественны и удобны другие огра-
ничения, этот способ можно легко заменить другим.
7.4. Условия существования универсальной поверхности 211
А так как здесь основное уравнение имеет вид Лф + В = 0, то
на универсальной поверхности также должно быть и
? = 0. G.4.5)
Теперь интегрируя уравнения характеристик в регрессивной
форме с использованием в качестве начальных условий универ-
сальной поверхности и значений V(\) на ней, получаем входя-
щие в нее траектории. Поскольку должны быть два различных
семейства таких траекторий, соответствующих двум сторонам
универсальной поверхности, ясно, что с одной стороны ее ср= + 1,
а с другой ф = — 1. Тогда из G.4.3) следует, что на разных сто-
ронах универсальной поверхности А имеет разные знаки.
Для входящих в универсальную поверхность траекторий по-
лучаем следующие уравнения характеристик:
где а.ц означает daildxj и т. д.
Посмотрим теперь, как меняется А, если переместиться с уни-
версальной поверхности в какую-нибудь сторону от нее. Имеем
1 И i
(здесь мы использовали равенство а;- = 2 Ujixi) • Переставляя
индексы суммирования в последней скобке, получаем
А = ~ 2 (aifij — hPj) Vt. G.4.6)
Но это выражение не зависит от а, следовательно, на обеих сто-
ронах универсальной поверхности А имеет одно и то же значе-
о
ние. Тогда Л = 0. В самом деле, предположим, что, например,
Л>0. Так как на универсальной поверхности Л=0, то на доста-
точно малом от нее расстоянии А должно быть положительным
на обеих сторонах поверхности.
Обозначив
у =_ V1 /„ о о „ \ G 4 7^
i
запишем найденное условие в виде2 Yi^ —0- Итак, доказана
212 Гл. 7. Универсальные поверхности
Теорема 7.4.1. Если в игре с одним управлением ср, тер-
минальной платой и уравнениями движения G.4.1) V(x) являет-
ся гладкой функцией на универсальной поверхности и в ее
окрестности1), то на универсальной поверхности
А =.= Ц a,V, ^ О,
i
i
2РУ/=0, G.4.8)
С =
Мы знаем, что с точки зрения полупроницаемых поверхно-
стей Vi можно рассматривать как компоненты вектора нормали
v. Тогда геометрически теорема 7.4.1 означает, что, если некая
область в W заполнена семейством полупроницаемых поверхно-
стей, движение в ней происходит в соответствии с оптимальным
значением ср (которое предупреждает пересечение поверхности),
и если эта область содержит универсальную поверхность, то в
точках последней нормаль к каждой полупроницаемой поверхно-
сти должна удовлетворять условиям
2 «Л'/ = 2 P,v, = 2 Y/V,- = 0. G.4.9)
i I I
Теорема 7.4.2. В случае линейной вектограммы функции
Vi вдоль универсальной поверхности непрерывны2).
Доказательство. Выберем координаты так, чтобы уни-
версальная поверхность лежала в плоскости xt = 0. Будем счи-
тать, что универсальная поверхность такова, что соответствую-
щие ее точкам вектограммы не лежат целиком в этой плоскости;
в наших координатах это означает, что а\ и pt одновременно не
обращаются в нуль.
Поскольку универсальная поверхность состоит из некоторого
семейства оптимальных траекторий, V на ней известна. Диффе-
ренцированием можно найти 1/2, . . . , Vn. Наконец, 1Л опреде-
ляем из уравнения Л = 0 либо 6 = 0, так как по крайней мере в
одном из них коэффициент при V\ не обращается в нуль.
Теперь, принимая ср равным ±1, можно проинтегрировать
уравнения характеристик в регрессивной форме, используя на-
чальные условия на универсальной поверхности, на которой мы
уже знаем значения Vi. В результате получаем V и У,- в не-
которой малой окрестности универсальной поверхности. Из
1) Из теоремы 7.4.2 следует, что это условие вовсе не необходимо.
2) Для краткости автор не оговаривает в формулировке теоремы суще-
ственного условия, которое приводится в следующем абзаце. — Прим. ред.
7.4. Условия существования универсальной поверхности 213
теоремы 4.8.1 следует, что полученные V* будут соответствую-
щими частными производными от У и У будет ценой игры.
Тогда, как и утверждалось, функции У,- непрерывны вдоль
универсальной поверхности, потому что с обеих ее сторон они
достигают одного и того же начального значения.
Проблема ТАЛ. Исследовать непрерывность вторых частных
производных вдоль универсальной поверхности.
Предположим, что существуют универсальные поверхности,
касающиеся плоскости вектограмм. Назовем их универсальны-
ми поверхностями с касательным подходом. (Можно выделить
еще более крайний случай, когда притоки касаются оптимальных
траекторий, лежащих в универсальной поверхности.)
Очевидно, что к таким универсальным поверхностям непри-
менимо доказательство теоремы 7.4.2 и Vi на них не обязаны
быть непрерывными.
Мы не будем рассматривать такие универсальные поверхно-
сти: мы всегда будем предполагать, что притоки (как это и слу-
чается во всех рассмотренных нами примерах) не касаются уни-
версальной поверхности.
Проблема 7.4.2. Существуют ли универсальные поверхности с ка-
сательным подходом? Если да, то какова их теория?
Непрерывность функций У,- на универсальной поверхности
оказывается полезной в двух отношениях. Во-первых, на универ-
сальной поверхности всюду удовлетворяется основное уравне-
ние. Таким образом, можно применить теорему 4.4.1 и быть
столь же уверенным в правильности решения, как в случае от-
сутствия сингулярных поверхностей.
Во-вторых, мы теперь можем высказать некоторые соображе-
ния относительно других управлений, отличных от ср. Мы счи-
тали при рассмотрении ср-универсальной поверхности, что мо-
жем предположить другие управления всюду выбранными оп-
тимально, т. е. удовлетворяющими основному уравнению. Эти
управления будут в основном простыми функциями от Х\ и W
Непрерывность по У, дает нам некоторую уверенность в том,
что они будут непрерывны на ср-универсальной поверхности.
Условия G.4.9) необходимы, но, как мы увидим далее, не до-
статочны. Поэтому мы введем новое понятие — «подозритель-
ная» универсальная поверхность. Так будет называться глад-
кая поверхность, которая
С1. удовлетворяет соотношениям G.4.9) [или G.4.8)] и
С2. представляет собой объединение множества траекторий,
удовлетворяющих уравнениям
+ — 1 <ср< 1.
214 Гл. 7. Универсальные поверхности
7.5. НЕОБХОДИМЫЕ УСЛОВИЯ ДЛЯ СЛУЧАЯ И = 3
Условия G.4.8) [или G.4.9)] не дают непосредственного ука-
зания, каким образом отыскивать подозрительные поверхности,
поскольку они включают ]/,- (или vt), которые не известны в на-
чале решения задачи.
Однако при п = 3 обстоятельства существенно упрощаются.
Так как не все компоненты vt- равны нулю, то на подозритель-
ной поверхности мы сразу получаем условие1)
«1 Р, Yi
а2 р2 Y2
«з Рз Ys
:0. G.5.1)
Это — уравнение относительно xiy оно может описывать одну
или несколько поверхностей. Каждая такая поверхность, на ко-
торой также выполняется условие С2, подозрительна, и обратно.
Процесс отыскания универсальных поверхностей для какого-
либо значения п состоит в следующем. Пусть при построении
решения мы сталкиваемся с областью в У, вокруг которой оп-
тимальные траектории рассеиваются, оставляя ее пустой, т. е.
не заполненной траекториями, как, скажем, заштрихованная об-
ласть на рис. 7.5.1, а (здесь п = 2J). Мы ищем подозрительную
поверхность. Предположим, что найдена одна траектория АВ
(рис. 7.5.1, 6) внутри пустой области. «Втекающие» траектории
будут гладко сливаться с АВ, ибо из линейности уравнений дви-
о
жения относительно ср следует, что уравнения для xt не содер-
жат Vj. Таким образом, для определенного выбранного значе-
ния а траектория зависит лишь от начальных значений Хи и по-
!) Мы ставили условие линейной независимости а и р. Если оно нару-
шается на какой-нибудь поверхности, эта поверхность может оказаться новой
разновидностью универсальной поверхности, но сравнительно тривиальной
природы; ясно, что на ней равенство G.5.1) справедливо.
2) Автор неточен: универсальная поверхность и ее притоки получаются
при регрессивном движении от цели по всем характеристикам и пустой об-
ласти при этом не образуется. Действительно, во всей этой главе рассматри-
ваются игры с одним игроком, а в этом случае доказано необходимое усло-
вие оптимальности: принцип максимума Понтрягина. Процедура нахождения
решения, предложенная Айзексом, эквивалентна отысканию траекторий, удо-
влетворяющих принципу максимума, поэтому любая оптимальная траектория,
в том числе и универсальная поверхность с ее притоками, должна формально
быть найдена при таком решении. При этом универсальная поверхность
оказывается так называемым особым решением. Следует, однако, отметить,
что все последующие выкладки автора, позволяющие находить именно уни-
версальные поверхности, безусловно важны и интересны. — Прим. ред.
7.5. Необходимые условия для случая п =
215
этому траектории, заполняющие такую область (CAB на
рис. 7.5.1,6), образуют гладкое семейство.
Итак, пустая область оказывается заполненной траектория-
ми и, следовательно, можно найти функции ф, V и V-. Насколь-
ко мы можем быть уверены, что они составляют истинное ре-
шение?
Мы уже доказали непрерывность V и частных производных •
ее вдоль универсальной поверхности. Они непрерывны также на
таких узловых траекториях, как AF и AG на рисунке, поскольку
Рис. 7.5.1.
Vi можно получить, интегрируя уравнения характеристик в ре-
грессивной форме с начальными условиями, которые, даже если
они заданы частично на универсальной поверхности, а частично
на ??, все равно непрерывны. Таким образом, мы всюду полу-
чаем решение основного уравнения, причем можно использовать
технику доказательства теоремы 4.4.1.
Пример 7.5.1, Применим найденный критерий к случаю, изобра-
женному на рис. 7.3.5.
Несколько изменив обозначения, напишем уравнения дви-
жения в примере 7.3.1:
, х2),
U (Хх, Х2),
—1<ф<1, и>0.
Третье уравнение возникает в результате нашего обычного спо-
соба преобразования интегральной платы в терминальную (см.
216
Гл. 7. Универсальные поверхности
§ 2.4; разумеется, здесь G=\). Тогда
а, --— а, а., — а3 — О,
р,=0, р2 = —и, р3=
=-- а12р2 = —
(здесь «; = du/dxt, / == 1, 2).
Определитель G.5.1) имеет вид
0 — ии9
О —и
О 1
О
Поскольку «>0, наше условие превращается в Ui = du/dXi = 0
(ср. с G.3.1)). Ясно, что оно выполняется на Uu U2 и D.
Разумеется, это требование есть не более чем обычное необ-
ходимое условие, общее для всех задач минимизации: равенство
нулю производной в точке минимума функции.
Пример 7.5.2. Кратчайший путь автомобиля, лодки или само-
лета к месту назначения. Пусть, скажем, автомобиль пе-
редвигается с фиксированной скоростью, а кривизна его траек-
тории ограничена заданным значением \/R. Управление состоит
в выборе в каждый момент определенного значения этой кри-
визны (что соответствует повороту на некоторый угол безынер-
ционного управляющего колеса или руля). Мы хотим за крат-
чайшее время перевести автомобиль из заданного начального
положения внутрь круга радиуса / с центром в фиксированной
точке А. Ввиду того что скорость считается постоянной, эквива-
лентной задачей будет отыскание траектории наименьшей длины.
Ясно, что это вариант игры «шофер-убийца» для случая, ког-
да пешеход неподвижен. Уравнения движения те же самые, что
и в примере 2.2.2, но теперь w2 (скорость движения Е) равна
нулю. Заменим Wi на ш, а вместо х, у будем писать хи х2. Тогда
уравнения движения примера 2.2.2 превращаются в
¦ w,
а чтобы преобразовать плату в терминальную, присоединяем к
ним еще уравнение
7.5. Необходимые условия для случая п=3
217
В этом трехмерном пространстве терминальная поверхность
Ч? представляет собой цилиндр с радиусом / и осью Ох3. Обыч-
ным путем получаем, что <р=±1 соответственно для правой
(xi>0) и левой (xi<0) верхних сторон терминальной поверхно-
сти. На любом ее сечении лг3 траектории будут дугами концен-
трических окружностей с центрами в точках (±^, 0), как по-
казано на рис. 7.5.2, а. Такие дуги соответствуют максимальному
<р= -
Рис. 7.5.2.
повороту руля вправо или влево; при этом траектории остав-
ляют незаполненной область, заштрихованную на рисунке. Про-
верим теперь условия С1 и С2. Мы имеем
р2 = - w,
Кроме того, вычисляя, получаем
Yi = aI2p2 = ( —-|И(- w),
Тогда
W \
0
х2
0
— W
1
R
0
0
= -?r)*i = o.
218 Гл. 7, Универсальные поверхности
Плоскость #1 = 0, по которой происходит движение при ф = 0,
является подозрительной поверхностью. Вернемся к двумерному
варианту (плоскость хи х2 и 6=1) и используем начальные ус-
ловия
Применяя их обычным способом при решении уравнений харак-
теристик, получаем «втекающие» траектории, которые также
представляют собой дуги концентрических окружностей с цен-
трами в точках (±R, 0).
Формальные подробности интегрирования уравнений харак-
теристик, получения V и т. д. мы опускаем как не представляю-
Р и с. 7.5.3.
щие большого интереса. Вместо этого отметим простоту и убе-
дительность найденного результата.
На универсальной поверхности мы получили cp = O, что соот-
ветствует движению по прямой. «Втекающие» траектории пред-
ставляют собой крутые развороты, предшествующие такому
движению. В естественном пространстве это означает, что движу-
щийся объект делает крутой поворот к цели А, а затем уже про-
должает движение по прямой линии1), как показано на рис. 7.5.3.
7.6. ПОЧЕМУ МЫ НАЗВАЛИ ТАКУЮ ПОВЕРХНОСТЬ
УНИВЕРСАЛЬНОЙ?
Название происходит от задач такого рода, как предыдущая.
Анализируя основное уравнение, соответствующее, скажем, упра-
влению лодкой, всякий, должно быть, удивится, обнаружив, что
формальные математические методы приводят к тому, что дви-
') Разумеется, этот результат не завершает решения задачи. Много инте-
ресных моментов возникает в случае, когда вначале А находится внутри
окружности минимального радиуса. См. задачу «шофер-убийца», частным
сл>чаем которой, как уже отмечалось, является рассмотренный пример.
7.7. Точка зрения вариационного исчисления 219
жение должно осуществляться лишь с помощью крутых левых и
правых поворотов. Однако все хорошо знают, что лодки не водят
таким образом. При длительном путешествии по однородному
морю путь почти всегда должен быть прямолинейным.
В последнем примере универсальная поверхность была мно-
жеством меры нуль в редуцированном пространстве ef. Однако
лишь на одном этом множестве сосредоточены все перемеще-
ния, соответствующие длительному прямолинейному путешест-
вию по морю (не считая резких поворотов вначале).
Для того чтобы подчеркнуть важность таких многообразий,
им и присвоено это (возможно, несколько претенциозное) назва-
ние — «универсальная поверхность».
7.7. ТОЧКА ЗРЕНИЯ ВАРИАЦИОННОГО ИСЧИСЛЕНИЯ
Универсальность рассматриваемых поверхностей становится
более ясной, когда выявляется их связь с уравнением Эйлера.
Мы проанализируем этот вопрос в трехмерном случае, а обоб-
щение сделаем потом, после необходимых дополнительных ис-
следований.
Рассмотрим игру на плоскости с интегральной платой, при-
чем G линейно зависит от ср. Пусть уравнения движения имеют
вид
(а;, рг являются функциями лишь от х, у), и пусть
Как упоминалось раньше (§ 5.3), такую задачу можно ре-
шать методами вариационного исчисления. В самом деле, раз-
решив уравнение
и = М-
у dx а,
относительно ф, подставим результат в
Мы свели задачу к классической задаче минимизации интеграла
типа
|" F(x, у, y')dx. G.7.3)
Уравнение Эйлера для этого примера имеет нулевой порядок,
Т. е. не является дифференциальным уравнением; оно совпадает
•220
Гл. 7. Универсальные поверхности
с условием G.5.1), которое должно выполняться на универсаль-
ной поверхности.
Упражнение 7.7.1. Провести подробные выкладки и написать яв-
ный вид функции F в G.7.3). Показать, что классическое урав-
нение Эйлера
здесь имеет вид 1)
\ г,
G 7 А\
и что это уравнение эквивалентно G.5.1), если а,, Рг не зависят
от х3.
Теперь ясна роль нашего аналитического условия для уни-
версальной поверхности. Оно относится к типу «необходимых и
-А-
w/ .. V
-X,
Рис. 7.7.1.
достаточных условий», которым уделено так много места в учеб-
никах по вариационному исчислению. Мы еще вернемся к этому
вопросу в § 7.12.
Чтобы пояснить, каким образом условие G.5.1) может об-
легчить решение задач вариационного исчисления, рассмотрим
Пример 7.7.1. Вывод автомобиля на стоянку. Автомобиль пере-
двигается так же, как в примере 7.5.2. Он расположен на боль-
шой пустой площади, место стоянки — прямая L (см. рис. 7.7.1),
Автомобиль должен приблизиться к ней под заданным углом ц,
причем сделать это за кратчайшее время.
') Напоминаем, что мы предполагаем линейную независимость аир,
поэтому знаменатели в G.7.4) не равны нулю.
7.8. Случай, когда все стратегии оптимальны
221
Можно с уверенностью сказать, что если начальное расстоя-
ние от L велико, большая часть оптимального пути будет прямо-
линейной. Новое по сравнению с примером 7.5.2 здесь заклю-
чается в том, что в конце требуется так же, как и в начале, со-
вершить поворот и подойти к стоянке под заданным углом |х.
Ограничимся пока лишь следующим вопросом: должна ли опти-
мальная траектория быть перпендикулярной к L или, предупре-
ждая финальный разворот, должна иметь наклон, близкий к |х
(как траектория, изображенная на рис. 7.7.1 пунктиром)?
Примем хи х2 за координаты редуцированного пространства,
как показано на рисунке. Уравнения движения будут тогда
иметь вид
Xj = — W COS Х2,
и так как 0=\, то к ним добавится еще
V3 —
Значения а,-, р,, у* выпишем в таблицу
'¦
1
2
3
ai
0
— w/R
0
h
— w cos x2
0
1
(on2
/?) sin лг2
0
0
— \-ш-\ sinx> — 0.
Тогда из условия G.5.1) следует, что
.Ж,
Таким образом, подозрительной кривой будет любая гори-
зонтальная линия, и, значит, оптимальная траектория, если не
считать начального и конечного поворотов, должна быть прямой,
перпендикулярной к L.
7.8. СЛУЧАЙ, КОГДА ВСЕ СТРАТЕГИИ ОПТИМАЛЬНЫ
Могут быть такие области в с?, где цена игры обеспечи-
вается любым значением ф. Мы будем рассматривать игры, опи-
сываемые лишь уравнениями типа G.7.1).
Основной результат здесь состоит в получении необходимого
условия, которому удовлетворяют такие области, причем оно
оказывается идентичным условию С1.
222 Гл. 7. Универсальные поверхности
Основное уравнение имеет вид
в + р3] = 0. G.8.1)
Если в области е^с^все ф оптимальны, то обе скобки в М рав-
ны нулю, и мы получаем систему уравнений относительно Vx и
Vy. Решая ее, находим
а2р3-а3р2 ^м у
а,р2 —а2р, у
а,р2 —а2р, *¦ >
Отсюда получаем тождество (поскольку VXy—Vyx)
My+Nx-^0, G.8.3)
которое и является условием С1 в форме G.7.4).
Обратно, если это условие выполняется в некоторой области
<й, то должна существовать некоторая функция V(x,y), удо-
влетворяющая G.8.2) и, следовательно, обращающая в нуль обе
скобки в G.8.1), т. е. тождественно удовлетворяющая основному
уравнению. Но такая функция, как известно, будет ценой игры,
только если ее частные производные совпадают с Vi на границе
области М.
Пример 7.8.1. Пусть все вектограммы имеют вид, изображенный
на рис. 7.8.1; платой будет время окончания игры, т. е. G=l.
Тогда уравнения движения будут
7.9. Рабочий критерий для случая п^4 223
Если <^ выбрать так, как на рис. 7.8.1, то сразу можно сказать,
что
в (Т) любое ф является оптимальным;
в (г) ф=1;
в (з) <р = —1;
в (?) игра не оканчивается.
Однако условие G.8.3) везде выполняется, ибо все а*, р, по-
стоянны.
Проблема 7.8.1. Исследовать связь между отсутствием опти-
мальных траекторий и условиями С1 и С2 в более общем случае.
7.9. РАБОЧИЙ КРИТЕРИИ ДЛЯ СЛУЧАЯ п>4
Если размерность пространства ef, или, что то же, число фа-
зовых координат больше трех, то основное условие
Sa/v, = Sp/V/ = SY/V/ = O G.4.9)
i i i
уже не определяет непосредственно поверхность, подозритель-
ную на универсальность. (Здесь v — вектор нормали к поверхно-
сти постоянного значения V в точках подозрительной поверхно-
сти.) В этом параграфе будет изложен способ нахождения таких
поверхностей с помощью составления дифференциальных урав-
нений, которым должна удовлетворять такая поверхность. В ос-
новном мы будем рассматривать случай п = 4, и лишь в этом
случае изучим некоторые детали; этого окажется достаточно для
почти всех последующих примеров.
Формальным результатом (по крайней мере для случая п —
= 4) будет уравнение вида
Qq> + /? = 0, G.9.1)
где Q и R — функции от х{. Если Q и R имеют общий множи-
тель, то, приравняв его нулю, мы получим уравнение поверхно-
сти, подозрительной на универсальность. То же самое имеет ме-
сто, если Q тождественно обращается в нуль при /? = 0, но если
ни одна из этих возможностей не выполняется, то из условия
G.9.1) можно выразить ф как функцию от х^:ф = ф(х). Под-
становка ее в уравнения движения
Л = а*Ф + Р/ G-4.1)
превращает последние в полную систему обыкновенных диффе-
ренциальных уравнений. Эта ситуация отличается от прежней, и
224 Гл. 7. Универсальные поверхности
примеры показывают, что она встречается довольно часто. Ин-
тегрируя уравнения G.4.1), мы можем провести подозрительную
поверхность через более или менее произвольную кривую; тем
самым наши возможности существенно возросли. Подходящую
начальную кривую следует выбирать, исходя из соображении,
относящихся к данной конкретной задаче.
Лемма 7.9.1. Пусть на ^-универсальной поверхности при-
меняется значение ср = ср. Тогда (вдоль оптимальных траекторий,
лежащих на универсальной поверхности)
Эти уравнения формально совпадают с обычными уравнения-
ми характеристик, но прежнее доказательство для них не дей-
ствительно: мы не знаем, все ли Vf дифференцируемы по направ-
лениям, пересекающим универсальную поверхность.
Первая группа уравнений следует из определения ср. Для до-
казательства второй группы уравнений выберем координаты
так, чтобы универсальная поверхность соответствовала плоско-
сти jti = O. Тогда справедливость второй группы уравнений для
i = 2, ..., п устанавливается обычным способом: дифференци-
руем основное уравнение по Xi (i = 2, . . . , п) и рассматриваем
лишь «внутренние» по отношению к универсальной поверхности
производные. Определяем К4, как в доказательстве теоремы 7.4.2.
Пусть, например, а\фО. Имеем
1-2
Мы уже знаем, как дифференцировать по т все величины, вхо-
дящие в это уравнение, кроме Vi. Следовательно, Vt можно вы-
числить из полученного соотношения. Мы оставляем читателю
формальные выкладки, которые приведут его к уравнению, до-
казывающему лемму.
Для любых двух векторных полей ос;(х) и $t(x) определим
новое векторное поле [а, р], приняв в качестве /-й компоненты
величину •)
п
[а, Р1,= 2(а^-р^ау),
/ —1
где д{ — д/дх{.
') Некоторая модификация «производной Ли».
7.9. Рабочий критерий для случая л!> 4 225
Итак, если а и р, как обычно, являются коэффициентами в
уравнениях движения, то соотношение G.4.7) можно переписать
в виде
Y = [p,a] = —[а, р].
Пусть 6j(x)—любое гладкое векторное поле. Считая, что
V — это цена игры, заданная в окрестности универсальной по-
верхности, положим
Л е м м а 7.9.2. Вдоль оптимальных траекторий в универ-
сальной поверхности
J — ^
о
Доказательство. Достаточно вычислить V, используя
уравнения леммы 7.9.1 (точно так же, как в § 7.4 при вычисле-
о
нии А использовались уравнения характеристик).
Пусть vj — компоненты произвольной гладкой нормали к по-
верхности постоянного значения V на нашей универсальной по-
верхности. Положим
Лемма 7.9.3. Если на универсальной поверхности W=0, то
там выполняется также и соотношение
Доказательство. Мы знаем, что Vi — XVi для некоторой
скалярной функции ХфО. Следовательно, W=XU и, значит, из
условия W—Q следует, что вдоль оптимальной траектории, ле-
о
жащей на универсальной поверхности, ?/=0, G = 0. Тогда
данная лемма вытекает из леммы 7.9.2.
Поскольку на универсальной поверхности Л = — 2 у^., из
i
леммы 7.9.3 следует, что
Sv,([Y, 4<?+[Y. p],) = 0. G.9.2)
i
Теперь из соотношений
2 «Л = 2 РЛ'г = 2 VjV, = 0
15 Зак. 522
226 Гл. 7. Универсальные Поверхности
можно определить V; (с точностью до скалярного множителя).
В самом деле, можно принять за v* миноры третьего порядка
(с соответствующими знаками) матрицы (а,, C,, Чь) порядка
4X3. Тогда G.9.2) превращается в условие вида G.9.1).
Для больших значений п несколько раз применим лемму
7.9.2, дифференцируя А по т до тех пор, пока полученные урав-
нения вместе с уравнениями А = В = С=0 не составят системы п
линейных однородных уравнений с п неизвестными v*. Прирав-
няв к нулю определитель этой системы, мы либо получим кон-
кретное уравнение подозрительной поверхности, либо найдем
ф(х).
Но для случая га = 4 мы будем применять это условие в дру-
гой форме. Мы получим для каждой пары индексов и и v усло-
вие, которое назовем Cuv. Поскольку пары (и, v) и (v, и) при-
ведут к эквивалентным условиям, а пара (и, и) к тождеству,
будет только 6 различных условий Cuv: по одному для каждой
пары чисел и, 0 = 1,2,3,4, где u<v. Эти условия, по-видимому,
легче применять к практическим задачам, чем условие G.9.2);
мы получаем некоторую возможность выбирать из нескольких
вариантов наиболее простой путь для вычислений.
Величины V; были уже найдены как миноры третьего порядка
матрицы (а, р, y). Положим
Ьч = \и — v;i = dj\, — dtVj
Теорема 7.9.1. Если п = 4, то в игре с одним управлением
ф, терминальной платой и линейными вектограммами поверх-
ность, подозрительная на универсальность, должна удовлетво-
рять всем условиям Cuv(u?=v), где Cuv означает
(S ajUL) Ф + B t)UL) = 0. G.9.3)
Доказательство1). Мы должны показать, что все ус-
ловия Cuv эквивалентны условию G.9.2). Для простоты рассмо-
трим лишь Ci2. Ту же идею можно применить для любой пары
индексов.
Поскольку Ai2 = —A21, первые два слагаемых в первой сумме
левой части G.9.3) имеют вид
— «2^12 = — («1V1 4- a2v2) Д21 = (a3v3 + a4
') С благодарностью Джозефу Брэму.
7.9. Рабочий критерий для случая
227
а вся первая сумма в левой части G.9.3), или Q в формуле
G.9.1), равна
«3 (V,A23 — V2^
«4 (—
или, что то же,
О 0 — оц а3
д2
v2
v3 v4
v3 v4
G.9.4)
Здесь порядок сомножителей в слагаемых должен соответство-
вать движению сверху вниз; иными словами, д, действуют лишь
на последнюю строку.
Исследование второй суммы в формуле G.9.3), или R в фор-
муле G.9.1), дает такой же результат, но только в верхней стро-
ке а заменяется на р.
Такая детерминантная форма условия G.9.3) может ока-
заться предпочтительной для аналитика. При образовании опре-
делителей для общего условия Cuv правило состоит в том, что
верхние элементы столбцов и и v надо заменить нулями, а в дру-
гих двух столбцах естественный порядок оставшихся элементов
a.j или Pj изменить, и один из них взять с противоположным зна-
ком. Положим
,,¦ а,- а
Р/ Ру
Ра
Ун
G.9.5)
(Легко видеть, что при транспозиции индексов эта величина ме-
няет знак, а если какие-нибудь два индекса равны, то обра-
щается в нуль.)
Заменив v,- в нижней строке определителя G.9.4) их выра-
жениями в виде миноров третьего порядка, мы получим в каче-
стве нижней строки
Щи ~тт тт — тт. G.9.6)
Тогда определитель G.9.4) будет равен
— «3 ( 2.
\i, 1
G.9.7)
В самом деле, проверим коэффициент при сс3 в разложении опре-
делителя; у него будет пара индексов г, /, где 1ф] и оба они от-
личны от 4. Знаки будут такими же, как в формуле G.9.7) (в
данном случае отрицательными). Действительно, легко видеть,
что, несмотря на вид определителя G.9.4), который, казалось бы,
15*
228 Гл. 7. Универсальные поверхности
должен привести к перемене знака, этого не происходит из-за
транспозиций индексов у пг (точно так же все члены, умножаю-
щиеся на СС4, берутся со знаком плюс). Поскольку пары индек-
сов /, /, равных друг другу или четырем, ведут к образованию
нулевых членов, их можно безболезненно включить в сумму.
Итак, коэффициенты при а3 и а4 в G.9.7) имеют вид
Svi^my* (? = 3,4). G.9.8)
Рассмотрим, как действует д} на определитель G.9.5). Имеем
где оператор dj действует в Dc лишь на столбец с номером с. Но
D2 и D3 вносят нулевой вклад в выражение G.9.8), так как
умножать их на v* (для образования G.9.8)) и складывать можно
лишь с помощью первого столбца, а тогда после сложения этот
столбец будет состоять из элементов 2 afV;, 2 P/V,-, 2 Yivj. каж-
l i i
дый из которых равен нулю. Таким образом, G.9.8) принимает
вид
fij h
G.9.9)
jVt Yy Y
Разлагая этот определитель по последнему столбцу и суммируя
по /, получаем
2 Р* [Y. a]( + Y*[P.4)- G-9.10)
Последняя скобка равна yt, и так как после суммирования она
дает нуль, ее можно отбросить.
Если G.9.10) подставить в G.9.7), то получим
R = — a3 S v, (a4 [Y. P]i — h [Y. а],) + а42^(а3 [у, р], — р3 [y, a],)=
Если так же вычислить Q в формуле G.9.1), то единственное
отличие будет состоять в том, что величины а вне суммы в вы-
ражении для R будут заменены на р, и в результате будет
Q = (a3p4 —ma4)Svj[Y. РЬ-
Итак, левая часть формулы G.9.1) равна левой части фор-
мулы G.9.2), умноженной на (а$4 — аф3). Для произвольных
7.9. Рабочий критерий для случая л> 4 229
и, v получим, что левая часть уравнения G.9.3) (условия Cuv)
имеет вид
(аХ - аори) 2 v, ([У, 4 <р + [у, р],). G.9.11)
Рассмотрим поверхность, подозрительную на универсаль-
ность. Для нее должно быть верно соотношение G.9.2) и, следо-
вательно, все условия С„„ выполнены, что и требовалось дока-
зать.
Можно показать, что любое условие Cuv, которое не имеет
вида 0ф + 0 = 0, влечет за собой все остальные. Итак, практиче-
ски любое невырожденное условие Cuv достаточно для определе-
ния подозрительных поверхностей.
Заметим, что если все aufiv— fiu<Zv обращаются на поверхно-
сти в нуль, то там аир линейно зависимы; этот случай мы ис-
ключили из рассмотрения. Поверхности, на которых какой-ни-
будь из этих определителей обращается в нуль, нетрудно найти
непосредственно из уравнений движения. В большинстве прак-
тических случаев ни один из них не обращается в нуль. Для та-
ких случаев справедливость любого условия CUv на поверхности
влечет за собой G.9.2), как следует из G.9.11); отсюда ясно,
что тогда можно применять любое условие Cuv.
В качестве первого примера рассмотрим
Упражнение 7.9.1. Пусть уравнения движения имеют вид
Х2 =
Проделать соответствующие выкладки и установить, что усло-
вия Cuv получаются приравниванием нулю выражения
(x^logXj)^ — х%
умноженного соответственно на коэффициенты
С,2: —х% С,3: -x2x3logxP
Ljj. xjXy C2,j- x^\xv
Cl4: О, С,14: Х\\Хъ-
230 Гл. 7. Универсальные поверхности
Устранить неопределенность в формулах для vj, положив
Задача 7.9.1. Заметьте, что в предыдущем упражнении хц появ-
ляется лишь в четвертом из уравнений движения. Это означает,
что первые три уравнения образуют независимую систему. Ис-
следовать ее способом, изложенным в § 7.5, и получить поверх-
ности, подозрительные на универсальность. Заметьте, что они
удовлетворяют дифференциальным уравнениям упражнения
7.9.1, т. е. уравнениям движения, в которых ср заменено на ср, но
не входят в формальное общее решение. Не являются ли они
особыми решениями?
При выводе теоремы 7.9.1 длина v предполагалась произволь-
ной. Если все vi умножить на некоторую функцию h(Xi), то про-
межуточные выкладки изменяются, например в формуле для
Afj появляются добавочные слагаемые. В следующей задаче мы
предоставляем читателю показать, что окончательный результат
тем не менее остается неизменным.
Задача 7.9.2. Показать, что если v,- заменить на hvi, где h —
дифференцируемая функция от хь . .. , х4, то новые Cuv полу-
чаются просто умножением прежних на /г2.
Проблема 7.9.1. Мы доказали эквивалентность шести условий
Cuv, к которым приводит наш метод. Можно заподозрить, что
существует более рациональный подход, позволяющий избежать
подобной переопределенности. Так ли это?
Пример 7.9.1. Классическая брахистохрона с ограниченной кри-
визной. Вернемся еще раз к задаче о движущемся объекте
с ограниченной кривизной траектории, но пусть теперь скорость
его будет заданной функцией от х и у. Тогда уменьшение числа
координат в примерах 7.5.2 и 7.7.1 становится невозможным.
Пусть хь х% (или х и у)—координаты точки на плоскости.
Если мы положим, что модуль скорости равен Yx2 (см. при-
мер 5.2), то получим, не учитывая ограничения на кривизну
траектории, классическую задачу вариационного исчисления о
брахистохроне. Обозначив через хъ наклон вектора скорости к
оси хи запишем уравнения движения
1С т~ 1/ JT COS JCo
Л-q I/ Л о &1П Л%
7.9. Рабочий критерий для случая гс > 4
231
Вычисляя yi по формулам G.4.7), строим таблицу
i
1
2
3
4
a:
0
0
— V"xJ/R
0
«Г
У' x2 cos x3
V *q sin x3
0
1
(xzjR) sin x3
— (x2jR) cos x3
A/2Л) SinAT3
0
В качестве v используем вектор
v, = — cos x3, v2 = — sin x3, v3 = 0, v4 = У x2,
ортогональный к a, p, y- После вычисления Д^- и затем U\i на-
ходим условие Ci2
' + ¦
cos дг3 = 0.
[Сравните с условием С24, для которого получаем эквивалентное
уравнение
— [j^j ф cos Хз — у sin2 *з + 2" = °-1
Таким образом, ф=7? cos x3/2x2, и мы приходим к дифферен-
циальным уравнениям
Хх. =
Х2 =
C0S
Легко проверить, что общее решение первых трех уравнений
имеет вид
хх = г, + /С (в — sin в),
x2=K(l— cos 6),
* (л в)
где 6 = (/ -f- с3)/у 2/С , а с,, с3. ^— постоянные. Отметим, что
первые два уравнения представляют собой уравнения классиче-
ских циклоид. Здесь мы получили пример одного общего прин-
ципа, который мы рассмотрим в § 7.12.
232
Гл. 7. Универсальные поверхности
Упражнение 7.9.2. Упрощение последнего примера. Точка х дви-
жется в плоскости с постоянной скоростью w, но кривизна ее
траектории ограничена значением 1/R. Платой является время
достижения заданной кривой *?. Отсутствие произвольности вы-
бора <? позволяет уменьшить число координат до двух, так что
полученную задачу можно решать изложенным выше способом.
1. Показать, что поверхности, подозрительные на универсаль-
ность, представляют собой прямые линии.
2. Показать, принимая во внимание начальные условия и ис-
пользуя соображения § 7.10 о том, что эти прямые перпенди-
кулярны *?. (Условие перпендикулярности можно получить так
же, как было получено соответствующее условие для циклоид.)
Пример 7.9.2. Сражение при Банкер-Хилл. Эту задачу мы рас-
смотрим подробно в главе 11. Здесь мы ограничимся лишь на-
хождением универсальной поверхности. Для этого нам нужно
знать только уравнения движения, которые имеют вид
G.9.12)
где 0<др<С1; р\ и рг — заданные функции от л:4; С\ и с2 — по-
стоянные.
Выпишем значения а; и р; в таблицу и дополним ее вычис-
ленными значениями yf-
Х$
х4 =
/^
— с.
— 1,
iX2p2(x^,
txxpx (xj ф
i
1
2
3
4
ai
0
— cs
0
4,
— CX2P2
0
0
— 1
cx[c2x2plp2-\-xxp[)
0
0
Простейшие значения v* таковы:
v2 = c2xlplp2,
v4 = — c2x2p2 (c2x2p{p2 + xxp[).
7.9. Рабочий критерий для случая п~^ 4 233
Выражение, скажем, для условия Ci2 довольно громоздко:
Однако если положить
и- Ч W- Р'х
И — , W =— —т; i
xl P\Pi
7 1 РЧ х Р\ W
Pi Pi 2c2
то получим очень простую форму:
V = ±Z. G.9.13)
Регрессивные дифференциальные уравнения превращаются в
уравнения
Проинтегрируем их с начальными условиями
xi = sl (/=1, 2, 3), s4 = 0.
Тогда мы получим, что х4~% и, следовательно, знак ° экви-
валентен знаку '.
Далее,
xlPlZ (*2\ Г cu2Pll up[ W
xi \xi/ I p2 J px 2c
Интегрирование этого уравнения дает
Здесь К — постоянная интегрирования, и легко установить, что
234
Гл. 7. Универсальные поверхности
Обозначим Q(t) = f px (x) p2(x)dx. Тогда нетрудно получить
окончательное решение:
к, = их,,
'-il
¦ dx-
W(t)—W @)
G.9.16)
Пример 7.9.3. Война на изнурение противника; второй вариант.
Эта игра также будет рассмотрена позже; здесь же нас интере-
сует лишь формальный анализ универсальной поверхности.
Оказывается, что соответствующие уравнения движения при-
водят к таблице
i
!
2
3
4
ai
0
0
— l
л:2 — J^i
— c2 (n
mx-
0
iX2 + m2Xi)
0
¦f c2a:ia:2
Здесь с2, ?Пь w2 — постоянные. Как всегда, первые два столб-
ца таблицы получены из уравнений движения, а третий — вычис-
лением yi.
Из первого и третьего столбцов сразу следует, что
Тогда либо определитель здесь равен нулю, либо v2»=V4=0.
Последнее допущение требует также, скажем, vi=l, vz = irii.
Если Vi постоянны, то все Лг/- равны нулю, так что общий крите-
рий тривиально удовлетворяется на всех поверхностях. Сами по
себе эти значения нормалей, принадлежащих только поверхно-
стям постоянных значений V, ничего не дают.
Что касается первого допущения, то из него следует, что
A",
in, -\- с,,х{х2
7.10. Критерий для незаполненной траекториями области 235
По смыслу задачи значение .v4 = 0 невозможно, следовательно,
мы получаем поверхность
G.9.17)
Позже мы узнаем, что это и есть искомое уравнение универсаль-
ной поверхности.
7.10. КРИТЕРИЙ ДЛЯ НЕЗАПОЛНЕННОЙ ТРАЕКТОРИЯМИ ОБЛАСТИ
И ДАЛЬНЕЙШЕЕ НЕОБХОДИМОЕ УСЛОВИЕ
УНИВЕРСАЛЬНОЙ ПОВЕРХНОСТИ
Продолжим рассмотрение игр, описываемых уравнениями
G.4.1). Начальные условия задаются на поверхности 8", кото-
рая может быть терминальной или какой-нибудь другой поверх-
ностью, возникающей в процессе решения и играющей аналогич-
ную роль. Предположим, что на о имеется кривая е2Г, на кото-
рой ф меняет свое значение, т. е. функция А должна изменить
знак при переходе через <Ж (если не на *?, то по крайней мере
в окрестности ееI).
Тогда на каждой стороне кривой ©2Г существует семейство
траекторий, исходящих из 8". Вообще говоря, эти семейства
либо взаимно пересекаются, образуя таким образом рассеиваю-
щую поверхность, как было установлено в гл. 6 (см. рис. 6.5.1),
либо они расходятся, оставляя пустую, свободную от траекторий
область между ними, указывающую на наличие универсальной
поверхности (см. рис. 7.5.1J). Мы хотим найти критерий, позво-
ляющий различать эти возможности.
Обозначим
D = S (Y/y-a; — a-ijyj) V{, G.10.1)
i, j
где yij = dyt/dxj.
Теорема 7.10.1. Если при описанных выше обстоятель-
ствах функция V(x) существует в Ж в окрестности поверхно-
сти *? и имеет непрерывные частные производные, причем есть
область, незаполненная траекториями, то на оЖ
D<0. G.10.2)
Доказательство. В точках из (?, лежащих в окрест-
ности поверхности *ё, функция А непрерывна и меняет знак
на некоторой поверхности, проходящей через <Ж\ поэтому А
>) Если в примере 7.5.1 в качестве 1! принять у = 0, то легко проверить,
что Л = 0 и ф определяется знаком А.
2) Разумеется, возможен также и промежуточный случай.
236 Гл. 7. Универсальные поверхности
уменьшается при прохождении х через эту поверхность со сто-
роны, где ф = — 1, на сторону, где ф= + 1. Если траектории с этих
двух сторон оставляют пустую область, то на е2Г функция А дол-
жна с увеличением т возрастать на первой стороне быстрее, чем
на второй. о
Эти скорости возрастания нельзя сравнивать с помощью Л,
о
ибо, как следует из G.4.6), А не зависит от ф.
Мы должны исследовать вторую производную А; вычислен-
ная вдоль тех же самых кривых, она оказывается равной Dq> + E,
где D определяется формулой G.10.1), а Е имеет аналогичный
вид. Поскольку А при ф = — 1 должна быть больше (или по край-
ней мере равна), чем при ф= + 1, мы получаем G.10.2).
Следствие G.10.1). Условие G.10.2) должно выполнять-
ся всюду на ^-универсальных поверхностях, возникающих в слу-
чае линейных вектограмм.
Действительно, мы можем пересечь универсальную поверх-
ность произвольной гладкой поверхностью и, используя значения
V на ней в качестве начальных условий, заставить ее играть
роль поверхности &< потому что решение в области, не содер-
жащей прежнее ^, совпадает с первоначальным. Пересечение
ее с универсальной поверхностью естьеЗГ; условие G.10.2) здесь
выполняется; следовательно, оно должно выполняться всюду на
универсальной поверхности.
Разумеется, если бы оказалось, что 0 = 0, мы могли бы искать
производные от А более высокого порядка. Но мы не будем так
поступать. При попытке описать условия минимума в терминах
производных возникают классические затруднения. А рассматри-
вая конкретную задачу, мы можем взять условие D<0 в каче-
стве сильного критерия для универсальной поверхности и ожи-
дать, что выполнение противоположного условия D>0 на 8"
означает наличие рассеивающей поверхности. Типичным являет-
ся пример 7.5.1.
Упражнение 7.10.1. Показать, что в примере 7.5.1
D = иихх;
таким образом, «гребни» на рис. 7.3.5 удовлетворяют условию
G.10.2), а «долина» — нет.
7.11. КРИТЕРИЙ ДЛЯ ПОВЕРХНОСТИ ПЕРЕКЛЮЧЕНИЯ
Хотя этот вопрос не относится к тематике настоящей главы,
однако формальный подход к нему связан с ее идеями.
Предположим, что на некотором этапе решения игры такого
типа, как в предыдущем параграфе, проинтегрировав уравнения
7.12. Дальнейшее обсуждение универсальных поверхностей 237
характеристик, мы обнаружили некоторую поверхность &', на
которой А — 2 аУi — 0- Другими словами, для каждой траекто-
i
рии нашлось бы такое т, что Л(т)=0; совокупность всех точек,
где это выполняется, и образует поверхность <?Р¦
При каких условиях можно утверждать, что ?Р — поверх-
ность_переключения, т. е. поверхность, при переходе через кото-
рую ф меняется с одного своего крайнего значения на другое?
Так как мы продолжаем движение вдоль оптимальной траек-
тории, то с помощью тех же рассуждений, что и в предыдущем
параграфе, получаем, что
3
и не зависит от ср. Предположим, что АфО на ?Р. Поскольку на
ней А=0, очевидно, что А меняет знак при переходе через ??¦
Следовательно, в этом случае сохранение знака ср невозможно,
т. е. SP должна быть поверхностью переключения. Итак, дока-
зана
Теорема 7.11.1. Если в результате интегрирования урав-
нений характеристик мы нашли поверхность, пересекаемую тра-
екториями, на которой выполняются условия
то такая поверхность есть поверхность переключения.
Этот результат полезен при следующих обстоятельствах.
Предположим, что мы исследуем какую-нибудь дифференциаль-
ную игру в соответствии с развитыми в этой главе идеями и что
нам удалось найти класс поверхностей, на которых
Если затем мы находим поверхность, на которой Л = 0, но кото-
рая не принадлежит этому классу, мы сразу можем сказать, что
она является поверхностью переключения.
7.12. ДАЛЬНЕЙШЕЕ ОБСУЖДЕНИЕ ВОПРОСА
О ПРИРОДЕ УНИВЕРСАЛЬНЫХ ПОВЕРХНОСТЕЙ
И СВЯЗЬ ИХ С УРАВНЕНИЕМ ЭЙЛЕРА
В этом параграфе обсуждаются вопросы, возникающие в
связи с обобщением примера 7.9.1 и упражнения 7.9.2, которые
рассматриваются теперь с более общей точки зрения.
-38 Гл. 7. Универсальные поверхности
«г
Задача I. Точка х с координатами хи х2 движется на плоско-
сти со скоростью w(xux2), w>0. Найти траектории, которые по-
зволяют ей в кратчайшее время достичь заданной кривой If.
Очевидно, что уравнения движения здесь имеют вид
а 0 = 1.
хх = w cos ф,
Х2~ W ЭШф,
Задача П. Рассмотрим ту же самую задачу при дополнительном
условии: кривизна траектории точки ограничена значением 1/R.
Тогда уравнения движения имеют вид
xl = w cos х3,
х2 — w sinx3,
и соответственно G=l.
При рассмотрении конкретных случаев мы уже неоднократно
убеждались в справедливости того, что
универсальные поверхности задачи II являются оптималь-
ными траекториями задачи I.
Доказательство получается в результате решения следующих
двух упражнений.
Упражнение 7.12.1. Добавив к уравнениям движения задачи II
уравнение Хц=1, показать, что условия С„„ дают
w-^- = w2cosa:3 — -да, sinx3, G.12.1)
где Wi dld
Второе упражнение менее шаблонно.
Упражнение 7.12.2. Показать, что в задаче I вдоль оптимальной
траектории
^о
Ф = w2 cos ф — те>, sin ф. G.12.2)
Это можно сделать нашим обычным способом, определяя
_ о о
сначала ф как функцию от jc,- и V,-, а потом выражая xt и Vt как
функции тех же самых переменных (т. е. получая уравнения ха-
рактеристик в регрессивной форме) и дифференцируя ф. Но
возможен и другой способ, так как G.12.2) представляет собой
дифференциальное уравнение второго порядка относительно xt
и эквивалентно уравнению Эйлера для задачи I.
7.13. Случай произвольного числа управлений 239
- Если мы теперь в уравнениях движения задачи II заменим <р
на ф из G.12.1), то получим дифференциальные уравнения тра-
екторий, которые составляют универсальную поверхность. Третье
из них, Xs = W(f/R, показывает, что л;3 удовлетворяет G.12.2). Сле-
довательно, при соответствующем выборе начальных условий х3
в задаче II совпадает с <р в задаче I.
Как раз такой вывод напрашивался из анализа рассмотрен-
ных примеров. Так, в примере 7.5.2 входящие в универсальную
поверхность траектории, на которых ф=±1, представляют собой
максимально крутые повороты. В задаче II они соответствуют
первоначальному развороту с целью как можно быстрее полу-
чить такое состояние и такое направление скорости, чтобы точка
х могла двигаться по оптимальной траектории задачи I. Все та-
кие состояния образуют универсальную поверхность.
Другими словами, отыскание универсальных поверхностей
для некоторой игры может быть эквивалентно решению другой
игры более низкой размерности. Было бы интересно исследо-
вать это явление в общем случае; однако уже сейчас можно ска-
зать, почему нахождение универсальных поверхностей представ-
ляет собой трудную задачу. Она сходна с задачей интегрирова-
ния уравнения Эйлера, поэтому можно ожидать, что на пути
создания завершенной теории встанут все сложности вариацион-
ного исчисления.
7.13. СЛУЧАЙ ПРОИЗВОЛЬНОГО ЧИСЛА УПРАВЛЕНИЙ
Мы уже объясняли, почему до сих пор ограничивались лишь
рассмотрением универсальных поверхностей, возникающих в
случае единственного управления ф, которое входит в уравнения
движения линейно. Вернемся теперь к общему случаю произ-
вольного числа управлений. Однако будем предполагать, что од-
но из них, обозначенное ф (или ф для максимизирующего игро-
ка), все еще играет основную роль, и наша цель — отыскание
ф-универсальной поверхности.
Здесь мы несколько отклонимся от своих обычных обозначе-
ний: это основное ф будем писать без индекса, а через фЬ ..., щ,
i|)i, .. . , 1рх будем обозначать остальные управления. Линейность
уравнений движения относительно ф будет по-прежнему суще-
ственна; они имеют вид
Сделаем теперь предположение, которое по значимости
представляет собой нечто среднее между предположением о
240 Гл 7. Универсальные поверхности
минимаксе (§ 2.4) и требованием разделимости уравнений дви-
жения относительно всех управлений:
Все а; не зависят от cpft, if,. G.13.1)
Другими словами, а, могут быть функциями лишь от х{, в то
время как в E, могут входить *,-, ф,;, if,.
Тогда общим условием для ф-универсальной поверхности
(или, точнее, для подозрительной поверхности) является следую-
щее обобщение условий G.4.8):
= 0, (а)
2p^=0, (р) G.13.2)
Условие (а) здесь в точности то же, что в G.4.8). В (Р) min
и max берутся в том же смысле, как обычно в нашей теории; они
определяют каждое ф^ и if, как функции <р&, if,, зависящие от
Xi и Vi и доставляющие минимакс в (р), как раньше доставляли
минимакс в основном уравнении; поэтому (р) можно записать
в виде
i
по аналогии с основным уравнением D.2.3). В (у) yt по-преж-
нему означают
но при вычислении производных, таких, как fiu^dfii/dxj, все ф,г и
if, считаются постоянными. Затем их нужно заменить опреде-
ленными выше фь и if,, которые являются функциями от Xi, Vi.
Доказательство в сущности то же, что и раньше. Запишем
основное уравнение:
min max 2 («гФ + Р,-) Vi =
min max
+ min max B = 0.
Как и в § 7.4, если минимизирующее значение ф является
внутренним, то оба члена в этом уравнении равны нулю; отсюда
получаем (а) и (р). А (у) получаем, как и раньше, из требова-
7.13. Случай произвольного числа управлений 241
ния А = 0 на универсальной поверхности и из того, что для
входящих в универсальную поверхность траекторий должны вы-
полняться наши обычные уравнения характеристик в регрессив-
ной форме. Здесь они имеют вид
= — (at° + Р/). а = — sgn A,
о
В уравнениях для Vj производные по Xj получаем, считая срА и
\|)( постоянными. Эти уравнения используем для вычисления А.
Однако если бы мы попытались здесь повторить вывод даль-
нейших необходимых условий, как это было сделано раньше для
случаев и=3 и 4, мы сразу же столкнулись бы с затруднениями.
Прежняя простота исчезает даже для случая га = 3, потому что
уравнения G.13.2) теперь уже нелинейны относительно V,-. Од-
нако они однородны, т. е. удовлетворяются при V, = 0, и новый
критерий представляет собой условие существования ненулевого
решения. Дальнейшие примеры демонстрируют некоторые наши
возможности в этом направлении.
На самом деле многие частные задачи можно решать, не при-
бегая к формальной теории. Может случиться, что число управ-
лений щ, ф; невелико и построение решения очевидно. Напри-
мер, если эти управления все входят линейно, тогда каждое из
них может принимать лишь два значения, а какое из них вер-
но, можно непосредственно заключить из простых соображений.
Нужно заметить, что для основного уравнения условие (р)
также выполняется в силу предположения G.13.1). Тогда, по-
скольку Vi непрерывны на универсальной поверхности, все
управления щ, \|)/ также непрерывны на ней.
Пример 7.13.1. Обобщение примеров 7.3.1 и 7.5.1. Пусть мини-
мизирующий игрок Р обладает вектограммой в форме прямо-
угольного равнобедренного треугольника (см. рис. 7.3.5), а мак-
симизирующий игрок Е имеет круговую вектограмму, причем ра-
диус круга v(x\,x2) является гладкой функцией, определенной
на плоскости. Тогда скорость точки х равна сумме двух векто-
ров, выбранных из этих вектограмм. Напишем уравнения дви
жения (ср. с примером 7.5.1)
х2~ — м-}-г) соэф,
16 Зак. 522
242
Га. 7. Универсальные поверхности
где —1^ф^1, а>0, и>0; предполагается также, что v всегда
меньше и.
Подсчитаем у( и составим таблицу
v sin if
- и~\- v cosif
1
v<
«! (v sin ip) + и2 (— и + v cos if)
— (—«i + ui c°s "Ф) «
0
— «^ sin ij)
Условие (Р) здесь имеет вид
max [v (V{ sin ф + V, cos ф) — uV2-\~ V3] — 0.
Как обычно, обозначив p=yV\-\-V\, найдем
р р
тогда (р) превращается в
Но условие (а) здесь имеет вид uVi = Q, и, поскольку «>0,
получаем, что Vt = O. Так как у<ы, точка х всегда должна пере-
мещаться вниз, поэтому Уг>0. Таким образом, p = V2 и \|) = 0,
т. е. на универсальной поверхности Е всегда стремится переме-
щать х вертикально вверх.
Итак, условие (у) здесь имеет вид
и искомым условием для универсальной поверхности будет
«j — <а, ==0.
Это лишь «необходимое» условие; сделанные раньше на этот
счет замечания применимы также и здесь.
Пример 7.13.2. Игра «шофер-убийца». Вернемся к примеру 7.5.2,
где задача решалась при условии, что пешеход неподвижен;
будем теперь снова считать, что пешеход обладает простым дви-
жением. Это означает, что мы добавляем в уравнения движения
примера 7.5.2 члены, соответствующие круговой вектограмме
7.13. Случаи произвольного числа управлении
243
радиуса w2, где г?>2 — скорость пешехода, и, таким образом, по-
лучаем уравнения движения для игры «шофер-убийца»:
~
Щ sin
х2 —
2 — -к- Х{§ — wx ~f- те>2 cos т).1,
Хз — 1, — 1 < ф ¦< 1, w1 > w2 > 0.
Затем составляем таблицу1)
да2 sin "Ф
x -\-W2 COSiJ)
1
— (— да, -(- w2 cos ф)
а>2 sin-ф
0
Из условия (р) получаем, как в предыдущем примере:
Тогда (у) дает
G.13.3)
откуда Vi = 0. Если также и V2 = 0, то из (р) следует Уз=0, что
невозможно; следовательно, У2^0. Поскольку условие (а) имеет
вид
ху2 = 0,
получаем уравнение поверхности, подозрительной на универ-
сальность:
Результат совпадает с тем, который был получен в примере
7.5.2, и здесь применимы те же самые объяснения. Оптимальное
развитие игры в простом случае изображено на рис. 1.5.2, о2).
Чтобы показать, что это действительно так, нужно исследо-'
вать траектории, входящие в универсальную поверхность, но
мы не будем производить здесь полного анализа. Нас интере-
сует пока лишь \|) — направление оптимального движения Е.
') Общий множитель w\jR сокращен.
2) В гл. 10 мы узнаем, что нижняя часть оси х% также может служить
универсальной поверхностью для обратной задачи, а именно — когда Е пре-
следует Р. '
16*
244 Гл. 7. Универсальные поверхности
Напомним, что основное уравнение имеет вид (мы снова воз-
вращаемся к обозначениям х, у) ')
— ^ (yVx - xVy) ф — wiVy + ™2Р 4- 1 = О,
а так как Л = 0 на универсальной поверхности, то ясно, что
скобка обращается в нуль. Поскольку на универсальной по-
верхности х = 0, у>0, мы получаем, что на ней Vx — Q. Обычным
способом находим
siniF=-^- = O, cos^—^>0, G.13.4)
откуда ^ = 0 (ясно, что 1/2/>0 на универсальной поверхности).
Следовательно, точкам универсальной поверхности соответ-
ствует движение Р по прямой; Е также движется по прямой —
он просто убегает от Р.
Вернемся теперь к притокам. Среди уравнений характери-
стик есть уравнения
vx— ~R~ v у у — — ~R~ x>
где 0=±1 в зависимости от того, на какой стороне универсаль-
ной поверхности находится точка х. Эти уравнения означают,
что вектор (Vx, Vv) вращается с угловой скоростью wJR. Как
видно из формул G.13.4), скорость движения Е также напра-
влена вдоль этого вектора, и, следовательно, Е имеет ту же
самую скорость вращения. Но с такой же скоростью вращается
Р при повороте максимальной крутизны, поэтому Е не пово-
рачивается вокруг Р; в естественном пространстве траекторией
Е будет прямая.
Наконец, непрерывность Vx и Vy на универсальной поверх-
ности означает, что направление движения Е также непрерывно.
Из этого следует, что первоначальная скорость Е должна быть
направлена по касательной к одной из окружностей минималь-
ного радиуса кривизны. Таким образом, ход развития игры, ко-
торый был описан в § 1.5, оказывается оптимальным.
Проблема 7.13.1. Асимметричная игра «шофер-убийца». Пусть
.теперь скорость пешехода w2 зависит от Xi, х%. Показать, что в
этом случае условие для универсальной поверхности имеет вид
— и2хх) yx\+xl = 0. G.13.5)
Здесь предполагается, что х2У2>0; в противном случае плюс
заменяется минусом. Скорость движения Е задана как функция
') Для терминальной формы платы 1 нужно заменить на V3.
7.13. Случай произвольного числа управлений 245
его относительных координат. Обладая некоторой фантазией,
читатель может представить себе, что поставленная задача опи-
сывает следующую ситуацию. Автомобиль Р снабжен освещаю-
щими путь фарами (возможно, что эти фары несимметричны);
погоня за пешеходом происходит в темноте по пересеченной
местности. Скорость пешехода тем больше, чем лучше он осве-
щен. Тогда для Р выгоднее перемещаться наискось, чтобы хуже
освещать дорогу своей жертвы.
Поскольку уравнения G.13.2) однородны относительно Vi,
при « = 3 условие (а) является уравнением первой степени, и
его можно использовать для исключения одного из Vi, скажем,
Уз, из (f5) и (у). Тогда эти два условия можно записать в виде
уравнения относительно VilV2- Наше дальнейшее необходимое
условие состоит в требовании существования общего действи-
тельного корня этих уравнений.
Пример 7.13.3. Пусть игра описывается уравнениями
xi = Х1% + cos Ф2 + X2^>
х3 = х, sin(p2.
Условия фгуниверсальной поверхности имеют вид
^ = 0, (а)
—Р==0. (Р)
где р = VV\ + {xiVtf - ° = 8&п (*2^О-
Исключая р из (f5) и (у), получаем алгебраическое уравне-
ние относительно Vi. Заменяя р в (р) и возводя в квадрат, полу-
чаем второе уравнение. Мы приходим к трем однородным алге-
браическим уравнениям: (а) и
х,х3У3 B*,V, - x3Va) + x2 (oV, + V2f = О,
Исключаем из них Vi и получаем алгебраическое уравнение по-
верхности, подозрительной на универсальность:
хх [х2х3 Bх21а1 ]/С^=Гу__ х^ (С2 - 1)) + С% ] = О,
где C=x2{Oi — xi), ai-sgn{xtVsC).
246 Гл. 7. Универсальные поверхности
Упражнение 7.13.1. Показать, что для предыдущего примера
условие для ^-универсальной поверхности также является одно-
родным уравнением, и найти его вид.
Проблема 7.13.2. Всегда ли справедливо утверждение, что урав-
нения G.13.2) однородны относительно Vi?
7.14. ПОЛУУНИВЕРСАЛЬНЫЕ ПОВЕРХНОСТИ
Полууниверсальные поверхности относятся к сингулярным
поверхностям типа ( + , и, р), т. е. входящие в них траектории
лежат Лишь по одну сторону от них; на другой стороне траекто-
рии параллельны поверхности. Существование таких поверхно-
стей подтверждает следующий
Пример 7.14.1. Стрелок и приближающаяся цель1). Пусть урав-
нениями движения будут
* = —1,
Плата интегральная: G = tyg(x), где g(x)—положительная глад-
кая убывающая функция. В качестве cf возьмем первый ква-
дрант л;>0, т>0, а S? будет его границей, т. е. двумя положи-
тельными полуосями.
Игра допускает, например, следующую интерпретацию.
Пусть расположенный в точке х = 0 стрелок ведет огонь по цели,
приближающейся вдоль оси х с единичной скоростью. В каждый
момент времени стрелок имеет некоторое количество боеприпа-
сов т, которое он может расходовать со скоростью, выбранной
по его усмотрению в пределах от нуля до единицы. Эта ско-
рость ф является управлением, а ш — фазовой координатой.
Можно показать2), что вероятность уничтожения цели есть
возрастающая функция величины [ tyg(х) dx, где интегрирова-
ние производится на протяжении всей партии.
Трудно представить себе случай, когда оптимальная страте-
гия была бы более очевидной: стрелок ожидает приближения
цели на расстояние, обусловленное количеством его боеприпа-
сов, т. е. на такое расстояние, чтобы стрелок мог поддерживать
огонь максимальной интенсивности, пока цель проходит это рас-
стояние. Соответствующие такой стратегии оптимальные траек-
тории изображены на рис. 7.14.1 (ср. с рис. А.5.4).
') Задача представляет собой упрощенный вариант игры бомбардиров-
щика и батареи, изложенной в дополнении (пример А. 5.3).
2) См. § А.1.
7.14. Полу универсальные поверхности
247
Нас интересует здесь полууниверсальная поверхность — пря-
мая ОА, проведенная под углом 45° к оси х. Входящие в нее
траектории расположены лишь с одной ее стороны.
Ясно, что если ^S изменить соответствующим образом, то
роль полууниверсальной кривой может играть любая траектория
с наклоном 45°. Этим полууниверсальные поверхности суще-
ственно отличаются от универсальных, которых обычно бывает
m
О
Рис. 7.14.1
немного; последние определяются из уравнений движения и,
вообще говоря, не зависят от ^ или of. Отсюда ясно, почему
нельзя построить строгую теорию полууниверсальных поверх-
ностей.
Так же как и при изучении универсальных поверхностей, мы
будем рассматривать игры с терминальной платой, единствен-
ным управлением и линейными вектограммами (при п^3)
Тогда, как и раньше, уравнения движения имеют вид
В качестве области, где может появиться полууниверсальная
поверхность, рассмотрим некоторую область М на гладкой по-
верхности а?, образованной оптимальными траекториями, исхо-
дящими из терминальной поверхности 8*. Предполагаем, что в
точках из М стратегия имеет регулярное поведение; пусть, ска-
жем, ф = —а = —щххА. Мы хотим знать, при каких условиях
можно использовать М в качестве начальной поверхности для
оптимальных траекторий, для которых ф=+а. Для функций, со-
ответствующих этим новым траекториям, введем обозначения с
индексом *: V*, А* и т. д.
Теорема 7.14.1. Для того чтобы поверхность М служила
окончанием траекторий со значением ф=+о и, следовательно.
248 Гл. 7. Универсальные поверхности
могла быть полууниверсальной, достаточно выполнения следую-
щих условий:
A) Всюду на М плоскость вектограммы не должна быть ка-
сательной К&3 .
B) В точках этой поверхности должно выполняться равен-
ство sgn SY,-^i =a (тогда, как будет показано ниже, на <$
можно определить функции Vi).
Доказательство. Выберем параметры s4, .. . , sn-i на ff
таким образом, чтобы sn-i = 0 на е^П^. и пусть на этой кривой
H — J(su . . ., sn-i). Тогда параметрические уравнения для М
будут иметь вид
xi = xl(x, sv . . ., sn_2)y G.14.1)
где правые части представляют собой интегралы уравнений ха-
рактеристик в регрессивной форме с обычными начальными
условиями, т. е. определенными из значений Я на ^. Сюда вхо-
дят уравнения
Ha SP имеем
V = J(sv ..., sn_2). G.14.2)
Используем G.14.1) и G.14.2) в качестве обычных начальных
условий; для полученных траекторий мы должны взять <р=+(х.
К начальным условиям добавим еще значения Vi на ?Р:
dV* dJ V1 .. т/* .. dxi u , и о
и присоединим основное уравнение для новой системы
Последнее уравнение можно переписать в виде
7.14. Полууниверсальные поверхности
249
и в силу A) определитель системы
х,
... хп
Х\ л-2 • • • Хпп-2
а, ... ап
Pi • •• К
отличен от нуля. Тогда мы можем найти V*- Так как Л* = 0,
— о о
то ф =—sgn Л*, если А*ФО. Но, по условию B),
этого достаточно для построения траекторий по крайней мере в
близких точках.
Универсальная
поверхность
Рис. 7.14.2.
Следствие 7.14.1. На полу универсальной поверхности
Предположим, что не все точки из ?Р принадлежат <й, по-
скольку условие B) выполняется не всюду на ?Р. Тогда следует
ожидать, что на границе области <%
2y^- = 0. G.14.3)
Но это уравнение вместе с двумя уравнениями, фигурирующими
в формулировке следствия, представляет собой не что иное, как
необходимые условия для универсальной поверхности, означаю-
щие, что эта поверхность может исходить из границы обла-
сти М. На рис. 7.14.2 изображен типичный пример такого
250 Га. 7. Универсальные поверхности
случая. Здесь линия АС есть а?, но М — это только ВС, где вы-
полняется условие B). Тогда в точке В справедливо G.14.3).
Кривая BD является универсальной. Траектории, входящие в нее
с нижней стороны, переходят в траектории, входящие в М;
траектории, входящие в нее сверху, представляют собой продол-
жение семейства траекторий на дальней стороне кривой &'¦
Отметим, что если условия A) и B) выполняются на неко-
торой поверхности, то они выполняются и на близких поверх-
ностях. Таким образом, подозрительные полууниверсальные по-
верхности образуют семейства поверхностей.
Удивительно то, что в рассмотренных автором примерах
(часть из них не включена в эту книгу) полууниверсальные по-
верхности, несмотря на «естественность» их устройства, встре-
чаются гораздо реже, чем универсальные.
Одну интересную возможность появления полууниверсальных
поверхностей иллюстрирует пример А.4 дополнения. В этом при-
мере за Ч? сначала принимается окружность; из нее исходят две
«кривые переключения». Если радиус окружности равен нулю,
каждая кривая превращается в полууниверсальную.
Задача 7.14.1. Возьмем уравнения движения примера 7.14.1
х j —- 1,
х2 = — я|>,
и положим &= {х : л;, —0], о? = {х : х, >0}. Пусть Я=л;1) и
пусть ?(т)>0для О-<т<то, но?(т0)=0. Примем за а? семейство
оптимальных траекторий, проходящих через лежащую в Ч? кри-
вую: xi = 0, х2 — s, *з = f(s)> где f (s)>0. Показать, что тогда &
может быть полууниверсальной поверхностью для т<то.
ГЛАВА 8
Игры качества
Типичным примером игры качества (в отличие от игры сте-
пени) является задача преследования в том случае, когда нас
интересует не вопрос оптимизации некоторой непрерывной пла-
ты, а условия, при которых игрок Р может осуществить захват
или игрок Е—избежать его.
До сих пор, насколько нам известно, существовал лишь один
подход к задачам подобного рода. Мы назвали его «методом
явной политики». Этот метод состоит в том, что, например, воз-
можность захвата доказывается на основе изучения конкретной
стратегии игрока Р, которая приводит к цели. Недостаток этого
метода в том, что почти во всех случаях он не дает способа
определить наилучшее решение для каждого из игроков; искать
такое решение значит блуждать в темноте. Вообще редко можно
найти все решения одной частной задачи, не говоря уже о реше-
нии всех задач целого класса.
Новым при рассмотрении такого рода задач здесь является
введение гиперповерхности, называемой нами барьером; в про-
странстве начальных положений барьер отделяет точки, для ко-
торых можно осуществить захват, от тех точек, для которых
возможно избежать его. Оптимальное развитие игры для точек,
лежащих на барьере, приводит к достижению терминальной по-
верхности без пересечения ее. Такие исходы мы будем называть
нейтральными, рассматривая их как промежуточные между за-
хватом и избежанием его. Преимущество нейтральных исходов
над всеми остальными состоит в том, что для них существуют
вполне определенные оптимальные стратегии.
Игры качества, как и игры степени, исследуются с помощью
дифференциальных уравнений: находятся оптимальные страте-
гии и траектории и, следовательно, барьеры. Тогда общий ответ
на вопрос, произойдет или нет захват, зависит от того, разделяет
ли барьер пространство игры на две части.
Одно из главных затруднений состоит в определении соот-
ветствующих начальных условий, или, другими словами, спосо-
бов стыковки барьера с терминальной поверхностью. Нам уда-
лось обнаружить три различных условия, одно из которых
252 Гл. 8. Игры качества
оказывается довольно тонким. Они охватывают все практические
вопросы, с которыми нам пришлось столкнуться, однако, по-
видимому, не исчерпывают всех возможностей.
Важные задачи, решенные этими методами, будут приведены
в следующей главе, здесь же мы ограничимся простыми иллю-
страциями.
8.1. ВВЕДЕНИЕ
В играх степени игроки стремятся максимизировать и мини-
мизировать определенную плату, которая, как предполагается,
может принимать континуум допустимых числовых значений.
Для любой партии конкретное значение платы не установлено
вплоть до окончания игры, под которым понимается достижение
точкой х терминальной поверхности *?. Таким образом, вся тео-
рия игр степени строится на допущении, что поверхность ^ до-
стигается.
В этой главе рассматриваются игры качества, в которых
суть задачи представляет вопрос о возможности окончания.
Почти всегда предполагается, что один игрок хочет окончить
игру, а его противник нет. Эти противоположные желания и со-
ставляют конфликт игры. Однако возможно и даже полезно
исследовать другие обстоятельства. Например, задача об избе-
жании столкновения двух самолетов1). Оба пилота хотят пред-
отвратить «окончание», означающее в данном случае столкнове-
ние. Хотя такие задачи не относятся к области дифференциаль-
ных игр, их можно исследовать теми же методами.
При рассмотрении всех случаев игр качества мы будем ис-
пользовать язык задачи преследования. То есть мы будем счи-
тать, что окончания (т. е. захвата для игры преследования) же-
лает игрок Р, а игрок Е желает избежать окончания.
Чтобы рассматривать игры качества в общей схеме, можно
каждому возможному исходу поставить в соответствие опреде-
ленное числовое значение, тем самым возвращаясь к подходу к
таким играм с точки зрения платы. Например,
+1 соответствует отсутствию окончания, или избежанию за-
хвата;
— 1 соответствует окончанию, или захвату.
Это дает возможность Р и Е оставаться минимизирующим
и максимизирующим игроками.
При выбранных таким образом значениях платы цена игры
в соответствии с общей теорией игр равна
') За/шча не включена в эту книгу.
8.1. Введение 253
+ 1, если существует такая стратегия для Е, что при ее ис-
пользовании независимо от стратегии Р никогда не произойдет
окончания; (8.1.1)
— 1, если существует некоторая стратегия для Р, применяя
которую, он независимо от стратегии Е обязательно добьется
окончания игры. (8.1.2)
На практике нам не потребуется это формально введенное
понятие числовой платы. Тем не менее отметим, что определение
двух этих стратегий как оптимальных для Е и Р вполне согла-
суется с общепринятыми определениями.
В отличие от игр степени для большинства рассмотренных
примеров оптимальные стратегии определяются неоднозначно;
более того, существует бесконечно много оптимальных страте-
гий. Рассмотрим, например, любую достаточно простую задачу
преследования, в которой кинематические характеристики Р на-
много лучше, чем у Е, так что он может осуществить захват из
любой начальной точки (т. е. V(x) =— 1 для всех х?^). По-
скольку нас интересует захват вообще независимо от времени,
ясно, что Р может сколь угодно долго «бездельничать»; ника-
ких предпочтительных управлений не существует. Аналогично
если преимущество на стороне Е, то Е имеет полную свободу
действий, за исключением того момента, когда над ним на-
виснет угроза захвата, но и тогда он может ускользнуть, под-
пустив врага так близко, как он захочет.
Чтобы доказать, что Р имеет возможность осуществить за-
хват или что Е имеет возможность избежать его, достаточно
найти одну конкретную стратегию, позволяющую игроку до-
биться соответствующего исхода независимо от действий про-
тивника. Такой наиболее очевидный подход к решению игр ка-
чества мы будем условно называть «методом явной политики»1).
В качестве примера рассмотрим
Пример 8.1.1. Игра двух автомобилей. Точки Р и Е движутся
на плоскости, скорость каждой точки фиксирована (или
ограничена), кривизна траекторий ограничена. Значения этих
четырех ограничений могут быть различными. Захват, как обыч-
но^ означает, что \РЕ\^С!.. При каких условиях Р может пой-
мать Е?
Если скорость у Р больше, чем у Е, а ограничение на кри-
визну траектории по крайней мере такое же, то Р всегда может
осуществить захват. В самом деле, Р сначала может прибли-
зиться к начальному положению Е, а затем следовать за ним
по его траектории.
') Как будет показано в следующем примере, при этом иногда оказы
ваются допустимыми такие действия игрока, которые не являются стратегией
254 Гл. 8. Игры качества
Вообще говоря, такой способ нахождения соответствующего
поведения игроков имеет существенный недостаток, ибо не дает
систематического метода отыскания этого поведения. В каждой
задаче мы должны заново проявлять изобретательность. Напри-
мер, кажется разумным утверждение, что Р может осуществить
захват при незначительно меньшей, чем у Е, кривизне траекто-
рии, большей скорости и достаточно большом значении радиуса
захвата /. Однако как найти поведение Р, с помощью которого
можно было бы показать это?
В этой главе мы предлагаем подход, который обладает, по-
видимому, достаточной общностью и может быть применен
почти во всех случаях. С помощью незначительного и естествен-
ного изменения критерия мы выделяем в ef такое подмножество,
где оптимальные стратегии вполне определены или даже един-
ственны. Искусственные политики, такие, как в примере 8.1.1,
при этом становятся ненужными.
8.2. ПОНЯТИЕ БАРЬЕРА
Здесь будет удобно изменить определение окончания игры.
Потребуем, чтобы точка х не только достигала поверхности ^,
но также и пересекала ее. Если х достигает поверхности $?, не
пересекая ее, а затем в конце концов возвращается в с?', то та-
кой исход не будет считаться захватом или избежанием его: мы
будем рассматривать его как третий возможный исход, приписав
ему нулевое значение платы.
Мы будем называть этот третий исход нейтральным. Его
следует рассматривать как промежуточный случай между за-
хватом и избежанием его. Объясняется это тем, что лишь в ней-
тральном случае (V=0) играют решающую роль действия обоих
игроков, каждый из которых на протяжении всей партии нахо-
дится под угрозой ухудшения платы. Вообще говоря, это един-
ственный случай, когда оптимальные стратегии определены и
детерминированы, так что есть возможность построения точной
теории.
Напоминаем, что всякой дифференциальной игре соответ-
ствует семейство траекторий, каждая из которых исходит из за-
данной начальной точки. При этом должна иметь место одна из
следующих трех возможностей:
(Е) для всех начальных точек из & выполняется (8.1.1),
(С) для всех начальных точек из cf выполняется (8.1.2),
(М) cf содержит начальные точки того и другого рода.
Множество начальных точек, для которых выполняется
(8.1.1), будем называть областью избежания захвата; аналогич-
8.2. Понятие барьера 255
но, множество точек, для которых выполняется (8.1.2) — обла-
стью захвата.
Если выполняется (М), то существуют обе области. Вообще
говоря, они должны быть разделены поверхностью, состоящей
из точек, которым соответствует нейтральный исход. Эту по-
верхность мы называем барьером.
Основой нашего подхода к исследованию игр качества яв-
ляется нахождение барьеров. Знание их автоматически дает нам
знание области захвата и области его избежания и тем самым
выделяет положения, в которых Е может избежать захвата или
Р осуществить его для случая (М). Этот случай возникает в
самых интересных задачах, ибо если всюду выполняется (С)
или (Е), то ситуация часто оказывается довольно ясной.
Наши идеи оказываются применимыми даже в том случае,
когда (М) не имеет места. Действительно, каждую игру харак-
теризуют некоторые параметры — скорости, радиус захвата
и т. д., — которые входят в уравнения движения, в функции
Н и G или определяют 8". Изменяя их, часто можно до-
биться выполнения условия (М), хотя для первоначальной
игры оно и не выполнялось. Таким образом, мы включаем рас-
сматриваемую игру в континуум игр, изменяя некоторые пара-
метры.
Например, мы уже рассматривали случай игры двух автомо-
билей, когда выполняется (С) (область захвата совпадает с У).
Допустим теперь, что скорость игрока Е превышает скорость
игрока Р. Если вначале скорость Е направлена в сторону, про-
тивоположную Р, он может избежать захвата, двигаясь по пря-
мой. Но если начальное положение таково, что скорости Р и Е
направлены навстречу друг другу, а расстояние достаточно
мало, то интуитивно ясно, что захват все же произойдет. Таким
образом, обе области не пусты. Следовательно, имеется поверх-
ность $? — барьер, разделяющий их.
Теперь, начиная с какого-нибудь подобного случая, будем
непрерывно менять параметры таким образом, чтобы это было
выгодно для Р. Мы знаем, что это можно сделать так, что в не-
который момент все пространство с? становится областью за-
хвата. Что же происходит тогда с барьером, который, как
мы предполагаем, непрерывно изменяется? Начиная с неко-
торой критической точки, барьер перестает разделять У на две
части.
Это верно в общем случае. Мы расширим понятие барьеров
так, чтобы оно включало поверхности, не делящие пространство
на две части, если такие поверхности получились преобразова-
нием барьеров (в первоначальном смысле) при непрерывном
изменении параметров. Это определение может показаться
256 Гл. 8. Игры качества
неясным; оно представляет собой не более как описание некото-
рого построения, которое будет приведено далее.
Барьер в этом более широком смысле — когда он не разде-
ляет области захвата и избежания захвата — также предста-
вляет собой, как мы увидим, важную сингулярную поверхность
для некоторой игры степени с выбранной определенным образом
непрерывной платой. В общем случае барьер будет поверхностью
типа (р, —) или (—, —), т. е. при оптимальной игре не пересе-
кается траекториями, и функция V в точках барьера терпит раз-
рыв. Хотя барьер может и не являться границей области избе-
жания захвата, тем не менее он описывает некоторое множе-
ство начальных точек, где задача для Р оказывается более
трудной.
Принимая во внимание, что наилучшие значения ф и ip мож-
но найти лишь для нейтрального исхода, т. е. когда х находится
на барьере, мы будем употреблять термин «оптимальная страте-
гия» при рассмотрении игр качества именно в этом смысле. То
есть ф(х) и ip(x) теперь определены только для точек барьера.
Возможно, что такое выделение нейтрального исхода вызовет
следующие возражения. Поскольку S? — замкнутое множество в
пространстве ef, то любое достижение его точкой х должно
означать захват. То, что ^ не пересекается траекторией, не су-
щественно, поскольку ни одно из уравнений движения не опи-
сывает движение х вне пространства W.
Эти возражения можно устранить путем следующего измене-
ния понятия барьера, позволяющего в то же время сохранить
его сущность. Представим себе поверхность $?Е, параллельную
поверхности S? и расположенную на расстоянии е от нее внутри
пространства 'З- Будем предполагать, что ввиду непрерывности
уравнений движения барьер, соответствующий 8"е, мало отли-
чается от барьера, соответствующего ff, если е мало. Допустим,
что Е начинает игру из точки х, лежащей в области избежания
захвата; он выбирает е настолько малым, чтобы точка х лежала
также в зоне избежания захвата, относящейся к $?Е. Пусть Е
затем действует так, как если бы поверхность ^? была терми-
нальной. Стратегия его произвольна, пока х не оказывается на
новом барьере: здесь Е действует оптимально. Но нейтральный
исход в новой игре означает в первоначальной игре избежание
захвата. Если х находится в области захвата, то действия Р по-
добны действиям Е в предыдущем рассуждении.
Очень важным является тот факт, что
барьер есть полупроницаемая поверхность.
Действительно, пусть х лежит на барьере, отделяющем об-
ласть захвата от области избежания захвата. Тогда игрок Р
8.3. Построены/.1 полупроницаемых поверхностей 257
должен иметь возможность выбрать значение ер, которое не
давало бы х войти в зону избежания захвата, ибо в противном
случае Е может избежать захвата в партии, начинающейся в
точке х. Аналогично, Е должен удерживать х от перехода в зону
захвата. Возможность предупреждать проникновение х в неже-
лательную для данного игрока область оба игрока, по опреде-
лению, имеют лишь на полупроницаемой поверхности.
Заметим в добавление к сказанному, что эта поверхность
должна иметь определенную ориентацию, а именно — направле-
ние пересечения, которое Е может предотвратить, должно вести
в область захвата.
Таким образом, мы должны заняться вопросом о построении
полупроницаемых поверхностей.
8.3. ПОСТРОЕНИЕ ПОЛУПРОНИЦАЕМЫХ ПОВЕРХНОСТЕЙ
Пусть <?f — гладкая поверхность в of, и пусть v= (vi, . •. , \п) —
вектор нормали в каждой ее точке, т. е. v,- есть функция от xit
определенная для х^^0. Длина вектора v произвольна, но не
равна нулю, в дальнейших рассуждениях ее можно считать под-
ходящим образом выбранной отличной от нуля функцией от х{-
Важна лишь ориентация v; следовательно, вектор v определен с
точностью до умножения на произвольную положительную
функцию от х.
Условие того, что if — полупроницаемая поверхность, имеет
вид
П
min max 2 ^ifi (х, Ф, Ф) = 0. (8.3.1)
Это выражение можно рассматривать как основное уравне-
ние, несколько изменив его интерпретацию. В самом деле, мы
будем ссылаться на (8.3.1) как на основное уравнение, однако
дадим здесь его независимый вывод.
Так как /j есть х,, т. е. г-я составляющая скорости движения
точки х при управлениях ф и if, то сумма в (8.3.1) есть состав-
ляющая этой скорости в направлении v. Тогда положительность
или отрицательность этой суммы эквивалентны пересечению
точкой х поверхности if в направлении v или в противополож-
ном направлении соответственно. Пусть теперь минимум в выра-
жении (8.3.1) достигается при ф = <р; тогда
^Мх, Ф» t)>2v,-Mx, <p, ф)
t i i
для любого значения ф в крайней справа сумме. Таким образом,
использование ф гарантирует, что точка х не может проникнуть
17 Зак. 522
258 Гл. в. Игры качества
сквозь поверхность if в направлении v, какое бы управление ip
ни применял игрок Е. Проводя те же самые рассуждения отно-
сительно ip, завершаем доказательство1).
Мы выбираем для каждой точки Ti^if такие функции ф и ф,
что сумма в (8.3.1) достигает соответственно минимума и макси-
мума. Далее мы считаем их достаточно гладкими функциями
на if- Тогда х имеет некоторую определенную скорость
{/;(х' ф, Ф)} в каждой точке на if'.
Может случиться, что эта скорость всюду на if равна нулю.
Такую полупроницаемую поверхность будем называть статиче-
ской. Эквивалентными формальными условиями будут, очевид-
но, условия
fi(x. qj, ф) = 0. i=\ п. (8.3.2)
Пример 8.3.1. Пусть га>1; Р и Е перемещаются простым дви-
жением, их скорости по модулю равны; скорость точки х равна
векторной сумме скоростей Р и Е. Тогда очевидно, что любая
гладкая поверхность полупроницаема. Игроки в качестве напра-
влений своих скоростей выбирают v и противоположное ему на-
правление соответственно. Отсюда следует, что поверхность ста-
тична.
Более интересен случай, когда (8.3.2) нигде не выполняется.
Допустим, что в точках на а/" скорость не равна нулю, тогда из
(8.3.1) ясно, что эта скорость лежит в касательной плоскости
к if. Из теоремы существования для дифференциальных уравне-
ний следует, что тогда if должна быть совокупностью траекто-
рий, описываемых точкой х при использовании стратегий ор и \[\
Предполагая, что if можно включить в семейство полупро-
ницаемых поверхностей, регулярно заполняющих ее окрестность
o/fT,можно получить систему уравнений характеристик для таких
траекторий. Формально вывод их не содержит ничего нового; он
совпадает с приведенным раньше, но только функции V,- теперь
заменены функциями v*.
Точнее, требуется допущение о том, что v можно продолжить
на всю окрестностьс^- Найдем ф(х, v), \|j(x, v),удовлетворяющие
(8.3.1) и определенные для x6i#.Запишем (8.3.1) в форме
') Доказательство того, что поверхность, удовлетворяющая условию
(8.3.1), полупроницаема, проведено автором неточно. Не рассмотрен переход
с касанием с одной стороны поверхности на другую. Для того чтобы неко-
торая поверхность была полупроницаемой, условия (8.3.1) не достаточно. Это
условие должно быть выполнено в некоторой окрестности cV поверхности у
в том смысле, как это предполагается у автора в тексте ниже при выводе
уравнений характеристик для построения полупроницаемой поверхности. —
Прим. ред.
8.3. Построение полупроницаемых поверхностей 259
основного уравнения D.2.3) (т. е. заменяя в нем ср, ар на гр, ф):
2 v//« (х, ф, Ф) = 0. (8-3.3)
Если теперь v*— функции, определенные на qJV, удовлетво-
ряющие (8.3.3) на#и равные первоначальным vt- на^, то они
и будут требуемыми продолжениями Vt.
Пусть ф и ф— такие функции от хг и vu что сумма в (8.3.1)
достигает на них соответственно минимума и максимума. Продиф-
ференцируем Sv(f;(x, ср, ф) по Xj и рассмотрим отдельно члены
i
различного типа. Выпишем сперва слагаемые, полученные при
дифференцировании по явно входящим v*:
Sv;/f;(x, ф, ф), (8.3.4)
где Vij = dvijdXj.
Слагаемые, полученные при дифференцировании функций fi
по явно входящим в них Xj, имеют вид
2
v,ftJ (х, Ф, ф)Т (8.3.5)
Наконец запишем слагаемые, полученные при дифференциро-
вании fj как функций от <p(*j, vi(Xj)):
V у
b dx.
ft " '
это можно переписать в виде
Рассуждая так же, как и раньше, заключаем, что если мини-
мизирующее значение щ является внутренним минимумом, то
первая круглая скобка обращается в нуль. Если функция <рь
принимает одно из своих крайних значений, то она остается для
всех близких значений х равной этому значению, которое мы
можем считать постоянным. Тогда вторая скобка обращается
в нуль. _ _
Те же самые рассуждения справедливы при замене ф на ф.
Используя классические методы анализа, можно показать
существование такой функции F(x), определенной на<?у^*. что
если Vi имеют соответствующую длину, то
п*
260 Гл. 8. Игры качества
Это означает, что
dvt dvj
dXj dx-t
ИЛИ v,-, = v,,.
Сделав такую замену в (8.3.4), получаем
^U Ji*l ш^ dxi dt
здесь производные соответствуют движению х, когда <р и ф ис-
пользуются в качестве стратегий. Последнюю сумму можно за-
писать как Vj-; таким образом, мы приходим к уравнению
Наконец присоединяем эти уравнения к первоначальным
уравнениям движения. Заменяя в них ф и ф на ф и фи меняя
направление отсчета времени (т. е. заменяя t на т в тех и дру-
гих уравнениях), получаем новые уравнения характеристик в
регрессивной форме:
— о
Xj = - fj (х, ф, ф), v; - 2 viftj (х, Ф, Ф). (8.3.6)
t
Проблема 8.3.1. Можно ли получить уравнения характеристик
(8.3.6), не используя окрестность &V* поверхности 4ft
Хотя эта проблема естественно возникает по ходу наших
рассуждений, ее практическое значение невелико. Чтобы приме-
нить высказанные соображения к играм качества, как мы потом'
узнаем, полезно включать ?Р в некоторое семейство.
В общем случае1) можно провести полупроницаемую поверх-
ность (с подходящей ориентацией) через заданную кривую
т. е. (п—2)-мерное многообразие в б). Пусть этой кривой будет
3: x^h^s,, ...,5Л_2). (8.3.7)
Сначала нужно найти v,- для 3. Условие перпендикулярности
дает
]?vA7 = 0 (A,7 = -gf), y=l,..., й-2, (8.3.8)
и, кроме того, на 3) должно выполняться основное уравнение
(8.3.3).
¦) Степень этой «общности» такая же, как и в теории дифференциальных
уравнений в частных производных первого порядка. Любая кривая может
служить множеством подходящих начальных условий, если она нигде ие ка-
сается характеристик.
8.3. Построение полупроницаемых поверхностей 261
Таким образом, мы имеем п—1 уравнений для определе-
ния Vj. Ориентация v должна быть подходящей для нашей за-
дачи, а длина может быть произвольной.
Следующий результат представляет собой обратную тео-
рему, из которой следует, что наше построение приводит к полу-
проницаемой поверхности.
Теорема 8.3.1. Пусть <р и •§ ¦— такие функции от X; и v,-, что
(8.3.1) достигает на них соответственно min и max. Пусть для
некоторой кривой SS, заданной формулами (8.3.7), v, предста-
вляют собой значения v,, не все равные нулю и удовлетворяю-
щие (8.3.8) и (8.3.3). Пусть xt (т, sh . . . , sn_2) и v, (т, su ¦ ¦ ., sn_2) —
интегралы дифференциальных уравнений (8.3.6) с начальными
условиями hi и v,-. Тогда решения х*(т, Si, . . . , sn_2) задают в
параметрической форме полупроницаемую поверхность, содер-
жащую 3.
Доказательство проводится так же, как в теореме 4.8.1, и
здесь мы его опускаем.
Построение, которое проводится при доказательстве теоремы,
показывает, что если фи ф определены из (8.3.1) однозначно, то
имеется единственное решение для каждого v;, удовлетворяю-
щего соотношениям (8.3.8) и (8.3.3).
Полученную полупроницаемую поверхность можно включить
в семейство близких полупроницаемых поверхностей. Для этого
нужно лишь включить кривую ЗИ в однопараметрическое семей-
ство близких кривых и использовать каждую для построения
полупроницаемой поверхности. Семейство кривых также должно
образовывать некоторую поверхность, причем необходимо, разу-
меется, чтобы эта поверхность не была касательной к ?Р.
Мы предполагали, что <§Р — гладкая поверхность. Однако
область исследуемых задач можно расширить так, что она будет
охватывать различного рода исключения. Подход к таким зада-
чам аналогичен изложенному на предыдущих страницах. Дей-
ствительно, пусть ?Р можно включить в семейство полупроницае-
мых поверхностей. Выберем такую гладкую функцию F, чтобы
она была постоянна на каждой поверхности, а скорость ее изме-
нения при переходе от одной поверхности к другой была отлич-
на от нуля. Ясно, что такое семейство эквивалентно поверхно-
стям постоянных значений цены (V=F) для некоторой игры с
терминальной платой. К ней можно применить наши методы на-
хождения сингулярных поверхностей — универсальных, поверх-
ностей переключения и т. д. Их можно рассматривать как соот-
ветствующие сингулярные кривые на ?Р.
262 Гл. 8. Игры качества
Упражнение 8.3.1. Заданы уравнения движения
х1 ==- ф2 _ 4х2,
х, = — 2ф,
Провести полупроницаемую поверхность через ось х2 (пара-
метрическое задание ее: A'i = 0, x2 = s, х3 = 0). Возможны две по-
верхности противоположной ориентации; устранить неопределен-
ность, полагая V3>0 (можно принять V3=l). Мы должны иметь
vi<0 всюду, кроме 35 \ почему?
[Решение имеет вид
х1 = 4sx — 4т3,
х2 = 5 — 2т2,
Упражнение 8.3.2. Заданы уравнения движения
л: — созф,
1. Показать аналитически, что полупроницаемые поверхности
суть прямые, составляющие угол 30° с вертикалью, и найти
ф И 1р.
2. Нарисовать вектограммы и показать тот же результат гео-
метрически.
8.4. ОКОНЧАНИЕ БАРЬЕРОВ
Может случиться, что полупроницаемая поверхность внезап-
но обрывается, причем ни одну траекторию нельзя продолжить
непрерывным образом за определенную кривую на этой поверх-
ности, так что последняя остается полупроницаемой.
Следующие примеры подтверждают, что явления такого рода
действительно имеют место.
Пример 8.4.1. Пусть уравнения движения имеют вид
у = сц>-\-с—1 (с—постоянная, — 1<ф<1);
проведем полупроницаемую поверхность через @, 0).
Напишем основное уравнение
9[vj(l —y)-\-v2c]-{-vi(l —y)^-v2(c— l)}=
8.4. Окончание барьеров 263
из него следует, что
Ф= ~sgn[vj(l — y)-j-v2c] = —
Теперь запишем уравнения характеристик
х — — (ф -f 1) A — у), Vj = О,
В качестве начальных условий возьмем vl = l, v2 = 0,
а также х = 0, у — О. Они являются подходящими, потому
что зде.сь
Л= 1A — 0) + 0с= 1 >0, поэтому ф = —1,
и основное уравнение удовлетворяется.
Поскольку уравнения характеристик здесь имеют вид
о о
у=\, v2 = О,
их интегрирование дает
X = О, Vj ."=: 1 ,
у =, х, v2 = О
и А--\ — т.
Таким образом, Л>0 для т-^1, при этом траектория пред-
ставляет собой вертикальный отрезок, проведенный из точки
(О, 0) в точку @, 1). Здесь А меняет знак, и продолжению этой
функции должно соответствовать <р= + 1, что превращает урав-
нения характеристики в уравнения
*;=-*<.-»). v,=o, (841)
z/ = l-—2с, v2 = — 2vj.
о
Если теперь с>!/2, то //=1—2с<0, и новая траектория, если
таковая имеется, направляется вниз, в обратном направлении
повторяя старую. Поскольку направление нормали v не меняется
в точке «стыковки», а направление движения меняется, то, сле-
довательно, меняется ориентация, и полупроницаемую кривую
нельзя продолжить.
С другой стороны, если с<7г> интегралы уравнений (8.4.1)
определяют продолжение вертикального отрезка, удовлетворяю-
щее требованиям полупроницаемое™. Читатель легко может
264 Га. 8. Игры качества
убедиться, что оно задается уравнениями ')
л = A— 2с) т2,
является дугой параболы, гладко соединенной с основанием
вертикального отрезка, и образует вместе с ним единую полу-
проницаемую поверхность.
Упражнение 8.4.1. С помощью вектограмм интерпретировать
этот пример геометрически.
Еще проще продемонстрировать явление окончания барьера
на следующем примере.
Пример 8.4.2. Пусть уравнения движения имеют вид
х = sirup,
y = cos(p — q(x, у);
вектрограммы изображены на рис. 8.4.1. Если q>\, то одна из
выделенных стрелок (в зависимости от ориентации) касается
Рис. 8.4.1.
полупроницаемой поверхности, так как все остальные векторы
лежат по одну сторону от выделенных. Напротив, если q<l,
ясно, что ни одного такого направления не существует.
Пусть q(x,y)>\ в одной части плоскости и q(x, г/)<1 в дру-
гой. Для первой части можно нарисовать полупроницаемые
поверхности. Если бы какая-нибудь из них доходила до той
части плоскости, где q(x, y)<\, то здесь она должна была бы
немедленно оборваться.
') Разумеется, т здесь не совпадает с прежним; оно о учитывается от
точки «стыковки».
8.4. Окончание барьеров 265
Упражнение 8.4.2. Написать для этого примера основное уравне-
ние, уравнения характеристик и получить предыдущие выводы
аналитически. Построить решение для какого-нибудь конкрет-
ного случая.
Наконец продемонстрируем один типичный пример на задаче
дг:ух игроков. Более подробный анализ таких задач составляет
содержание гл. 10.
Пример 8.4.3. Примем за W верхнюю полуплоскость (у^>0), и
пусть Р имеет вектограмму XAiA2, изображенную на рис. 8.4.2, а.
Базовая линия А\А2 (линия концов векторов вектограммы) вер-
тикальна, и половина высоты ее AiA3 (или А3А2) равна посто-
янному значению Ь, в то время как горизонтальная компонента
ХА3 есть функция и (у). Круговая вектограмма постоянного ра-
диуса w принадлежит Е. Сложение этих вектограмм порождает
уравнения движения
х = и (у)-{-iv sin vp,
у— — ЬЦ> -f- W COS l(% — 1 -i^ ((¦ <^ 1 .
Функция и(у)—положительная и гладкая, возрастающая
при у>0. Для некоторого у0 имеем w = u(ijo), так что а>>а лишь
при 0*Су<у0; b>w.
Проведем полупроницаемую поверхность через начало обла-
сти избежания захвата, лежащей слева. Вскоре мы узнаем, что
она имеет такой вид, как на рис. 8.4.2, б, соединяет точку 0 с
точкой В, где х = хв>0 и у = ув=Уо-
Для у<уо нарисуем окружность с центром в точке А2 ра-
диуса w (рис. 8.4.2, в). Покажем, что касательная ХТ2 к этой
окружности есть искомое полупроницаемое направление в точ-
ке X. Предположим сначала, что Р выбирает ХА, (ф=1). Тогда
все суммарные векторы скоростей, зависящие от выбора Е, на-
чинаются в А' и оканчиваются на окружности; ясно, что ни один
из них не проникает сквозь ХТ2 в направлении, указанном стрел-
кой. С другой стороны, если Е выбирает направление А2Т2, то
Р может выбрать лить векторы, проведенные из X к Т\Т2 (здесь
AtTi получен параллельным переносом А2Т2), и тогда ни один
из суммарных векторов не проникает в обратном направлении.
Следовательно, направление ХТ2 полупроницаемо.
Теперь предположим, что у>Уо, так что u>w. Тогда (см.
рис. 8.4.2, г) отрезок 7\Г2 лежит с той же самой стороны от ХТ%
что и окружность, и полупроницаемость исчезает. В этом случае
не найдется ни одного полупроницаемого направления.
В полосе (кС;/<г/о направление ХТ2 определено в каждой
точке X, т. е. мы имеем поле направлений. Классическая теория
266
Гл. 8. Игры качества
дифференциальных уравнений позволяет нам провести кривую,
проходящую через 0 и имеющую касательную ХТ2 в каждой
своей точке; примерный график ее показан на рис. 8.4.2, б. Заме-
тим, что в точке В касательная вертикальна,что с очевидностью
следует из рассмотрения векторной диаграммы на рис. 8.4.2, в.
Рис. 8.4.2.
Задача 8.4.1. Исследовать этот пример аналитически и подтвер-
дить полученный выше результат с помощью приведенного в
§ 8.3 способа.
Упражнение 8.4.3. Показать, что дифферент сальное уравнение,
которому удовлетворяет барьер, для 0-<л/-<^д, имеет вид
dx
(8.4.2)
8.5. Построение барьера 26?
и получить уравнение барьера для случая
6 = 3, да — 2, и = {/ -f-1,
так что г/о= 1-
[Уравнение (8.4.2) можно легко вывести, заметив, что требо-
вание нормальности означает
dx __ v3
и отношение, записанное в правой части, можно непосредственно
получить из основного уравнения D.2.3).]
8.5. ПОСТРОЕНИЕ БАРЬЕРА
Наш подход к задаче описания областей захвата и избежа-
ния захвата, когда обе эти области существуют, будет состоять
в исследовании разделяющей их поверхности—барьера. Мы уже
знаем, что эта поверхность должна быть полупроницаемой.
В предыдущем параграфе было установлено, как провести полу-
проницаемую поверхность через некоторую заданную кривую.
Осталось определить, какую именно кривую.
Выше мы считали, что вектор нормали к барьеру должен
быть направлен внутрь области избежания захвата; будем
всегда считать выбранной именно такую ориентацию.
Для многих интересных задач барьер пересекается с 8", и
тогда искомой кривой может служить линия пересечения. Мысль
о том, что кривую 3) следует брать на %", согласуется с нашей
общей схемой: интегрирование начинается от Ч? и продвигается
внутрь «f. Однако пересечение ,f с ^ вовсе не обязательно,
как показывает следующий пример.
Пример 8.5.1. Рассмотрим уравнения движения
х = cos ф -f- и cos ф,
у = sin<p-|-M sin ф,
где и = ы (*,{/) —такая непрерывная функция, что «>0 для у
Пусть ?Р—гладкая кривая в верхней полуплоскости (у>0), ко-
торая пересекается с каждой вертикальной прямой лишь один
раз. Имеем а>\ над 3?; и=\ на ?Р\ м<1 под ?Р.
Примем за ef верхнюю полуплоскость (г/Х)), а за 8* — осьх
Ясно, что скорость точки х равна векторной сумме двух ско-
ростей, равных по модулю и и 1 и направленных в соответствии
с выбором игроков. Очевидно, что над ?Р, где u>l, E контроли-
рует направление движения, а под этой кривой контролирует Р.
Тогда &1 должна быть барьером. На ней скорости игроков равны
268 Гл. 8. Игры качества
по величине 1; игроки тянут друг друга в противоположные сто-
роны, скорости нх лежат на нормали к if\ следовательно, ?Р
является статическим барьером. Ясно, что множество под ?Р
есть область захвата, а над ?f — область избежания захвата.
Проблема 8.5.1. Если в предыдущем примере в уравнении для
х к правой части прибавить некоторую константу С и если она
достаточно мала, можно ожидать, что барьер будет кривой,
близкой к ?f. Остается ли он статическим?
Начиная с этого момента будем предполагать, что ,2* лежит
на 8", и отмстим три различных возможных типа барьеров.
I. Естественные барьеры. Здесь 3 служит границей допусти-
мой области. С этой новой точки зрения полезно пересмотреть
последнее понятие.
Пусть х — точка на &, и пусть у — (yi, . . ., уп) — ненулевой
вектор, перпендикулярный к <? и направленный внутрь %".
Условие
minmaxSvjf^x, ф, Ф)<0, х?% (8.5.1)
выражает тот факт, что Р может заставить х проникнуть сквозь
8\ несмотря на противодействие со стороны Е. Подмножество
в 8", на котором выполняется (8.5.1), является допустимой обла-
стью в 8". Если для x??f выполняется противоположное нера-
венство, тогда Е может предотвратить проникновение х сквозь*?,
и такие точки х образуют недопустимую область. Разделяющая
их кривая, граница допустимой области, характеризуется урав-
нением
minmaxSYiMx, <р, Ф) = 0, х?&. (8.5.2)
ч> ф i
В каждой точке этой кривой, когда каждый из игроков
играет оптимально, точка х перемещается (если она переме-
щается) по касательной к 8".
Так как граница допустимой области разделяет точки на ?f
(или, вернее, в ее окрестности) на области, где захват немед-
ленно осуществляется и где его можно отсрочить, представляется
логичным использовать эту границу в качестве начальной кри-
вой 3 барьера 58.
Для построения 58 используем начальные условия: х?3),
v = v- Из того, что у—перпендикуляр к 8* и совпадает с v,
когда 58 встречается с *?, следует, что эти поверхности касают-
ся друг друга. Типичный случай изображен на рис. 8.5.1, а. Здесь
замкнутая кривая на ?f есть граница допустимой области, до-
пустимая область лежит внутри нее. Барьер касается %* по гра-
8.5. Построение барьера
269
нице допустимой области и изображен здесь в виде рогообраз-
ной поверхности. Он является объединением траекторий, пока-
занных стрелками, которые подходят к ?f в точках границы до-
пустимой области по касательной к ней и, как это справедливо
в общем случае, со стороны допустимой области.
S3
сть
Рис. 8.5.1.
Теперь предположим, что JF действительно разделяет «f на
две части. Если х лежит с внешней стороны барьера 3&, т. е.
с той, которая не примыкает к допустимой области, то Р не мо-
жет осуществить захват, ибо он не может заставить х достичь
допустимой области ни через полупроницаемый барьер, ни че-
рез *ё'.
Несколько труднее показать, что внутренняя сторона барьера
3& есть область захвата. На рис. 8.5.1,6 показано сечение, про-
ходящее через траектории. Пусть <% можно включить в
семейство полупроницаемых поверхностей, лежащих с одной сто-
роны от нее, таких, как обозначенные пунктиром на рисунке.
Предположим, что они ограничивают меньшие по сравнению z<$
270
Гл. 8. Игры качества
подобласти в ef, расположенные над Ч?. Пусть теперь х находит-
ся с внутренней стороны от барьера J5, как, например, Х\ на ри-
сунке; Xi лежит на одной из поверхностей_семейства. Если Е
выбирает подходящее для него управление -ф, то Р выбирает (р;
х остается на траектории, которая приводит ее на ^ с проник-
новением сквозь Ч?. Если Е действует как-нибудь иначе, Р мо-
жет заставить точку х проникать сквозь поверхности семейства.
Это перемещение необратимо, и по крайней мере во многих част-
ных случаях точка х должна быть безвозвратно перемещена
8\
Рис. 8.5.2.
Пусть, наконец, точка х лежит на <%. Если игроки исполь-
зуют ф и г|з, она движется по какой-нибудь траектории на 38,
касается <? и снова покидает ее (пунктирная линия на рис. 8.5.1,6).
Такой исход мы называем нейтральным.
Любое отступление какого-нибудь игрока от оптимальной
стратегии приводит к ухудшению платы, т. е. приводит к захвату
или избежанию его. Тогда оптимальные стратегии игроков опти-
мальны в обычном смысле этого понятия; таким свойством
обладает лишь точка барьера. Например, Е, находясь с внешней
стороны барьера, может не придерживаться какого-нибудь кон-
кретного управления г|э. Он может зафиксировать некоторую
полупроницаемую поверхность в окрестности барьера с внешней
стороны и как угодно близко от него и не действовать реши-
тельно, пока х не достигает этой поверхности.
Мы строим 38, начиная от границы допустимой области и
интегрируя отсюда уравнения характеристик в регрессивной
форме. Получившаяся поверхность может разделять или не раз-
делять ё° на две части. В первом случае, как уже было пока-
зано, эти части образуют искомые области захвата и избежания
его.
8.5. Построение барьера
271
Если 38 не разделяет ef, то Р всегда может осуществить
захват. Но находясь по разные стороны от 38 (в локальном
смысле), он должен применять различные тактики. Типичный
момент изображает рис. 8.5.2. Можно ожидать, что исходящая
из Х% траектория должна непосредственно привести к 8". Но
ж
I /
I /
I /
Граница допустимой
области
Р и с. 8.5.3.
начиная игру в Х\, Р должен заставить х (предполагая опреде-
ленное разумное сопротивление со стороны Е) следовать по
траектории, огибающей 38, чтобы достичь Ч? в некоторой точке
допустимой области. Примером может служить «маневр разво-
рота» в игре «шофер-убийца», а описанный случай в ч-истом виде
имеет место в игре «изотропные ракеты» (см. рис. 5.5.3, 5.5.4
и 5.5.5).
Не все части барьера годятся для решения рассматриваемого
вопроса. Если барьер самопересекается или пересекаются неко-
торые образующие его траектории, то лежащие за пересечением
части следует отбросить. Так, на рис. 8.5.3, а мы отрезаем отме-
ченные пунктиром части барьера 38', область захвата — заштри-
хованный криволинейный треугольник. Замечательный пример
такого явления, встречающийся в игре «шофер-убийца», будет
обсуждаться в гл. 10.
272 Гл. 8. Игры качества
На рис. 8.5.3,6 изображен другой обескураживающий слу-
чай. Вид регрессивных траекторий из некоторых точек границы
допустимой области, например Рь может быть вполне приемле-
мым. В то же время траектории, построенные из других точек,
могут опускаться ниже <? вблизи от границы допустимой обла-
сти, а затем снова поднимаются над нею (как, скажем, траек-
тория Рг на рис. 8.5.3,6), проникая сквозь допустимую область
в некоторой точке А. Ясно, что такие траектории не могут играть
возложенную на них роль и должны быть отброшены. Подоб-
ный момент встречается в игре «изотропные ракеты», долгое
время он оставался одним из наиболее запутанных вопросов,
с которыми нам пришлось столкнуться в настоящей теории.
II. Искусственные барьеры. Предположим, что сначала мы
рассматриваем случай, когда <? имеет допустимую область
(совпадающую, возможно, с 8"), а затем несколько изменяем
игру, считая, что захват теперь означает достижение точкой х
некоторого определенного подмножества на допустимой области;
пусть это подмножество ограничено кривой SB. Чтобы построить
барьер для новой игры, попытаемся провести полупроницаемую
поверхность через 35. Полученный таким образом барьер мы
как раз и будем называть искусственным барьером.
Разумеется, такое изменение игры не обязательно формули-
руется в виде наивного требования уменьшить допустимую
область; но во многих случаях изменения логически эквива-
лентны такому требованию. Так, если й" состоит из кусков не-
скольких гладких поверхностей, 3) может лежать на их пере-
сечении. Или, например, если ?f — многоугольник, в качестве
новой допустимой области можно взять одну из его сторон.
Подобного рода явление возникает также в игре погони
группы преследователей за единственной целью. К другому
классу игр с искусственными барьерами относится игра пре-
следования, когда убегающему мешают определенные ограни-
чения или препятствия. Мы можем рассматривать описывающие
их поверхности как дополнительные терминальные поверхности,
считая пересечение их точкой х равносильным захвату.
Во всех этих случаях мы начинаем построение полупрони-
цаемой поверхности, проходящей через 3, в соответствии с опи-
санным в § 8.3 способом. При этом большинство высказанных
там идей можно с некоторыми очевидными изменениями при-
менить и здесь.
III. Барьеры-огибающие. Обозначим через G дифференциаль-
ную игру размерности не ниже трех, для которой недопустимая
область есть некая непустая область в Чэ'. Начальная кривая 3>
((п—2)-мерное многообразие) для барьеров-огибающих лежит
в этой области. Оптимальные, траектории, исходящие из .й>,
8.5. Построение барьера 273
подходят к J по касательной (отсюда название — барьер-
огибающая), и оптимальные стратегии на барьере можно непре-
рывно продолжить на 33. Таким образом, если х движется по
оптимальной траектории к <?, то это движение может продол-
жаться вдоль 33, причем стратегии остаются непрерывными.
Естественно, что лишь особого рода кривые могут играть
роль кривой 33 и они существуют не во всякой игре. Пусть х
лежит в недопустимой области. Тогда для любого ф игрок Е
может найти некоторое управление г|з, обеспечивающее проник-
новение внутрь ef; предположим, что он может также найти
1р = г|) = г|)(х, ф), которое оставляет х на ?f, т. е. направить ско-
рость точки х по касательной к *?. Тогда если Е применяет \[\
мы получаем игру одного игрока Gu для которой роль §° играет
недопустимая область игры G (или часть ее). Основное требова-
ние к кривой 33 состоит в том, чтобы она была полупроницае-
мой для игры G4.
Высказанные здесь соображения мы сейчас сформулируем
в виде теоремы, а затем обсудим роль поверхностей типа барье-
ров в дифференциальных играх.
Теорема 8.5.1. Пусть G — дифференциальная игра размер-
ности п^-3, для которой выполняются следующие условия:
1. Имеется область <ffi, принадлежащая замыканию недопу-
стимой области, такая, что для любого1) ф и х?<$? найдется
функция -ф(ф) (=ф(х, ф)), непрерывная относительно (х, ф) и
такая, что при использовании игроками управлений ф и гр(ф)
вектор скорости не проникает сквозь 'ё'. Если найдется более
чем одна такая функция %\\ выбираем любую из них.
2. В игре одного игрока Gu для которой уравнения движе-
ния имеют вид
Xi.= ft(X, ф, ф(ф)),
а пространство игры есть М, имеется полупроницаемая поверх-
ность, которую мы обозначим через 35.
3. В окрестности поверхности 35 оптимальные управления
локально непрерывны, а ф локально единственно; точнее, это
означает, что для любой фиксированной пары х и v, где х?3),
a v — вектор нормали к 33 в точке х, можно найти ф, мини визи-
рующее функцию
<Э(Ф, ф) = Цу,Мх, ф, 40,
') При этом всегда подразумевается, что ср и \р являются допустимыми
управлениями, т. е. удовлетворяют всем предусмотренным условиями t;i ,jim
ограничениям.
18 Зак. 522
274 Гл. 8. Игры качества
непрерывную относительно х и v в некоторой их окрестности.
Для каждого фиксированного значения ф соответствующее мак-
симизирующее значение 1|з является однозначно определенной
и непрерывной функцией этих переменных.
4. Полупроницаемую поверхность & можно построить стан-
дартным способом (см. § 8.3) с кривой 3 в качестве начальной.
Тогда ff можно построить таким образом, чтобы и состав-
ляющие ее оптимальные траектории касались 3, и оптимальные
значения ф и ty для ?f совпадали бы с этими значениями на 3
в точках из 3 П <?Р.
Доказательство. Выберем такую систему координат,
чтобы поверхность <? превратилась в плоскость .ti = 0, а про-
странство е? было расположено с той ее стороны, где ^i>0.
Тогда для х € <$ и всех ф
О. (8.5.3)
Пусть v==@, v2, ..., vB) — вектор нормали к 3), лежащий в М-
Обозначив
Qi(<P. t) = |v7;(x, ф, ф),
запишем условие полупроницаемости кривой ^:
min Q! (ф, ф (ф)) = 0 = Q, (ф, ф (ф) ), (8.5.4)
ф
где ф = ф(х) доставляет минимум функции Q, a x?S.
Лежащий в <^ вектор нормали к S, который можно исполь-
зовать как начальный для а?, есть (vv v2, ..., v;1) для некото-
рого vr Обозначив
напишем условие полупроницаемости для ?Р на 3):
min max Q (ф, ф) = 0 = Q (ф, ф~). (8.5.5)
ч> t
Из (8.5.5) следует, что
<Э(Ф> Ф(Ф))«3(ф, Ф) = О, ]
а из (8.5.4), что 1 (8.5.6)
)
Если бы по крайней мере одно из этих неравенств было строгим,
мы бы имели
v,f, (х, ф, ф (ф) ) = Q (ф, ф (ф) ) - Q, (ф, ф (ф) ) < О,
«то противоречит (8.5.3).
8.5. Построение барьера 275
Следовательно, оба соотношения (8.5.6) представляют собой
равенства. Из второго и из условия 3 мы заключаем, что при
построении 35 можно использовать ф вместо ф. Из условий 1 и 3
следует, что ф(ср) на 35 совпадает с г|з на &'. Таким образом,
оптимальные траектории на 4? и 35 в точках их соединения
одинаковы. Это означает также, что xt в этих точках равны, что
в свою очередь обеспечивает касание.
Замечания.- Если на 35 возможно более чем одно оптимизи-
рующее значение ф или г|з, то можно построить более одной
полупроницаемой поверхности, проходящей через 3). Но только
одна поверхность ?f из этого дискретного множества может
иметь непрерывное соединение с 3J.
Если возможно более чем одно значение 1|з, то для каждого
такого значения найдется некоторая поверхность ?Р. Тогда со-
ответствующий выбор 1|з задается особенностями конкретной
задачи, как мы убедимся на некоторых примерах гл. 9.
Выполнение условия 3 обязательно. В качестве примера мож-
но использовать упражнение 8.3.1 (считая —2-^гр-^12). Ясно, что
можно взять i|j = — YX2- Полагая Уз = 1, получаем для 35:
Х\ = О, 0<*2<Л, Хг = 0. Но если читатель сделал упражнение, то
он знает, что ip = V2/vi на ?Р и что это отношение стремится
к нулю в окрестности кривой 3). Эта разрывность оптимального
1|з устраняет касание траекторий с 3), и теорема здесь неверна.
Отметим, что ?? вместе со своей границей 35 образует полу-
проницаемую поверхность.
Следствие 8.5.1. Если 35 касается границы допустимой
области, то ее касаются и лежащие на 35 оптимальные траекто-
рии.
Доказательство. Возьмем ту же самую систему коор-
динат, что и при доказательстве теоремы; если х принадлежит
границе допустимой области, то
min max /, (х, ф, ф) = 0.
ф Ф
Пусть минимакс /4 достигается при ф и г|). В силу 3 можно счи-
тать (после выбора некоторой ветви, если это необходимо), что'
Ф и 1|з единственны в окрестности «стыковки» 35 и границы до-
пустимой области. Тогда в некоторой точке К этого множества
они должны быть равны ф и 1|з(ф).
Таким образом, в окрестности точки К на границе допусти-
мой области мы имеем определенные ф(х) и г|з(х). Если они
18*
276 Га. в. Игры качества
используются как управления, то точка х должна перемещаться
по какой-то траектории границы допустимой области. Вектор
скорости @, ±и . . . , хп) на этой траектории в точке К тот же
самый, что и на Я> в этой точке, так как управления здесь
равны. Отсюда следует касание.
Почему же эта поверхность служит барьером для игры G?
Во-первых, 3> должна встречаться с границей допустимой об-
ласти. Поэтому если начальная точка принадлежит <ff, то при
оптимальном развитии игры она сперва следует по траектории,
лежащей на if, затем — по одной из траекторий на ?В, пока не
достигнет границы допустимой области. Здесь можно ожидать,
что далее х проникает в cf, скажем, так, как изображено на
рис. 8.5.1,6 (пунктирная траектория). Таким образом, до этого
точка х оставалась на полупроницаемой поверхности, и исход
должен быть нейтральным.
В силу следствия 8.5.1 3) и граница допустимой области
имеют общую нормаль v в общих точках. Следовательно, со-
ставляющие поверхность ?Р траектории должны гладко сливать-
ся с траекториями естественного барьера. В таком случае есте-
ственный барьер и барьер-огибающая в совокупности образуют
один комбинированный барьер.
Отметим, что в точках их соединения общая оптимальная
траектория, как одна из траекторий, составляющих 3"', касается
3) и, таким образом, в силу следствия касается границы допу-
стимой области. Следовательно, 3) можно провести лишь через
те точки естественного барьера, в которых траектории барьера
касаются границы допустимой области.
В соответствии с этим возможно, что барьеры-огибающие
являются средством для объяснения непонятных явлений такого
типа, какой изображен на рис. 8.5.3,6. По крайней мере в одном
случае это действительно так1).
Проблема 8.5.2. Пусть на рис. 8.5.3, б К — точка границы допу-
стимой области, которая отделяет траектории, опускающиеся
под ?>\ от траекторий обычного вида. Можно ли в общем случае
провести 3) через К и построить барьер-огибающую, содержа-
щий траектории, которые продолжали бы оптимальные траекто-
рии естественного барьера?
Имеется еще одно немаловажное затруднение. Если х нахо-
дится на ^ (S с ^), возможен случай, когда Р может обеспе-
чить проникновение х внутрь if. Пользуясь принятой при дока-
зательстве теоремы терминологией, можно сказать, что Р имеет
') См, ш'ру «изотропные ракеты» (пример-У.З).
#.5. Построение барьера 277
определенное оптимальное управление1) ф, когда х движется
вдоль 3. Но ф может не быть минимизирующим для /i(x, ф, г|з).
Тогда, разумеется, проникновение может быть осуществлено.
В дальнейшем нам потребуется
Следствие 8.5.2. Предположим, что ?f действительно от-
деляет область захвата от области избежания захвата в игре G.
Если существует такое значение2) фЬ что для х€.3
/i(x, <г„
то найдется такое значение г|)ь что когда применяются фь ib,
точка х проникает в область избежания захвата через if и ??.
Доказательство. Поскольку управление ф1 не опти-
мально для полупроницаемой поверхности, Е, применяя г?(ф1),
добивается проникновения х сквозь S и попадания на сторону,
примыкающую к области избежания захвата. Скорость х соот-
ветствует скорости для игры Gi и направлена по касательной
к %'. Так как S лежит в недопустимой области, Е, разумеется,
имеет в своем распоряжении такое гра, которое приводит к про-
никновению внутрь W при использовании противником фь В силу
предположения о замкнутости (§ 2.7) любая замкнутая линей-
ная комбинация из г|)(ф1) и г|J принадлежит вектограмме для Е.
Если игрок Е выберет гр (ф1) с коэффициентом, близким к 1, а
¦фа — с достаточно малым коэффициентом, то суммарное % бу-
дет обладать нужными свойствами.
Таким образом, если бы Р попытался осуществить захват,
применяя фь когда х лежит на S, Е мог бы отплатить ему, рас-
строив эти планы с помощью i|h. Однако такое управление,
основанное на знании управления противника, не подходит под
определение стратегии. Тем не менее определенные ф и г|з суще-
ствуют во всех точках барьера; если игроки применяют их, нет
поводов для возражений. Практически это означает, что Е дол-
жен уметь отразить угрозу упомянутого выше неоптимального
захвата. Пусть в соответствии с приведенным в конце § 8.2
описанием он действует так, как если бы терминальная поверх-
ность ?f была заменена на ?fe. Игрок Е реагирует3) лишь
тогда, когда Р заставит х переместиться за ог, но раньше, чем,
скажем, х достигает ?fe,2- Проще всего, по-видимому, позволить
Е это нарушение: оно длится очень короткое время. Тогда Е на
!) Возможен вырожденный случай, когда /i не зависит от ср. Тогда, ра-
зумеется, проникновение невозможно и никаких затруднений не возникает.
2) В этом доказательстве индексы не означают компоненты.
3) То есть применяет определенное выше управление ifi- — Прим. перев.
278 Гл. 8. Игры качества
Ф1 отвечает управлением ^ц, несли е достаточно мало, то х очень
быстро достигает области избежания захвата.
Весьма вероятно, что эту некорректность доказательства
можно как-то исправить, но незначительная длительность приме-
нения г|н не дает основания для практических затруднений. На-
конец, в некоторых случаях Е мог бы действовать так, как
если бы ф! было экстремальным (минимизирующим fi) значе-
нием, и в качестве ipi применять стратегию 1|з, противостоящую
этому экстремальному ср, когда х находится под ъ 8.
8.6. НЕСКОЛЬКО ПРИМЕРОВ
Пример 8.6.1. Перехват цели, движущейся вдоль прямой. Пусть
Р обладает простым движением, единичной скоростью и пере-
мещается на плоскости; Е имеет скорость w и движется вдоль
прямой (скажем, по оси х); для своей стратегии Е может вы-
брать лишь одно из двух направлений движения вдоль этой пря-
мой; захват происходит при \РЕ\^.1.
Возможность осуществить захват при w<\ очевидна, по-
этому нас интересуют условия, которые позволяют добиться
успеха менее быстрому преследователю (w^-l).
Идеи этого примера, возможно, не в такой упрощенной фор-
мулировке приводят к практически важному вопросу: когда
перехватчик может добиться успеха, выступая против превосхо-
дящего его в скорости противника, который следует по задан-
ному курсу? Последний может быть баллистической ракетой,
не снабженной программой маневрирования, либо самолетом,
которому программа не позволяет отклоняться от курса.
Эта задача, как мы вскоре увидим, очень проста. Приведем
полное формальное решение ее для нашего случая.
Пусть координаты соответствуют рис. 8.6.1, а. Напишем урав-
нения движения
х — даф — sin ф,
У = — cos ф,
где — Кгр<1.
Тогда основное уравнение D.2.1) имеет вид
min max [— (v, зтф-т-у2со8ф) + 'аго1ф] — О,
ф
откуда этф — v,/p, cos ф = v.,/p, где р-- ]/Vf-f-v|, ni|) = o* =
Теперь запишем основное уравнение D.2.3)
— Р +¦ ¦ап'|а --0
8.6. Несколько примеров
279
и уравнения характеристик в регрессивной форме
и = —
р
Захват происходит (см. рис. 8.6.1,6), когда
х — I sins,
у = /cos s.
В редуцированном пространстве поверхность ?f представляет
собой полуокружность (рис. 8.6.2). Будем рассматривать лишь
-х-
а
б
Рис. 8.6.1.
. Принимая во внимание вид вектограммы и учитывая, что
вектор нормали v есть (sins, coss), напишем условие, опреде-
ляющее допустимую область:
mm max [—(sincpsins + coscpcoss)-!-™1!' sins]
ф Ф
или
или, наконец,
— 1 -\-w\ sins К0,
1
I sins
280
Гл. 8. Игры качества
Иными словами, определяя S из формулы sin S — l/w, O^S^n/2,
получаем, что допустимой областью в if является область
<в
Рис. 8.6.2.
(на рисунке эта дуга выделена жирной линией), а
граница допустимой области задается уравнением
s =~ aS.
Следовательно, начальные условия имеют вид
у = Icos S, v2--cos5.
Интегрирование уравнений характеристик дает уравнения
траекторий
х = a [(/—|—т) sin S— ¦дат],
у ==(/ + т) cos 5;
угол наклона равен
cosS
sin S
• = — a
sinS
cos S
тач как sin5=1/^. Следовательно, барьеры касаются поверх-
ности if в точках s = aS; части их, лежащие за точкой пере-
сечения, мы отбрасываем (если w>\). В результате мы по-
лучили область захвата; на рис. 8.6.2 она заштрихована.
Можно сократить эти формальные выкладки. Заметив, что
х и у не входят в правые части уравнений движения, заключаем,
о
что v, = 0 и что барьеры должны быть прямыми линиями. Сле-
довательно, зная допустимую область, можно сразу нарисовать
подходящим образом направленные касательные, исходящие из
ее краевых точек.
Заметим, что если ш=1, то барьеры не пересекаются. В этом
случае областью захвата служит полоса
8.6. Несколько примеров
281
Барьеры представляют собой прямые х = ±! и являются статич-
ными.
Задача 8.6.1. Получить эти результаты геометрическим методом
для случая w>l.
Задача 8.6.2. Объяснить физический смысл результата для слу-
чая w~\.
Для того чтобы с этой точки зрения исследовать упоминав-
шуюся задачу перехвата, нужно лишить Е возможности выби-
рать направление. Тогда остается всего лишь единственный
барьер (см. рис. 8.6.3).
Рис. 8.6.3.
Пример 8.6.2. Игра преследования с одним шансом (Дрешер).
Рассмотрим снова пример 6.6.1, несколько обобщив его, а имен-
но допустив, что скорости противников произвольны. Вектограм-
мы изображены на рис. 8.6.4,а, х и у — составляющие вектора
РЕ, уравнения движения имеют вид
х = даф -)- Ф-
у =z — (та+1), w<1(^>1).
Захват, как обычно, означает х2 + у2<12. В редуцированном про-
странстве поверхность if имеет такую же параметризацию, как
на рис. 8.6.2, с той лишь разницей, что теперь <? есть вся окруж-
ность. Допустимая область определяется условием .
min тах[(дафН-ф) sins — (ш)-\- l)coss] =
= a(w— 1) sins — (w+ l)coss < 0,
где 0 = sgnsins. Тогда критический угол S, соответствующий
границе допустимой области, удовлетворяет условию
282
Гл. 8. Игры качества
Мы сокращаем дальнейшие формальные выкладки, рассу-
ждая аналогично тому, как это делалось в предыдущем при-
мере: правые части уравнений движения не зависят от х и у,
а это ведет к прямолинейным барьерам. Они изображены на
рис. 8.6.4, б.
Р и с. 8.6.4.
Для случая w— 1,'рассмотренного в примере 6.6.1, барьеры
вертикальны и параллельны.
Пример 8.6.3. Обобщенная задача. Используем уравнения дви-
жения упражнения 8.3.1, где <? — область, для которой хз^О,
а *? — плоскость х3 = 0. Допустимая область задается условием
min лг3 = min (- - х] -\- 1 — ср) = — х1 < О,
или xt>0. Тогда границей допустимой области служит ось х2,
играющая роль <Э5. Мы приведем полученное в § 8.2 решение:
хх = 4st — 4т3,
х3 = 2sx2 - т4.
(8.6.1)
Отметим, что х3<0 при s<0 для малых положительных т, и эти
траектории не могут образовывать часть барьера. Тогда мы
предположим, что s^O.
8.6, Несколько примеров
283
При x = Y2s траектория, соответствующая s, возвращается
к xs=0 и встречается с этой плоскостью на кривой
jCi = — 4 У~2 s3/2,
х, = —3s, 0<s<oo.
Взяв какие-нибудь значения л:3>0 и х% покажем, что суще-
ствуют единственные s и т, где s>0, 0 < т < ]/s, такие, что
два последние уравнения из (8.6.1) удовлетворяются. Тогда
барьер встречается только один раз с каждой прямой в <f, па-
раллельной оси хи и, следовательно, разделяет в" на две части.
Доказательство получается средствами элементарной ал-
гебры. Решая два последние уравнения из (8.6.1) относительно
s и т, получаем для последнего
— х2 ± У х\ -f- Зл:3
т= з ¦
Выбираем знак плюс, соответствующий положительному значе-
нию т. Тогда
Из
следует, что
т<
Пример 8.6.4. Долихобрахистохрона. Мы знаем из примера 5.2,
что для начальных точек, лежащих в нижней части плоскости
(y<w2), игрок Е может предотвратить
окончание вопреки любым усилиям игро-
ка Р. Тогда прямая y = w2 будет барье-
ром. Как и естественный барьер, она яв-
ляется полупроницаемой поверхностью,
проходящей через границу допустимой
области, но она не касается ^¦ Это ис-
ключение объясняется тем, что барьер
статический.
Упражнение 8.6.1. Доказать, что прямая
= w2
w2 действительно является полупро-
р и с § 6 5.
ницаемой, статической и правильно
ориентированной.
Задача 8.6.3. Показать, что над этой прямой (y>w2) не суще-
ствует полупроницаемых поверхностей. Показать, что в области
под ней через каждую точку проходят две такие поверхности.
Проще это сделать геометрически, как предлагается на рис. 8.6.5.
284 Гл. 8. Игры качества
Наконец выяснить, почему в точках соединения поверхности пе-
реключения и границы допустимой области нарушается каса-
ние ^ и д§.
Задача 8.6.4. Дама в озере. Предположим, что в примере 6.10.2
отношение скорости движения Р к скорости движения Е на-
столько велико, что Е не достигнет успеха, если будет как
обычно начинать игру из центра. В то же время очевидно, что
если дама плавает близко к берегу, а джентльмен находится
достаточно далеко от нее, то она всегда сможет от него убе-
жать. Выбрать подходящее редуцированное пространство и
найти в нем барьер, разделяющий эти крайние положения.
8.7. ДРУГИЕ ВОЗМОЖНЫЕ ТИПЫ БАРЬЕРОВ
Наша классификация барьеров возникла в связи с опреде-
ленным методологическим подходом и не исчерпывает все воз-
можные случаи. Покажем, что существуют разновидности
барьеров, не относящиеся ни к одному из перечисленных в
§ 8.5 типов.
Пример 8.7.1. Еще один тип барьеров. Рассмотрим на плоскости
игру одного игрока, описываемую следующими уравнениями
движения:
х = w
у — w sin ф — а(х),
где и(х) —такая гладкая функция, что
а(х)>0, и'(х)<0 для всех *6ef, u(O)
Отсюда следует, что u{x)~>w при х<0 и u(x)<w при х>0.
В качестве & возьмем проходящую через начало координат
прямую
х = s, у = as,
где а — фиксированное число любого знака; <f лежит сверху
от ?f.
Мы приведем здесь некоторые результаты, предоставив их
доказательство читателю.
Пусть А — такая точка на <? (см. рис. 8.7.1,а), что
—да2
так что s<0. Допустимая область в Ч? лежит слева от А неза-
висимо от знака а.
8.8. Объединение игр качества и игр степени
285
Когда х<0, семейство <&" кривых, которые являются инте-
гралами уравнения
dy _ Vu (xJ — w2
dx w
полупроницаемо. (Это семейство изображено на рис. 8.7.1, а.)
При а<0 одна кривая J? семейства ^ касается 4$ в точке Л;
<% представляет собой обычный естественный барьер (см.
рис. 8.7.1,6).
У
Рис. 8.7.1.
При а>0 барьер <% есть кривая семейства <^", проходящая
через О (см. рис. 8.7.1, в). Она не касается Ч§ и встречается с
нею в точке недопустимой области. Для начальных точек, рас-
положенных над АО (примером служит точка X на рисунке),
захват происходит не сразу; вначале х следует по изображен-
ному маршруту к допустимой области.
Упражнение 8.7.1. Получить эти выводы аналитически.
8.8. ОБЪЕДИНЕНИЕ ИГР КАЧЕСТВА И ИГР СТЕПЕНИ
Этот вопрос частично уже был затронут в начале книги.
Когда в играх преследования начальная точка лежит в области
захвата, Р может рассуждать так: «Поскольку я могу догнать
286 Гл. 8. Игры качества
противника, я сделаю это возможно эффективнее и (например)
добьюсь минимального времени захвата». Если Е соответственно
добивается максимизации, мы получаем объединение игры ка-
чества и игры степени.
Имеется и другая возможность объединить эти игры. Если х
находится в зоне избежания захвата, то Р может сказать: «Я не
могу добиться захвата Е, но могу подойти как можно ближе
к нему, минимизируя (например) ближайшее расстояние ') до
?»2).
В обоих случаях возникает вопрос о соответствии оптималь-
ных стратегий игроков для игр степени и оптимальных стра-
тегий для игр качества. Последние определены лишь на барье-
рах; первые — по крайней мере в некоторой полуокрестности
барьеров. Две эти стратегии ф(х) (соответственно ф(х)) можно
рассматривать как одну функцию, определенную на замыкании
полуокрестности. Если она непрерывна, то можно сказать, что
два типа стратегий непрерывно переходят друг в друга.
Вопрос о том, возможен такой подход или нет, тесно связан
с другим вопросом, представляющим самостоятельный интерес:
при каких условиях выполняется
Принцип огибания. Если найдено решение некоторой
игры преследования, где платой выбрано время захвата; то оги-
бающая поверхностей постоянного значения V будет барьером.
Прекрасным примером выполнения этого принципа является
игра «изотропные ра'кеты»; на рис. 5.5.4 ясно видна огибающая
дуг окружностей, на которых функция V постоянна; эта огибаю-
щая представляет собой поперечное сечение барьера. В игре
«шофер-убийца» принцип выполняется для малых значений V,
для больших значений V он не имеет места, как мы увидим в
гл. 10.
Недостаток места не позволяет поместить здесь результаты
исследования этих вопросов.
') Можно минимизировать также среднее расстояние.
2) Возможно, при этом ои мысленно добавляет: «Как зиать? Может быть,
? и не догадается, как надо играть оптимально, и тут-то я его и поймаю».
ГЛАВА 9
Примеры игр качества
Идеи, высказанные в предыдущей главе, применяются здесь
к некоторым важным примерам. В этой главе завершается ре-
шение игры «шофер-убийца» и ее «сглаженного» аналога — игры
«изотропные ракеты». Игра двух автомобилей (§ 9.2) иллю-
стрирует те сложности, которые могут возникнуть при рассмо-
трении довольно просто сформулированной задачи. Идеи этой
игры доказали свою практическую важность при применении их
к задаче об избежании столкновения.
Рассмотрены так называемые игры с «линией Жизни» и
игры с «линией смерти», описывающие одинаковые кинемати-
ческие ситуации и имеющие на первый взгляд аналогичное
содержание. Решения этих задач, однако, чрезвычайно отли-
чаются друг от друга.
Прототипом игр с «линией жизни» является задача об убе-
гающей цели, которая стремится достичь некоторой (скажем,
прямолинейной) границы объекта больших размеров, прежде
чем ее настигнет превосходящий по скорости перехватчик.
Морской перехватчик (торпеда, корабль и т. д.), пытаю-
щийся догнать убегающего с большей скоростью противника,
когда в тылу противника находится береговая линия, представ-
ляет собой пример игры с «линией смерти».
Видоизменения этой игры находят много важных приложе-
ний, которые в принципе просты, однако приводят иногда к до-
вольно сложным решениям. В «одностороннем» варианте убе-
гающий пытается проскользнуть между линией берега и пресле-
дователем. Это приводит к рассмотрению игры «крыса, загнан-
ная в угол» и игры «патрулирование коридора». В первом
случае убегающий попадает в «залив» и пытается проскольз-
нуть мимо преследователя перед самым его носом. Если сохра-
нять принятую выше морскую терминологию, то можно сказать,
что игры второго типа соответствуют случаю, когда Е пытается
ускользнуть от преследователя в канале или реке (в футболе
это могут быть нападающий и защитник). В результате мы
получаем важное для приложений критическое значение ши-
рины канала.
288 Гл. 9. Примеры игр качества
Этот результат можно также применить к задаче определе-
ния «линии патрулирования» перехватчиков, целью которых
является предотвратить прорыв противника, превосходящего их
в скорости. При рассмотрении задачи о предотвращении ухода
более быстрого противника аналогичные идеи приводят к полу-
чению «линии патрулирования» в форме окружности с цен-
тром в Е.
В § 9.7 приведены некоторые соображения о том, каким об-
разом наши идеи можно было бы применить в предложенных фон
Нейманом общих играх преследования с ограничением.
В заключение предлагается (но не проводится) один способ
решения игры воздушного боя (для случая, когда самолет имеет
оружие с ограниченной подвижностью).
В последнем параграфе приводятся также некоторые сообра-
жения о применимости наших идей к теории устойчивости; од-
нако следует сказать, что детальное изучение этого вопроса
лежит вне нашего круга задач.
9.1. ИГРА «ШОФЕР-УБИЙЦА»
Исследуем условия, при которых более увертливый, но менее
быстрый Е может убежать от Р, на кривизну траектории кото-
рого наложено ограничение.
Рис. 9.1.1.
Выбрав координаты и управления так, как это делалось
раньше (рис. 9.1.1), напишем уже знакомые нам (§ 2.2) урав-
нения движения:
у —- —- хф -- wl -(- w2 cos ф, — 1 <! q> <C 1,
9.1. Игра «шофер-убийца» 289
которым соответствует основное уравнение
inin max j — ~ir [#vi — -*^2]ф— ^iV2-f- да2 (vj sin ФН-\-2 cost) 1 = 0.
Обозначив A — yv, — xv2. p==V"v?+v|, получаем
Ф==зегпЛ = а, соэф ——, sin Ф = — ,
a основное уравнение D.2.3) принимает вид
— о -^- А — wxv2 + да2р =? 0.
Обычным способом получаем уравнения характеристик
X = СУ — W2 — , Vj = CV2,
У = — CX-irW1— W2 — , V2= —CVj,
где c = (wJR)o.
Теперь определим начальные условия. Поскольку ^S опре-
деляется уравнениями
внешняя нормаль у задается компонентами
Тогда допустимая область удовлетворяет условию
tnin max [y^^-y^y] =
ф Ф
= min maxjsinsf—-^- (/cos s)cp4-m,sin
-f- COS S (~ (/ Sin S) ф — 701 + 702 COS t|) jl —
— max [— те»1 cos s + w2 cos (ф — s)] =
= w2 — wl cos s <[ 0.
Определяя 5 условием
, 0<5
получаем допустимую область в виде
\s\<S,
и граница ее есть s= ± 5.
19 Зак. 522
290 Гл. 9. Примеры игр качества
Заметим, что на <?
А = (/ cos s) sin s — (/ sin s) cos s = 0,
о
поэтому рассмотрим производную А, которая равна здесь
(так же как и во всем <f)
vo) — х (— 6'vO + Vi (— ex + хг»1 — w2 у-) —
( ^) 'a»1v1. (9.1.1)
Таким образом, на Й7
0 = sgnv, == sgns.
Будем рассматривать правый барьер, положив
0=1.
Левая сторона, разумеется, полностью симметрична. Запишем
начальные условия для интегрирования уравнений характери-
стик в регрессивной форме:
х = I sin S,
1 We
— I—*-,
Wj
Интегрирование двух последних уравнений характеристик дает
v, = sin (S 4 сх),
\ «1 (9-1.2)
так что первые два превращаются в уравнения
х= су — w2s\n(S-\~cx),
о (УЛ.о)
у = — а + да, — w2 cos (S -\- ex),
которые, как легко можно проверить, имеют интегралы
х — (/ — w9x) sin (S -\- ex) ~\-R (\ — cos ex),
(9 14)
у = (/ — m2t)cosE -[--ex) -^ R sin ex. y ' ' '
Обозначим через &2Г+ и ГЖ'~ окружности радиуса (w2/wi)R
с центром в точках' ( + /?, 0) и (—/?, 0), т. е. окружности, кон-
центричные окружностям наименьшего поворота.
Барьер является эвольвентой окружности Q7CЛ, касающейся
&\ как показано на рис. 9.1.2, а, а уравнения (9.1.4) представ-
ляют собой уравнения этой кривой1)-
') В гл. 10 эвольвента будет получена чисто геометрическим способом.
9.1. Игра «шофер-убийца»
291
Интегрируя (9.1.1), получаем
— cos(S
следовательно, функция А на <% не положительна при
5 = 2л—5. Нормаль к кривой, как следует из (9.1.2), есть
(—sin S, cos S). Легко видеть, что эта нормаль является ниж-
ней касательной, проведенной изначала координат к c/f+. Попы-
тавшись продолжить <$ дальше, мы должны были бы изменить а
на —1. Продолжение должно было бы быть дугой эвольвенты
окружности э%"_; в этом не было бы никакого противоречия, ибс
ясно, что нормаль ОВ должна касаться как e?f+, так и е2Г_.
19»
292 Гл. 9. Примеры игр качества
Но новая эвольвента должна была бы разворачиваться в напра-
влении против часовой стрелки изоЗГ-, и тогда она повторяла бы
в обратном направлении J?, что не имеет смысла. Следова-
тельно, 3$ оканчивается, и весь барьер (для правой полупло-
скости) есть дуга эвольвенты от С до В, что и изображено на
рисунке.
Кривая в левой полуплоскости, разумеется, симметрична 3$
относительно оси у. В зависимости от значений параметров эти
кривые могут встретиться или не встретиться, как показано на
рис. 9.1.2, в и б.
В случае б $ не делит ef на две части, и, следовательно,
все ef представляет собой область захвата, т. е. Р может до-
гнать противника из каждой точки пространства ef'. При начале
игры из точки X, например, Е может заставить Р двигаться
окольным путем вокруг !$', это соответствует стратегии с ма-
невром разворота (§ 1.5). Таким образом, барьер J?, даже когда
он не отделяет области захвата от области избежания захвата,
все же выделяет те начальные точки, которые приводят к ма-
невру разворота.
Когда эвольвенты пересекаются, как на рис. 9.1.2, я, мы от-
брасываем их части, лежащие за пересечением. Заштрихован-
ный криволинейный треугольник есть область захвата; вся
внешняя часть пространства ef является областью избежания
захвата. Дадим этому некоторую эвристическую интерпретацию.
Предположим, что параметры благоприятны для Е, т. е. прево-
сходство в скорости у игрока Р не слишком большое, / мало,
а минимальный радиус разворота велик. Для Е наиболее есте-
ственно при таких обстоятельствах было бы просто отступать
в сторону всякий раз, когда появляется угроза немедленного
захвата. Для начального положения, соответствующего, напри-
мер, точке Y на рис. 9.1.2, в, не имеет значения, что делает ?
вплоть до момента угрозы. Можно представить себе, например,
что он остается неподвижным. Попытка Р добиться своей цели
приводит х к перемещению вниз от У; Е не обязан предприни-
мать что-нибудь до тех пор, пока х не окажется в окрестности
барьера $, где Е отступает в сторону. Это, как и следовало
ожидать, означает, что х перемещается с внешней стороны
барьера .<$ в окрестность эвольвенты, как показано на
рис. 9.1.2,0. Здесь Е отступает в сторону и непосредственная
угроза захвата исчезает до тех пор, пока Р не приготовится для
новой попытки, при которой повторяется то же самое.
Область захвата, заштрихованная на рис. 9.1.2, в, состоит из
таких точек, где Е расположен впереди Р и столь близко к нему,
что, несмотря на свои кинематические преимущества, он не успе-
вает отступить в сторону. Область захвата является ограничен-
91.А, Воздушный бой
293
ной, в то время как область избежания захвата неограничена;
мы видим, что наше утверждение о том, что пересечение эволь-
вент или отсутствие такого пересечения является критерием за-
хвата или избежания его, подтверждается.
С помощью рис. 9.1.3 можно легко написать аналитический
критерий (приравнивая длины выделенных линий). Если отно-
Рис. 9.1.3.
Рис. 9.1.4.
шение скоростей y = w2/wi меньше 1, то захват происходит при
условии
(9.1.4)
а условие избежания захвата описывается противоположным
неравенством.
Если Й7 имеет другую, отличную от круга форму, остается
применимым критерий: происходит или нет пересечение эволь-
вент е2Г+ и вТ_ !).
9.1. А. ВОЗДУШНЫЙ БОЙ
Предположим, что для некоторого летательного аппарата,
например для одноместного самолета с закрепленными пулеме-
тами, зона поражения имеет форму, изображенную на рис. 9.1.4.
Фиксированная ориентация оружия относительно самолета, а
также ограничения на его движение, такие, как ограничение
') Разумеется, если % ограничивает достаточно большую область, барье-
ры отсутствуют. Например, если % содержит Ж+ и Ж'-. то областью захвата
является все % .
294 Гл. 9. Примеры игр качества
маневренности, в значительной мере ставят эффективность этого
оружия в зависимость от маневрирования.
Такой самолет можно отождествить с Р в рассмотренной
выше задаче, приняв зону поражения его за %\ а цель — за Е.
Можно исследовать, например, какова должна быть скорость Е,
чтобы он мог всегда оставаться вне зоны поражения.
Случай, когда скорость Е превосходит скорость Р, представ-
ляет обычно наибольший интерес. В этом случае необходимо
провести рассуждения, аналогичные приведенным в предыду-
щем параграфе.
9.2. ИГРА ДВУХ АВТОМОБИЛЕЙ
В этом и следующем параграфах рассмотрены две задачи
того же самого типа, что игра «шофер-убийца», но более труд-
ные. Первая из них приводит к столь утомительным исследова-
ниям, что мы должны довольствоваться решением, в принципе
Центры
кривизны
Рис. 9.2.1.
полным, но не описывающим всех деталей. Конечно, любой ча-
стный случай — при конкретных значениях параметров — можно
рассчитать полностью.
Игра двух автомобилей была сформулирована в упражне-
нии 8.1.1. Она во всем аналогична игре «шофер-убийца», с той
лишь разницей, что здесь на кривизну траектории Е также на-
ложено ограничение. Пусть Wi и Шг — скорости Р и Е, a Ri и
R2 — минимальные радиусы кривизны их траекторий. Размер-
ность редуцированного пространства равна 3; координаты мо-
жно выбирать различными способами. Выберем х, у и 9 так,
как показано на рис. 9.2.1. Эти координаты, по-видимому, явля-
9.2. Игра двух автомобилей
295
ются удобными с точки зрения интегрирования довольно гро-
моздких дифференциальных уравнений. Кроме того, они анало-
гичны случаю игры «шофер-убийца», что позволяет нам делать
обобщения. Рисунок 9.2.2 изображает редуцированное простран-
ство <?; оно представляет собой внешнюю область цилиндра ра-
Р и с. 9.2.2.
диуса /. Ясно, что 9 меняется в пределах от 0 до 2я, и плоскости,
соответствующие этим двум значениям 9, совпадают.
Нетрудно написать уравнения движения
х — —
у =- -
л.
w2 cos 9,
Обозначим
А = \}у — v.2x 4- v3
и запишем основное уравнение
min max — ср —- A -\-w2 (v, sin 0 -j- v,cos 9)
ф L Ki
\'5ф
j — 0.
"J
296 Гл. 9. Примеры игр качества
Из этого уравнения получаем
9 = 0! = Sgn А,
ф = 02 = sgn v3.
Теперь обычным способом получаем уравнения характеристик
у —— cx-\-wx— mjcose, v2 = — cvv
e = c —^-02, v3 = теJ (v, cos 6 — v2sin6),
где для краткости введено обозначение с = (wJR^ oL. В резуль-
тате очевидных вычислений получаем
(9.2.1)
Рассмотрим теперь начальные условия. Параметризацию
задаем следующим образом:
как показано на рис. 9.2.2. Если г2 = х2 + у2, то из уравнений дви-
жения получаем
rr =xx -j- у у = x(w2 sin 0) +у(—Wi + w2 cos0);
это соотношение на ^ превращается в
lr — l sin s\ (w2 sin s2)—/ cos si(wi—Wi cos s2).
Граница допустимой области (где г=0) задается соотноше-
ниями
, W\ —Wi COS S2 i W2 Sin S2 /r> П n\
sins1= + -^—^ i, coss1=± 2^ 2, (9.2.2)
где W=^Yw2\^wl — 2t«1«Jcos52.Знак ±означает, что в каждой
части поверхности ^, где 0 = s2 = const, граница допустимой об-
ласти состоит из пары диаметрально противоположных точек.
Далее мы будем различать случаи Ш1>ш2 и Wi<w2. В пер-
вом случае из (9.2.2) следует, что sin si никогда не меняет знак.
Тогда две границы допустимой области остаются более или ме-
нее на противоположных сторонах поверхности <?, и допустимая
область приблизительно покрывает верхнюю половину ъ. Такой
случай изображает рис. 9.2.2. С другой стороны, если W\<,w2,
9.2. Игра двух автомобилей 297
изменение знака s4 (при cos s2 = Wi/wo) означает, что граница
допустимой области закручивается вокруг if'.
Упражнение 9.2.1. Дать геометрическую интерпретацию этих по-
ложений с помощью вектограмм.
В целях экономии места рассмотрим подробно лишь случай
Чтобы получить начальные значения <р и ф, нужно исследо-
вать А и V3 на границе допустимой области. Поскольку здесь
i W[ — W2 COS S2
1 w2 sin s2 •¦•
: cos 5, — a: ™ ,
легко видеть, что A = v3 = 0 на границе допустимой области. Сле-
— — о
довательно, начальные значения фИ1|) определяются знаками А
о
и v3.
Таким образом, из (9.2.1) получаем
а, = sgn А = sgn v, = sgn (± Wl-^cos^) = ± 1 (9.2.3)
(предполагается, что Wi>wo). Итак, а4= + 1 для правой части
границы допустимой области. Ввиду симметрии можно рассмат-
ривать лишь эту границу, приняв ai = 1 и знак + вместо
знака ±.
Из уравнений характеристик получаем
02 = sgn v3 = sgn (v, cos 6 — v2 sin 0) = sgn [wx cos s2 — w2]. (9.2.4)
Отсюда следует, что о2 меняет знак в том случае, когда w{>w-z..
Пусть S — угол в первой четверти, такой, что
Тогда 02 принимает значения
о2 — \ при
02 = — 1 при S < 52 < 2л — S,
02=1 при 2л — 5<;52<2л.
о о
Из уравнений характеристик следует, что х и у не зависят
о
от 02, а 0 зависит и меняется скачком при s2 = S и s2 = 2n—S.
298
Гл. 9. Примеры игр качества
Когда при возрастании s2 проходит значение S, в этой точке 0
увеличивается скачком. Это означает, что траектории из S2 = S—
и s2 = S-\- удаляются друг от друга, оставляя пустую область,
которая должна быть заполнена универсальной кривой и входя-
щими в нее траекториями.
о
В точке s2 = 2n—S, напротив, 9 уменьшается скачком; поверх-
ности, образованные траекториями с той и другой стороны от
s2=2n—S, должны пересекаться. Отбрасывая пересекающиеся
части, получаем рассеивающую кривую. Заметим, что, посколь-
ку ф=1 всюду на этом правом барьере, нет необходимости
в мгновенной смешанной стратегии.
Однако вернемся к универсальной кривой. Учитывая, что она
является ^-универсальной, согласно обозначениям гл. 7, выпи-
шем аи Pj из уравнений движения и затем подсчитаем ус
0
0
W2/R2
h
— су -j- w2 sin 0
CX — Wt -f- W-2 COS 6
(— w2 cos 9) w2/R2
(w2 sin 9) w2/R2
0
Раскрывая определитель, после сокращения на множители
W2/R2 и W2/R2, получаем
с (—у sin 6 -\-х cos 6) — w1 cos 6 4- щ = 0. (9.2.5)
Как определить кривую на этой поверхности? Дифференци-
руя (9.2.5) по т и используя уравнения характеристик (где ст2
заменено на if), находим траектории, образующие поверхность:
с\—у sin 9 + xcos 0] + [с(—у cos 9 — х sin 9) ~\-w1 sin 9] 9 =
= с [с (у cos 9-(-xsin9) — wx sin6]~(-[c(—у cos 9 — * sin 8L-
4- w, sin 9] (с —Цу $\ = \c (y cos 94-x sin 9) — w, sin 9] ^- ф = 0.
\ l<2 } K2
Отсюда следует, что либо ф = 0, либо равно нулю выражение
в квадратных скобках. Последнее допущение вместе с (9.2.5)
приводит к соотношениям
сх — wl 4- ™2CoS в ~0>
су — w2 sin 9 = 0.
Эти два уравнения выполняются вдоль кривой в <f, на которой,
О О
как видно из уравнений характеристик, х = у = 0. Такое стати-
9.2. Игра двух автомобилей 299
ческое соотношение вряд ли удовлетворяет нас. Поэтому мы по-
ложим г|) = 0. Возвращаясь снова к уравнениям характеристик,
после замены at на 1 и о2 на 0 получаем
х~су — aJsin6,
о
у = —сх -\- w^ — m2 cos 0,
о
0 =с.
Из третьего уравнения следует, что 0 = S + ct. Подставив 0 впер-
вые два уравнения, получаем соотношения, в точности совпа-
дающие с уравнениями барьера (9.1.3) для задачи «шофер-
убийца». Следовательно, проекция универсальной кривой на
плоскость х, у является эвольвентой барьера для игры «шофер-
убийца».
Этот вывод полностью согласуется с общей концепцией уни-
версальной поверхности. Он означает, что игрок Е, следуя опти-
мальной нейтральной стратегии, круто поворачивает вправо или
влево до тех пор, пока не добивается подходящей ориентации,
так же, как в игре «шофер-убийца».
Мы еще не проинтегрировали уравнения характеристик. Ин-
тегрируя с уже найденными начальными условиями для х{ и v,-,
получаем следующий легко проверяемый результат. Мы сохра-
няем обозначения ai и стг; таким образом, эти траектории годны
для всех вариантов задачи:
х — I sin (s, -f- ст.) -(- Rxax A — cos ex) -\-
-\- /?oG2 (COS (S2-T- CX) — COS 0),
у = 1 cos (Sj -\- ex) ~\- /?1cr1 sin ст. —
— R2e2(sm(s2~ir ex) — sin 9),
—g-a2)x, (9.2.6)
v, = sin E, 4- ex),
V2=COS (^4"^).
v3 = R2a2 J^cos E! — s2) — cos (s, — s2 4- ^- o2xj].
В этих уравнениях s± должно быть заменено по формулам
(9.2.2). Сюда же присоединим
Л = /?,0, (cos 5, — cos E, + сх)).
Найдем наименьшие положительные значения х(ха и тз), при
которых А и \'з обращаются в нуль. Не заботясь о формальном
300
Гл 9. Примеры игр качества
обосновании, будем считать, что меньшее из таких т соответ-
ствует окончанию барьера; итак, мы имеем
10], V 1/>
А W
если о, = -)-1,
если о, = — 1,
тз = ~-2(я — E,—52)), если a2 =
Т3 — "^ 2 E, 52),
если
= — 1.
На рис. 9.2.3 изображено, как приблизительно должен вы-
глядеть правый барьер. Левый, разумеется, имеет аналогичный
вид; отметим, что рассеивающая кривая исходит из точки
Рассеивающая
кривая
Рис. 9.2.3.
s2 = 2n — S, а универсальная — из точки s2 = S, причем рассеи-
вающая кривая поворачивает в сторону плоскости 9 = 0.
Вопрос о возможности избежать захвата эквивалентен во-
просу о том, происходит ли пересечение правого и левого барь-
еров и отделяют ли они некоторую часть пространства с?, содер-
жащую допустимую область. Однако в каких случаях можно
утверждать, что это происходит? По-видимому, попытка полу-
чить ответ привела бы к довольно сложным вычислениям.
9.3. Игра i-изотропные ракеты» 301
Не так-то просто найти даже рассеивающую кривую, хотя
в принципе ясно, как это сделать, А именно, в первые три урав-
нения (9.2.6) подставляем cii=l (если рассматривается правый
барьер) и заменяем Si по формуле (9.2.2), в которой знак ±
меняем на +. Напишем эту систему дважды: для случаев
о2= + 1 и ст2 = — 1. и рассмотрим правые части обеих систем для
различных т и s2. Затем приравняем значения х, /у и 0 для двух
систем; это дает нам три уравнения для получения двух значе:
ний т и двух значений s2. Они должны иметь однопараметриче-
ское семейство решений, которое определяет искомую рассеи-
вающую кривую. Разумеется, полученное значение т должно ле-
жать между 0 и гшп(тд, тз), а два значения s2 должны лежать
с разных сторон от 2л—S.
Для любых конкретных значений даь w2, Ru R-i, /') можно
получить эмпирический ответ. Одним из способов получения его
является построение сечений барьеров плоскостями 9 = const,
с тем чтобы исследовать, пересекаются они или нет. При этом
необходимые уравнения легко получить незначительным изме-
нением уравнений (9.2.6).
Что изменится при рассмотрении случая ш(<ш2? Из (9.2.2)
следует, что sin Si и, следовательно, ai меняют знак при
cos s2 = Wilw2, а из (9.2.4) следует, что ст2 остается постоянным
на каждом из барьеров. По-видимому, барьеры также будут
содержать рассеивающую и универсальную кривые, но теперь
универсальная кривая должна быть уже ср-универсальной, а не
г|з-универсальной. Можно сделать вывод, что, по-видимому, все-
гда стратегия игрока, обладающего меньшей скоростью, терпит
разрывы на сингулярных поверхностях, независимо от ограни-
чений на кривизну траекторий.
Проблема 9.2.1. Исследовать более полно случай Wi<w2. В ча-
стности, какова здесь универсальная кривая? Не совпадает ли
она с барьером для случая игры преследования, в которой Р
перемещается простым движением, а кривизна траектории Е
ограничена?
9.3. ИГРА «ИЗОТРОПНЫЕ РАКЕТЫ»
Вернемся к задаче, решенной в § 5.5 со временем захвата
в качестве платы, и построим для нее барьер. На этот раз
мы сможем найти точный критерий для возможности избе-
жания захвата, хотя строгое доказательство некоторых деталей
') Поскольку имеют значение лишь отношения скоростей и расстояний,
существенных параметров здесь фактически три (например, w^w2, Ri!'l и
R2II).
302
Гл 9. Примеры игр качества
окажется незавершенным. Мы, как и прежде, будем использо-
вать редуцированные координаты х, у, v (см. рис. 9.3.1, а), но
теперь вместо заглавных X и У будем писать строчные буквы.
Рис. 9.3.1.
Кроме того, мы не будем учитывать силу трения; хотя при этом
и допускается неограниченная скорость для Р, зато задача вы-
игрывает в простоте математических выкладок, не изменяясь
в принципе.
Выведенные уже уравнения движения имеют вид
х = — F ~ sincp-f w sin ф,
у = ~- F — sincp-j-'ffi'C.os ф — <о,
<v ~ F cos ф.
Редуцированное пространство & (х, у, v, с условиями
х2 + у2^12, v^-О) показано на рис. 9.3.1, б. Как обычно, через /
обозначен радиус круга захвата. Параметризуем У следующим
образом: х = /sin s(, у = /cos s\, v = s2. Полагая г = 'J/a:2-f-у2,
находим допустимую область. Вычислим сперва
гг = хх +- уу =
~х( — F~ sincp-f--w sInфJ —J--y\F— 8Шф-|- те»cos ф — v) =
— w(x sin ф — у cos ф) — vy.
Тогда граница допустимой области на ^ удовлетворяет условию
!) —0. (9.3.1)
9.3. Игра «изотропные ракеты» 303
Если смотреть вдоль оси х, то граница допустимой области
спроектируется в гиперболу
vy = wl
(см. рис. 9.3.1,6).
Используя в качестве параметра s2 = s, запишем уравнения
границы допустимой области:
x=-±iy\— {wjsf,
v = s, s „> w.
Остальные начальные условия для построения барьера легко
выводятся из того, что v должно быть ортогонально к границе
допустимой области и должно удовлетворять приведенному
ниже основному уравнению в форме D.2.3). Итак,
V, = ± /1— {WJSf,
v2 = wjs,
v3 = 0.
Основное уравнение D.2.1) имеет вид
max min \F\ —— sincp-j-v3cosq))-|-'ze>(v1 sin»p + v,cosi|))—vv2] = 0,
ффих1*. / " J
где U = v^y — v2x. Положив далее
о — l/ —
v2
31
получим
sin v|5 = — , cosip = —
P2 P2
и основное уравнение D.2.3)
— Fpi -(- дарг — vv2 = 0.
Запишем уравнения характеристик:
w —,
р
, v,F |
р2 1 t/2p,
v2.
304 Гл. 9. Примеры игр качества
Интегрирование этой системы с приведенными выше началь-
ными условиями связано с обычными затруднениями. В ре-
зультате, обозначив W — Fi — w, получаем
(9.3-3)
Wx
V
Знак + соответствует правой (х>0) части пространства <?,
а знак — соответствует левой части. В силу симметрии можно
ограничиться правым барьером и взять знак +.
Из этих формул следует, что
Г2 = х2 + У2 = I2 + (s2 — w2 — IF) х2 +1 Ят4. (9.3.4)
Как и следовало ожидать, г@)=/, /•@)=0. Но, кроме того,
заметим, что если
S2 _ W2 _ /7/ < 0
или, что то же, если
s < 5 = Yw2 + Fl, (9.3.5)
то 7@) <0.
Если выполнено соотношение (9.3.5), то соответствующие
траектории для малых т идут внутрь & и, следовательно, бес-
полезны для построения барьера1). Обозначим точки границы
допустимой области, соответствующие началу этого явления,
через В+ и В~. Координаты их таковы: для В±
X—±L
y l
Следующий результат состоит в том, что в точках В± траек-
тории касаются границы допустимой области.
Касательное направление к границе допустимой области по-
лучаем, дифференцируя (9.3.2) и полагая s = S:
'; Пример явления, упоминавшегося в § 8.5 (см. рис. 8.5.3).
9.3. Игра «изотропные ракеты» 305
Однако в точках В± имеем
° -,/~~cr w3 ° Flw2 ° „ w
jc = ._y^/_( у = —^з-, г> = — F-y,
а эти два вектора коллинеарны.
Критерий возможности избежания захвата состоит в том,
чтобы две части барьера пересекались или чтобы существовало-
такое значение t0 = t0(s)>0, что х(то)=О. В силу (9.3.3) это
означает, что уравнение
Ft2 —
имеет положительный корень. Значит дискриминант w2—2FI
должен быть положительным. Это условие достаточно, посколь-
ку за то можно принять минимальный и, очевидно, положитель-
ный корень
/^2F
Отсюда следует, что
Избежание захвата возможно, если
(9.3.7)
Этот критерий нуждается в доказательстве.
При выполнении условия (9.3.7) назовем линию пересечения
барьеров гребнем. Интересна его форма. Если подставить зна-
чение то из (9.3.6) вместо т в выражения для у и v в форму-
лах (9.3.3), то после несложных преобразований мы получаем
y = vx0. (9.3.8)
Итак, гребнем служит прямая линия, проходящая через начало
координат в плоскости х = 0, с наклоном y/v, заданным вы-
ражением (9.3.6).
В случае выполнения (9.3.7) наши исследования приводят
к барьеру, показанному на рис. 9.3.2.
Построенный таким образом барьер имеет вид заостренного
тента бесконечной длины. Но правый (для данного рисунка) ко-
нец барьера открыт, поскольку за точками В+ и В~ изложенный
метод построения барьера неприменим. Какая же полупрони-
цаемая поверхность закрывает это отверстие? Оказывается, что
этот вопрос наиболее трудный в данной задаче. Ответ на него
будет приведен ниже.
Замечания о возможности отступления в сторону, возникав-
шие при обсуждении игры «шофер-убийца», применимы и здесь.
Нет необходимости вновь доказывать, что пересечение барьеров
означает для Е возможность избежать захвата,
20 Зак. 522
306
Гл. 9. Примеры игр качества
Введем в рассмотрение трение. Напомним, что функция Q(%)
(см. § 5.5) есть радиус цилиндра, который является частью по-
верхности x=const. Справедлив принцип огибания (§ 8.8); барь-
еры служат огибающими этих цилиндров. Итак, пересечение
Рис. 9.3.2.
барьеров эквивалентно тому, что радиус где-то обращается в
нуль. Следовательно, условие
min Q (т) = 0
X
является обобщением условия (9.3.7).
Упражнение 9.3.1. Показать, что при наличии трения критиче-
ское условие, разграничивающее возможность захвата и воз-
можность избежания его, имеет вид
> — lky
-wk
I F \ Г / k (w —
= 1.
(9.3.9)
Замена знака = на знак < означает захват.
Показать, что при k —> 0 это условие сводится к предыдущему
2Fl
Проблема 9.3.1. Мы ничего не говорили об окончании барь-
еров. Если условие возможности избежания захвата (9.3.7) не
9.3. Игра «изотропные ракеты»
307
выполнено, то следует ожидать, что барьеры выделяют те поло-
жения, в которых приходится прибегать к чему-то, аналогич-
ному маневру разворота; и действительно, это подтверждает
рис. 5.5.5. Итак, в этом случае естественно ожидать, что барь-
еры кончаются.
Рис. 9.3.3.
Рассмотрим уравнение барьера (9.3.3) и составим матрицу
порядка 3X2:
д {х, у, у)
д (s, t) ¦
Исследуем возможность того, что ее ранг окажется меньше 2.
Это выполняется при условии
x==XT=JE±rME^EEL. (9.3.Ю)
Заметим, что для s^-S подкоренное выражение положительно и
это означает, что образование гребня происходит до момента
времени тг- Кончается ли барьер при т=тг? Если да, то каковы
кинематические причины этого?
¦20*
308 Гл. 9. Примеры игр качества
Задача 9.3.1. «Монотропная ракета». Исследовать игру с одним
игроком, отличающуюся от изучавшейся выше только тем, что
вектор силы (длины F) направлен прямо по курсу ракеты. В этом
случае Р должен двигаться по прямой и лишен какой бы то
ни было свободы.
Граница допустимой области будет такой же, как прежде,
но теперь траектории, образующие барьер, будут неприменимы
при s<Su где Si есть корень трехчлена
s3 — w2s — wFl.
Тем не менее естественный барьер оказывается замкнутым с
правого конца (см. рис. 9.3.3).
Получить этот результат как часть полного решения. Каково
кинематическое значение траекторий, начинающихся в недопу-
стимой области?
9.4. ИЗОТРОПНЫЕ РАКЕТЫ. БАРЬЕР-ОГИБАЮЩАЯ
Для того чтобы завершить решение этой игры качества, ну-
жно использовать идеи пункта III из § 8.5. Построим кривые 3+
и Э)~ в недопустимой области границы &\ Эти кривые будут
огибающими оптимальных траекторий, составляющих полупро-
ницаемую поверхность, которая проходит через эти кривые.
Поскольку большая часть результатов, доказанных в этом
параграфе, справедлива на ^f, мы введем новые параметры.
Положим
х = /sin 9,
у = I cos 8,
а третью координату обозначим v. Таким образом, мы заме-
нили Si на 0, a s2 на v. Величины у и 9 будут координатами
на У.
Так же как и в § 9.3, мы имеем на &
1г = хх-\-уу' =
— xl — F — sin q-{-w sin Ы-\-у if — sincp — v-
= l[wcos(ф — 8) — vcos 9].
Итак, для любых v, 0, w, для которых
V COS 0 - ..
(9.4.1)
W ^
мы можем выбрать
ф = ф = ф (г>, 9) = 6 +- arccos ( ill^L). (9.4.2)
9.4. Изотропные ракеты. Барьер-огибающая 309
Таким образом, г = 0 независимо от ср. Следовательно, основная
посылка теоремы 8.5.1 выполнена.
Условие (9.4.2) определяет гр неоднозначно. При
(v cos Q)!w<l имеются две возможности. Они изображены на
рис. 9.4.1. Поскольку расстояние РЕ остается равным /, век-
торы v и w имеют одинаковые проекции (выделенные фигур-
ными скобками) на прямую РЕ. Игрок Е может выбрать один
Рис. 9.4.1.
из двух пунктирных векторов. Так как цель Е — ускользнуть, то
естественно, что он выберет вектор, лежащий по другую по от-
ношению к v сторону от прямой РЕ. Из рис. 9.3.1, а следует,
что такой выбор соответствует условию sin (гр—8)>0.
Полагая г|) = ^>, запишем уравнения движения игры Giy ис-
пользуя терминологию теоремы 8.5.1.
Уравнения движения игры G имеют вид
х—/cos88 =— F — cosBsincp-l-'zysin ф,
t/ = — /sin 88 = F— sin 8sinq> — v-{-w cos ф.
Умножая первое уравнение на cos 8, второе на sin 0 и вычитая
второе уравнение из первого, получаем
PI
/6 — sin ф -\-v sin 6 -\-w sin (ф — 6).
Теперь запишем уравнения движения игры G,:
а F_ . vsinQ + yw2 — v2 cos2d
— — 7Tsin(P+ / • (943)
v -—- F cos ф.
310
Гл. 9. Примеры игр качества
Полагая
Z = v sin 9 4- V'W1 — v2cos29
и обращая время, получаем
F . Z
— sinip —
> — — F cos ф.
v ^ I '
(9.4.4)
В плоскости (9, i»)
cos 6
есть уравнение границы допустимой области, а
суть координаты точки В+, где (см. (9.3.5)) K=VFlw cos p =
= w/S, sinp = /(/S.
Наша цель сейчас — построить полупроницаемую поверх-
ность игры Gi (с уравнениями движения (9.4.3)), проходящую
Рис. 9.4.2.
Рис. 9.4.3.
через В+. На рис. 9.4.2 она изображена пунктиром и пересекает
ось v при v = Ui>0.
Уравнения (9.4.4) имеют вид
о
в = а sin ф — с,
где а, Ь, с>0. Вектограмма при а^с показана на рис 9.4.3.
В правой полуплоскости (9>0) полупроницаемой поверхности
9.4. Изотропные ракеты. Барьер-огибающая 311
соответствует вектор, выделенный на рисунке жирной стрелкой.
Если а>с, то полупроницаемой поверхности не существует даже
локально.
Выделенный на рисунке вектор минимизирует отношение
о о
8/у и тем самым определяется из соотношения
0 V в ® v
— (a sin ф — с) (b sin ф) = — ab -f- &c sin ф.
Это означает, что sinqj (или ф в обозначениях теоремы 8.5.1)
равен а/с. Следовательно,
6 = —? ^, © = — -f/^2 —a2. (9.4.5)
Введем удобные обозначения:
^ i J L %. (9-4.6)
^е е Vc2 — a* Vz2/i2~f2/v2
где
Заметим, что в точке
Теперь возникает задача об изучении поведения интеграль-
ной кривой уравнения (9.4.6) в момент ее прохождения через В+.
Заметим, чго в точке В+ эта кривая имеет наклон
К2 __ SK
wK/S ~~ w
и, следовательно, касается границы допустимой области, кото-
рая имеет наклон
d I w \ __ w . /S\»K _SK
p"~ cos2p bmii~w[!^) S~ w "
Для завершения изучения барьера мы должны доказать три
факта:
1) при интегрировании дифференциального уравнения выпол-
няется соотношение а^с;
2) интегральная кривая, проходящая через В+, достигает
оси v при U>
312 Гл. 9. Примеры игр качества
3) в исходном пространстве Ж траектории, имеющие на-
чальные условия, лежащие на этой интегральной кривой, со-
ставляют новую часть барьера, которая без зазоров примыкает
к старой и отгораживает вместе с ней часть пространства с<§'.
Полностью доказать эти утверждения автору не удалось, но
то, что осталось недоказанным, кажется очень правдоподобным.
Надо отметить следующее:
1. Условие а^Сс эквивалентно условию Q2^0. Далее, (9.4.7)
показывает, что Q имеет действительное значение в точке В+, и,
следовательно, интегральную кривую можно продолжить за В+
по крайней мере на некоторое положительное расстояние.
2. У нас есть (не приведенное в этой книге) доказательство
того факта, что если Q остается достаточно большим, то выпол-
нено утверждение B).
3. См. следствие 8.5.1 и последующий текст.
Наконец покажем, что если не выполняется условие избежа-
ния захвата w2^2Fl, то утверждения 1) и 2) не могут быть вер-
ными, поскольку при 6 = 0
v2
Нам важно последнее из этих соотношений для Q^Lv^Cw. Вблизи
от обоих концов этого отрезка Q2<0. Максимум Q2 дости-
гается при
dv2 v4 '
т. е. при и = К, и равен в этой точке
Q2 = W2 _ К2 _ К2 = W2 _ 2FI.
Итак, если не выполняется условие избежания захвата, то Q2
не может быть положительным на отрезке от @,0) до @,w),
поэтому интегральная кривая, проходящая через В+, заканчи-
вается, не доходя до этого отрезка.
Но если захват осуществим, то как раз и следует ожидать,
что барьер окончится, не ограничивая части фазового простран-
ства.
Что же все это означает в терминах кинематики исходной
задачи? Приближенно это показано на рис. 9.4.4. Прежде всего
разберем случай, когда исход нейтрален и Р преследует Е. Дви-
жение каждого из них элементарно: Е движется прямолинейно,
а Р сохраняет постоянное направление своего ускорения.
9.5. Две почти одинаково сформулированные и непохожие игры 313
В конце концов Е достигает круга захвата (Х4); их движение
должно быть таким, чтобы траектория Е касалась траектории
границы круга. Далее Е, используя стратегию ip = ip (или выби-
рая направление, показанное на рис. 9.4.1), остается на окружно-
сти. На протяжении этой фазы Р выбирает <р, соответствующее
выделенному вектору на рис. 9.4.3. Соответствующие движения
Р и Е в естественном пространстве имеют довольно сложный вид.
Наконец, если Е достигнет некоторой точки Х2 на границе круга
захвата, он сможет покинуть его, не опасаясь немедленного за-
хвата. Таким образом, он совершил маневр, который можно на-
звать «увертыванием с соприкосновением».
Упражнение 9.4.1. Дополнить рис. 9.3.2, изобразив новый барьер-
огибающую так, как вы его представляете.
9.5. ДВЕ ПОЧТИ ОДИНАКОВО СФОРМУЛИРОВАННЫЕ
И СОВСЕМ НЕПОХОЖИЕ ИГРЫ
Две точки Р и Е обладают простым движением в полуплос-
кости, ограниченной прямой „5?. Скорости их произвольны, и
существенно лишь их отношение; мы примем скорость Р за еди-
ницу, а скорость Е будем считать равной а>(а>=== 1). Как обыч-
но, считаем, что произведен захват, если \РЕ\ </.
1. В первой игре, называемой игрой с линией жизни, целью
Е является достижение J2? до захвата. Игрок Р, естественно,
преследует противоположную цель1).
2. Во второй игре, напротив, достижение»?' является гибель-
ным для Е. То есть захват считается осуществленным, либо
если \РЕ\<1, либо если Е пересекает»?'. Эта игра представляет
собой обобщение как игры преследования в полуплоскости (при-
') Если положить w=\, то получится простая игра блокирования (при-
мер 6.8.2). Поскольку теперь нас будут интересовать в основном аспекты
игры качества, а в нашем прежнем исследовании плата была непрерывной
(расстояние от Е до^ в момент захвата), то рассмотрение боковых линий по
существу уже не представляет интереса. Следовательно, изучая случай произ-
вольного отношения скоростей, мы существенно обобщаем прежнюю задачу.
314
Гл. 9. Примеры игр качества
мер 6.4.1), так и игры перехвата прямолинейно движущегося
объекта (пример 8.6.1). Новым в этой игре является то, то Е не
обязан больше двигаться только по J9?, а может свободно пере-
двигаться в полуплоскости, ограниченной этой кривой. Эта игра
будет называться игрой с линией смерти.
Несмотря на то что формулировки этих двух игр параллель-
ны, решения их совершенно различны. Первая из них имеет
искусственный барьер, вторая — барьер-огибающую.
Рис. 9.5.1.
Ясно, что в игре 1 случай w>\ тривиален. В этом случае Е
имеет возможность оставить второго игрока как угодно далеко
позади и уйти неповрежденным за прямую J?. Все простран-
ство еГ является зоной избежания захвата. Поэтому мы все вре-
мя будем считать, что ш-^1.
С другой стороны, игра 2 тривиальна при w<\, так как
в этом случае Е можно поймать всегда, даже если не обращать
внимания HaJ?. Наличие Л? только ухудшает положение Е. Все
пространство W является зоной захвата, поэтому мы будем
предполагать, что w~^>\.
Выберем для двух этих задач координаты, показанные на
рисунке 9.5.1, а. Уравнения движения имеют вид
г/2 = w cos ф,
х — w sin ф — sin
9.5. Две почти одинаково сформулированные и непохожие игры 315
Основным уравнением D.2.1) будет тогда
max min [(V( cos ф — v3 sin ф) -}- w (v2 cos ф -t- v3 sin ф)] = 0,
Ф Ф
так что если
Vl . ~ V»
—L, sincp = -=-.
Pi Pi
TO
P2
Таким образом, основное уравнение имеет вид
а уравнения характеристик в регрессивной форме таковы:
Ух — Pi '
° v, ° п
Р2
Х = '
1 W \
Pi P2 / '
Редуцированное пространство cf показано на рис. 9.5.1,6.
Оно состоит из всех точек, для которых г/1>0, i/2>0, за исклю-
чением внутренности цилиндра %'. Граница цилиндра соответ-
ствует точкам, для которых \РЕ\=1. Ось его наклонена под
углом 45° к плоскости уи у2, а вертикальные и горизонтальные
сечения (не перпендикулярные к оси) являются окружностями
радиуса /. Плоскость г/2 = 0 соответствует, разумеется, положе-
нию ? на прямой J2? и будет обозначаться через J5?i. Поверх-
ности =5^, и S5 пересекаются по полуокружности 2Г
Пример 9.5.1. Игра с линией жизни. Рассмотрим точку х в
пространстве Ы". Если траектория этой точки пересекает J?,, то
такой исход является победой для Е, а если она пересекает *ё',
то это победа для Р. Итак, если существуют и зона захвата,
и зона избежания захвата, то они должны быть разделены полу-
проницаемой поверхностью, отделяющей -S", от 4S. Следователь-
но, она должна проходить черезеЗГ. Здесь мы имеем типичный
пример «искусственного барьера».
И обратно, если мы можем провести через <Ж' поверхность,
разделяющую ef на две части таким образом, что J?, и IS ле-
жат в разных частях, то эти части будут соответственно зонами
захвата и избежания его.
316 . Гл. 9. Примеры игр качества
Параметрические уравнения для 132Г следующие:
у1 = /coss,
Нормаль v к &2Г удовлетворяет условию
v, (— / sin s) + v3 (/ cos s) = 0,
следовательно, можно считать, что
v1 = coss, v3 = sins.
Из основного уравнения типа D.2.3) получим v2. Поскольку
pi= 1, имеем
v2= + ]/^г — sin2s.
Перед корнем нужно выбрать знак +, для того чтобы вектор
нормали был направлен внутрь пространства ef.
Поскольку в правой части уравнения движения отсутствуют
о
фазовые координаты, все v,- равны 0, поэтому мы можем без
труда написать уравнение барьера. При этом
Х Х
где Xi — начальное значение, a ct — константа. Итак, имеем
Ух = (/-ft) cos s,
y2 = wxY\ — ¦zw2sin2s, (9.5.1)
x=[l-\-(\ —w2) t] sins.
Для того чтобы получить представление о форме этой по-
верхности, продолжим траектории за %¦ Положим т = —/, тогда
01 = 0.
y2=—wl YV— (w sin sf, (9.5.2)
х = wl (w sins).
Введем угол u = u(s) по формуле
sin и — w sin s.
9.5. Две почти одинаково сформулированные и непохожие игры 317
Угол и меняется от —р до +р, где p = arcsinoy. Таким образом,
кривая (9.5.2) есть дуга окружности радиуса wl(*Cl) в плос-
кости х,у2, т. е.
у2 — wl cos к,
х — да/sin к, — р<
Поверхность (9.5.1) образована прямыми линиями, соединяю-
щими соответствующие точки этой кривой и кривой g^f. Для
Р и с. 9.5.2.
w<\ результат показан на рис. 9.5.2; поверхность имеет вид
половины рога, проходящего черезеЗГ, и действительно отделяет
-2*, от 4S.
Для того чтобы понять, что соответствует этому в естест-
венном пространстве, представим себе кривую, являющуюся
горизонтальным сечением нашей поверхности на высоте у\ = 1.
В исходном пространстве такое положение отвечает точкам, где
318 Гл. 9. Примеры игр качества
Р удален от.2Рна расстояние у\. Сама плоскость сечения может
рассматриваться как эскиз в естественном пространстве. Кругом
захвата будет пересечение этой плоскости с & , а сечение поверх-
ности 38 будет некоторой кривой, изображенной на рис. 9.5.3, а.
Если Е начинает игру из любой точки под этой кривой, то он
безнаказанно достигает-SP; для любой точки над этой кривой Р
успевает его поймать.
Для w = \ поверхность барьера на рис. 9.5.2 совпадает с верх-
ней половиной цилиндра S5; кривая на рис. 9.5.3,6 совпадает
с нижней половиной круга захвата. Что это значит?
I I
I I
I Ь—»
Область Шласть\о6ласть
избежания \захвата\из6ежания
захвата ^—•^Лзахвата
)
ю < / и> = I
а б
Рис. 9.5.3.
Дело в том, что здесь появляется статический барьер.
Существование такого барьера означает, что г/1 = г/2 = ^ = О.
Из уравнений движения следует, что это возможно только при
соБф = 0, siri(p=±l, w=\, sini|)=±l, cosi|) = 0. Тогда мы можем
так выбрать нормаль, чтобы pi = p2=l, и получить
v, = 0, v2 = 0, v3 = ± 1.
При этом основное уравнение примет вид
max min[—(±l)sincp-j-(± 1) sinф] =0.
Ф ф
Этому уравнению, очевидно, удовлетворяют приведенные выше
значения ф и г|). Тогда в редуцированном пространстве статиче-
скими полупроницаемыми поверхностями служат плоскости, пер-
пендикулярные к оси Хз. Используем для решения задачи две
такие полуплоскости, которые касаются поверхности *? и ле-
жат под ней. Вместе с рассмотренным ранее полуцилиндром
они образуют единую гладкую поверхность.
9.5. Две почти одинаково сформулированные и непохожие игры 319
Итак, в исходном пространстве с фиксированным tji мы
построили барьер, изображенный на рис. 9.5.3,6 пунктирными
линиями. Знак плюс или минус в последней формуле зависит
от того, на какой из этих прямых мы находимся. Легко видеть,
что стрелки на рисунке соответствуют оптимальным направле-
ниям движения обоих игроков.
Заметим, что полученный барьер согласуется с прежним.
анализом простой игры блокирования.
Задача 9.5.1. Показать, что при w<\ тот же барьер J? может
быть найден геометрическим методом. Здесь следует рассмо-
треть геометрическое место точек С, удовлетворяющих условию
w{\PC\-l) = \EC\,
и показать, что барьер соответствует множеству таких точек Р
и Е, для которых это геометрическое место лежит над J? и ка-
сается ее. Объяснить, почему это так.
Проблема 9.5.1. Решить игру с линией жизни, когда J? —
окружность. Пространством игры может служить внутренность
или внешность круга, ограниченного ею. Можно рассмотреть
дальнейшее обобщение, приняв за -23 произвольную кривую.
Пример 9.5.2. Игра с линией смерти. Теперь J?', и ^ на
рис. 9.5.1,6 будем считать гибельными для Е. Допустимое мно-
жество должно лежать на их пересечении.
Рассмотрим полуокружность <Ж'. Она соответствует такому
положению, когда Е лежит на J? и при этом \РЕ\=1, как это
показано на рис. 9.5.4, а. Ясно, что Е может убежать, только
если компонента его скорости вдоль РЕ окажется больше 1,т. е.
если ' w sin s>l. Если р — такой угол, что cosp=]/w2—l/да,
sin p = l/w, то это условие примет вид s^p. Найденное s и то,
которое показано на рис. 9.5.1,6, совпадают. Допустимой обла-
стью может быть только та часть полуокружности сЖ (назовем
ees/Ti), где —p<^s<^p. Следовательно, в качестве границы до-
пустимой области мы можем взять лишь две точки на е2Г', а
именно s — ± р. В этой ситуации напрашивается предположе-
ние о существовании барьера-огибающей. Используем для его
построения схему теоремы 8.5.1.
Определим ср и ф, как показано на рис. 9.5.4, б. Для того
чтобы расстояние РЕ оставалось равным /, игрок Е должен
выбирать ty так, чтобы проекции обоих векторов скорости на РЕ
были равны. Интуитивно ясно, что из двух возможностей Е
выберет такую, при которой s увеличивается. Например, на
320
Гл. 9. Примеры игр качества
нашем рисунке он будет обходить против часовой стрелки круг
захвата. Тогда, очевидно,
cos vp = — coscp,
sinip —¦
2 — cos2 ф.
(9.5.3)
Обозначим для краткости квадратный корень в правой ча-
сти через R. За координаты на *? примем s и у2.
I /Ч>
Рис. 9.5.4.
Так как x = ls'ms, то из рисунка видно, что
(/ cos s) s = х = w sin (s -\- ф) — sin (s -f- ф) =
= sin s cos ф -f- R cos s — (sin s cos ф -|- cos s sin ф):
= (R — sin ф) cos s.
Кроме того,
y2 = — w cos (s -j- ll') r= R sin s — cos ф cos s. j
Присоединим сюда еще
Is — R— э
(9.5.4)
9.5. Две почти одинаково сформулированные и непохожие игры 321
Мы получили уравнения движения игры 6',. Для построения
полупроницаемой поверхности поступим так же, как в случае
игры «изотропные ракеты»; имеем
п , • d ¦ d .• , n . . / sin s cos ш simp , . \
0 = ls-щ Уч — У2 -J^ Is = (R — sin Ф) { jf 3L + Cos s sin q>) —
, r, . . / cos ф sin ш \
— (F? sin s — cos s cos ф) I — cos ф ,
что преобразуется к виду
да2 sin ф cos s -{-(w2 — l)cos ф sins — ^cos s = 0. (9.5.5)
После дальнейших упрощений (9.5.5) сводится к квадратному
уравнению относительно cos ф. Для каждого корня этого урав-
нения знак при вычислении sin ф не определен. Однако из четы-
рех возможностей только две определяют корни уравнения
(9.5.5). Они соответствуют двум крайним векторам вектограм-
мы. По смыслу нашей задачи 0/г/2 должно быть отрицательным,
поскольку при нейтральной игре s увеличивается до р, а уг
уменьшается до 0. Остается лишь одна возможность. Легко
проверить, что при этом
(9.5.6)
w {w — sin s)
*- Q
где
Q = У\ -\-т2 — 2w sin s,
и после подстановки этих значений в (9.5.4) имеем
w A — w sin s) , • -А а ^п\
—(У<° при е<р),
Разделим первое из этих уравнений на второе:
аУг -_= { wl \п __ w sin ~ч
ds \ w'2 — 1 /v >'
Это уравнение надо проинтегрировать1) с начальным условием
s = P, t/2 = 0. Получаем
у2= w2__ t- w(k— s — w cos s), (9.5.8)
где ? = p-f-wcosp = p + Yw2 — 1.
') Для той части пространства t, где х "^ 0.
21 Зак. 322
322 Гл. 9. Примеры игр качества
Мы можем считать s параметром на искомой огибающей кри-
вой 2й- Тогда остальные два уравнения легко получить, так как
У\ ~ да2_ i (wk — ws ~~ cos s)> (9.5.9)
ws ~ w2 cos s)>
x — I sin s.
Эти уравнения являются уравнениями кривой 3), вернее той ее
ветви, для которой х>-0. Ясно, что s в формуле (9.5.9) изме-
няется на отрезке [р\ 0].
Получить полупроницаемую поверхность нетрудно. Она со-
стоит из кривой 3 и касательных к ней, направленных во внеш-
нюю сторону. Если обозначить правую часть первого из урав-
нений (9.5.9) через yi(s), то первое уравнение этой поверхности
будет иметь вид
Ui = У{ (s) — у[ (s) ¦ т.
Знак минус возникает из-за того, что s убывает (от р до 0),
когда мы регрессивно движемся вдоль SS. Разумеется, при
этом т не соответствует времени захвата; так могло бы быть,
если бы s соответствовало времени вдоль 35, что, очевидно, не
выполняется. Но преобразование т меняет лишь параметриза-
цию, а не саму поверхность.
Итак, уравнения полупроницаемой поверхности имеют вид
у у = —2_ , [w (k — s) — cos s-\-(w — sins) t],
г/2 = —2_ ,-["w(k — s) — да2 cos s-{-w(l — w sin s) т], (9.5.10)
x = l [sin s — r cos s].
Наши рассуждения относились к области х^О, и поэтому
мы доходим только до плоскости х = 0 и добавляем симметрич-
ный образ построенной части поверхности.
На рис. 9.5.5 показан окончательный вид барьера-огибаю-
щей. Дуга С В является огибающей 3), причем значению s = p*
отвечает точка С, а значению s = 0 — точка В. Поскольку
3) и е2Г касаются друг друга в точке С, как это показано на
чертеже, их общая касательная СА лежит в плоскости х, у у.
Остальные лучи, касающиеся 3), продолжаются до точек пере-
сечения с плоскостью х = 0, которые расположены на гребне АВ.
Эта кривая, как нетрудно показать, поднимается (yt возрастает)
от точки А к точке В.
9.5. Две почти одинаково сформулированные и непохожие игры 323
Пусть буквы А, В, С обозначают также значения у\ в соответ-
ствующих точках. Простой подсчет показывает, что
(=ухъ точке
Чтобы понять, что происходит в исходном пространстве, рас-
смотрим, как прежде, сечения с постоянным yt. Это соответствует
Р и с. 9.5.5.
тому, что положение Р фиксировано, а Е меняется. При у\<С
или ?/1>Л захват неосуществим ни для одного положения Е.
В остальных случаях зоны захвата показаны на рис. 9.5.6 штри-
ховкой.
Упражнение 9.5.1. Написать уравнения сечений барьера на
рис. 9.5.6.
21*
324 Гл. 9. Примеры игр качества
Упражнение 9.5.2. Исследовать предельный переход при ге>-И.
Показать, что при w — \ мы имеем статичный барьер. Сечения
его на рис. 9.5.6 будут в некотором смысле обратными к тем,
которые получались в игре с линией жизни: верхняя половина
круга захвата плюс две вертикальные касательные, проведен-
ные вниз от точки касания.
Р и с. 9.5.6.
Проблема 9.5.1. Исследовать траектории Р и Е в исходном про-
странстве, соответствующие положению х на 35. Существует ли
какое-нибудь простое объяснение для искривления траектории
точки Р?
Проблема 9.5.2. Рассмотреть более общую задачу, когда „2" яв-
ляется дугой окружности.
9.6. ОБОБЩЕНИЯ И ПРИЛОЖЕНИЯ -ИГРЫ С ЛИНИЕЙ СМЕРТИ
Пример 9.6.1. Односторонняя игра с линией смерти. Будем счи-
тать, что игрок Е начинает свое движение намного левее Р.
Игрок Р находится на расстоянии, большем /, над прямой «5*.
Цель Е состоит в том, чтобы, двигаясь вправо, пройти между Р
и «5* не будучи захваченным. Цель Р, разумеется, состоит в про-
тивоположном ').
Различие между этой задачей и задачей предыдущего пара-
графа состоит в отсутствии симметрии. Здесь имеется тот же
барьер, но мы уже не прерываем его при х=0. Иными словами,
уравнения (9.5.10) по-прежнему описывают соответствующую
полупроницаемую поверхность, но область значений параметров
расширена: s<Cp\ т^Ю. На чертеже, соответствующем рис. 9.5.6,
мы сохраним лишь правую границу заштрихованной области,
продолжая ее, если понадобится, до пересечения с J9?.
Здесь мы встречаемся с новым явлением. Нарушен наш
основной принцип: барьер больше не разделяет пространство «f.
От этого он не стал менее значительным для нас, но природа
1) Используя футбольную терминологию, мы можем сказать, что напа-
дающий с мячом пытается проскользнуть между боковой линией и защитни-
ками противника.
9.6. Обобщения и приложения игры с линией смерти 325
этой значительности изменилась. Здесь начинает играть роль
топология. Прежде чем мы продолжим изложение вопроса, не-
плохо представить себе, как выглядит наш асимметричный
барьер.
Рассмотрим кривую 3 на рис. 9.5.5. Если продолжить ее за
точку В, то из ее уравнений следует, что она образует спираль
вокруг цилиндра <?'. Барьер, образованный касательными, про-,
веденными в одну сторону от кривой, является поверхностью,
напоминающей геликоид с лучами. Все эти лучи поднимаются
вверх, поскольку из уравнения (9.5.10) следует, что дух/дхХ),
затем они пересекут горизонтальное сечение при условии, что
все они излучаются из точки кривой 3>, лежащей ниже этого
сечения. Итак, при пересечении мы получим спираль, число вит-
ков которой растет с увеличением высоты сечения. Несколько
случаев, соответствующих возрастанию уи показано на рис. 9.6.1.
Создавшееся положение подсказывает формулировку игры,
в которой плата равна целому неотрицательному числу.
Пример 9.6.2. Петли вокруг преследователя. Пусть игрок Е
начинает свое движение слева, как и в предыдущем примере, и
оканчивает его далеко справа. Платой является число оборотов
Рис. 9.6.1.
против часовой стрелки, которое Е может сделать вокруг Р,
не будучи захваченным и не касаясь прямой J?, или —1, если Е
не может пройти между Р и J?.
Нетрудно понять, в чем заключается решение этой задачи.
Кривые на рис. 9.6.1 (разумеется, для фиксированного положе-
ния Р) разделяют начальные точки, отвечающие различным
значениям цены игры, примерно тем же топологическим спосо-
бом, как листы римановой поверхности разделяют различные
ветви функции '). Например, если Е начинает движение из точек
С, D, F, то цепа игры будет соответственно 0,1,2.
') Например, отметим, что цена игры изменяется от 0 до —1 при про-
хождении от точки А к точке В по пунктирной липни па рис. 9.6.1.
326 Гл. 9. Примеры игр качества
Пример 9.6.3. Крыса, загнанная в угол. Крыса Е загнана в угол
(любой величины) котом Р1). При каких условиях она может
убежать? В некоторых случаях — один из них показам на
рис. 9.6.2, а — мы можем получить зону захвата, начертив сече-
ния барьера рассмотренного типа для каждой стены. Крыса не
Р и с. 9.6.2.
сможет убежать, если она начнет движение из точки, лежащей
внутри заштрихованной области.
Для дальнейшего исследования этой задачи необходимы
рассуждения, аналогичные рассуждениям, изложенным далее,
поэтому перейдем к следующему примеру.
Пример 9.6.4. Патрулирование коридора. Пусть Е находится
между двумя параллельными прямыми, находящимися друг от
друга на расстоянии L. Его задача — пройти мимо патруля Р и
не быть пойманным.
Рис. 9.6.2,6 изображает положение, когда Е должен искать
спасение справа от Р. Как и прежде, два сечения барьера огра-
ничивают зону захвата (заштрихована на рисунке), т. е. такие
точки, для которых прохождение может быть предотвращено
соответствующими действиями Р.
В этих задачах интуитивно ясно, что при подходящих значе-
ниях параметров Е окажется способным пройти мимо Р и избе-
жать захвата из всех (за исключением, может быть, некоторого
несущественного множества) начальных точек.
Выясним и уточним положение, возникающее при пересечении
барьеров. Предположим, что, анализируя некоторую общую игру
качества, мы обнаружили, как показано на рис. 9.6.3, где для
простоты /г = 2, два возможных пересекающихся барьера. Заме-
тим, что их ориентация противоположна ориентации в прежних
случаях, как, например, в игре «шофер-убийца». Там мы видели,
') Скорости движения и условия поимки такие же, как в игре с линией
смерти. То же самое будет относиться к следующему примеру.
9.6. Обобщения и приложения игры с линией смерти
327
что отбрасывание барьеров после точки их пересечения оправ-
дано. Здесь мы покажем, что барьеры нужно отбросить це-
ликом.
Предположим, что барьеры не статичны, т. е. при оптималь-
ной игре х движется по ним по направлению к с<§¦ Пусть х на-
чинает свое движение из точки Хи которая находится в зоне за-
хвата, очень близко к барьеру ;WX. При использовании обоими,
игроками оптимальной (очень близкой к нейтральной) стратегии
Рис. 9.6.3.
движение будет происходить почти параллельно 8}v В конце
концов х достигнет точки Х2 вблизи точки пересечения барьеров.
Если будут использованы те же стратегии, то х пересечет $?2 и
Е избежит захвата.
Заметим, что Р не может этого предотвратить. Пересечение
барьеров не дает возможности игроку угадать, какую стратегию
применит противник (относится ли она к 9&х или к &2).
Мгновенная смешанная стратегия здесь ничего не дает. Предпо-
ложим, что в точке Х2 игрок Е решает применить стратегию,
относящуюся к 3$\- Если Р тоже использует ее, то мы видели,
что х пересекает J?2 и Е избегает захвата. Если же Р применяет
другую стратегию, то стратегия Е дает возможность х пересечь
1]И? снова избегает захвата. Итак, все соседние области при-
надлежат зоне избежания захвата.
Такой вид пересечений встречается в нашей игре при доста-
точно большом L; рассмотрим, например, рис. 9.6.4. Для того
чтобы учесть наличие обеих стен коридора, введем очевидным
образом новые координаты L — у2 и L — г/4. Две кривые 3)
являются переплетающимися спиралями (рис. 9.6.4, а). На
рис. 9.6.4,6 мы пытаемся наглядно изобразить пересечение
барьеров. Читатель может убедиться в том, что их ориентация
такая, как на рис. 9.6.3. Отсюда мы заключаем, что если
328
Гл. 9. Примеры игр качества
коридор настолько широк, что два барьера пересекаются, как на
рис. 9.6.4,в, то Е может пройти из любой исходной точки. Сей-
час мы докажем существование критической ширины коридора,
при которой имеется пересечение такого вида независимо от
положения Р в коридоре, и вычислим ее.
1 - у„
Рис. 9.6.4.
Пусть Z-c обозначает критическую ширину, для которой начи-
нается пересечение, если Р расположен в середине коридора
( yi = LJ2). В сечении горизонтальной плоскостью барьеры
должны пересечься с кругом захвата при s — n/2. Придавая у\
и s эти значения и полагая в (9.5.10) т = 0, получаем
ИЛИ
(9.6.1)
9.6. Обобщения и приложения игры с линией смерти 329
Сформулируем следующее утверждение:
Если L>LC, то Е может пройти мимо Р из любой
начальной позиции (Р не может защитить коридор),
при L<LC это не имеет места.
(9.6.2)
Достаточно показать, что из L>Le следует, что сечения
барьеров пересекаются. Для Р, расположенного в середине ко-
ридора, это верно. Для произвольного положения Р, как на
рис. 9.6.4, г, достаточно показать, что при L = LC два сечения
барьеров пересекаются на границе круга захвата независимо от
положения Р. Это эквивалентно тому, что две спирали на
рис. 9.6.4, а совпадают при L = LC.
Уравнение одной спирали дается формулой (9.5.9); для того
чтобы получить уравнение второй, нужно заменить yf на.
^—г/i (г = 1, 2), a s на я—s. Наш результат следует из того, что
подстановка L = LC автоматически осуществляет такую замену.
Например,, для (9.5.9) и (9.6.1)
' °ze>I k ту) — [wk — ws ~ coss] \ =
-w(n — s) — cos (я — s)}.
Тем самым утверждение (9.6.2) доказано.
Пример 9.6.5. Линия патрулирования. Имеется прямой ряд рав-
ноотстоящих друг от друга одинаковых преследователей. При
каком условии один игрок Е может пройти
сквозь этот ряд, не будучи захваченным?
Представим себе коридоры, расположенные @~~р
между соседними Р, как показано на рис. 9.6.5.
Применив принцип отражения, заключаем, что
наша игра превращается в предыдущую. Следо- (?Ь~р
вательно, достаточное условие того, что линия ^~
патрулирования окажется эффективной, заклю-
чается в том, чтобы расстояние между патруля-
ми было меньше Lc. ®~P
Проблема 9.6.6. Окружность патрулирования.
Имеется совокупность равноотстоящих друг от
друга преследователей Р, расположенных по Рис. 9.6.5.
окружности. При каких условиях они смогут
предотвратить побег Е, который в начальный момент находится
внутри круга?
Эта игра связана с игрой «крыса, загнанная в угол» так же,
как приведенная выше игра с игрой «патрулирование коридора».
330 Гл. 9. Примеры игр качества
Задача 9.6.1. Исследовать предельный переход при ш->-1 в играх
этого параграфа. Показать, что в игре «крыса, загнанная в угол»
и в играх, связанных с коридором, всегда существует зона за-
хвата.
9.7. НЕКОТОРЫЕ ДРУГИЕ ИГРЫ
Примеры этого параграфа еще не полностью решены. Но они
интересны и, может быть, даже важны. Поскольку для их ре-
шения даны только некоторые указания, читатель может рас-
сматривать их как проблемы.
Ограниченные игры преследования
В этом разделе точки Р и Е движутся по плоскости, обла-
дая простым движением. Скорость точки Е больше (или может
быть равна) скорости точки Р. Но Е (а может быть и Р) может
двигаться лишь в подобласти Ж, ограниченной одной или не-
сколькими кривыми. Этот класс задач был нам указан Дж. фон
Нейманом.
Игры с линией смерти, «крыса, загнанная в угол» и игры,
связанные с коридором1), — все это частные случаи такой за-
дачи. Можно ли получить решение для других областей?
Предположим, что Ж есть внутренность круга. Если радиус
этого круга велик, то естественно предположить, что результат
имеет примерно такой вид, как изображено на рис. 9.5.6, когда
Р близок к ?Р {JS? изогнута вверх). Будут ли заштрихованные
области по-прежнему играть роль зоны захвата? Конечно, когда
Е начинает из точки, принадлежащей этим областям, он будет
захвачен. А что можно сказать о начальной точке из незаштри-
хованной области? Если заштрихованная область на рисунке
есть единственно возможная область захвата и она меняется
непрерывно при движении Р, то Е поймать нельзя. Иначе на-
ступил бы такой момент, когда Е должен был бы пересечь гра-
ницу зоны; но это невозможно в силу полупроницаемости этой
границы.
Если М является внутренностью многоугольника, то можно
было бы применить игру «крыса, загнанная в угол» к тем поло-
>) Это утверждение не совсем точно, так как здесь игрок Е не заинте-
ресован в том, чтобы пройти мимо Р, и всегда может убежать. По если
коридор перегорожен поперечной границей (полубесконечная полоса) или
ограничен с двух сторон (длинный, узкий прямоугольник), то из некоторых
начальных положений Е, чтобы уцелеть, должен пройти мимо Р, и тогда при-
менимы предыдущие идеи.
9.7. Некоторые другие игры 331
желшям, когда Р находится вблизи вершины, или игру с линией
смерти, когда Р находится около середины стороны1).
Но, пожалуй, не стоит особенно подчеркивать это положение,
так как, по-видимому, существуют важные случаи, в которых
все У является зоной захвата или зоной избежания захвата,
и в этих случаях барьеры для исследования не годны.
Связность имеет здесь большое значение (в предположении,-
что Р также не может выйти за границу области М), так как
ясно, что в некоторых случаях Р никогда не сможет поймать
Е, преследуя' его по замкнутому кругу.
Воздушный бой
Пусть Р и Е движутся, например, на плоскости, и кинемати-
ка каждого из них такова, что направления движения являются
фазовыми координатами (например, случай ограниченной кри-
визны). Пусть каждый из них имеет свою область захвата, ко-
торая находится впереди (по отношению к направлению дви-
жения). На рис. 9.1.4 показан типичный случай. Каждый игрок
стремится к тому, чтобы противник оказался в его области за-
хвата раньше, чем он сам будет пойман. В качестве примера
можно привести воздушный бой между двумя одноместными
самолетами; каждый несет одну пушку, огонь из которой он мо-
жет вести только в направлении своего движения.
Разумеется, игра может оказаться ничейной, если ни один
из игроков не сможет заставить противника зайти в свою зону
захвата. Для простоты предположим, что эта возможность ис-
ключена.
В редуцированном пространстве поверхность <<? будет со-
стоять из двух частей <гэ1 и ^2, соответствующих границам двух
зон захвата в исходном пространстве. По мере развития игры
точка х движется в У, пока в первый раз не проникнет внутрь
одной из <?,-. Исход определяется тем, в какую из них она по-
падет.
Ясно, какова должна быть техника решения. Для тех поло-
жений, когда оба игрока попадают в зону захвата противника,
Ч? t будут пересекаться; существуют положения, когда только
один окажется в зоне захвата противника или ни один из них не
пойман. Все такие положения нужно считать допустимыми при
любой разумной модели реальной ситуации. Пусть пересечение
состоит из одной или нескольких кривых. Проведем правильно
') Особенно игру «крыса, загнанная в угол», так как если 5? содержится
внутри полуплоскости, то будет существовать непустая зона захвата. Зона
захвата для игры с линией смерти будет a fortiori таковой и для более огра-
ниченной области, чем полуплоскость.
332 Гл. 9. Примеры игр качества
ориентированную полупроницаемую поверхность через эти кри-
вые. Она разделит с? на две части, которые являются областями
выигрыша для каждого из игроков.
Разумеется, воздушный бой может быть сформулирован и не
только как игра качества. Например, исход может считаться
выигрышным, только если один из противников остается в зоне
захвата другого в течение некоторого обусловленного времени.
Можно рассматривать также случай непрерывной платы; за
плату можно принять разность между периодами времени, в те-
чение которых один игрок находится в зоне действительного
огня оружия другого.
Битвы на истребление
Игроки начинают, имея каждый определенное количество
«фишек»1). Уравнения движения описывают, как изменяется
их количество на протяжении игры. Проигрывает тот, кто пер-
вый потеряет все «фишки».
Таким образом, эта игра относится к играм качества и на-
чальные положения, в которых побеждает один из игроков, от
тех, где побеждает другой, должен отделять барьер. Мы видели,
как строится барьер в случае дискретной игры в гл. 3. Приме-
нить этот принцип к непрерывной игре нетрудно.
9.8. ПРИМЕНЕНИЯ К УСТОЙЧИВОСТИ И УПРАВЛЕНИЮ
Эти задачи можно рассматривать как игры с одним игроком
с обычными уравнениями движения
Л = ЫХ' Ф). /=1, •-., Я,
при дополнительном условии2)
f@, 0) = 0. (9.8.1)
Здесь х рассматривается как «ошибка» некоторой, возможно,
неустойчивой, механической или электрической системы, а <р* —
управления, назначением которых является устранение нежела-
тельных отклонений от положения равновесия. Это положение
равновесия принимается за начало координат, что и отражено
в уравнении (9.8.1). Проектировщик имеет возможность сделать
ф,- функциями от х, что совпадает с нашим пониманием стра-
тегии.
') Под фишками можно понимать солдат, оружие, шашки и т. д.
2J См., например, статью Ла-Салля [7] и пример в дополнении.
9.8. Применения к устойчивости и управлению 333
Существуют различные критерии устойчивости, основанные
на асимптотическом поведении дифференциальных уравнений,
возникающих из уравнений движения при подстановке в них
<р = <р(х).
Весьма вероятно, что с точки зрения теории игр качества
существует другой подход к вопросу. Граница всех возможных
отклонений от положения равновесия будет барьером, и с по-
мощью нашей техники мы сможем его построить. Эта идея дей-
ствительно используется в понятии «управляемости»1).
') См. работы [5].
ГЛАВА 10
Экивокальные поверхности и игра
«шофер-убийца»
10.1. ВВЕДЕНИЕ
Замечательно разносторонняя и поучительная игра «шофер-
убийца» упоминалась в нескольких предыдущих параграфах.
Для того чтобы найти полное решение этой задачи, нужно
ввести новый тип сингулярных поверхностей в дополнение к уже
описанным. Однако эти поверхности важны не только в этом
случае.
Мы назовем такие поверхности экивокальными, так как в ка-
ждой точке такой поверхности один из игроков может выбрать
две различные оптимальные стратегии. Такого явления не мо-
жет быть в играх с одним игроком; в вариационном исчислении
у него нет аналога. В § 10.5 мы разовьем соответствующую тео-
рию и детально обсудим примеры, типичные для складывающих-
ся ситуаций.
Для игры «шофер-убийца» интересна как игра качества, так
и игра степени. Первую из них мы решим с помощью чисто
геометрической конструкции, решение второй будет геометри-
ческим лишь частично. Это позволит объяснить, подтвердить и
дополнить некоторые из прежних рассуждений.
10.2. «ШОФЕР-УБИЙЦА». ГЕОМЕТРИЧЕСКОЕ РЕШЕНИЕ
ИГРЫ КАЧЕСТВА
Используем симметрию игры, считая почти всегда, что Е
находится на линии движения Р или справа от нее. Другими
словами, мы будем работать в правой полуплоскости редуциро-
ванного пространства cf.
Для решения игры качества надо построить барьер. С по-
мощью нашей стандартной техники мы уже сделали это в §9.1,
но теперь этот же барьер мы получим геометрически.
Решение игры степени, платой в которой является время за-
хвата, существенно зависит от барьера. Как мы уже видели и
увидим вновь, он состоит из двух дуг эвольвент окружностей,
ё/Г+ и е2Г_ 1). Если эти дуги пересекаются, то Р может поймать
? только тогда, когда х лежит в криволинейном треугольнике,
') Эти окружности имеют центры в точках (±R, 0) и радиусы Rw2/wi.
10.2. «Шофер-убийца». Геометрическое решение игры качества 335
ограниченном этими дугами и окружностью % (см. рис. 9.1.2).
Но такое положение, как мы уже отмечали раньше, тривиально:
Е расположен непосредственно на пути движущегося объекта.
Итак, мы убедились, что пересечение барьеров является общим
условием, обеспечивающим возможность избежать захвата.
Мы, разумеется, можем и в этом случае решить игру со
временем захвата в качестве платы (решение будет существо-
вать только в треугольнике). Однако гораздо важнее научиться
понимать случай непересекающихся барьеров. Эти кривые в
этом случае продолжают играть важную роль. Они разграничи-
вают положения, в которых оптимально прямолинейное пресле-
дование, от тех положений, в которых маневрирование необхо-
димо (см. § 1.5).
Вспомним, что Е перемещается по плоскости со скоростью
w2 (простое движение). Тогда вектограмма Е в редуцированном
пространстве §*, т. е. на плоскости, жестко связанной с объектом
Р, очевидна: это по-прежнему круговая вектограмма с радиу-
сом 102-
Однако вектограмма для Р (ф-вектограмма) не столь оче-
видна. Сначала (лемма 10.2.1) опишем ее в геометрических тер-
минах. Вспомним, что Р движется с фиксированной скоростью
Wi(>w2) и с радиусом кривизны, ограниченным по абсолютной
величине данным числом R. В каждый момент времени он пере-
мещается, выбирая кривизну своего пути <p/R (где —1^^1)
Лемма 10.2.1. В каждой точке X пространства с? для
построения (f-вектограммы надо сделать следующее (см.
рис. 10.2.1, а).
1) Из точки X провести вертикально вниз вектор ХА дли-
ной W\.
2) Через точку А провести прямую Н, перпендикулярную к
ОХ (О — начало координат). На прямой Н будут лежать концы
векторов вектограммы.
3) Из точки X провести векторы XU+, оканчивающиеся на Н,
которые соответственно перпендикулярны к прямым, соединяю-
щим точки (±R, 0) с точкой X. Эти векторы будут крайними
в вектограмме и будут соответствовать значениям ф=±1.
Доказательство. Положим г = /?Др(—Кф-<1). Тогда
центр кривизны, выбираемый игроком Р, лежит в точке
С=(г, 0) (рис. 10.2.1,6). Положим d=\CX\.
Теперь вращение Р вокруг точки С в исходном пространстве
эквивалентно вращению X вокруг точки С в пространстве <? в
противоположном направлении, но с той же угловой скоростью.
Результирующей скоростью точки X будет вектор XU, перпен-
дикулярный к СХ и равный по модулю Wid/r.
336
Гл. 10. Экивокальныс поверхности
Рассмотрим треугольники OCX и AXU. Они имеют две пары
взаимно перпендикулярных сторон, и отношение длин этих сто-
рон равно wjr в обоих треугольниках. Следовательно, они по-
добны, и третьи их стороны ОХ и AU также взаимно перпен-
дикулярны. Это доказывает условие 2), а условие 3) следует из
ограничений на ф.
и,
I
X
У
0
- R ¦
*т . _ Г —
1
с/
л
Id A
г
X
ю,
\
Рис. 10.2.1.
Лемма 10.2.2. Для построения полупроницаемого направле-
ния (должным образом ориентированного для получения барье-
ра) начертим, во-первых, окружность с центром в точке U+ ра-
диуса w2. Искомым направлением служит нижняя1) касатель-
') Слово «нижняя» относится к точкам X, лежащим в верхней полупло-
скости, как и показано на рисунке. Для остальных точек X выбор касатель-
ной продолжается по непрерывности.
10.2. «Шофер-убийца». Геометрическое решение игры качества 337
пая (XD на рис. 10.2.2, а), проведенная из точки X к этой окруж-
ности. Локально оптимальными стратегиями будут ф=1 и такое
ij), что скорость игрока Е равна U+D, где D — точка касания.
Доказательство. Если Р использует вектор XU+ (ф=1),
то ясно, что результирующие векторы при любом выборе Е, на-
чинающиеся в точке Л", кончаются в точках окружности (как ¦
Рис. 10.2.2.
вектор ХЕ на рисунке). Ни один из них не проникает через XD
в нижнюю полуплоскость.
Если Е использует стратегию U+D, то пусть G_D_ — вектор,
равный U+D, начинающийся в точке 0- (см. рис. 10.2.2,6). Ре-
зультирующие скорости при любом выборе X соответствуют век-
торам XG, где G — точка замкнутого отрезка DD_. Ни один из
них не проникает через XD в верхнюю полуплоскость.
Лемма 10.2.3. Полупроницаемая поверхность (расположен-
ная в правой полуплоскости и ориентированная, как указано
выше) является эвольвентой окружности <М\-
Доказательство. Из точки X проведем касательную XJ
к окружности ?Ж + (см. рис. 10.2.3).
В прямоугольном треугольнике CJX отношение CJ/CX равно
w2Rlwid, где d— \CX\. Из доказательства леммы 10.2.1 мы знаем,
что \XU+\=Wid/R, и отсюда следует, что соответствующее от-
ношение в прямоугольном треугольнике DU+X такое же. Эти
треугольники подобны. Поскольку по лемме 10.2.1 XU+ перпен-
дикулярно СХ, отсюда следует, что полупроницаемое направле-
ние XD перпендикулярно XI. Из классических результатов, ка-
сающихся полей направлений и дифференциальных уравнений,
следует теперь доказательство леммы.
338
Гл. 10. Экивокальные поверхности
Лемма 10.2.4. Проведем нижнюю касательную из точки О
к окружностиe/f-t-. Эвольвента, построенная в лемме 10.2.3, пере-
стает быть полупроницаемой ниже этой прямой.
Доказательство. При рассмотрении рисунка 10.2.2,6
становится ясно, что свойство полупроницаемости прямой XD
теряется, если отрезок DD- лежит по ту же сторону от XD, что
Рис. 10.2.3.
и точка U+. Тем самым достаточно показать, что при движении
X по эвольвенте по часовой стрелке угол D-DX убывает и об-
ращается в нуль при пересечении X с нашей прямой.
Далее, прямая DD_ параллельна базовой линии U+U-, где
расположены концы векторов ifi-BeKTorpaMMbi. Напомним, что
U+U- перпендикулярна ОХ. Итак, нам надо показать, что по ме-
ре развертывания эвольвенты дополнительный угол а между
XD и ОХ (см. рис. 10.2.4) возрастает и превращается в прямой
угол, когда X пересекает прямую (в точке В на рисунке). Но
это очевидно, так как а стремится к прямому углу, когда ОХ и
IX сближаются; предел достигается, когда X приходит в
точку В.
Теперь мы уже можем восстановить конструкцию барьера.
Пусть зона захвата ограничена произвольной выпуклой кривой
Й*', окружающей точку О.
Теорема 10.2.1. Правый барьер строится следующим об-
разом (левый является его отражением относительно оси ор-
динат).
10.3, Предварительное решение игры «шофер-убийца» 33 >
Начертим эвольвенту для круга э2Г+, разматывающуюся по
часовой стрелке и касающуюся %'. Если такой эвольвенты
не существует, то барьера нет. В противном случае барьером
служит дуга эвольвенты, продолжающаяся (в смысле раскру-
чивания) от точки касания с % до первой точки встречи с ле-
вым барьером или с нижней касательной к кругу е2Г+, проходя-
щей через точку О.
Р и с. 10.2.4.
Единственное, что осталось недоказанным в предыдущих
леммах, это то, что допустимая область кривой % ограничена
точками касания с эвольвентами. Однако если предположить,
что Ч? гладкая1), и считать известным, что допустимая область
представляет собой связную дугу в верхней части кривой 8\
то, поскольку касание с барьером эквивалентно условию, опре-
деляющему границу допустимой области (см. § 8.5.1), мы убе-
ждаемся в справедливости теоремы.
10.3. ПРЕДВАРИТЕЛЬНОЕ РЕШЕНИЕ ИГРЫ «ШОФЕР-УБИЙЦА»
КАК ИГРЫ СТЕПЕНИ
Термин предварительное применен к интегрированию уравне-
ний характеристик в регрессивной форме с начальными усло-
виями на % для получения траекторий, заканчивающихся
') Для произвольных ^ (которые могут встречаться с барьером в угло-
вой точке) нетрудно исследовать игру качества с помощью семейства полу-
проницаемых эвольвент, примерно так, как в § 8.5. 11, и не понадобится явно
привлекать к рассмотрению допустимую область.
22*
340
Гл. 10. Экивошльные поверхности
в соответствующих точках. В большинстве случаев такое предва-
рительное интегрирование играет важную роль, и если при этом
не встречаются сингулярные поверхности, то оно дает полное
решение.
Настоящая задача представляет исключение, так как пред-
варительное интегрирование имеет второстепенное значение. Оп-
тимальные траектории в правой полуплоскости показаны на
рис. 10.3.1. Там же начерчены кривые постоянного значения V.
Рис. 10.3.1.
Для простоты предположим, что 8* — окружность с центром в
точке О.
Мы знаем, что если начальное расстояние между Р и Е до-
статочно велико, преследование достигнет кульминации, когда
х окажется на универсальной поверхности на оси у. Интерпре-
тация в исходном пространстве нам известна: Р преследует Е по
прямой до тех пор, пока не произойдет захвата, когда Е встре-
тится с верхней точкой кривой % (точка С на рисунке).
Траектории предварительного интегрирования составляют ис-
ключение. Для начальных положений Е, достаточно близких к
точке О и не слишком удаленных от направления движения Р,
захват осуществим лишь с помощью крутого поворота. Траекто-
рией Е будет прямая, оптимальное направление которой таково,
что точка входит в Ч? перпендикулярно в смысле относительного
движения обоих игроков.
Нетрудно показать, что удовлетворяется принцип огибания
(см. § 8.8): барьер JF касается кривых постоянного значения
10.3. Предварительное решение игры «шофер-убийца» 341
V и является оптимальной траекторией для задачи захвата с ми~
нимаксом времени.
Задача 10.3.1. Мы утверждали, что оптимальные траектории вхо-
дят в допустимую область перпендикулярно к Ч?. Сам же барь-
ер, также являясь оптимальной траекторией, касается &\ Объ-
яснить это кажущееся противоречие с точки зрения непрерывно-.
сти оптимальных стратегий и обобщить.
Перепишем для удобства уравнения движения
х — —~ y(f-{-w.y sin
y = ~X(f — w1-Jri
где
wx —скорость игрока Р,
щ — скорость игрока Е,
R —минимальный радиус поворота Р.
Для *? имеем
x — Hms, y = lcoss,
и пространство игры <? есть область в плоскости х,у, внеш-
няя к этой окружности.
Учтя опыт решения подобных задач, мы опустим детали ин-
тегрирования и приведем некоторые результаты без доказатель-
ства.
Допустимая область в ?f задается условием
— sQ<s<s0, A0.3.1)
где cos so = W2/wi, sin so>O.
Оптимальные траектории имеют вид
х = {1 — щх) cos Is + -~х) -\~ R sin -~- т,
у = (/ - w2x) sin (s + ^-т) + R (l - cos -
где s удовлетворяет условию A0.3.1) и
Кривые постоянного значения V представляют собой душ
окружностей с центрами в точках (/?A—cos(wilR)x),
R sin (wJR)x) и с радиусами / — w2x. Огибающей для них служит
дуга кривой 381 которая в то же время является оптимально»
траекторией при s = sQ.
342 Гл. 10. Экивокальныс поверхности
Упражнение 10.3.1. Доказать эти утверждения.
Проблема 10.3.1. Хотя на рис. 10.3.1 показан случай, когда барь-
еры не пересекаются, наши рассуждения, разумеется, приме-
нимы и к тому случаю, когда они пересекаются. Какое отноше-
ние имеет точка А, где все траектории пересекаются (т = //ш2),
к точке пересечения барьеров? Другими словами, если барьеры
пересекаются и существует только небольшая ограниченная зона
захвата, то заполнена ли она предварительными траекториями
или часть этой зоны заполняет также универсальная кривая с ее
притоками?
10.4. УНИВЕРСАЛЬНАЯ КРИВАЯ И ЕЕ ПРИТОКИ
Мы уже видели в примере 7.13.2, что ось у над точкой С яв-
ляется универсальной поверхностью, а других универсальных
поверхностей нет1). Она и ее притоки соответствуют наиболее
очевидному и наиболее типичному положению в игре. Как по-
казано на рис. 10.4.1, а, Р сначала разворачивается насколько
возможно круто, пока его скорость не станет направлена на Е, и
затем движется по прямой; в течение всего этого времени Е дви-
жется по одной и той же прямой, которая касается окружности
минимального радиуса, проведенной через начальное положение
Р. Это было доказано в примере 7.13.2.
Лемма 10.4.1. В области, заполненной притоками универ-
сальной кривой, кривые, на которых функция V постоянна, яв-
ляются эвольвентами пары окружностей поворота2).
(Под «парой» мы подразумеваем следующее: если эвольвен-
та начерчена, как обычно, путем разматывания нерастяжимой
нити, то объединения двух окружностей служат тем неподвиж-
ным твердым телом, с которого сматывается нить, как это пока-
зано на рис. 10.4.1, в.)
Доказательство. Мы знаем, что направлением убега-
ния Е служит касательная (здесь порождающая «нить»). Из
основного уравнения следует, что оптимальное направление нор-
мально к кривым постоянного значения V. Наш результат дока-
зывается с помощью простого факта из теории дифференциаль-
ных уравнений.
В дополнении к этой главе содержится анализ, относящийся
к области, заполненной притоками универсальной кривой.
Проблема 10.4.1. Допускают ли оптимальные траектории — при-
токи универсальной кривой — столь же простую геометрическую
интерпретацию?
') Другой тип исключения встретится в § 10.9.
2) Окружности с центрами в точках (±R, 0) и радиуса R.
10.4. Универсальная кривая и ее притоки
343
Оптимальные траектории изображены на рис. 10.4.1,6. Одна
из них, проходящая через В, конец барьера, пересекает отри-
цательную часть оси у в точке F. Из каждой точки оси, лежащей
не выше F, выходят две оптимальные траектории — правая и ле-
вая. Такие точки образуют тем самым рассеивающую поверх-
ность. В исходном пространстве они соответствуют положениям,
Рис. 10.4.1
в которых Е находится точно позади Р. Простой способ игры,
подобный изображенному на рис. 10.4.1, а, оптимален, но оба иг-
рока поставлены перед выбором между правой и левой страте-
гиями, и задача состоит в отгадывании решения другого. Такое
типичное положение, требующее мгновенной смешанной страте-
гии, уже обсуждалось в гл. 6.
На рис. 10.4.1,6 показано все, что входит в полученное до
сих пор решение игры «шофер-убийца» в случае, когда барьеры
не пересекаются.
Теперь займемся большой пустой областью в <f, которая
еще не затронута нашим решением. Она ограничена сверху
344 Гл. 10. Экиьокальные поверхности
кривой $? и недопустимой областью кривой %, а снизу дугой тра-
ектории BF. Для начальных положений, лежащих в этой обла-
сти, таких, как точка Х\ на рисунке, оптимальной стратегией по
интуитивным соображениям должен быть маневр разворота.
Если это так для таких точек, как Х\, то Р должен начать с кру-
того поворота влево, а тогда скорость в точке Xi будет такой,
как указано на рисунке. Это, по-видимому, приведет к тому, что
в конце концов х пересечет BF и окажется в уже изученной об-
ласти. Но где произойдет переключение? Этот вопрос оказы-
вается далеко не простым; им мы сейчас и займемся.
10.5. ЭКИВОКАЛЬНЫЕ ПОВЕРХНОСТИ
Речь пойдет о сингулярных поверхностях типа ( + , и, —).
В этом параграфе мы опишем общие условия существования
экивокальной поверхности, но последующий более тонкий ана-
лиз будет ограничен случаем я = 2. На самом деле одного про-
стого примера достаточно, чтобы пролить свет на всю теорию.
Эти поверхности названы экивокальными (двусмысленными),
так как один из игроков может выбрать в каждой их точке две
различные оптимальные стратегии.
Эти поверхности, в отличие от уже рассмотренных, не имеют
аналога в вариационном исчислении. Они не могут появиться в
играх с одним игроком. Мы предполагаем, что теория диффе-
ренциальных игр должна существенно отличаться от любого
расширения классических теорий.
Предположим, что в некоторой дифференциальной игре по
интуитивным или иным соображениям оптимальные траектории
ведут себя так, как показано на рис. 10.5.1. Траектории, дости-
гающие *? , принадлежат некоторому семейству A); имеется
еще другое семейство B). Оптимальная игра требует, чтобы
точка х, указанная на рисунке, двигалась сначала по траектории
семейства B), а затем переключалась на траекторию семейства
A). Траектории A) дают истинное решение основного уравне-
ния, которое можно продолжить до и выше того места, где ожи-
дается пересечение с траекториями B).
Нас интересует механизм переключения с одного типа траек-
торий на" другой.
Для удобства будем называть траектории A) первичными,
а заполненное ими множество — первичной областью; траекто-
рии B) будут, естественно, называться вторичными.
Пусть SP — поверхность, на которой совершается переклю-
чение (на рисунке это может быть одна из пунктирных кривых).
Достигнув E° по вторичной траектории, точка х должна либо
пересечь ее, либо остаться на ней, либо вернуться обратно.
10.5. Экивокальные поверхности
345
Третья возможность немыслима, если только утверждается, что
вторичные траектории оптимальны и являются носителями един-
ственной в данной области оптимальной стратегии.
Вторая возможность, изображенная на рис. 10.5.1, а, озна-
чает, что E° играет роль полупроницаемой поверхности: одна-
жды достигнув ее, х движется по ней. Мы будем называть
(М
Рис. 10.5.1.
управления, приводящие к такой игре, траверсирующими стра-
тегиями.
Оставшаяся возможность (рис. 10.5.1,6) приводит к тому,
что & играет роль поверхности переключения: х пересекает ef.
Здесь мы будем говорить о проникающих стратегиях.
Сделаем теперь четыре предположения.
А1. Выбор поверхности, которая играет роль t5°, находится
целиком в распоряжении одного из игроков. Для определенно-
сти пусть это будет Р.
А2. Выбор того, будет ли х проникать сквозь ?Р или оста-
нется на ней, находится в ведении другого игрока. Назовем его
Е и учтем, что только он выбирает между проникающей и тра-
версирующей стратегиями.
346
Гл. 10. Экивока ibHbie поверхности
Рассмотрим теперь некоторое «гладкое» однопараметриче-
ское (параметром будет служить к) семейство поверхностей, ка-
ждое из которых может играть роль &'. Под «гладкостью» мы
подразумеваем то, что различные члены этого семейства не пере-
секаются и при увеличении к поверхности гладко передвигаются
в некотором общем направлении (см. множество пунктирных
кривых на рисунке).
Рис. 10.5.2.
A3. Пусть Е, начиная с некоторой фиксированной точки х
вторичной области, выбирает траверсирующую стратегию, оп-
тимальную со всех других точек зрения. Пусть Р выбирает раз-
личные к (члены нашего семейства кандидатов в &), а в осталь-
ном действует оптимально. Тогда плата является убывающей^)
функцией от к.
А4. При тех же предположениях, за исключением того, что
Е на этот раз выбирает проникающую стратегию, плата являет-
ся возрастающей функцией от к.
Графики этих двух функций от к показаны на рис. 10.5.2. Так
как Е — максимизирующий игрок, то для каждого к из двух воз-
можных стратегий он выберет ту, которая дает более высокую
плату. Тем самым плата будет представлена некоторой точкой
на верхней кривой (жирно начерченной на рисунке). Следова-
тельно, Р выберет к (ко на рисунке), при котором достигается
минимум этой верхней кривой: эта точка соответствует пересе-
чению исходных кривых.
Итак, так как описанная ситуация имеет место для всех глад-
ких семейств и всех допустимых начальных точек во вторичной
') Если (без изменения параметризации) обе эти возможности меняются
друг с другом, то заключение, которое мы сейчас выведем из этих предполо-
жений, остается верным.
10.5. Экивокальные поверхности 347
области, то оптимальная поверхность ?Р должна обладать сле-
дующим свойством:
Для каждой точки поверхности & оптимальная игра про-
никающего или траверсирующего типа ведет к одной и той
же плате. Это общее значение является ценой игры.
Поверхность, для которой выполнено это условие, будет на--
зываться экивокальной поверхностью.
Для /г = 2 в единственном случае, который мы изучали сколь-
ко-нибудь детально, оказалось, что условие экивокальной по-
верхности приводит к обыкновенному дифференциальному урав-
нению первого порядка. Итак, вообще говоря, экивокальную
поверхность можно провести через любую точку. Какую началь-
ную точку следует выбрать для данной конкретной игры, часто
становится ясно в процессе ее решения. В общем случае воз-
можна аналогия между этим вопросом и вопросом о выборе
барьера (см. § 8.5).
Считая по-прежнему п = 2, положим, что стратегии Р и Е
удовлетворяют высказанным предположениям. Предположим,
что Р имеет линейную вектограмму, и его оптимальными стра-
тегиями в первичной и вторичной областях служат крайние зна-
чения ф (трудно представить себе какую-нибудь другую воз-
можность). Для движения Р вдоль экивокальной поверхности
требуется промежуточное значение ф = ср. Предположим далее,
что платой является время захвата (G=l), хотя нетрудно рас-
пространить дальнейшие результаты на случай произвольного
положительного G. Предположим также, что вектограмма адди-
тивна, т. е. результирующая скорость точки х равна сумме век-
торов, соответствующих, выборам обоих игроков.
Лемма 10.5.1. В вышеописанной обстановке оптимальная
траверсирующая стратегия Е на экивокальной поверхности мак-
симизирует компоненту скорости, перпендикулярную к базовой
линии Р-вектограммы в направлении, противоположном напра-
влению движения х по поверхности.
Доказательство. При G>0 очевидно, что для Е лучше
допустить такое движение по экивокальной поверхности, при ко-
тором скорость вдоль этой поверхности по возможности мала.
Пусть на рис. 10.5.3 X — точка на экивокальной поверхности,
XAi и ХА-2 — крайние векторы Р-вектограммы (ЛИ2 — базовая
линия), а пунктирная прямая — касательная к экивокальной по-
верхности в точке X. Пусть Е выбирает некоторую скорость
/4jSi (или параллельные и равные ей А^В^, АзВ3) из своей век-
тограммы, вид которой нам неизвестен. Выбор ср должен приве-
сти к тому, что результирующая скорость будет касательной
348
Гл. 10. Экивокальные поверхности
к экивокальной поверхности, т. е. Р выбирает вектор ХА3 такой,
что вектор ХВ3 лежит на касательной к экивокальной поверхно-
сти. Тогда, минимизируя |^53|, игрок Е старается максимально
отдалить линию ВХВ2 от /44Л2. Но это и приводит к стратегии,
описанной в лемме.
Р и с. 10.5.3.
Если экивокальная поверхность известна, то известно и зна-
чение V на ней; вторичные траектории строим обычным спосо-
бом, используя эти данные в качестве начальных условий. Сле-
дующая лемма показывает, что начальные условия для V» мож-
но вычислить, считая, что Е использует ф — оптимальную тра-
версирующую стратегию предыдущей леммы (и, разумеется, Р
использует одно из крайних значений ср).
Лемма 10.5.2. Оптимальная траверсирующая стратегия
для Е на экивокальной поверхности и его оптимальная страте-
гия во вторичной области непрерывно примыкают друг к другу.
Доказательство. Предположим, что лемма неверна.
Пусть оптимальная стратегия для Е разрывна, а Р (в силу А1)
в качестве экивокальной поверхности выбирает поверхность <§"',
близкую к настоящей экивокальной поверхности во вторичной
области. Это означает, что Р переключается с крайнего значе-
ния ф на ф прежде, чем х достигнет экивокальной поверхности.
В худшем случае это приведет к потере в плате, которая может
быть сделана как угодно малой.
Но поскольку 4?'лежит во вторичной области, в силу раз-
рывности противодействие Е движению х вдоль &" будет на ко-
нечную величину меньше того оптимума, который указан в лем-
ме 10.5.1. Итак, если отклонение Р вверх достаточно мало, то он
10.6. Пример с экивокальной поверхностью 349
получит плату лучшую, чем цена игры, что невозможно при дей-
ствии против оптимальной стратегии.
Задача 10.5.1. Дать формальное доказательство по следующей
схеме. В качестве уравнений движения взять
Начальные условия для V,- на экивокальной поверхности (пара-
метр т) получить при решении уравнения
l"l, 2
представляющего собой условие экивокальной поверхности, и
основного уравнения
Показать, что решение можно получить из соотношений
i
2 h(Ф. х) V, = max 2 Wi = — 1 •
(Для применения леммы 10.5.1 заметить, что выражение
Pi<*2 — p2ai представляет собой требуемую нормальную ско-
рость.)
10.6. ПРИМЕР С ЭКИВОКАЛЬНОЙ ПОВЕРХНОСТЬЮ;
ПРЕДВАРИТЕЛЬНОЕ РАССМОТРЕНИЕ
Может ли дифференциальная игра на самом деле иметь в ка-
честве части своего решения экивокальную поверхность? Если
да, то в случае, подобном изображенному на рис. 10.5.1, часть
первичного решения будет резко прервана даже несмотря на то,
что отброшенная часть будет частью формально верной кон-
струкции. Такое положение дел достойно пристального исследо-
вания, которое мы проведем с этой точки зрения в примере
10.6.1.
При рассмотрении этого примера выяснится еще одна по-
лезная деталь. Она относится к изучению той части игры «шо-
фер-убийца», которая касается прохождения около конца барье-
ра. Эти вопросы настолько близки, что гарантируется возмож-
ность применения нижеследующих заключений непосредственно
к основной игре «шофер-убийца».
350
Гл. JO. Экивокальные поверхности
Пример 10.6.1. Игра с экивокальной поверхностью. Возьмем в
качестве cf верхнюю полуплоскость (г/>0), а в качестве ^—по-
ложительную часть оси х
Платой будет время окончания игры. Вектограмма для Р пред-
ставлена на рис. 10.6.1, а. Вертикальная компонента ограничена
L
константой ±Ь, в то время как горизонтальная равна и(у) —
гладкой, возрастающей и положительной функции. А игрок Е
пусть имеет круговую вектограмму фиксированного радиуса w.
Мы требуем, чтобы b>w>u@) и чтобы существовало одно и
только одно значение у0, для которого
Из примера 8.4.3 мы знаем, что существует барьер 38. На
рис. 10.6.1,6 он изображен в виде дуги ОВ, координатами точки
В служат хв,Ув, где ув = Уо- Отметим, что в точке В барьер
10.6. Пример с экивокальной поверхностью
351
<Ш вертикален: он заканчивается так же, как и в игре «шофер-
убийца», когда он касается прямой, параллельной базовой ли-
нии Р-вектограммы.
Траектории с наименьшим временем, когда начальные поло-
жения достаточно удалены вправо, чтобы допустить беспрепят-
ственный подход к <?, получить легко. Поскольку все векторы
не зависят от х, игроки просто максимизируют и минимизируют
свои компоненты скорости, направленные вертикально вниз, т. е.
Рис. 10.6.2.
Р выбирает свой нижний крайний вектор, а ? — скорость, на-
правленную вертикально вверх. Результирующие траектории яв-
ляются сдвигами одной и той же кривой и изображены на
рис. 10.6.1,6. Обозначим через L дугу той из этих траекторий,
которая проходит через точку В; пусть L лежит слева от В.
Траектории, не оканчивающиеся на 38, образуют первичное се-
мейство. Очевидно, что в первичной области
V =¦¦
A0.6.1)
Упражнение 10.6.1. Найти полное решение в первичной об-
ласти ') при
6 = 3, и = у-\-\, г» = 2.
Казалось бы, решение сейчас можно закончить, взяв в каче»
стве начальных условий значение цены игры на L и найдя опти-
мальные траектории, которые подходят к L снизу, т. е. считая,
что L — полууниверсальная кривая, а оптимальные траектории
выглядят так, как на рис. 10.6.2.
В упражнении 8.4.3 требовалось построить барьер с этими данными.
352 Гл. 10. Экивокальные поверхности
Такое решение и в самом деле можно построить, положив
Н на L равной значению V, вычисленному по формуле A0.6.1);
Р пусть выберет свой крайний верхний вектор скорости. Соответ-
ствующий анализ проделать нетрудно.
Задача 10.6.1. Доказать, что решение, изображенное на
рис. 10.6.2, а, можно построить, и практически осуществить по-
строение для конкретных данных упражнения 10.6.1.
Теорема 10.6.1. Предыдущая конструкция дает неверное
решение.
Доказательство. Предположим, что решение верно.
Тогда оптимальная стратегия <р для Р означает выбор самого
нижнего вектора скорости для значений х, лежащих выше L или
на L, и самого верхнего для значений, лежащих ниже L. На L,
как мы уже видели, оптимальное значение г|з = г|) приводит к век-
торам для Е, направленным вертикально вверх.
Эти векторы показаны на диаграмме 10.6.2,6, где X— точка
дуги L. Стратегии фиф означают, что Р выбирает скорость ХА,
а Е— скорость АС. Их сумма ХС касается L.
Пусть теперь Е будет играть по-другому. В некоторой окрест-
ности N дуги L игрок Е выбирает вектор скорости, указываю-
щий влево; на рисунке он представлен вектором AD. Пусть Р
использует /(-стратегию (§ 2.6), тактикой которой является ср, и
к тому же настолько мелко разбивает отрезок времени, что все
точки, в которых он принимает решения, попадают внутрь N.
Для X, лежащих на L, игрок Р выбирает вектор ХА. Сумма
будет теперь равна XD, что переводит х (или X) в точку, ле-
жащую ниже L. Тогда следующее решение Р состоит в выборе
верхнего вектора ХАи что приводит к суммарной скорости XDi.
В результате х вновь будет переведен на L или выше нее, и сум-
марная скорость будет опять равна XD.
Итак, х, выбирая поочередно скорости XD и XDU движется
по траектории, колеблющейся около L. Такое движение при раз-
мельчении разбиения отрезка времени эквивалентно, как легко
видеть, движению со скоростью XFi (вектор из замкнутой ли-
нейной оболочки векторов XD и XDU касающийся L). Это озна-
чает, что плата теперь становится такой, как если бы Р играл
с помощью промежуточного значения ср, приводящего к суммар-
ной скорости XF (FFi — отрезок горизонтальной прямой).
Но \XFi\<\XC\. Следовательно, если х вдоль L попеременно
меняет скорости и движется медленнее, то плата возрастает.
Итак, тип игры, подобный изображенному на рис. 10.6.2, а, не
оптимален, так как Е может добиться лучшей платы, используя
10.6. Пример с экивокальной поверхностью 353
против Р /(-стратегию с достаточно мелким разбиением отрезка
времени и с тактикой1) ср.
Следствие 10.6.1. Не все первичное решение годится для
решения задачи.
Доказательство. Если «решение» над L верно, то мож-
но сформулировать новую игру, для которой пространство W '
ограничено кривыми J1, 1и отрицательной частью оси х. Здесь
f и L образуют поверхность в , допустимой областью которой
является, очевидно, L. Далее, функция Я должна быть первичной
ценой игры на L, в то время как G вновь будет равна 1. Истин-
ное решение этой новой игры нетрудно построить. Мы утвер-
ждаем, что оно имеет вид 10.6.2, а (и предлагаем проверить это
в задаче 10.6.1). Тогда решение исходной игры будет как раз та-
ким, каким, как мы только что доказали, оно не может быть.
До того как продолжить решение этого примера, заметим,
что по существу та же самая конструкция имеет смысл в подоб-
ных играх для одного игрока.
Рис. 10.6.3.
Пример 10.6.2. Сохраняются условия примера 10.6.1, но только
здесь ш = 0. Уравнения движения теперь имеют вид
Барьера теперь нет, но L остается; она является теперь тра-
екторией, получаемой на первой стадии решения и ведущей в на-
чало координат. Применяя предыдущие идеи, мы придем к ре-
зультату, изображенному на рис. 10.6.3, а. Используя теорему
10.6.1, дадим краткое непосредственное доказательство правиль-
ности полученного решения.
]) Такие стратегии — это, по-видимому, единственный способ отразить тот
факт, что используется ср.
23 Зак. 522
354 Гл. 10. Экивока льные поверхности
Очевидно, что Р должен использовать свой нижний крайний
вектор (ф=1) на протяжении всей партии, если только это при-
водит х на <?. Действительно, мы можем подсчитать плату, зная
лишь вертикальную составляющую скорости, иными словами,
нужно рассматривать время, необходимое для того, чтобы про-
екция точки х на ось у опустилась бы до <?. Но <р=1 дает мак-
симальную возможную направленную вниз скорость на протя-
жении всей игры и потому, разумеется, является оптимальной
стратегией. Итак, первичные траектории дают верное решение.
Пусть теперь х движется от данной точки А до данной точ-
ки В, лежащей справа от Л и достаточно отдаленной, для того
чтобы вышеописанная стратегия была неприменима. Траектория
с наименьшим временем изображена на рис. 10.6.3, б. Слева
Ф = — 1, а справа ср= + 1. Существует только одна такая траекто-
рия, так как если провести траекторию с ср = — 1 через А и ре-
грессивную траекторию с ср=1 через В, то они пересекутся
лишь в одной точке. Для того чтобы показать, что эта траекто-
рия оптимальна, мы будем считать время в терминах горизон-
тальной компоненты скорости. Она возрастает с ростом у и оче-
видно, что траектория на рис. 10.6.3, б достигает максимального
суммарного у.
Итак, если начальная точка лежит слева от L, то траектория,
идущая в точку О с наименьшим временем, имеет вид, показан-
ный на рис. 10.6.3, а. Наконец, время не может быть уменьшено,
если Р впервые достигнет <? в точке, лежащей правее О, по-
тому что если бы это было так, то траектория пересекала бы L\
в первый же такой момент она оказалась бы под эгидой первич-
ной стратегии и проследовала бы по L до О.
Задача 10.6.2. Показать, что если и=у— 1 и, следовательно, не
всегда положительно, то не вся кривая L играет роль носителя
начальных условий для траекторий вторичной стадии.
Задача 10.6.3. По-прежнему считаем и = у—1 и расширим If
п,о всей плоскости. Пусть к <?, за исключением, быть может,
точки О, можно подходить лишь сверху. Показать, что сущест-
вуют траектории третьей стадии.
10.7. ПРИМЕР С ЭКИВОКАЛЬНОЙ ПОВЕРХНОСТЬЮ; РЕШЕНИЕ
Вернемся теперь к примеру 10.6.1. Покажем, что предполо-
жения А1—А4 § 10.5 выполнены. Предварительно заметим, что
некоторые части траекторий первой стадии входят в истинное
решение; с другой стороны, в некоторой области ниже и левее
В оптимальное значение ср должно равняться —1 (крайнее верх-
10.7. Пример с экивокальной поверхностью; решение
355
нее значение скорости). Наша задача состоит в отыскании ли-
нии переключения с одной фазы на другую.
А1. Очевидно. В самом деле, Р может по своему усмотрению
выбрать кривую, которая разделяет области, где он использует
значения ср = 1 и ср =—1. Если эта кривая будет играть роль эки-
вокальной, то на ней он должен, разумеется, использовать неко-
торое промежуточное значение ср. Но с точки зрения /(-стратегии
это совсем не обязательно. Как мы увидим ниже при проверке
Рис. 10.7.1.
предположения А2, /(-стратегия для Е приводит к зигзагообраз-
ному движению вдоль экивокальной поверхности, подобно дви-
жению, которое встречалось при доказательстве теоремы 10.6.1.
А2. Кривой, которую мы в этом параграфе будем называть
экивокальной, может быть любая гладкая кривая, которая
1) начинается в точке В;
2) имеет более крутой наклон, чем траектории первичного
семейства в точках пересечения с ней над точкой В\
3) точка х может двигаться по ней, если Е использует ty —
оптимальную траверсирующую стратегию, а Р — некоторое про-
межуточное значение ср, которое мы назовем ср. Покажем, что Е
определяет выбор между траверсирующей и проникающей стра-
тегиями.
На рис. 10.7.1 показаны различные возможности для век-
тограммы в точке Хй на экивокальной кривой. В силу второго
23*
356 Гл. 10. Экивокальные поверхности
условия Хо лежит выше В и, следовательно, u>w. Здесь А^А2—
базовая линия Р-вектограммы. Действуя согласно оптимальной
первичной (и, следовательно, проникающей) стратегии, Е выби-
рает направленный вверх вектор скорости А1Д3, a P — первич-
ный оптимальный вектор, соответствующий значению ф=1, или
вектор X0Ai. Суммарная скорость ХоАъ направлена по касатель-
ной к первичной траектории. В силу второго условия касатель-
ная к экивокальной поверхности имеет более крутой наклон; она
изображена на рисунке пунктирной линией. По лемме 10.5.1 оп-
тимальная траверсирующая стратегия для Е соответствует век-
тору ALBi (или А2В2 или AiBi), перпендикулярному к ЛИ2. Сле-
довательно, ф означает, что Р выбирает вектор X0Ai, чтобы сум-
марная скорость Х0В4 касалась экивокальной поверхности.
Предположим теперь, что Е переключится на Л(Лз (прони-
кающая стратегия). Тогда Р может выбрать результирующую
скорость, изменяющуюся от вектора Х0А3 до Х0Л5. Все они пе-
реводят х в первичную область, лежащую над экивокальной по-
верхностью. Начиная с этого момента, каждый игрок, не желаю-
щий получить меньше, чем цена игры, должен играть оптималь-
но с результирующим вектором XOAZ- Тем самым партия завер-
шается в первичной области.
Пусть теперь Е твердо придерживается траверсирующей
стратегии А\ВХ. Покажем, что Р не может отклониться от ф, не
потерпев при этом убытка в плате.
Предположим, что для некоторого короткого интервала вре-
мени он использовал ф<ф, тогда точка х поднялась бы на неко-
торое положительное расстояние над экивокальной поверх-
ностью в область первичных оптимальных стратегий для обоих
игроков. Имея в виду лишь вертикальную компоненту скорости,
заметим, что путь, при котором х поднимается и потом вновь
опускается, занимает больше времени, чем прямой первичный
спуск от точки Хй и, следовательно, больше времени, чем V(X0).
С другой стороны, если Р будет придерживаться значения
Ф>Ф на протяжении некоторого интервала времени, то х спу-
стится ниже экивокальной поверхности. (По лемме 10.5.2 Е ис-
пользует при этом векторы, близкие к AiBy.) В некоторый более
поздний момент времени точка х должна вновь пересечь экиво-
кальную поверхность, скажем, в точке Ху, поскольку, в силу
пункта 1, экивокальная кривая и 38 образуют единую кривую,
которая отделит точку х после ее спуска от <?, а Е сможет пред-
отвратить пересечение точкой х кривой <%• Пусть Е выбирает
стратегию, которая предотвращает такое пересечение и во всех
остальных точках ниже экивокальной поверхности остается рав-
ной AiBit Путь из Хо в Хи лежащий ниже экивокальной по-
10.7. Пример с экивокальнпй поверхностью; решение 357
верхности, оказывается длиннее, чем путь, идущий по ней. В этом
можно убедиться, рассматривая только горизонтальную компо-
ненту скорости и помня, что и (у) — возрастающая функция. Тем
самым у Е имеется способ заставить Р получить меньше, чем
цена игры.
Для выполнения гипотез A3 и А4 возьмем в качестве возмож-
ных (^семейство кривых, удовлетворяющих условиям 1—3 ги-
потезы А2. Выберем Я в соответствии с рис. 10.7.2, а.
Рис. 10.7.2.
A3. Мы должны показать, что если Е выбирает траверсирую-
щую стратегию, то плата убывает с увеличением Я. Достаточно
установить, что если (см. рис. 10.7.2,6) АВ и DB— дуги кривых
?Р, то время движения точки х вдоль ADB меньше, чем вдоль
дуги А В. Разумеется, AD есть часть «вторичной» оптимальной
траектории.
Сконцентрируем внимание на горизонтальной компоненте
скорости: на AD и DB она равна и (у) — w, а для AD — не мень-
ше и(у) — w. Так как и(у) — возрастающая функция, то более
высокая траектория ADB приводит к большей горизонтальной
скорости и к меньшей затрате времени. Итак, плата убывает с
ростом Я.
А4. Покажем теперь, что если х проникает сквозь ъ? в пер-
вичную область, то плата возрастает с ростом Я. В этой области
в силу A0.6.1) V является возрастающей функцией от у. Следо-
вательно, поскольку кривые 4f имеют отрицательный наклон, то
чем больше Я, тем больше времени потребуется точке х, чтобы
достичь ??, и тем большее будет в этой точке значение V.
Итак, существование экивокальной поверхности установлено.
Обратимся теперь к ее построению. Условие экивокальной по-
верхности в общем случае устанавливает, что при движении
358 Г.i !0 Экивокальные поверхности
вдоль нее
~^-G(=-V), A0.7.1)
где V—цена игры в первичной области. В нашем примере при
регрессивном движении G=\, a V задается формулой A0.6.1).
Прежде всего запишем уравнения движения
х— и(у)-\- w sin ф,
По лемме 10.5.1 sini|) =— 1, cos^ = 0, a A0.7.1) превращается в
нашем случае в условие
~b4. A0.7.2)
Итак, для экивокальной поверхности
Ф= 1 —-?-. (Ю.7.3)
что после подстановки в уравнения движения приводит к диф-
ференциальным уравнениям
х = — u(y)-\-w,
A0.7.4)
г/ — b — w.
Наша экивокальная кривая является интегралом этой системы
дифференциальных уравнений, начинающимся в точке В: в ка-
честве начальных условий возьмем х = хв, у = ув = у0 при т = тв=
= V(B) =yo/(b — w) (из A0.6.1)). Тем самым т на экивокальной
поверхности равно V.
Заметим, что в точке В х=0, у>0 и, следовательно, экиво-
кальная кривая имеет здесь вертикальную касательную. На при-
мере 8.4.3 мы видели, что то же самое было верно для барьера.
Итак, обе кривые гладко смыкаются в точке В.
Проблема 10.7.1. Верно ли это в общем случае? Если экивокаль-
ная поверхность встречается с окончанием барьера, то должны
ли эти поверхности гладко примыкать друг к другу?
Упражнение 10.7.1. Используя данные упражнения 10.6.1, пока-
зать, что в этом случае роль экивокальной поверхности играет
полупарабола.
10.7. Пример с экивокальной поверхностью; решение 359
[В самом деле, ее уравнения при т>1 имеют вид
х= 2"(т 1) ~р хв,
__ A0.7.5)
Чтобы подкрепить материал леммы 10.5.2, мы закончим этот
параграф частичным исследованием вторичных траекторий, от-
ходящих от1) экивокальной поверхности.
Основное уравнение D.2.3) в нашем случае имеет вид
«Mv,—&pV»4-®p+i=o,
где
г ¦ Т Vx -Г У у
sin ip = ——, cos из = —- ,
р р
р =
Запишем уравнения характеристик в регрессивной форме:
b^
В качестве начальных условий используем уравнение экивокаль-
ной поверхности, где для удобства обозначений заменим х на s.
Тогда на экивокальной поверхности V=s. Наше обычное урав-
нение
Vxxs + Vyys = Vs
при использовании A0.7.4) принимает вид
- Vx(u — w) + Vy{b — w) = \. A0.7.6)
Это уравнение вместе с основным уравнением надо решить отно-
сительно Vx и Vy. Нетрудно заметить, что формальное решение
Vx=—— , Vtt = 0 A0.7.7)
х и — w у v ;
подходит. Следует отметить, что VX<CO при г/>1/о, т. е. на всей
экивокальной поверхности за исключением точки В.
— о
Чтобы найти ф, надо исследовать Vy на экивокальной поверх-
ности. Из уравнений характеристик имеем
Vy = u'Vx < 0,
поскольку а/>0, V.x<0. Следовательно, ф = — 1, т. е. Р, как мы и
ожидали, использует свой самый верхний вектор.
') В регрессивном смысле.
360
Гл. 10. Экивокальные поверхности
Из A0.7.7) мы видим, что в начальный момент (т=0) sirup =
= — 1. Следовательно, скорость движения Е горизонтальна и на-
правлена влево. Как и утверждается в лемме 10.5.2, она являет-
ся непрерывным продолжением стратегии на экивокальной по-
верхности.
Все остальное в нашей задаче включает в себя мало нового,
и мы предоставляем ее завершение читателю.
Рис. 10.7.3.
Упражнение 10.7.2. Исходя из данных упражнения 10.6.1, пока-
зать, что оптимальные притоки экивокальной поверхности за-
даются уравнениями
у = —
s.
На рис. 10.7.3 показано, как примерно выглядят оптимальные
траектории.
10.8. ОБСУЖДЕНИЕ ВОПРОСОВ,
КАСАЮЩИХСЯ ЭКИВОКАЛЬНЫХ ПОВЕРХНОСТЕЙ
Может ли экивокальная поверхность, будучи гладким при-
соединением к барьеру, рассматриваться как его продолжение?
Может, но лишь в том смысле, что каждый игрок может заста-
вить х проникнуть сквозь поверхность только ценой потерь в
плате.
10.8. Обсуждение экивокальных поверхностей 361
Интересно посмотреть, насколько игроки практически скова-
ны таким предписанием, иными словами, рассмотрим некоторую
реальную игру, адекватная модель которой похожа на следую-
щий пример.
Предположим, что в некоторой точке (оптимальной) партии
х достигает экивокальной поверхности и Е выбирает траверси-
рующую стратегию. Непрерывное оптимальное поведение Р пре:
вращает экивокальную поверхность в траекторию, и х в конце
концов достигает точки В. С этого момента Е уже не имеет дву-
значности: для того чтобы максимизировать плату, он должен
выбрать первичную стратегию. Но в его распоряжении все еще
остается оптимальная стратегия игры качества. Если он исполь-
зует эту стратегию, то и Р должен отвечать ему такой же стра-
тегией, ибо иначе х проникнет за барьер и Р не сможет ускорить
окончание игры. Действительно, в этом случае, чтобы закончить
игру, придется вновь пересечь экивокальную поверхность; если
Е будет повторять свою тактику, а Р свой ответ на нее, то бес-
прерывное возвращение назад приведет к тому, что игра не кон-
чится вовсе. Тем самым Р вынужден, начиная от точки В, ис-
пользовать стратегию игры качества; х движется при этом вдоль
J? и приходится удовлетвориться нейтральным исходом1).
Разумно ли для Е действовать так — использовать оптималь-
ную стратегию игры качества, когда х достигает В? Все зависит
от того, как мы оцениваем нейтральный исход. Мы можем при-
нять точку зрения гл. 8 и рассматривать нейтральный исход как
нечто худшее, чем окончание в собственно внутренних точках.
Для построения точной теории мы должны, разумеется, моди-
фицировать исходную игру, приписав численное значение плате
при нейтральном исходе. После того как мы это сделаем, опре-
делится ответ на поставленный вопрос.
В «практическом» проведении игры нейтральный исход ле-
жит на грани неуспеха в окончании игры; такой неуспех может
произойти при сколь угодно малом случайном отклонении, и по-
этому Р должен добиваться для себя некоторого запаса надеж-
ности. Простейший и самый разумный путь для этого, видимо,
такой: когда х впервые достигает экивокальной поверхности, Р
продолжает в течение некоторого короткого интервала свою
старую стратегию (ср=—1) и тем самым переводит х через эки-
вокальную поверхность на небольшое расстояние в первичную
область.
Произвольно малая потеря в плате искупается для Р осво-
бождением от двузначности на экивокальной поверхности.
') Как в гл. 8 Здесь смысл нейтрального исхода в том, что х подходит
к *ё в концевой точке •— в начале координат.
362 Гл. 10. Экивокальные поверхности
поскольку, начиная с этого момента, у каждого игрока имеется
единственная оптимальная стратегия1).
Итак, хотя явления, связанные с экивокальной поверхностью,
теоретически очень интересны, они, по-видимому, имеют не очень
большое значение в приложениях, так как в реальной игре эти
явления можно обойти с помощью приема, подобного описан-
ному. Но экивокальная поверхность остается границей, разде-
ляющей различные способы ведения оптимальной игры.
Проблема 12.8.2. Если и (у) имеет максимум, скажем, в точке
r/i, то очевидно, что прямая у=У\ будет ср-универсальной поверх-
ностью для точек, расположенных достаточно далеко влево. Ка-
ково решение в остальных точках? В частности, пересекаются ли
универсальная и экивокальная поверхности (если последняя су-
ществует)?
10.9. ЭКИВОКАЛЬНЫЕ ЯВЛЕНИЯ В ИГРЕ «ШОФЕР-УБИЙЦА»
Идеи предыдущих параграфов можно использовать при рас-
смотрении задачи «шофер-убийца». Мы можем построить эки-
вокальную кривую, начинающуюся в конце барьера.
Предположим, что левый и правый барьеры не пересекаются
и что х начинает двигаться от некоторой точки, близкой к концу
правого барьера и лежащей под ним. Захват требует маневра
разворота: Р должен заставить точку х опуститься и обойти во-
круг барьера. Он начинает с крутого поворота влево (ср = — 1),
что вызывает опускание точки х, но позднее он будет использо-
вать стратегию, соответствующую правому притоку к универ-
сальной поверхности. Это требует значения ср=1, т. е. крутого
поворота направо до тех пор, пока игрок Е не окажется прямо
перед ним (х на универсальной поверхности) и, следовательно,
игра окончится погоней по прямой линии. Здесь экивокальная
поверхность будет геометрическим местом точек, на которых Р
переключается с ф = — 1 на ср=1.
На экивокальной поверхности Е имеет выбор между травер-
сирующей и проникающей стратегиями. Каково ty — значение,
отвечающее первой из них? По лемме 10.5.1 требуется, чтобы Е
выбрал вектор скорости, перпендикулярный к базовой линии
Р-вектограммы. По лемме 10.2.1 эта линия перпендикулярна к
радиусу-вектору ОХ. Следовательно, скорость движения Е на-
правлена к точке О, что означает следующее.
¦) Заметим, что с «реалистической» точки зрения Р может претерпеть
такую потерю даже при оптимальной игре. Действительно, Е может пере-
ключиться с траверсирующей на проникающую стратегию в некоторый не-
ожиданный момент, и «практически» существует некоторое положительное
время запаздывания в ответе Р.
10.9. Экивокальные явления в игре «шофер-убийца» 363
Если в исходном пространстве Е применяет траверсиру-
ющую стратегию, то он движется по курсу чистого пре-
следования1) Р.
Что касается Р, то его оптимальная стратегия ф для х, ле-
жащих на экивокальной поверхности, вообще говоря, отличается
от 0 и ±1. Это, видимо, единственный случай, когда он двигает-
ся по оптимальной траектории, не являющейся прямой или ок-
ружностью радиуса R.
Процесс отыскания экивокальной поверхности подобен тому,
который приводился в § 10.7, и не стоит повторять приведенные
там рассуждения. Как и прежде, ^ — известная функция от х и
у; мы хотим найти ф. Это можно сделать из условия экивокаль-
ной поверхности
xVx + yVu = —\, A0.9.1)
где Vx и Vy вычислены для (правых) притоков универсальной
поверхности, г х, у означают их выражения из уравнений движе-
ния, где ^ заменено найденным значением ty(x,y). Если теперь
A0.9.1) разрешить относительно ф, то мы получим искомое упра-
вление ф(х, у). Подстановка этих выражений в уравнения дви-
жения дает пару обыкновенных дифференциальных уравнений;
их интегральная траектория, проходящая через точку В, конец
барьера, является экивокальной поверхностью.
Дальнейший анализ детально проведен в дополнении к этой
главе; окончательные дифференциальные уравнения имеют вид
A0.А.9). Они, пожалуй, чересчур неприступны, и мы не особен-
но докапывались до их специфических геометрических свойств.
На рис. 10.9.1, а приведено аккуратное построение экиво-
кальной кривой; на рис. 10.9.1,6 изображены соответствующие
траектории Р и Е в исходном, пространстве для этой фазы
партии.
При изменении параметров существуют две различные воз-
можности для формы экивокальной поверхности. Она может
пересечь ось у (дуга ВС на рис. 10.9.2, а) или закончиться на <?
(рис. 10.9.2,6). Мы изучим лишь первый случай, который, по-
видимому, наиболее интересен.
Проследим за оптимально сыгранной партией, начинающейся
в точке X (рис. 10.9.2, а). Оптимальная траектория пересекает,
как это и показано, ось у, которая здесь вновь является универ-
сальной поверхностью. После того, как точка х достигнет ее в
А, она будет двигаться по этой оси до точки С. Разумеется,
¦) Это означает, что Е все время направляет свою скорость прямо
на Р,
364
Гл. 10. Экивокальные поверхности
другие начальные положения, такие, как Х\, приводят к траекто-
риям вида XiD, которые встречаются непосредственно с экиво-
кальной поверхностью (пунктирная линия на рисунке).
Нетрудно проинтерпретировать траекторию ХАС в исходном
пространстве. Игроки начинают движение из точек Р и Е
У
Рис. 10.9.1.
(рис. 10.9.3): Р сначала круто поворачивает влево (радиус R),
в то время как Е перемещается прямо по касательной EF к ок-
ружности, по которой движется Р. Дойдя до точки F, последний
тоже переходит на прямую EF. Такое движение соответствует
положению X на универсальной кривой АС. Интересно сравнить
это с простой погоней, изображенной на рис. 10.4.1, а: теперь Е
преследует Р.
Оба игрока движутся по прямой EF, пока расстояние между
ними, увеличиваясь, не станет равным ОС — фиксированной кон-
10.9. Экивокальные явления в игре «шофер-убийца»
365
станте для игры, показанной на рис. 10.9.2, а. Такое положение
соответствует точкам Р4 и Е\ на рис. 10.9.3.
Рис. 10.9.2.
Рис. 10.9.3.
В точке Pi игрок Р переключается на «экивокальную» стра
тегию ф и движется по кривой Р^Р2 (см. рис. 10.9.1, б), в то вре-
мя как Е, если он использует траверсирующую стратегию, сле-
дует вдоль Е\Е2 курсом чистого преследования. Теперь уже х
лежит на экивокальной поверхности и в любой момент Е может
366
Гл. 10. Экивокальные поверхности
переключиться на стратегию, соответствующую (в данном слу-
чае правому) притоку к универсальной поверхности. Это озна-
чает, что он будет держать курс вдоль соответствующей каса-
тельной к окружности правого разворота Р, убегая от точки ка-
сания, и т. д.
Заметим, что, находясь в точке Pi, игрок Р оказывается пе-
ред выбором между правым и левым поворотами (х может сле-
довать по экивокальной поверхности либо в правую, либо в ле-
вую сторону от оси у). Если Е использует траверсирующую стра-
тегию, то он в обоих случаях направляет свою скорость на Р.
Рис 10.9.4.
следовательно, функция -ф не разрывна и Р не обязан использо-
вать смешанную стратегию. Но зато если Е выбирает проникаю-
щую стратегию, то он тоже оказывается перед выбором между
правым и левым направлениями, и тогда необходима мгновен-
ная смешанная стратегия. Поскольку в любом случае Р ничего
не теряет от применения смешанной стратегии, он может вклю-
чить ее в свою оптимальную стратегию. Напомним, что часть оси
у, лежащая ниже точки С, является рассеивающей поверх-
ностью. Поскольку смешивание требуется в каждой из ее точек,
то такое же требование для точки С не слишком обремени-
тельно.
Если Е придерживается траверсирующей стратегии, то х дви-
жется по экивокальной поверхности до точки В — концевой точ-
ки барьера. Здесь с целью максимизации времени захвата Е дол-
жен выбрать проникающую стратегию. Однако он может исполь-
зовать и оптимальную стратегию игры качества и добиться
Дополнение. Аналитические детали 367
нейтрального исхода. Фактически тут применимы все рассуждения
§ 10.8. Как и там, с «практической» точки зрения для Р, видимо,
выгодно позволить х пройти несколько ниже экивокальной по-
верхности и с помощью небольшой потери в плате избежать за-
труднений. Самым подходящим моментом для этого будут точ-
ки Pi и ?ь Р продолжает двигаться вдоль прямой EF, пока рас-
стояние PiEx не станет чуть больше ОС (рис. 10.9.2, а).
Теперь поставим перед собой вопрос: является ли наше ре-
шение действительно полным? Могут ли существовать какие-
нибудь другие фазы оптимальной партии?
На рис. 10.9.4 изображены оптимальные траектории рассма-
триваемой игры до момента, когда в партии начинается фаза
экивокальной стратегии. Может ли существовать еще не рассмо-
тренная область, подобная зоне, заштрихованной на рисунке?
Проблема 10.9.1. Ответить на этот вопрос. Если да, то каково
решение в заштрихованной зоне? Существует ли там еще одна
экивокальная поверхность, такая, чтобы Ри желая привести на
нее точку х, начинал с крутого поворота направо?
ДОПОЛНЕНИЕ
АНАЛИТИЧЕСКИЕ ДЕТАЛИ
Выведем аналитические выражения, относящиеся к области
определения правых притоков, и дифференциальные уравнения
экивокальной кривой. Начнем с того, что соберем весь обычный
материал. Уравнения движения таковы:
х = — сщ + щ sin \|з,
у = сху — чюх -\- w2 cos ф, — 1 <; ф ¦< 1;
здесь a>i>a>2 и c = wjR. Основное уравнение D.2.3) имеет вид
— Асу — wxV\ -4- р = О,
где
Уравнениями характеристик будут
о _ V о _
х — суц> — Wo — , Vx= C(pVv,
о V о
у = — схц> ~\ wх — w2 —-, Vи= -
с
368 Гл. 10. Экивокальные поверхности
Отметим, кстати, что
A = wxVx. A0.A.1)
Универсальная кривая задается уравнением
х = 0, у = s, s^> I,
и, следовательно, мы знаем значение V на ней:
V = s~l .
ffilj — W2
Обычным способом дополним начальные условия соотноше-
ниями
У O»i — W2
Последнее следует из симметрии и из известной нам непре-
рывности Vt на линейной универсальной поверхности. Для
правой стороны мы, очевидно, возьмем ср=1.
Интегрирование уравнений характеристик с этими усло-
виями дает
^ CSCX' (iaA-2)
coscx),
, n , f-. . (lu.A.o)
= (s — w2x) cos ex + R sin ex.
Последняя пара соотношений является уравнениями правых
притоков.
Умножая A0.А.З) на cos ex и —sin ex и складывая, получаем
(х — ^)cos сх — у sin cx + R = 0.
По отношению, скажем, к cos сх это равенство есть алгебраи-
ческое уравнение. Решив его, найдем
— R (х — R) + yh
cos сх — —
где d = Y(x — RJ-\- У2 — расстояние от х до точки @,R), a
h = Yd'1 — R2 ¦= Yx2 ~ЬУ2 — 2xR — длина касательной из точки
х к окружности правого разворота. Тогда, поскольку мы знаем
т как функцию от х и у, из A0.А.З) мы можем вычислить s и
после этого найти V по формуле
V - -±=L- | т. A0.А.5)
wi — w2 '
Пополнение. Аналитические детали 369
Для изучения экивокальнои поверхности более подходящими
являются непосредственные выражения для Vx и Vy; они немед-
ленно находятся из A0.А.2) и A0.А.4).
Мы знаем, что на экивокальнои поверхности вектор скорости
Е указывает в точку О. При регрессивном движении это напра-
вление заменяется на противоположное, и тогда из уравнений
движения мы получаем
A0.А.6)
у = — схц> -f да, -f w2 у,
где г = У'х2+у2. Условие экивокальнои поверхности в регрессив-
ной форме имеет вид
=l, A0.A.7)
где Vx и Vy относятся к притокам. Подставим в A0.А.7) их вы-
о о
ражение и заменим х и у их значениями из A0.А.6). Полученное
уравнение можно решить относительно ср; после небольших вы-
числений находим
где
Итак, мы знаем оптимальную стратегию Р для экивокальнои
поверхности в каждой точке пространства У, где не нарушены
ограничения на ср.
Дифференциальные уравнения для экивокальнои поверхности
получаются подстановкой A0.А.8) в A0.А.6). Тогда они превра-
щаются в уравнения
°__ w, , w2 xR — ry — yh
х — ~5~ У
R а ' R г—у
W, , ™ . W~ nQ-i-fr—P\r-L-rh (Ю.А.9)
у R v ! ' R г — у
Начальное условие состоит в том, чтобы интегральная кри-
вая прошла через точку В. Эта точка, как мы знаем, лежит
на нижнем луче, проведенном из начала координат по касатель-
ной к с=ЗГ+. Если теперь зафиксировать все параметры нашей за-
дачи, за исключением размеров области захвата, то точка В
может попасть на любую точку этого луча в определенных
24 Зак. 522
370 Гл. 10. Экивокальные поверхности
пределах. Следовательно, в качестве начальных условий
A0.А.9) мы можем взять при т=0 любую точку луча, т. е.
где s>0 (на самом же деле s должно быть достаточно велико).
Проблема 10.А.1. Решить дифференциальные уравнения A0.А.9)
в замкнутой форме, если это возможно. Дают ли они какие-ни-
будь интересные геометрические свойства экивокальной поверх-
ности?
Проблема 10.А.2. Какова траектория Р, или каковы ее диффе-
ренциальные уравнения в исходном пространстве, когда х дви-
жется по экивскальной поверхности?
ГЛАВА 11
Приложения к военному делу
В некоторых случаях, таких, как игры преследования, ясно,
как надо применять теорию к практике. Но в задачах, относя-
щихся к более широкой сфере, например к сражениям или боям,
такая связь совсем не очевидна. Настоящая глава имеет целью
прояснить этот вопрос. Здесь мы установим соотношения между
теорией игр и военным делом и оценим как пользу теории, так и
ее недостатки. С этой целью обсуждены, проанализированы и
частично решены два примера, которые представляют самостоя-
тельный интерес и в то же время иллюстрируют общие идеи.
В первом примере, относящемся к войне на изнурение и на-
падение, рассматриваются вопросы распределения военных сил
между этими двумя целями в течение длительной войны.
Второй пример мы назвали «битвой при Банкер-Хилл». Цен-
тральная задача состоит здесь в оптимальном распределении
огневой силы, когда два противника приближаются один к дру-
гому и эффективность их оружия при этом возрастает (назва-
ние, разумеется, намекает на историческую команду генерала
Уоррена).
11.1. ТЕОРИЯ ИГР И ВОИНА
Изучение задач военных сражений с помощью теории игр
(дифференциальных или каких-нибудь других) — это большой и
трудный предмет; настолько большой, что заслуживает написа-
ния отдельной книги, и эта единственная глава будет по необхо-
димости лишь поверхностным очерком. Он труден в силу самого
содержания термина игра,
В настоящей главе применение теории игр к задачам воен-
ного дела означает, что обе стороны могут принимать эффектив-
ные решения1); цель состоит в отыскании цены игры и опти-
мальных стратегий каждого из игроков (в смысле теории игр).
Симметрия в подходе является основой такой перспективы:
!) Разумеется, в других контекстах множество решений одной стороны
может быть нулевым. Так, игры с одним игроком — просто задачи упра-
вления, и нет ничего плохого в исследовании их с помощью предыдущей
техники. Фактически большую часть задач прикладной математики можно
рассматривать как игры с одним игроком.
24*
372 Гл. И. Приложения к военному делу
вопрос о наилучшем способе защиты есть в той же мере вопрос
о наилучшем способе нападения. Эта взаимосвязь между альтер-
нативами, встающая перед обоими игроками, — решение каждо-
го должно принимать в расчет контррешение противника — яв-
ляется источником серьезных затруднений по сравнению с простой
задачей оптимизации. Эти трудности могут оказаться огромными.
Теория игр — это математическая дисциплина, касающаяся
конфликтных задач. Военное дело, существо которого состоит
в конфликте, должно в конце концов подпасть под ее эгиду. То,
что этого до сих пор не случилось, в значительной степени зави-
сит, во-первых, от вышеуказанного возрастания трудности и, во-
вторых, от недостатка в методах для получения окончательных
ответов. К этому пункту мы вернемся в следующем параграфе.
А сейчас мы ограничимся играми двух игроков с нулевой
суммой. Разумеется, сама война, как показывает история, почти
наверное является игрой двух игроков — союзы всегда приво-
дят к этому в конечном счете, если не с самого начала, — но, с
другой стороны, она определенно не является игрой с нулевой
суммой. Однако мы чувствуем, что война в целом — это черес-
чур громадный предмет для карандаша теоретика, разве что он
станет доступен ему в отдаленном будущем. Но многие из ее
менее широких составляющих, хоть и не совсем точно, но доста-
точно правдоподобно можно описать играми с нулевой суммой
Например, если выделить ситуацию «защита — нападение», то
количество оружия (бомбардировщики, ракеты, танки, отряды,
торпеды), способное пробить оборону, — это величина, которую
атакующий стремится максимизировать, а защищающийся ми-
нимизировать. Для того чтобы выявить наилучшие тактики обо-
их игроков и узнать, к насколько глубокому проникновению в
глубь обороны (цена игры) они приводят, можно, по-видимому,
без особых возражений промоделировать эту ситуацию в виде
игры с нулевой суммой. Фактическое применение к этой ситуа-
ции подхода, используемого в играх с нулевой суммой, могло
бы оказаться хорошим признаком практической применимости
математики.
Анализ военной ситуации не всегда требует игровой форму-
лировки. В настоящее время существует несколько изящных
примеров, в которых полезные и ценные заключения получены
вопреки подходу, используемому в теории игр, без разделения
на противостоящие друг другу точки зрения. Во многих других
случаях включение в анализ двустороннего конфликта оказы:
вается необходимым. Все же теоретические планы исследова-
теля расстраивает недостаток методов. Какие же методы имеют-
ся в его распоряжении в настоящее время и каковы потенциаль-
ные возможности?
11.2. Методы, которыми мы располагаем 373
11.2. МЕТОДЫ, КОТОРЫМИ МЫ РАСПОЛАГАЕМ
Практических возможностей, по-видимому, три.
Дискретные матричные игры
Они составляют сущность того, что ныне может быть названо
классической теорией игр. Основную роль здесь играет понятие
матрицы игры. Это то средство, которое позволило фон Нейману
доказать существование оптимальных стратегий, чистых или сме-
шанных, без чего весь предмет не мог бы существовать.
В принципе любую конечную дискретную игру, а также мно-
гие другие типы игр можно свести к матричной форме. Практи-
ческое затруднение состоит в том, что матрицы, если только игра
не оказывается крайне простой, получаются астрономических
размеров >). Простота же обычно означает, что на самом деле
игра является одношаговой 2). В то время как теоретически по-
следовательные движения можно включить в единую стратегию,
практически огромное число таких стратегий — это как раз то,
что делает матрицу колоссально большой.
Существуют полезные примеры военных матричных игр, ска-
жем, распределение ограниченного количества защитных средств
между конечным числом объектов различной ценности, в то вре-
мя как противник распределяет свои атакующие силы между те-
ми же объектами. Второй пример касается ложных атак, кото-
рые могут предшествовать подлинной3). Атакующий поставлен
перед выбором смешанной стратегии при решении вопроса о чис-
ле отвлекающих атак; защищающийся должен распределить
свои средства между налетами.
Дифференциальные игры
Если участники поставлены перед выбором длинной или не-
прерывной последовательности решений, то практическое реше-
ние математической задачи, в сущности, невозможно, если в
игре не существует внутренней логической связи между шагами
в том смысле, который мы пытались объяснить в гл. 3. Диф-
ференциальные игры — это теория игр при наличии такой связи.
Поскольку нас интересует именно этот предмет, то его дальней-
шее обсуждение будет приведено в последующих параграфах.
В настоящее время наибольшим препятствием для примене-
ния дифференциальных игр к военному делу является плохая
') Игра тик-так-ту (тит-тат-ту, плюсы и минусы, трое в ряд), например,
требует для своей точной записи матриц с более чем 10300 строками! [Тик-
так-ту— детская игра, состоящая в том, чтобы с закрытыми глазами попасть
в одну из цифр, написанных на грифельной доске. — Ред.]
2) В работе [8] приведены многочисленные примеры.
3) См. [9].
374 Гл. 11. Приложения к военному делу
изученность игр с неполной информацией. Возможные способы
исправления этого недостатка и многообещающие, хотя и только
зарождающиеся, идеи составляют предмет следующей главы.
Моделирование
Попытки разбирать военные игры на настольных моделях
с участием групп людей, а часто и вычислительных машин дела-
лись много раз в недавнем (так же, как и в отдаленном) про-
шлом. Здесь не место для долгих исследований по этому широ-
кому вопросу. С нашей точки зрения, эксперимент в военном
деле, как и во всякой другой науке, есть средство как для под-
тверждения теории, так и для угадывания новых путей для
анализа. Но, замечая параллели, не стоит забывать о различиях.
Как мы еще подчеркнем в дальнейшем в отношении теории,
военный анализ есть вещь гораздо более неопределенная в
смысле законов, предсказаний и логики, нежели физические
науки. По этой причине моделирование с подробно и тщательно
подобранными реалистическими деталями не может дать общего
достоверного результата, если партия не будет повторена очень
большое число раз. С точки зрения дифференциальных игр един-
ственное, на что можно надеяться, — это на подтверждение за-
ключений теории. Особенно важен случай, когда такие заклю-
чения выведены исходя из упрощенной модели (по необходимо-
сти это случается почти всегда). Какова будет их цена, если
погрузиться во мрак множества реальных деталей?
Второй путь, который мы будем пропагандировать, является
другой крайностью: разыгрывать очень простые эксперименталь-
ные игры, спроектированные так, чтобы выяснить некоторые осо-
бенности, которые представляют затруднения для теории. Та-
кими в настоящее время могут оказаться, по-видимому, игры с
неполной информацией, вроде примера 12.2.4 в следующей
главе.
11.3. ВИДЫ ПРИЛОЖЕНИЙ
В некоторых случаях дифференциальные игры в задачах
военного дела играют совершенно явную и не требующую осо-
бых комментариев роль. Это верно, например, для большинства
моделей, включающих преследование, убегание и другое манев-
рирование подобного рода. Мы уже отмечали, что стратегия
логически эквивалентна схеме управляющей системы в том
смысле, что имеется инструкция, как выбирать управления в
ответ на любые значения измеряемых данных.
Полезность результатов заключается не только в непосред-
ственном использовании формального решения. Например, если
оптимальная схема управления (стратегия) слишком сложна
11.4. Более широкие задачи типа сражений 375
с точки зрения практической реализации, нас может интересо-
вать, насколько хорошей заменой окажется более простая
схема. Мы должны противопоставить ее оптимальной страте-
гии ') противника и выяснить, сколько при этом будет потеряно.
Другие примеры приложения были отмече-
ны ранее, а именно применение игр с линией
смерти (§ 9.6) к патрулированию пролива или
дискретной патрульной линии. Другим вопро-
сом является определение числа запусков ра-
кет-перехватчиков против более быстрой цели.
Для случая, скажем, изотропных ракет (§9.3)
при пересечении барьеров цель не всегда мо-
жет быть настигнута. Но сечение барьера пло-
скостью постоянного значения v (скорость
движения Р) дает множество положений цели,
при которых захват неотвратим независимо
от последующего маневрирования цели, если
v — пусковая скорость ракеты. Сечение ока- Рис. 11.3.1.
зывается таким, как на рис. 11.3.1. Если раке-
та направлена — как это и должно быть — прямо на цель, то
роль играет лишь расстояние R, отмеченное на рисунке. Но это
высота гребня, и она находится по простой формуле, получае-
мой из (9.3.8):
n v(w — FV — 2FI)
К== в •
11.4. БОЛЕЕ ШИРОКИЕ ЗАДАЧИ ТИПА СРАЖЕНИЙ
По-видимому, сфера наиболее плодотворных и полезных при-
менений теории дифференциальных игр к военному делу лежит
в области общих вопросов битв и сражений. Путь от математи-
ческих результатов к полезным знаниям не прост и не прям, и
мы попытаемся ниже дать руководящие указания для тех, кто
по нему пойдет.
Мы проиллюстрируем наши идеи на двух примерах. Оба они
будут продолжать играть ту же роль по мере их дальнейшего
все более детального изучения. Первый из них уже фигурировал
в книге'—пример 5.4 «Война на изнурение и нападение», — но
теперь мы попытаемся проанализировать центральный вопрос
этой задачи с реалистических позиций. Как при продолжитель-
ной войне лучше распределить силы между отдаленной целью —
разрушением источников снабжения противника и ближайшей
') Или, несколько лучше, стратегия, намеренно предназначенной для за-
щиты от этой упрощенной стратегии.
376 Гл. П. Приложения к военному делу
целью — использованием своего оружия в прямом конфликте с
оружием противника?
Второй пример мы назвали битвой при Банкер-Хилл, так как
его центральный вопрос наводит на мысль о знаменитой команде
генерала Уоррена: «Не стреляйте, пока не станут видны белки
их глаз!» Если войска какого-то вида сближаются, а эффек-
тивность их вооружения возрастает по мере убывания расстоя-
ния, то как лучше всего распределить (или сохранить) свою огне-
вую силу? Слишком ранние действия окажутся тщетными вслед-
ствие малой вероятности поражения; слишком поздние связаны с
риском, что враг, начавший стрелять первым, выведет из строя
слишком много потенциальных сил до приведения их в действие.
Как следует отвечать на такие общие вопросы, как два пре-
дыдущих? Заметьте, что они тесно связаны с основной концеп-
цией теории игр: каждая сторона выбирает свой способ дей-
ствий, и ценность решения зависит от подобного же решения,
сделанного противником.
Постановка задачи отличается от постановки в физических
, науках тем, что военная обстановка не ясна, сложна и непред-
сказуема. Независимо от того, как мы описываем ситуацию
аналитически, мы никогда не чувствуем твердой уверенности в
том, что это «верный» способ описания и что получаемый ответ
,3 достоверно совпадает с действительным исходом.
По-видимому, наилучший способ состоит в том, чтобы созда-
вать и анализировать различные модели игры. Мы начнем с
простейшей — с математической формулировки ситуации, в ко-
торой существенный вопрос, нуждающийся в изучении, поста-
влен четко и ясно, а все посторонние детали удалены. Но даже
здесь существует много возможностей: имеется свобода в вы-
боре платы и еще большая свобода в выборе уравнений дви-
жения. Тогда надо попробовать добиться большей реальности
путем использования других условий данной задачи. Можно по-
пытаться связать себя лишь с наиболее существенной модифика-
цией, поскольку с усложнением задачи аналитические трудности
растут очень быстро.
Имея ассортимент полученных решений, нужно исследовать
их общие черты. Вполне вероятно, что различные правдоподоб-
ные модификации (с точки зрения предположений, лежащих в
основе модели) приведут к существенному различию в
оптимальных стратегиях. Однако цена игры будет, вообще го-
воря, более стабильной. После этого нужно изучить, в чем со-
стоит существо различия решений. Иногда могут проявиться
замечательные явления, например предписание выбирать опти-
мальное решение в зависимости от знака очень причудливой
функции фазовых координат. Если возможно, надо попытаться
11.4. Более широкие задачи типа сражений 377
/
исследовать такие явления и попробовать понять_щс_интуи1ИШШ, ,
чтобы суметь их оценить. Надо исследовать зависимость платы
от изменений стратегии, исходных предположений (модель) и
значения коэффициентов, фигурирующих в уравнениях движе-
ния и в принятом формальном выражении платы.
Нашей целью являются такие сведения, которые не зави-
сят от деталей модели. Если мы их найдем,' то они составят
ценную часть информации. Если нет, то иногда, например, мож-
но прийти к выводу, что не опасно применять определенный
вид стратегии. Или может быть так, что определенный тип стра-
тегии оптимален лишь при некоторых обстоятельствах и именно
здесь приводит к получению больших преимуществ. В общем
наше заключение должно выявить, какие общие черты наших
моделей должны на практике быть указателями применимости
той или иной стратегии.
Эта техника многих моделей имелась в виду в заглавной
фразе «более широкие задачи». Результат должен найти ши-
рокое применение, если он вообще его находит. Редко оказы-
вается, что у нас имеются достаточно точные данные для деталь-
ного изучения конкретной ситуации и достаточно времени, чтобы
найти решение. Но, конечно, до тех пор, пока программы типа
предыдущей на самом деле не выполнены, трудно сказать, что
из них получится.
По достижении результата модельные игры могут служить :
средством для его проверки. Мы можем противопоставить игро- \ ;
ка (или группу), использующего полученный результат, умному, |
но не знакомому с этим результатом игроку и сравнить с игрой '<
двух игроков, знающих результат, а затем с игрой двух игроков, §
не знающих его.
Препятствия к проведению этой программы таковы, что в
настоящее время осуществление ее, по-видимому, невозможно.
Военные ведомства субсидируют обширную программу абстракт-
ных математических изысканий, но оказалось, что они крайне
враждебны любым математическим исследованиям военных дел,
за исключением, разумеется, вычислений, необходимых в инже-
нерной работе. Частные фирмы не могут себе этого позволить
вследствие значительности необходимого числа человеко-часов.
Чистые математики тоже вряд ли добровольно заинтересуются
подобной программой; если у них и есть склонность к приложе-
ниям, то они предпочитают оплачиваемую работу. Фонды по-
жертвования и другие денежные организации, субсидирующие
научные исследования, учитывая их тяжелые финансовые обяза-
тельства, должны по необходимости быть очень сдержанными при
поддержке любых научных исследований, выпадающих из уста-
новленных рамок или не имеющих привкуса изобретательства.
378 Гл. 11. Приложения к военному делу
11.5. ПРОБЛЕМЫ, ВОЗНИКАЮЩИЕ ПРИ ПОСТАНОВКЕ ЗАДАЧИ
Используем теперь общий, но более детальный подход для
изучения отдельных частей программы, предложенной в преды-
дущем параграфе.
Плата
Во-первых, мы хотим пояснить очевидную, но часто непони-
маемую вещь. Как для игры, так и для задачи управления
(игра с одним игроком) термин «оптимальный» не имеет
смысла без указания одной величины, которая должна быть
максимизирована или минимизирована1). Часто существует не-
сколько важных факторов, но оптимизировать можно только
один, и для того чтобы задачу можно было решить, необходимо
указать, какой именно2). Мы можем принять во внимание не-
сколько факторов одновременно, используя в качестве платы
линейную комбинацию их с подходящими коэффициентами (или
другую функцию от них). Но эти коэффициенты надо как-то вы-
брать, и почти всегда это вопрос здравого смысла.
Иногда случается, что решение практически не зависит от
платы. Например, стратегия, которая приводит к захвату макси-
мальной территории, по-видимому, близка к той, которая мак-
симизирует захват военных ценностей. В этом случае осложне-
ний нет, но если аналитические результаты зависят от выбора
платы и в качестве платы используется некая линейная комби-
нация, то результаты зависят от разумности выбора этой ком-
бинации. Чересчур утонченный анализ в этих случаях вряд ли
целесообразен.
Разумеется, есть много случаев, где вообще нет подобных
затруднений. Система защиты, например, старается минимизи-
ровать число проникающих сквозь оборону боевых единиц про-
тивника, а система охраны максимизирует вероятность их обна-
ружения. Но какой выбор платы является логичным для слож-
ных игр типа сражений? Часто плата определяется не только
потерями в данный момент; в этом случае необходимо проинте-
грировать по крайней мере по некоторому отрезку хода войны.
Последующая польза от исхода сражений определяется выбором
платы.
') Нам приходилось видеть контракты вооруженных сил на научные
исследования, где перечислялся длинный ряд требований и требовалось найти
оптимальную стратегию.
2) Это, разумеется, универсальная проблема для человеческого суждения.
Покупая автомобиль, редко удается оптимизировать цену, число пройденных
миль, скорость и внешний вид одновременно.
11.5. Проблемы, возникающие при постановке задачи 379
Чтобы придать этим соображениям логическую завершен-
ность, нужно немного фантазии. Представим себе каталог воен-
ных средств, в котором перечислены значения всех видов воен-
ных единиц: оружия, снаряжения, персонала, баз. Эти средства
изменяются с изменением обстановки из-за наличного и потен-
циального снабжения, специального использования для особых
целей, контрснабжения противника. Нужно иметь также ряд
правил для подсчета этих изменений. Тогда плату можно выра-
зить через общие текущие значения всех этих величин, которые
каждая из сторон может выигрывать или терять во время ера-,
жения.
Уравнения движения
Составление уравнений движения также ставит перед нами
различные трудности. Решив, какие переменные принять за фа-
зовые координаты и какие за управления, мы должны выра-
зить скорости изменения первых через все эти величины. В этом
пункте мы особенно остро чувствуем неточность изучаемого
предмета. Как записать определенное соотношение между при-
чиной и следствием в такой неопределенной вещи, как будущее
военной схватки?
Бывает так, что можно положиться на экспериментальные
данные и прошлый опыт; но бывает и так, что этого сделать
нельзя. Ясно, что чем больше оружия w направлено против чис-
ла t целей, тем больше последних будет повреждено. За неиме-
нием лучшей информации мы часто предполагаем, что эта за-
висимость линейна:
i = — cw.
Можно ли оценить коэффициент с, который означает (среднюю)
скорость разрушения целей с помощью единицы оружия? Весь-
ма возможно, что да, хотя, видимо, лишь приближенно.
На этой основе можно составить уравнения движения, про-
стые или сложные. Большинство или все они окажутся линей-
ными по отношению к управлениям. Тогда существо техниче-
ской задачи с помощью нашей теории может быть исследовано.
Ключевую роль играют сингулярные поверхности — универсаль-
ные, поверхности переключения и рассеивающие, — связанные
с линейными вектограммами. Как только они оказываются най-
денными, обнаруживается структура оптимальных стратегий.
Чтобы проиллюстрировать эти идеи, вернемся к двум уже
упоминавшимся типичным задачам. Как мы уже сказали, для
достижения практического прогресса необходимо большое число
человеко-часов, и, следовательно, мы должны удовольствоваться
самыми начальными шагами.
380 Гл. 11. Приложения к военному делу
11.6. ВОИНА НА ИЗНУРЕНИЕ И НАПАДЕНИЕ: ИЗУЧЕНИЕ
При ведении продолжительной войны каждая сторона дол-
жна взвесить альтернативу между прямым сражением и рейда-
ми к источникам снабжения, результат которых может дать
больше, но в будущем. Думая о такой широкой задаче, как эта,
мы будем использовать еще более широкую терминологию, пы-
таясь решить общую задачу: тактика дальнего прицела против
тактики ближнего прицела.
Пример 5.4, по-видимому, — простейший из всех возможных
и к тому же хороший вариант, с которого стоит начать. Первое
уравнение движения имеет вид
х1 = т1 — с$х2. A1.6.1)
Напомним, что Xi и х2 — силы двух сторон, скажем, число само-
летов в момент t; т^ и т2— невозмущенные скорости завод-
ского производства; я|з и ф — доли оружия, выделенные для це-
лей изнурения, т. е. для истощения вражеского снабжения. Вы-
писанное уравнение означает, что количество оружия игрока Р
убывает со скоростью, пропорциональной величине tyx2— коли-
честву, предназначенному для истощения в момент времени t
оружия, имеющегося у игрока Е.
Это как раз пример предположения о линейной зависимости,
упоминавшейся в предыдущем параграфе. Значение с4 (если
речь идет, скажем, о самолетах) есть величина, на которую сни-
жается скорость производства самолетов стороны Р вследствие
атаки одной вражеской машины. Есть ли какая-нибудь надежда
разумной оценки для значения с\ (и, разумеется, для с2)?
В самом деле, значение с4 есть результат многих факторов —
качеств атакующих самолетов, вида и эффективности обороны,
типа и силы оружия (бомб), уязвимости баз и заводов. Если
оценить эти компоненты, то будет оценено и значение С]. Но не
следует забывать, что все это так сложно лишь вследствие общ-
ности всей картины и что мы работаем с предварительной упро-
щенной схемой.
Существует, разумеется, много способов приблизиться к
реальности — и к сложности. Один из них, который мы испро-
буем в дальнейшем в этой главе, состоит в предположении, что
убывание оружия пропорционально не только вражеским ата-
кам, но и собственному наличному оружию. Это означает, что
при атаках разрушается определенная доля, а не фиксирован-
ное количество оружия, служащего целью. Тогда последний член
в A1.6.1) надо заменить на с^х<_х2.
Другой путь состоит в разделении оружия на три части. Но-
вая, третья часть оружия предназначается для защиты «баз»,
It.в. Война на изнурение и нападение: изучение 381
т. е. она парализует удары, наносимые противником. Для того
чтобы записать уравнения движения в этом случае, мы сначала
проанализируем конфликт между нападающими и обороняю-
щимися силами. Результат даст некоторые ожидаемые потери с
обеих сторон и некоторое ожидаемое проникновение, ведущее,
как и прежде, к уменьшению производства. Но это может по-
требовать гораздо более обширного анализа, чем настоящий.
Разумеется, в любом случае надо принять в расчет убыль
оружия, предназначенного для разных целей. Простейшее пред-
положение— это прямо пропорциональная зависимость, и тогда
к ±i надо прибавить члены вида
— iflXt — Ml— Ф)х«>
где /, и L{ — средняя доля оружия, теряемого при его назначе-
нии на изнурение и на нападение соответственно.
Тем самым постулирована однородность оружия. На самом
деле надо было бы рассмотреть несколько его типов (бомбарди-
ровщики предназначены для уничтожения не только бомбарди-
ровщиков противника). Одни из этих типов, как и раньше, мож-
но использовать для изнурительных налетов, защиты, атак и
других целей, другие же имеют ограниченное предназначение.
Число фазовых координат при этом увеличится и задача станет
более громоздкой, но, по-видимому, нет причин не решить ее при
должной затрате труда.
Вернемся теперь к плате. В первоначальной версии предпо-
лагалось, что существует театр военных действий, удаленный
от объектов-снабжения. В каждую единицу времени — скажем,
в день — каждый из противников выделяет часть своего оружия
для этих действий, и только от этого оружия зависит плата. Ме-
рой выгоды для каждой из сторон является накопленная ею со-
вокупность— например, число оружия-дней — в течение обус-
ловленного периода времени Т. Платой является разность этих
мер
т
так что каждая сторона пытается накопить больше оружия, чем
противник.
Другой платой может служить просто избыток наличного
оружия в некоторый фиксированный будущий момент време-
ни Т. Здесь плата терминальная с Н = Хг — Х\. Целью при этом
будет накопить наибольший возможный избыток резервов ору-
жия; эффективная война ожидается в будущем, а не в настоя-
щем, где идет борьба на изнурение.
382 Гл. П. Приложения к военному делу
Слабость такого определения платы проявляется сразу же;
мы должны знать Т — продолжительность войны — заранее.
С какой точностью можно оценить Т и сколько мы теряем при
ошибках? Если эта оценка пересматривается в течение кон-
фликта, то подход, используемый в нашей теории, делает по-
следующие наилучшие изменения в оптимальной стратегии
естественными и простыми1). Последствия плохой исходной
оценки будут при этом смягчены, и с помощью вычислений мы
сможем оценить интересующую нас погрешность.
Еще один тип платы приписывает различную ценность ору-
жию в зависимости от времени его вступления в основную войну
(скажем,' аэроплан, готовый к употреблению раньше, сослужит
большую службу, чем изготовленный позднее). Ее выражение
мы получим, если умножим подинтегральный член в A1.6.2) на
множитель F(t). Если функция F(t) с увеличением t достаточно
быстро стремится к нулю, то верхний предел можно заменить на
+ оо. Тогда плата не будет зависеть ни от какой априорной оцен-
ки Г и будет выражать общее превосходство в воздушном флоте.
Ценой за полученное упрощение является необходимость выбора
оценочной функции.
Если мы не знаем значения Т, но каким-то образом догады-
ваемся или знаем о его вероятностном распределении, то плата
вновь имеет приведенный выше вид, где функция F(t) высту-
пает в качестве плотности вероятности.
Наиболее рационально выбирать плату, основываясь на де-
тальном анализе основной войны. В общем случае эта задача
гораздо труднее предыдущей. Если мы сможем выразить цену
этой войны в терминах поставок оружия для обоих противников,
то этот функционал станет логичной платой для настоящей игры.
Но и среди более простых выражений для платы читатель,
наделенный воображением, почувствует наличие многих возмож-
ностей как в описанном выше, так и в других подходах. Важны
не столько реальность и доступность выражений платы для
оценок, сколько вопрос о том, будут ли существовать у соот-
ветствующих решений (у цены и у стратегии) общие черты, не-
зависимые от выбора этих выражений.
Разберем теперь примеры 5.4 и 11.9.1; последний будет по-
мещен в этой главе позднее, чтобы не прерывать изложения.
В первом примере мы находим существенно простые стратегии.
Напомним, что с± есть мера разрушительной силы оружия игро-
ка Е: единица такого оружия, используемая для целей изнуре-
ния, уменьшает оружие стороны Р на с4 единиц за единицу вре-
') Поскольку само Т является фазовой координатой, оптимальные зна-
чения ц, и \\, будут функциями от Т.
11.6. Война на изнурение и нападение: изучение 383
мени. Для игрока Р величина с2 играет ту же роль, и мы предпо-
ложим, что Ci>C2. Тогда оптимальная стратегия для Е, игрока
с лучшим оружием, состоит в направлении всех сил на изнуре-
ние до момента времени l/ci, отсчитанного от предназначенного
конца конфликта, и затем в резком переключении на стратегию
«все для атаки».
Что это означает? Величина 1/с4 может быть интерпретиро-
вана как среднее время, необходимое для того, чтобы определен-
ное количество оружия игрока Е могло разрушить то же коли-
чество оружия игрока Р. Здесь мы получаем возможность вы-
яснить физический смысл полученного критерия. Если остается
больше времени, чем 1/си то Е имеет преимущество в скорости
обмена: его оружие имеет достаточно времени, чтобы успеть
уничтожить превосходящие силы противника. Как только такое
положение нарушается, становится выгоднее бросить все силы
на непосредственную войну.
Но Р со своим оружием худшего качества делает подобное
переключение раньше1). Он дожидается, пока время до наме-
ченного окончания войны не станет равным
Существует ли эвристическая интерпретация и здесь? Этот ре-
зультат кажется трансцендентным по крайней мере для по-
верхностной интуиции. Разумеется, нужно ожидать еще боль-
ших осложнений, так как Р, принимая свое решение, должен
предвидеть оптимальное поведение своего противника, которое
требует переключения в течение оставшегося времени. С другой
стороны, когда Е вычисляет наилучшее время для переключе-
ния, он тоже должен учесть последующий постоянный простой
способ поведения Р — все силы бросить на атаку. Заметьте, что
эти стратегии не зависят ни от скоростей производства ти т2,
ни от соответствующих сил xi, x2, а зависят лишь от эффектив-
ности оружия. Это, конечно, не верно.
Для контраста отметим превращение, которое претерпевает
оптимальная стратегия при изменении предположений относи-
тельно уравнений движения, сделанное в примере 11.9.1 2). Фак-
тическое нововведение состоит в том, что теперь ci будет озна-
чать не абсолютную, а относительную ко всему оружию ско-
рость убывания оружия игрока Р. Точно тот же смысл имеет и с2.
') Мы игнорируем искривленную часть J'2 (рис. 5.4.2), где Р переклю-
чается раньше, предчувствуя уничтожение своего оружия.
2) Читателю стоит взглянуть на sroi пример теперь, чтобы с пониманием
читать следующий параграф,
384 Гл. 11. Приложения к военному делу
Мы обнаружим, что при некоторых ограничениях Е пере-
ключается с изнурения на атаку в момент времени, отстоящий
на 1/CiXi от конца войны. Этот критерий походит на предыду-
щий и допускает ту же самую интерпретацию. Но теперь пере-
ключение не происходит последовательно, так как Р применяет
в различных обстоятельствах (о деталях см. § 11.9) аналогичное
время переключения Т=1/с2х2.
Более интересными оказываются универсальные поверхности.
Опять при некоторых ограничениях Е (и аналогично Р) до мо-
мента переключения пытается удержать силы Р на уровне
Он играет «все для атаки» или «все на изнурение» в зависи-
мости от того, окажется ли Xi больше или меньше этого значе-
ния. Когда Xi равно этому числу, Е расщепляет свои силы в от-
ношении
Ф = — У~ЩС~\
для поддержания состояния A1.6.3). Так он действует до мо-
мента Г= \/Ymici> после чего переключается целиком на атаку.
Что все это означает?
Следующим важным шагом в осуществлении нашей програм-
мы было бы изучение цены игры. Каково наказание за отклоне-
ние от только что описанной стратегии?
117. БИТВА ПРИ БАНКЕР-ХИЛЛ
В общей постановке это задача о сближении противников,
стреляющих друг в друга. У каждого имеется ограниченный за-
пас соответствующего оружия, и задача состоит в том, чтобы
найти наилучшее распределение его огневой силы. Вероятность
поражения мала на большом расстоянии и растет по мере сбли-
жения. Слишком ранний огонь ведет к вероятной неэффектив-
ности; слишком поздний позволяет противнику сделать чересчур
много безответных выстрелов.
Снова мы имеем ситуацию, напоминающую основную или
классическую военную теорию. Конкретные реализации, конечно,
многочисленны. Мы можем представлять себе сближающиеся
суда или военно-морские силы; перехватчик, приближающийся
к вооруженному бомбардировщику, или, как гласит наше исто-
рическое название, пехотные отряды.
Анализ таких задач не нов. При зарождении теории игр рас-
сматривались дуэльные игры, простейшая из которых состоит
11.7 Битва при Банкер-Хилл 385
в том, что дуэлянты приближаются один к другому, имея,-право
на единственный пистолетный выстрел. С тех пор эти идеи
были распространены на дуэли с многими выстрелами, на «бес-
шумные» дуэли (см. [10]) и т. д., а также на случаи непрерыв-
ного огня в задаче «дуэль с автоматами» Джона Данскина
(см. [11]).
Мы изучим с принятой нами точки зрения и частично решим
такие игры, где конфликтующими сторонами являются отряды,'
которые несут потери от огня противника.
Один из наиболее естественных вариантов таких игр приво-
дит к уравнениям движения
*i = — х2с2р2(Т)\!р,
Здесь А'] и х2 — число солдат двух приближающихся армии, ко-
торые стреляют друг в друга. Время, через которое они
встретятся, обозначено через Т, вероятности поражения р\ и р2
являются убывающими функциями от Т. Величины тг — средние
количества боеприпасов на человека в обеих армиях, a ct —
максимальные скорости огня. Каждая сторона может выбрать
любую скорость стрельбы, не превосходящую эту; приняв долю
этой скорости за управление, мы получаем третье и четвертое
уравнения движения.
Общее число выстрелов, сделанных за единицу времени
армией 2 (т. е. максимизирующим плату игроком Е), равно
x2c2ty. Осредняя, мы можем предположить, что доля р2(Т) этих
выстрелов достигает цели; эта величина есть скорость уменьше-
ния армии 1, описываемая первым уравнением; второе получает-
ся по симметрии !).
Игра заканчивается, когда армии оказываются настолько
близко друг от друга, что описанная выше фаза сближения уже
!) Общее число выстрелов армии i есть яг,-*,-, и скорость изменения этого
числа равна т,х; + т;х;. Первое слагаемое выражает изменение скорости
стрельбы, связанное с уменьшением числа стрелков. Мы им пренебрегаем на
том основании, что в естественном сражении оно должно быть мало по
сравнению со вторым слагаемым — скоростью, вызванной убыванием боепри-
пасов. Но им можно и не пренебрегать. В этом случае получаемые диффе-
ренциальные соотношения следует разрешить алгебраически относительно хи
nii. Получаемые в результате уравнения движения оказываются по сравне-
нию с используемыми нами более громоздкими.
25 За к. С22
386 Гл. II. Приложения к военному делу
не отражает существа дела. При подходящем выборе отсчета
времени это происходит при Т=0, что мы и принимаем за опре-
деление <?. Множество е? здесь представляет собой область, где
все пять фазовых координат не отрицательны.
Наилучший график стрельбы (стратегия) зависит от того,
что выбрано в качестве платы. Поскольку возникающие здесь
затруднения типичны для военного анализа, мы используем этот
пример для того, чтобы продолжить рассмотрение этого вопроса.
Один (довольно хладнокровный) выбор состоит в том, чтобы
взять в качестве платы разность выживших людей. Это означает,
что
Я = х, — xv A1.7.1)
Заметим, однако, что полученное решение будет отражать наш
выбор. Не следует удивляться, если одна или обе стороны по-
дойдут к столкновению (после сближения) лишенными боепри-
пасов. Поскольку выражение A1.7.1) ставит в качестве цели
максимизацию лишь превосходства в людях, то для оптимиза-
ции каждая сторона, очевидно, пожелает использовать все свои
боеприпасы, если для этого хватит времени (Т).
Для исправления нереальности такого анализа нужно ис-
пользовать в качестве платы сохранившийся избыток огневой
силы, т. е. принять
И —~ щх2 — mlxl. A1.7.2)
Если важно получить преимущество и в людях, и в огневой
силе, то в качестве Я можно использовать линейную комбина-
цию выражений A1.7.1) и A1.7.2). Однако весовые коэффициен-
ты здесь приходится выбирать на основе здравого смысла, что и
определяет ценность решения.
Может оказаться, что армия 1 защищает от посягательства
армии 2 такой жизненно важный объект, что для его защиты ей
стоит пожертвовать своими бойцами. Тогда обе стороны будут
интересоваться числом людей или огневой силой, пробившей
оборону, и подходящим выбором для Я будет х2 или т2х2.
Имеется лишь один строго логичный путь для выбора платы.
Мы должны рассмотреть столкновение, которое произойдет по-
сле сближения обеих армий, и проанализировать его как от-
дельную игру. Следует ожидать, что цена ее будет функцией от
Xi и rrii, которые служат для этой игры исходными данными. Эту
функцию от четырех аргументов и следует принять за Я в ис-
ходной игре.
Пусть теперь Я зависит только от х,-, как, например, в фор-
муле A1.7.1). Заметим, что если третье и четвертое из уравне-
ний движения отбросить, то мы будем иметь самостоятельную
11.7. Битва при Банке р-Хилл 387
игру с фазовыми координатами л'ь х2, Т. Ее решением будет
Ф = г|)=1, поскольку ясно, что наилучшим образом действий для
игроков во все моменты времени является максимальная ско-
рость стрельбы. Но тогда наша цель, которая состоит в отыска-
нии наилучшего использования ограниченного количества бое-
припасов, теряется. Таким образом, роль указанных двух урав-
нений состоит в сохранении постановки задачи.
Мы частично решим два случая с платами A1.7.1) и A1.7.2).
Оказывается, что оба они имеют довольно сложное решение, и,
чтобы избежать детализации частных случаев, мы попытаемся
эти задачи упростить. В обоих случаях мы будем игнорировать
ограничения на х,-. Отсюда следует, что число солдат может
стать отрицательным, и это не столь абсурдно, как кажется. Во-
первых, вполне вероятно, что в случаях, имеющих практический
интерес, ни одна из сторон не будет полностью уничтожена; на
самом деле разумные ограничения на фазовые координаты долж-
ны, по-видимому, исключать такую возможность. Во-вторых,
получаемое решение будет частью полного решения. Для того
чтобы его продолжить, надо лишь добавить новую компоненту
к %, на которой соответствующая переменная равна нулю. До-
бавим, например, <^ь где х4 = 0 (и при этом х2>0; остальные
фазовые координаты неотрицательны). Подрешение в <^] три-
виально: разбитая армия 1 (Р) не может стрелять, и Е, конечно,
стрелять тоже не станет; тогда ф = г|з = О и найти V на & i просто.
Используем его в качестве Н и построим регрессивные опти-
мальные траектории, исходящие из Ч?х в Ж- Решение получает-
ся соединением траекторий этого типа с траекториями, соот
ветствующими решению задачи без ограничений на х,-.
Используя в качестве платы огневую силу A1.7.2), мы бу-
дем также игнорировать требования положительности значений
/ttj. Мы пояснили, что это приведет к бессмыслице при Н = х2—
¦— Xi, однако в настоящем случае это допустимо по причинам,
подобным тем, которые приведены в предыдущем абзаце. Пред-
ставляется невероятным, чтобы какая-то сторона израсходовала
все свои патроны для достижения наилучшей платы, зависящей
от их остатка. Если мы пожелаем изучить такие случаи, то, как
и выше, можно присоединить дополнительно ??,;¦
Для справок выпишем основное уравнение и уравнения ха-
рактеристик, относящиеся к рассматриваемым уравнениям дви
жения. Основное уравнение D.2.3) здесь имеет вид
где
25*
388 Гл. 11. Приложения к военному делу
и
- { 1 при А < 0, - ( 1 при А2 > О,
ф = { Ф — { л
[О при Ai>0, [О при А2 < О.
Уравнения характеристик имеют вид
о о
Щ = ^гФ' V4 = О,
Г = 1, 1/г = — с^^;^ — c2x2p'2V$.
Пример 11.7.1. Битва при Банкер-Хилл: плата —огневая сила.
Беря в качестве Ч?
из A1.7.2) получаем
Как обычно, дополним начальные условия соотношениями
v -2L
и получим на ?f
Vl = — s3, Va = — sv
V2 == s4, K4 = s2
и, следовательно, ио-прежнему на ^
)—1],
Это означает полный огонь или его отсутствие в конце в за-
висимости от знака квадратных скобок. Так, например, Р перед
окончанием открывает полный огонь (ф=1), если s4( = m2)>
>l/pi@), и вообще не стреляет в противоположном случае. Если
ч|)=1, то, по критериям § 7.10 должна существовать универсаль-
ная поверхность1). Эту поверхность — соответствующее много-
образие в пятимерном пространстве — мы не находили, однако
укажем на ее важность.
') Нетрудно показать, что при я|5 = 0 никакой ф-универсалыюй поверхно
сти существовать не может.
11.7. Битва при Банкер-Хилл 389
Универсальная поверхность состоит из тех состояний, для ко-
торых Р использует такую относительную, скорость стрельбы,
чтобы к моменту окончания получить m2=l/pi. Это означает, что
каждый вражеский солдат (Е) имеет (в среднем) именно такое
число пуль, которое дает возможность каждому солдату армии
Р убить (в среднем) точно одного человека.
Странный критерий? Напомним, что эта модель описывает
тип борьбы, учитывающий экономию боеприпасов; каждая сто-
рона тратит их так, чтобы иметь максимальное превосходство в
конце. Критерий, как этого добиться, получен чисто теоретиче-
ски; он оказывается далеко не очевидным (мы напомним, что он,
конечно, относится не только к тем состояниям, которые лежат
на самой универсальной поверхности; одна сторона открывает
полный огонь, а вторая не отвечает до тех пор, пока не дости-
гается универсальная поверхность). Имеет ли этот критерий не-
посредственную интерпретацию?
Приведенный выше образ действий лежит, по-видимому, вне
сферы практических интересов. Способность уничтожить точно
одного человека означает, что фаза сближения настолько растя-
нута, что это позволяет Е истратить на ее протяжении почти все
свои боеприпасы; это, по-видимому, довольно редкий случай.
Более естественные положения, насколько мы можем судить,
соответствуют той стороне универсальной поверхности, где <р=1.
Тогда борьба заканчивается полным огнем. В той фазе, когда
огонь не открыт, подтверждается разумность команды генерала
Уоррена. То, что такой случай действительно встречается в есте-
ственной ситуации, будет показано в лемме 11.7.2. Для простоты
изучения мы предположим, что pi—p2, а замечание, которое по-
следует за доказательством, покажет, что заключения при этом
весьма похожи на практические.
Мы не находили поверхности переключения, существование
которой доказано, но по крайней мере при pi = p2 это можно лег-
ко сделать с помощью леммы 11.7.1, выписанных выше выраже-
ний для А{ и начальных условий. Поверхность будет состоять из
тех точек, где «видны белки их глаз».
Наконец, весьма вероятно, что полное решение будет вклю-
чать в себя универсальное многообразие для обоих игроков, т. е.
такое, к которому будут стремиться оба противника. На нем оба
управления должны принять промежуточные значения, напри-
мер <р и ф, и следует ожидать, что размерность его будет меньше
размерности поверхности (меньше 4).
Поскольку мы не построили общей теории для таких много-
образий и, за исключением интуитивных соображений, у нас
нет никаких оснований утверждать, что в данной игре они
390 Гл. 11. Приложения к военному делу
существуют, последующее надо рассматривать лишь как пред-
положения.
Вдоль траектории, лежащей на указанном многообразии, по-
скольку управления здесь принимают промежуточные значения,
всюду должны выполняться условия Ai~A2 = 0. Тогда из основ-
ного уравнения следует, что Vt = 0. Производные по времени от
этих трех величин также обращаются в нуль.
Из уравнений А{ = 0, А2 = 0, VT = 0, или
$ — x2V2) + р[хх V2 = 0,
A1.7.3)
0
$ = 0,
можно выразить ') <р и г|з как функции фазовых координат.
Подставив ср и г|з в левые части уравнений характеристик, по-
лучим систему дифференциальных уравнений для фазовых коор-
динат. Их интегралы при подходящем выборе начальных усло-
вий могут дать искомое универсальное многообразие.
Конечно, для получения окончательных и более исчерпываю-
щих утверждений необходим более глубокий аналиа, чем выше-
приведенный.
Пример 11.7.2. Битва при Банкер-Хилл: плата — численность
войск в конце игры. Выбор в качестве платы превосходства в
людях в момент окончания боя (Н = х2 — х() применим к тем
случаям, когда события, следующие за сближением, не зависят
от количества боеприпасов.
Наше исследование вновь будет лишь частичным. Мы предпо-
ложим, что одна сторона имеет достаточно боеприпасов для огня
с максимальной скоростью, так что всегда г[з = 1. Тогда наша за-
дача сводится к наилучшему распределению ограниченного ко-
личества боеприпасов лишь одного из противников и, следова-
тельно, будет игрой с одним игроком.
Это не такое сильное ограничение, как кажется на первый
взгляд. Во-первых, наша ограниченная задача достаточно инте-
ресна сама по себе: например, как лучше всего распределить не-
большое количество выстрелов из тяжелого оружия против при-
ближающегося противника, который поддерживает легкий, но
') В оригинале здесь следуют ошибочные выкладки, опущенные при
переводе. На самом деле достаточно из каждого уравнения системы A1.7.3)
выразить отношение V\/Vi н, приравняв полученные выражения, решить сис-
тему двух уравнений с двумя неизвестными ф, я|з. — Прим. ред.
11.7. Битва при Баикер-Хилл 391
непрерывный заградительный огонь, если точность попадания
для обеих сторон возрастает по мере сближения? Во-вторых, ре-
шение этой задачи составляет наиболее существенную часть пол-
ного решения исходной задачи. Другая часть полного решения,
когда противник не стреляет (гр = О), тривиальна. Тем самым по-
крываются обе крайние возможности для противника. Если по-
менять игроков ролями, то единственно возможным, но важным
упущением будет потеря универсального многообразия малой
размерности, двигаясь по которому оба игрока используют про-
межуточные значения своих управлений.
Теперь мы имеем задачу с одним управлением ср. Фазовую
координату т2 можно уже не рассматривать, она не играет ни-
какой роли.
Уравнения движения получаются из предыдущих уравнений
(четвертое не нужно) подстановкой гр=1:
xl = — x2c2p2(T),
Основное уравнение имеет вид
Лф — c2x2p2Vx — VT = 0,
где А ( = старому Л,) = — сх (xlplV2-{-V3)
1 при А < О,
Ф" '0 при А>0.
Уравнения характеристик получаются из прежних, если отбро-
сить четвертое уравнение в каждом столбце и положить гр=1.
Универсальная поверхность для рассматриваемых уравнений
движения вычислена в примере 7.9.2.
Нам понадобится также легко вычисляемый результат
Л = — схМ,
где A1.7.4)
М -- с2рхр2(x2V2 — ху{) + ху2р[.
Если у Р имеется достаточно боеприпасов, чтобы продолжать
стрельбу до конца, его оптимальная стратегия, очевидно, со-
стоит в том, чтобы стрелять в полную силу: ф=1. Мы получаем
нечто подобное рассмотренному в примере 7.14.1, в котором
392 Гл. П. Приложения к военному делу
поверхность, ограничивающая фазовые координаты с такой стра-
тегией (см. рис. 7.14.1), будет, по-видимому, полууниверсальной
поверхностью. Поэтому мы будем использовать эту поверхность
как терминальную и назовем ее %V Она характеризуется на-
личием как раз такого количества боеприпасов, которое можно
использовать до момента Г = 0. Параметризуем %°\:
хх = Sp
хя =
(В силу важности координаты s3 мы пишем ее без индекса).
Существует еще одна важная терминальная поверхность.
В некоторых случаях оптимальным для Р будет истратить весь
свой боезапас ш4 до окончания игры. Мы учтем такую возмож-
ность введением терминальной поверхности 8V
Исследуем сначала ^2- Чтобы узнать на ней значение Н, мы
рассмотрим игру, начинающуюся в типичной точке этой поверх-
ности. Очевидно, что т4 = 0 приводит к вынужденному ф = 0 и
Хи х2 будут удовлетворять уравнениям
JC-t -— уСпСпрп [S Г),
• п (Н.7.5)
с Xi = st при ^=0. Появление здесь (s — t) объясняется тем, что
это выражение играет роль Т для точек (si,s2,s) на 8%. Иско-
мое значение Н будет, как и прежде, значением х2—xtnpvi t = s.
Интегрируя систему A1.7.5), получаем
J p2(u)du,
Х2~ S2
и, следовательно,
И--- s21 1 \-с2\ Рч (и) du I — sr
\ о !
11.7. Бита при Банкер-Хилл
393
Наш обычный способ дает затем на
V дн 1
V2 = 1 4- c2 J p2,
о
VT = s2c2p2{s).
Подставляя начальные условия в основное уравнение, получаем
Если существуют траектории, кончающиеся на <^2, то на них
должно быть ф>0 и, значит, в такой точке Л=0. Поэтому
V3=—sipl{s)
1
с2 J р2
A1.7.6)
Такие входящие в ^2 траектории могут существовать, по-
о
скольку здесь Л = 0, только если Л<0, или
M = M(s, s,, s2)>0.
Из A1.7.4) мы находим
P2]P'AS)-
М ^ c2p,(s)p2(s)
Вычислив эту функцию на ^2, мы найдем притоки там, где
М>0, т. е. получим состояния, где Р оптимально заканчивает
стрельбу, и должны ожидать, что сингулярные поверхности на-
чинаются в точке, где М = 0.
Если s = 0, то
'11.7.7)
где
@) р2 @)
',
и решение существенно зависит от знака J (напомним, что
р-@)<0, так как р, — убывающая функция).
Если /<0, то для малых s (вблизи окончания) М>0 и Р дол-
жен истратить все свои боеприпасы раньше. Если />0, то при-
токи появляются лишь в том случае, когда отношение s2/si боль-
ше /. Итак, в некоторых случаях (поблизости от 8% с малым s и
394 Гл. И. Приложения к военному делу
/>0) Р должен открыть огонь раньше, если его силы меньше,
чем силы Е, и позднее, если их больше. Неравенство />0, грубо
говоря, означает, что точность огня Р быстро убывает с ростом
расстояния, когда противники близки, а с2 — скорость огня Е —
мало. (Мы пренебрегаем значением Рг(О), которое не должно
слишком отличаться от 1.)
В силу четырехмерности пространства У нам придется огра-
ничиться графиками в плоскости (ml,T). На такой диаграмме
(см. рис. 11.7.1) траектории ф = 0 (т{ не убывает) горизонталь-
ны, а при ф=1 они имеют фиксированный наклон —ci. На
рис. 11.7.1, а поверхность ?м (точнее, ее проекция) показана
в виде прямой с этим наклоном, проходящей через начало коор-
динат; слева лежит область с избытком ти где все время ис-
пользуется ф=1. Проекция поверхности <^2 совпадает с осью Т,
на которой ^ = 0.
Каждому значению (sb s2) должна соответствовать своя та-
кая схема, но она не является сечением пространства cf для фик-
сированных х1, х2, так как последние меняют свои значения в
течение партии. Тем не менее всякая партия изображается на
такой схеме движением точки, которая в конце концов достигнет
&", или ?f2-
На рис. 11.7.1, а и 11.7.1,6 М>0 для малых значений s ( = 7"
при /ni = 0). Если при некотором s( = Tl) величина М меняет
знак, то диаграммы показывают, что переключение на новую
стратегию может означать наличие поверхности переключения
или универсальной поверхности. Аналогичным образом если
М<0, то для малых значений s диаграммы на рис. 11.7.1, в и
11.7.1, г указывают на то, что такое переключение ведет к появ-
лению поверхности переключения или рассеивающей поверхно-
сти. Итак, оказывается, важно изучить М как функцию от s.
Мы не будем делать это слитком подробно. Предположим,
что
где 0<а<Л, &>0. При этом мы не заботимся о правдоподобии
при выборе такого закона изменения вероятности; эта функция
просто удовлетворяет нашим требованиям (pi^Cl и убывает) и
ведет к несложным выкладкам.
Тогда
ас2
Поверхность
переключения
Поверхность
переключения
Т
Универсальной
поверхность
м < о
м > о ¦
Рассей в аюш, а я
поверхность
Рис. 11.7.1.
396 Гл. 11. Приложения к военному делу
Корнями правой части являются значения /э —0(s = cc) и
52 A + c2alk) + 2s, ± V(s2 + c2alkf + Bs.J
р
р ~ 2s2c2jk
Ясно, что два последних корня положительны. Корень, отвечаю-
щий положительному s, должен быть меньше а. Нетрудно по-
казать, что этого не может случиться для большего корня, а для
меньшего это будет в том и только в том случае, когда
Итак, если 7-^0 или
то М>0 для малых s, но затем меняет знак — осуществляется
один из случаев а или б на рис. 11.7.1. Чтобы узнать, какой
именно, необходим дальнейший анализ, который здесь не прово-
о о
дится. Критерием служит знак М при t — 0, s=T{, а в М входит
значение си не участвовавшее в предыдущем критерии. Наши
собственные неполные вычисления дают возможность предпола-
гать, что здесь может появиться либо универсальная поверх-
ность, либо поверхность переключения.
Если применить лемму 11.7.2, можно показать, что для траек-
тории, на которой ф=1, будет существовать поверхность пере-
ключения; на рис. 11.7.1,6 она показана пунктиром.
Но если s^SiKJ для всех s, то М<0. Поэтому осуществление
случаев в я г рис. 11.7.1 невозможно; траектории остаются го-
ризонтальными всюду справа от <^ь Здесь наиболее ярко про-
является ценность команды генерала Уоррена: Р не стреляет
вплоть до последнего момента, начиная с которого он способен
исчерпать в точности весь запас патронов.
Анализ для Ч?i проводится так же, как и для ?f2- Вместо
A1 7.5) мы используем уравнения
х1 — — х2с2р2 (s — t),
— t).
Далее процедура полностью повторяется. Находится новое М,
согласующееся со старым при s = 0. Поэтому вблизи начала ко-
ординат критерий остается прежним.
По-видимому, есть основания для правдоподобного предпо-
ложения (наш анализ слишком неполон для определенных вы-
сказываний), что из последних рассуждений можно сделать та-
кой вывод:
11.7. Битва при Банкер-Хилл 397
Команда генерала Уоррена правильна, если
х„ — v' 10)
— 1.
@) р2 @)
Разумеется, из нашего частичного анализа следует, что пол-
ное решение достаточно сложно. Например, если существует
универсальная поверхность, примыкающая к <^ь то график
стрельбы включает в себя три последовательные фазы: первый
период — отсутствие огня или огонь с полной силой (притоки),
второй период — частичный огонь (на универсальной поверхно-
сти, в соответствии с G.9.19)) и третий период — полный огонь
(на %\).
В заключение приведем две леммы, которые уже несколько
раз цитировались.
Если Pi=p2( = p), то уравнения характеристик можно проин-
тегрировать в замкнутой форме в случае полного огня, когда
cp=ij3=l. Результат немедленно обобщается на случай, когда от-
ношение pi(T) к р%{Т) постоянно; если же нет, мы придем к
уравнению типа Рикатти.
Лемма 11.7.1. Система
x2 = clxlp(x)
с начальными условиями xt = st имеет решение
xl = a+Q -\-a_Q ,
где
Q = Q(T)==exp|Vc1c2 | р(и),
и
Если при тех же уравнениях характеристик функции V, при-
нимают значения St при 7 = 0, то они также имеют вид A1.7.8),
но при этом
«* =4 ][
E + 5i У 77
398 Гл. II. Приложения к военному делу
Доказательство, разумеется, состоит в непосредственном ре-
шении.
Пусть на некоторой поздней стадии игры ф = -ф=1. Мы хотим
узнать, существуют ли поверхности переключения, т. е. были ли
раньше ф или ty равны 0.
Лемма 11.7.2. Если в игре «Битва при Банкер-Хилл» с
Pi=p2(=p) существует множество точек S, для которых ф = -ф=1
и Vs<0, то в некоторый более ранний момент времени траекто-
рия, проходящая через S, встречается с поверхностью переклю-
чения, перед которой ц> было равно нулю, при условии, что либо
1) I p(x)dx существует,
о
либо
2аУ~с^Г2 — \ <0. A1.7.9)
Доказательство. Значение ф зависит от знака Аи ко-
торый, по предположению, на S отрицателен. Надо показать, что
при больших т он становится положительным.
Из леммы 11.7.1 получаем, что
для некоторых постоянных значений k и S3, причем последнее
есть значение У3 на S, так как из уравнений движения следует,
что функция Уз постоянна вдоль траектории. Выражение, стоя-
щее в квадратных скобках, благодаря Q является возрастающей
функцией от т.
Поскольку мы знаем, что S3<0, нам достаточно установить,
что предшествующее ему слагаемое становится достаточно ма-
лым при больших т. В случае выполнения условия A) это сле-
дует из того, что Q стремится к фиксированному пределу, яр —¦
к нулю. В случае B) нас будет интересовать выражение
— ехр 2 yClc2 (k' + a 1пт) = k"x2aVc^-\
X
где k' и k" — константы, так что наш результат следует из ус-
ловия B).
Заметим, что в трехмерном физическом пространстве вероят-
ность поражения убывает для больших дальностей обратно про-
11.8. Некоторые трудности применения теории игр к военному делу 399
порционально квадрату расстояния. Если расстояние в нашей
игре убывает со временем линейно, то
и условие A) выполнено.
В менее правдоподобном двумерном случае выполняется
условие B) и правильность команды генерала Уоррена будет
зависеть от справедливости неравенства A1.7.9).
Отметим, что предположение Ss = V3 = dV/dmi<0 следует счи-
тать выполненным. Поскольку армия 1 является игроком, мини-
мизирующим плату, следует ожидать, что цена игры будет убы-
вать с увеличением количества располагаемых ею боеприпасов.
11.8. НЕКОТОРЫЕ ТРУДНОСТИ ПРИМЕНЕНИЯ ТЕОРИИ ИГР
К ВОЕННОМУ ДЕЛУ
При приложении математической теории к практической на-
уке встречаются некоторые неизбежные ограничения. Эти общие
недостатки проявляются и при использовании теории игр для
изучения военного дела. Перечислим их.
1. Оптимальная стратегия является по своей природе наилуч-
шей из всех возможных, но она может оказаться сложной, а вы-
игрыш, который приносит ее использование, по сравнению с бо-
лее простыми и более очевидными стратегиями может оказаться
небольшим. Это общее явление для многих областей прикладной
математики. Но в теории игр существует особенность — разум-
ность противника (по крайней мере постулируемая). Мы долж-
ны проверить, сможет ли он серьезно использовать отклонения
от оптимальной стратегии.
2. Существуют примеры, в которых мы предполагаем извест-
ными некоторые «параметры», которые игроку на самом деле
могут оказаться неизвестными. (Заметьте, «пада^метры» — это
нечто другое, чем не известные противнику фазовые" координа-
ты. Последний случай возникает в играх с неполной информа-
цией и будет обсуждаться в следующей главе.)
3. Напомним неймановское определение решения игры двух
игроков с нулевой суммой. Если оба игрока используют опти-
мальную стратегию, то плата будет равна цене игры. Но если
один игрок играет не оптимально, то будет существовать стра-
тегия противника, дающая ему плату лучшую, чем цена игры.
Существуют примеры, когда эта контрстратегия (утвер-
ждается лишь ее существование) не оптимальна для противника.
Что ему тогда делать? Чтобы использовать упущения первого
игрока, второй должен сам сыграть не оптимально и тем самым
навлечь на себя подобный же риск.
400 Гл. 11. Приложения к военному делу
К счастью, в дифференциальных играх это явление, вообще
говоря, не возникает. Если один из сражающихся действует оп-
тимально, а другой нет, то последний автоматически теряет в
плате.
11.9. ВОИНА НА ИЗНУРЕНИЕ И НАПАДЕНИЕ. ВТОРОЙ ВАРИАНТ1)
В § 5.4 мы исследовали военную игру, в которой управления
Ф и ij3 были теми частями оружия, которые участники посвящали
разрушению сил, производящих оружие противника- Оставшая-
ся часть оружия бросалась на непосредственный театр военных
действий, и лишь она вносила полезный вклад в плату.
Решение показало, что если, скажем, Р действовал оптималь-
но, то сначала он использовал ф=1 (все оружие использова-
лось для изнурения), а затем в некоторый определенный момент
времени переключался на ф = 0 (атака всеми силами). Никакого
промежуточного распределения оружия не было. Такое распре-
деление появляется теперь в варианте, несколько усложненном
с целью большего приближения к реальности.
Новые уравнения движения будут иметь вид
х1 — тх — с,фх,х.2,
и, как и прежде,
Как и в прежнем варианте, ф и т|? представляют собой отно-
шения сил, посвященных отдаленным целям разрушения враже-
ских баз, к общим силам. Оставшиеся доли A —ф) и A —-ф)
участвуют в бою и вносят прямой вклад в плату. Если ф или ij;
равны единице, то мы будем говорить об изнурении, если же
они равны нулю, — об атаке. Новое здесь заключается в послед-
них слагаемых первых двух из уравнений движения; это обсу-
ждалось в § 11.6.
Как и раньше, ef определяется условиями
xt>0, х2>0, х3>0,
а *? есть
хх = s, > 0, х2 = s2 > 0, х3 = 0.
Снова не стоит, особенно на первых порах, чересчур беспо-
коиться о соблюдении ограничении .YiX), А'2^0. Мы не будем
') Похожая задача была сформулирована Л. Лкнгелем.
11.9. Война на изнурение и нападение. Второй вариант 401
стремиться получить исчерпывающее решение, а постараемся пока-
зать его новые и важные аспекты.
Основное уравнение D.2.3) имеет вид
„ 1/ | _ I/ \/ 1 у. у. у- С I I у С ,1, А
flit V , —|— ftin V о V ^ —\— Л2 ' Л| Л]>.? ]V|J —|— Л'у^УоЦ* V/,
где
Поэтому, очевидно,
- { 1 при S, > 0, - f 1 при 5, > 0,
[О при 5,<0, 1 0 при S2 < 0.
Возвращаясь к начальным условиям, на ^ имеем l/i=l/2==0
и, следовательно, S4 = S2 = — 1. Значит, как и ожидалось, ф = -ф = О,
т. е. на последней стадии войны все силы бросаются на атаку.
Вблизи <? уравнения характеристик имеют вид (V3 оказалось
ненужным)
о о
Х2 = — Ttlfr V 2 ^^ 11
о
7=1
и их интегралы равны
х, — s, — /ге,т, ^ == — т,
Г==т.
Поэтому
51 = ctx(s2 — m2T:)—l = c2Tx2—l, A19 1)
52 = с,т (.?, — /и,т) — 1 = с, Гх, — 1.
Следовательно, поверхности переключения лежат на гипер-
болическом цилиндре, уравнения которого получаются прирав-
ниванием правых частей выражений A1.9.1) к нулю. Эти по-
верхности, обозначенные через J'x и J^, изображены на
рис. 11.9.1. Поэтому наши выкладки справедливы по крайней
мере для области, лежащей внутри фигуры, показанной на этом
рисунке (это та часть пространства ef, для которой
Me вся эта фигура оказывается существенной. Действительно,
представим себе пространство ^ спроектированным, например,
на плоскость (х2, Т) (т. е. с точки зрения рис. 11.9.1 вдоль оси
•)(] Лаh. 522
402
Гл. 11. Приложения к военному делу
Xt). Траектории оказываются наклонными прямыми, как на
рис. 11.9.2, а проекция поверхности J\ представляет собой ги-
перболу. Последняя касается одной из траекторий в точке Q.
Рис. 11.9.1.
х,
\fmJE
Пустая
область
И у/щсг
J
-—т
Рис. 11.9.2.
Ясно, что роль поверхности переключения будет играть лишь та
часть поверхности J%, которая лежит выше точки Q, так как
ниже этой точки J\ не пересечется ни с одной (регрессивной)
прямолинейной траекторией, выходящей из &\
Несложные вычисления показывают, что точка Q имеет ко-
ординаты
X2=Y T-- r^V=- (И-9.2)
11.9 Война на изнурение и нападение. Второй вариант 403
Следует ожидать (и можно на самом деле проверить), что
пересечение поверхности J\ ведет к переключению ф с нуля на
единицу и, следовательно, справа от J1\ одно из уравнений ха-
рактеристик записывается в виде
Везде, за исключением границы (xi = 0), последнее слагаемое-
положительно и, следовательно, траектории, расположенные
справа от J%, будут иметь по сравнению с прямолинейными бо-
лее крутой наклон. Таким образом, справа от точки Q образует-
ся незаполненное пространство, и это побуждает нас искать
ф-универсальную поверхность.
Как и на прямолинейных траекториях, величина т|? на уни-
версальной поверхности должна равняться нулю. Это является
предпосылкой для ее поиска. (Более того, наш критерий для
ф-универсальной поверхности показывает, что она не может суще-
ствовать при г|з=1.) Анализ был сделан в примере 7.9.3; очень
подходящим кандидатом оказалась поверхность, определяемая
уравнением G.9.23):
Это плоскость, проходящая через точку Q; разумеется, мы
используем лишь часть ее, лежащую правее Q, где
У т2с2
Чтобы осуществить движение по этой плоскости, положим
Ф, тогда из второго уравнения движения находим
х2 = 0 = щ — с2фх, у —
2 A1.9.3)
или
1 ./ %
<p = _ у —1.
Поскольку наши ограничения требуют, чтобы ф<1, универ-
сальная поверхность ограничена условием
Наши соображения упростятся, если мы временно превратим
рассматриваемую задачу в игру с одним игроком, считая, что
iJ3 = 0 тождественно. В частности, мы освободимся от JV Те-
перь мы имеем дело с таким положением, когда Е все свои силы
тратит только на атаку и не пытается расстроить ресурсы иг-
рока Р.
26*
404
Гл. 11. Приложения к военному делу
Универсальной поверхностью оказывается четверть плоско-
сти ВАС, показанная на рис. 11.9.3. Входящие в нее траектории,
как это мы уже видели в общем случае, гладко соединяются
с семейством (ср=1), выходящим из J^ и с семейством (ср = О),
идущим непосредственно от 4f. Траектории на самой поверхно-
сти изображены на рисунке.
Рис. 11.9.3.
Проинтерпретируем положение дел с точки зрения получен-
ных нами знаний. Если до окончания еще далеко (Г велико), а
силы Р не слишком малы (выполнено A1.9.4)), то ему следует
атаковать (ср = О), если сил у противника меньше, чем Ynhlc2i
и продолжать атаку до тех пор, пока этот уровень не будет до-
стигнут. Но если сил противника больше, чем Ym2jc2, то страте-
гией Р будет изнурение противника до тех пор, пока силы не бу-
дут доведены до этого уровня. При Л2 = |^яг2/с2 игрок Р держит
их на этом уровне, используя одновременно и изнурение, и ата-
ки в пропорции A1.9.3). Он придерживается такой политики до
момента времени Х/Ущ^, считая от окончания, и затем пол-
ностью переключается на атаку.
Но имея дело с большими силами противника при малом ко-
личестве оставшегося временя, Р будет использовать политику
11.9. Война на изнурение и нападение. Второй вариант
405
изнурения лишь до встречи траектории с J%; затем, когда вре-
мени до окончания останется Т=1/с2Хг, он переключится на
атаку.
Эти идеи снова проиллюстрированы на диаграмме, приведен-
ной на рис. 11.9.4.
Р и с. 11.9.4.
Что же происходит поблизости от пустого места QAC на
рис. 11.9.3? Мы покажем, что здесь расположена рассеивающая
поверхность.
Перепишем уравнения движения, положив <р=1 (и г|з — 0):
Д = -/иР A)
о
х2 = — т2 + CoXjXr,, B)
Д»=ь C)
Найдем начальные условия на универсальной поверхности вбли-
зи АС. В начальной точке на самой АС, как показывает B), при
т = 0 должно быть
m 2
С2 (Х,Хо + Х,Х9) = — С2Щ "I/ —-
г с2
0.
Следовательно, траектории, покидая АС и спускаясь вниз, ведут
себя, как параболы. Из начальных точек, близких к АС, траек-
тории, по-прежнему имеющие вид парабол, сначала подни-
маются (х2 = — m2-JrC2(Ym2l^2^'e)Vin2lc2 есть малое по-
ложительное число), а затем опускаются. (Одна из них
изображена на рис. 11.9.3.) Таким образом, они пересекаются с
прямолинейными траекториями, отходящими от нижней стороны
406 Гл. 11. Приложения к военному делу
универсальной поверхности. От J* i вблизи AQ траектории спу-
скаются еще быстрее, поскольку х{ там еще меньше. Итак, рас-
сеивающая поверхность может быть построена (§ 6.5) приравни-
ванием значений V на двух множествах пересекающихся траек-
торий.
Восстановим теперь игру двух игроков. Во-первых, попытаем-
ся узнать что-нибудь о значении V на универсальной поверхно
сти. Запишем последнюю в виде
с,2 / т2
Тогда довольно просто показать, что на ней
1
____ 1 /¦ С)
с2
В игре двух игроков рассматриваемая поверхность имеет смысл
лишь_ при 52-^0, поскольку при ее построении предполагалось,
что г|з = О. Это означает, что мы должны отбросить всю ее, за ис-
ключением части, лежащей за поверхностью J"^ с уравнением
С\х{Г=\. Граница обозначена пунктиром на рис. 11.9.3.
У нас нет уверенности, что часть поверхности J^, лежащая
за пунктирной кривой, будет играть свою прежнюю роль. Нам
нужно вычислить значение S2 вдоль притоков для оставшейся
части универсальной поверхности и найти множество точек, где
оно обращается в нуль. Сделать это для траекторий, лежащих
ниже поверхности, нетрудно; мы найдем старую поверхность
JV Но траектории сверху приводят к дифференциальным урав-
нениям, не поддающимся элементарным методам, поэтому мы не
сумели завершить исследование. Наше предположение заклю-
чается в том, что S2 обращается в нуль, но не на поверхно-
сти JV
ГЛАВА 12
К теории игр с неполной информацией
12.1. ВВЕДЕНИЕ
Важность распространения теории игр на случай неполной
информации для военных и других приложений очевидна. Но
продвижения в этой области даются с трудом и до сих пор здесь
достигнут лишь очень небольшой прогресс. В этой главе будут
скорее посеяны зерна, чем собраны готовые результаты. Мы опи-
шем трудности, выскажем предположения о виде решений и сде-
лаем попытку наметить наиболее многообещающие пути их
отыскания.
В следующем параграфе впервые появляется необходимое
для нас понятие — смешанная стратегия. Как и в обычной тео-
рии игр двух игроков с нулевой суммой, она состоит в том, что
игрок выбирает определенное вероятностное распределение на
классе своих стратегий. Далеко не очевидно, как это надо сде-
лать в дифференциальной игре. Наиболее перспективная воз-
можность подсказана реальным прототипом игр. После попытки
дать общее определение дифференциальной игры с неполной ин-
формацией мы вернемся к частным случаям, используя в каче-
стве моделей действительные примеры игр стрельбы и преследо-
вания. Игра поиска как игра, в которой дана минимальная
информация, оказывается, по-видимому, важным примером, на
котором можно понять строение решения в более общем случае.
Играм поиска посвящены §§ 12.3 и 12.4. Здесь мы прежде
всего доказываем, что если прячущиеся объекты многочисленны
и неподвижны, то время для их отыскания (плата) почти не за-
висит от стратегии ищущего, коль скоро он не тратит силы на
повторное исследование уже пройденной территории. Этот по-
разительный результат является, насколько нам известно, един-
ственным, в котором определенно доказана практическая цен-
ность приближенных методов, которые, как мы предполагаем,
имеют большие возможности. Этот вопрос довольно подробно
обсуждается в § 12.6.
Параграф 12.4, в котором рассматриваются игры поиска с
подвижными объектами, вновь вводит нас в неисследованную
область. Мы полагаем, что идеи статистического осреднения
408 Гл. 12. К теории игр с неполной информацией
здесь играют несущественную роль, а важны лишь некоторые
основные параметры, вроде скорости прячущегося. При этом
снова мы получаем основу для аппроксимативной теории.
Оказывается, что для некоторых игр со «стационарным» или
«установившимся» характером может быть предложена техника
решения, хотя и довольно тяжелая (она может быть облегчена
при помощи аппроксимации). Она изложена в § 12.6 и проил-
люстрирована примером игры, которую мы назвали стрельбой
по увертывающейся цели.
12.2. ОБЩАЯ ПОСТАНОВКА ЗАДАЧ
Одна из основных трудностей в теории дифференциальных
игр с неполной информацией состоит в том, что оптимальная
игра в существенных случаях потребует применения смешанных
стратегий. Какую форму они примут в дифференциальной игре?
Смешанная стратегия обычно означает статистическое осредне-
ние решений игроков в соответствии с некоторым вероятност-
ным законом. Но как же игрок должен осреднять управления,
значения которых он выбирает непрерывно?
Но и помимо различия в природе стратегий, игры с неполной
информацией имеют существенную особенность. В общем слу-
чае здесь нельзя считать, что выбрать стратегии — это значит
выбрать управления как функции от фазовых координат: реше-
ния игрока зависят теперь не только от текущих значений коор-
динат. В случае частичной информации знание прошлых состоя-
ний, вообще говоря, должно мотивировать текущее решение.
Вид информации, которую игрок может использовать, — это
вероятностное распределение на пространстве фазовых коорди-
нат в каждый момент времени. Поскольку полное знание яв-
ляется при этом частным случаем, обсуждавшиеся до сих пор
игры с полной информацией являются частным случаем игр с не-
полной информацией.
Есть два источника такой информации. Один — это заданная
информация, т. е. то, что предусмотрено1) правилами игры,
сформулированными для этой цели. Например, если игра моде-
лирует физическую ситуацию, в которой один игрок получает
сведения о противнике с помощью несовершенной аппаратуры,
правила могут быть подобраны так, чтобы в них отражалась не-
точность поступающей информации. Каждому игроку должны
быть также известны какие-то данные о начальном состоянии;
наиболее общей формой здесь является задание вероятностного
распределения на cf.
') Случай, когда никакой информации не предусмотрено, не исключен.
12.2. Общая постановка задач 409
Существует еще приобретаемая информация. Игрок знает всю
историю своей собственной игры1), и из нее он может вывести
больше сведений, чем содержится в заданной информации.
Пример 12.2.1. Пусть уравнения движения имеют вид
х ---= 2 -f- (f,
Здесь Р, управляющий выбором ф, всегда знает текущее зна-
чение х, если он знает его начальное значение х0 (интегрируя
первое из уравнений движения); это и есть приобретаемая ин-
формация. Если у него есть лишь вероятностное распределение
для х0, то в каждый последующий момент времени он будет
знать, что распределение осталось то же, оно лишь перенесено
на фиксированное расстояние, которое он может с помощью
интегрирования получить, зная ф(^).
Но если он знает у0— начальное значение у, — то все, что он
может сказать об у в момент t, это
Могут существовать и другие правила игры, которые снаб-
жают его более подробными знаниями; это будет заданная ин-
формация.
Разумеется, и в случае частичной информации могут по-
явиться оптимальные чистые стратегии. Но во многих важных
примерах, основанных на реальности, интуитивно ясна необхо-
димость смешанных стратегий.
Проблема 12.2.1. Предположим, что в игре с неполной информа-
цией у каждого игрока имеется лишь по одному управлению и
что вектограммы линейны. В решении соответствующей игры с
полной информацией ср и г|з почти всюду на ef принимают свои
крайние значения. Обозначим через ef± те подмножества мно-
жества с?', где ф=±1. Возвращаемся к исходной игре. В неко-
торый момент времени, исходя из заданной, приобретенной или
составной информации, Р знает вероятностное распределение
для точки х на ef. Следовательно, он всегда может подсчитать
вероятности попадания х в & + и jf-. Весьма правдоподобно,
что надо использовать ф= + 1 или ф = — 1 в зависимости от того,
какая из этих вероятностей больше. При каких условиях такая
стратегия будет оптимальной? (Можно использовать пример
12.2.1 с различными Ч?, G и Н для экспериментирования в этом
направлении.)
') Обычно так и бывает, по существуют исключения. Например, если
«игрок» — это группа, члены которой плохо связаны друг с другом.
410 Гл. 12. К теории игр с неполной информацией
Рассмотрим игру преследонания в качестве менее абстракт-
ного примера. Как обычно, Р преследует Е, Е убегает от Р, но
каждый (или, может быть, один из них) имеет неполные сведе-
ния о положении другого. Практические рассмотрения, особенно
существующие ограничения чувствительности приборов, подска-
зывают много форм такой неполноты (для определенности мы
будем говорить об имеющейся в распоряжении Р информации
об игроке Е, но, разумеется, следует учитывать равные возмож-
ности и противной стороны).
1. Р может (довольно) хорошо знать положение ?, но при
этом плохо знать другие фазовые координаты (если они есть),
такие, как направление и величину скорости.
2. Следящие приборы Р дают ему лишь вероятностное рас-
пределение положения Е.
3. Р может знать лишь относительный пеленг Е, т. е. напра-
вление линии РЕ.
4. Может существовать запаздывание во времени; Р знает
лишь то положение Е, в котором тот находился некоторое фик-
сированное время Т назад.
5. Р получает свою информацию в дискретные моменты вре-
мени. (Например, вращающийся радар, но этот случай имеет
теоретико-игровой интерес лишь тогда, когда интервалы между
сигналами достаточно велики, чтобы позволить Е совершить су-
щественный маневр в промежутке между ними.)
Если оба игрока не имеют никакой информации '), то мы бу-
дем говорить об играх поиска.
Мы обсудим некоторые возможности, перечисленные в при-
веденных выше пяти пунктах2). Примем простую версию пункта
2, считая, что в каждый момент времени Р знает о Е лишь то,
что он с равной вероятностью может находиться внутри шара3)
радиуса г. В дискретной модели, если игроки поочередно пере-
двигаются скачками, мы будем считать, что происходит случай-
ный сдвиг перед каждым скачком Р. Это означает, что центр
сферы обнаружения с равной вероятностью может находиться в
любой точке шара радиуса г с центром в Е.
Остановимся ненадолго на дискретной модели. Один из воз-
можных случаев получаемой Р информации показан на
рис. 12.2.1, а. Точками обозначены последовательные положения
') Кроме, разумеется, некоторой, относящейся к начальному положению.
2) Наши пояснения не пострадают, если мы не будем указывать, что
известно игроку Е о Р.
3) В пространстве всех фазовых координат Е (положение, направление,
скорость и т. д.).
12.2. Общая постановка задач
411
Е, но Р знает только, что каждое из них с равной вероятностью
лежит внутри содержащего его круга.
Предположим, что наступит момент, когда два последова-
тельных круга расположены, как на рис. 12.2.1, б, где расстояние
ЛВ лишь немного меньше, чем путь, который может пройти Е
при своем последнем движении. Тогда Р может заключить, что
Е должен находиться очень близко к В. Такая ситуация не яв-
ляется исключительной. В частном случае, когда Е неподвижен,
Р и с 12.2.1.
результат имеет вид, показанный на рис. 12.2.1, в. Если Р подо-
ждет достаточно долго, то с вероятностью, равной единице, он
сможет получить сколь угодно точную информацию.
Итак, накопление заданной информации может дать гораздо
больше, чем ее текущее значение. Эти явления вновь объяс-
няют, почему хорошая стратегия должна зависеть от прошлых
состояний.
Полное перекрытие сфер на рис. 12.2.1, в отчасти вызвано
тем, что мы предположили их статистическую независимость. Но
что случится, если мы будем выбирать дискретизацию с более
мелким шагом, пытаясь приблизиться к непрерывной игре? Мы
подойдем еще ближе к некоторой определенности за более ко-
роткий интервал времени, что в конце концов равносильно пол-
ному отсутствию ошибок или игре с полной информацией.
Абсурдность этого вывода проявляется, если взглянуть на
существующие измерительные приборы непрерывного действия
и на науку об их ошибках — часть теории стохастических про-
цессов. Общим в таких рассмотрениях являются автокорреля-
ционные функции: вероятность большого изменения при
412 Гл. 12. К теории игр с неполной информацией
малых значениях аргумента мала. Очевидно, что учет ограниче-
ний такого типа необходим для реального подхода к непрерыв-
ной игре.
Существует аналогичная нереальность, относящаяся к стра-
тегиям. По-видимому, ясно, что оптимальная стратегия должна
быть смешанной в играх с существенными ограничениями на ин-
формацию. Как же может быть достигнуто осреднение управле-
ний? Разрешить каждому игроку в каждый момент времени вы-
брать значения из независимых вероятностных распределений
было бы так же нелепо, как и в предыдущем случае. Действи-
тельно, любая реальная модель с непрерывным выбором, ска-
жем, положения руля, требует, чтобы близкие последовательные
позиции были коррелированы независимо от того, является ли
исполнителем человек или механизм. По-видимому, здесь мы
вновь должны говорить со стохастическим акцентом.
У. Гренандер в великолепной работе на 84-х страницах')
указал путь прогресса. Он рассматривал игру преследования,
которая имела установившийся характер, а решения игроков
описывались стохастическими средствами, как в теории прогно-
зирования.
Вернемся к игре преследования и подумаем, какой вид дол-
жно иметь полное решение. Для иллюстрации возникающих воз-
можностей примем искусственное предположение, что г — ра-
диус сферы обнаружения — постоянен2) и велик по сравнению с
радиусом зоны захвата.
Если партия начинается с расстояния РЕ, большего, чем г,
то следует ожидать, что в ранней стадии игра будет похожа на
игру с полной информацией. Игрок Р будет преследовать отно-
сительно маленькую сферу, как он преследовал бы Е, а Е будет
применять соответствующую тактику убегания. Но со сближе-
нием и особенно после того, как Р войдет внутрь сферы обнару-
жения, недостаток информации приведет к положению, возни-
кающему в играх поиска. Если предположить наличие большой
автокорреляции, то сфера обнаружения будет фактически ста-
ционарной и, однажды войдя внутрь нее, Р останется там, не
проявляя особой ловкости. Последующая игра на самом деле
будет игрой поиска с пространством игры Ж, роль которого вы-
полняет внутренность шара3).
') См. [12].
2) Вместо предположения об убывании при сближении, как было бы ве-
роятнее с практической точки зрения.
3) С этого момента мы можем осознать необходимость случайных стра-
тегий. Предположим, что в игре поиска внутри шара Ч игрок Р использует
чистую оптимальную стратегию. Она заставит его обыскивать районы шара
Ч в определенном порядке. Но Е, который также способен вычислить эту
12.2. Общая постановка задач 413
Этот чисто поисковый аспект годится для нашей игры пре-
следования только в том случае, когда Р имеет столь большие
кинематические преимущества над Е, что последний может рас-
сматриваться как относительно неподвижный1). Но в другом,
по-видимому, более общем случае Р обязан отвлечь часть своих
сил на попытку удержаться внутри движущегося шара. Тогда
его стратегия будет смешанной стратегией преследования Е.
(скажем, с помощью преследования центра шара) и случайных
поисков, как и выше. Подобным же образом Е должен переме-
шать стратегию убегания со своим случайным прятаньем.
В любом случае игра поиска будет составляющей частью.
Мы рассматриваем ее в двух следующих параграфах.
Является ли переход между этими фазами — ранней фазой
чистого преследования и поздней, с частичным (или полным)
смешанным поиском, — постепенным или резким?
Теперь обратимся к некоторым другим из пяти случаев
частичной информации, упоминавшимся ранее в этом пара-
графе.
Если выполнен пункт 3, т. е. Р знает лишь относительный пе-
ленг Е, то вновь знания о положении Е накапливаются с тече-
нием времени. Если Е неподвижен, то Р, глядя на него с двух
различных позиций, может определить его точное положение с
помощью триангуляции. В случае если Е подвижен, Р приходит-
ся гораздо труднее, но насколько именно — это зависит от его
знания кинематических ограничений Е, особенно ограничений на
скорость.
Имеет смысл рассмотреть стратегии Е, намеренно предназна-
ченные для того, чтобы разрушить планы накопления информа-
ции игрока Р. Они должны быть, конечно, случайными, посколь-
ку (еще раз) если Р может предсказать действ'ия Е, то его ме-
стоположение можно найти с помощью триангуляции и в том
случае, когда Е меняет свое положение.
В случае 5, когда Р получает информацию дискретно, пе-
риодически из относительно большой области пространства, стоит
подумать о желательности для Е использовать изменения курса
с периодом, совпадающим с периодом поступления информации
к Р, как показано на рис. 12.2.2. Этот обман приводит к тому,
что Р замечает лишь положения Е, отмеченные точками.
стратегию, почти всегда может остаться в части шара %, отдаленной от Р.
Подобным же образом использование чистой оптимальной стратегии со сто-
роны Е снабжает Р правилом для отыскания Е. Каждый игрок может лишь
обманывать другого «смешиванием», т. е. случайным выбором различных
путей.
') Т. е. если принять положение Е за начало координат, то движение
сферы лишь немного мешает Р и он свободен в своих поисках.
414 Гл. 12. К теории игр с неполной информацией
Ситуация 4 с запаздыванием во времени банальна. Напри-
мер, ложные маневры эффективны лишь в том случае, если су-
ществует запаздывание между наблюдением противника и его
активным ответом. Вернемся к примеру с футболом, когда игрок
Е, владеющий мячом, противостоит защитнику Р. Финты со сто-
роны Е, такие, как выпад влево с последующим быстрым обхо-
дом вокруг Р справа, будут тщетными попытками сбить Р стол-
ку, если он обладает достаточно быстрой реакцией.
Мы обсудили ряд действий, предпринимаемых игроками ради
информации, — Р старается ее собрать, Е старается помешать
этому; эти действия почти всегда включают элемент случайно-
сти. В рассматриваемой игре преследования оптимальная стра-
тегия должна состоять из комбинации случайных движений и
\
Рм с. 12.2.2.
движений, непосредственной целью которых служат захват и
убегание, похожих (по крайней мере) на используемые в играх
с полной информацией. В общем случае такие рассуждения не
всегда верны. Первый тип движений, касающийся информации,
вообще говоря, ставит в невыгодное положение второй тип — не-
посредственное преследование и убегание. Иногда возникающие
здесь потери оказываются чересчур большими — следующие да-
лее примеры являются в этом отношении крайними случаями, —
и новой важной стороной нашей общей задачи является нахо-
ждение критерия применимости того или другого типа движений.
Пример 12.2.2. Простая игра преследования. Вернемся к при-
меру 1.9.1, в котором Р и Е движутся по плоскости, каждый об-
ладает простым движением и Р имеет большую скорость. Пла-
той является время захвата, и мы знаем, что оптимальная игра
состоит в погоне по прямой линии, проходящей через начальные
положения Р и Е. Предположим теперь, что Р имеет лишь ин-
формацию типа 3. Он знает только относительный угол отклоне-
ния ? и не знает расстояния до него. Но угол отклонения — это
все, что ему нужно, для того чтобы применять свою оптималь-
ную стратегию в игре с полной информацией. Очевидно, что та-
кая стратегия здесь также оптимальна. Ни один из игроков не
будет использовать смешанной стратегии.
Возможно, что для Р окажется желательным менять курс
в целях триангуляции, но это произойдет только в том случае,
12.2. Общая постановка задач 4] 5
если игра будет изменена так, что ему потребуется большая ин-
формация. Предоставляем читателю самому придумать такое
видоизменение.
Подобные, но в менее крайней форме идеи применимы и в
других наших случаях. Например, осциллирующий путь на
рис. 12.2.2 сократит эффективную скорость убегания Е. При та-
кой плате, как время захвата, сомнительно, будет ли он его ис-
пользовать.
Однако ситуация изменится, если перейти от задач пресле-
дования к задачам стрельбы. Будем считать, что Р вооружен
таким оружием, как пушка (торпеда, ракета), и может сделать
один или несколько выстрелов по Е. Будем сначала игнориро-
вать некоторую присущую оружию неточность, так что Р заве-
домо попадет, если он точно знает положение Е. Платой яв-
ляется вероятность поражения.
Тогда, поскольку единственной целью Е является уменьшение
информированности Р, ясно, что его стратегии здесь должны
быть существенно случайными. Подобным же образом Р тоже
должен использовать смешанную стратегию, так как для каждой
определенной стратегии — куда и когда стрелять — Е будет спо-
собен не оказаться в этот момент в пункте цели.
Характерный пример такой игры, имеющий практическую
важность и иллюстрирующий эти идеи, следующий.
Пример 12.2.3. Задача «прицеливание и увертывание». Пример
относится к пункту 4. Здесь имеется время запаздывания между
моментом, когда Р видит Е, и моментом попадания снаряда в
цель. Пусть Р может сделать лишь один выстрел, прицелившись
в некоторое будущее положение Е. Задача игрока Е, который
предполагается подвижным, состоит в таком маневрировании,
чтобы осложнить предсказания игрока Р. Усреднение является
здесь существом дела; ведь систематический зигзаг так же легко
предсказать, как и равномерное движение. Но найти нужное
движение очень трудно, поскольку, как мы предполагаем, Е ни-
чего не знает о выстреле до момента прибытия снаряда, а Р мо-
жет стрелять в любой момент. Можно минимизировать инфор-
мацию, которой располагает Р к некоторому моменту времени,
используя смешанную стратегию, результатом которой будет
равномерное распределение положения Е по доступной ему пло-
щади. Однако, не зная, когда произойдет взрыв, он должен
иметь равномерное распределение в любой момент времени, что
невозможно >).
') За более подробными объяснениями следует обратиться к четвертой
из работ [13].
416 Гл. 12. К теории игр с неполной информацией
Можно, конечно, привести много примеров игр подобного ро-
да. Одна из них, простейшая из нетривиальных, приведена в
примере 12.6.1.
Имеющие «стационарный» характер (см. § 12.6) чистые игры
типа «прицеливание и увертывание», вроде описанной выше, це-
ли которых могут быть выражены лишь в терминах информации,
представляют собой область приложения теории стационарных
стохастических процессов. Существующая техника оптимального
прогнозирования может быть использована для Р, а ее обраще-
ние — для Е, поскольку Е старается найти случайный курс, мак-
симизирующий ошибку в предсказании его местоположения. Ис-
следования Гренандера блестящи и глубоки и, по-видимому,
подают надежду на то, что будущая теория окажется полной,
красивой и полезной.
Но при отказе от стационарности наши идеи вновь закры-
ваются тучами, даже если плата включает в себя лишь пред-
сказание.
Например, откажемся от предположения об абсолютной точ-
ности стрельбы Р и предположим, что она убывает с удалением
Е. Тогда, по-видимому, случайная стратегия Е должна включать
в себя в некоторой степени удаление от места расположения
оружия. В какой степени? Может ли скорость убывания точно-
сти с расстоянием достичь такой критической величины, что при
ее дальнейшем увеличении оптимальная стратегия Е является
чистой и состоит в убегании?
Другой вариант возникает, если у Е есть место назначения;
придя туда, он выполняет свою миссию; целью Р является его
поражение до этого момента. Модифицируем пример 12.2.3,
предположив, что Р имеет несколько снарядов. Если Е достаточ-
но близок к своей цели, то, идя туда прямо, он делает свое по-
ложение полностью предсказуемым. Если же делать случайные
обманные движения, то безопасность повышается. Вновь возни-
кает дилемма чистой и смешанной стратегии!
Другим примером является следующий упрощенный вариант
жизненно важного случая.
Пример 12.2.4. Перехват при раннем обнаружении. Вражеский
бомбардировщик (или управляемая ракета) Е обнаружен на
дальних подступах к известной цели. Его скорость и направление,
так же как и месторасположение, становятся известными в неко-
торый момент времени, как это бывает, например, при исполь-
зовании линии дальнего обнаружения. Немедленно запускается
защищающий перехватчик; на рис. 12.2.3 показано, что он стар-
тует из точки Р, a W — точка обнаружения Е. Наивная защит-
ная стратегия состоит в выборе прямолинейного курса, основан-
12.3. Игры поиска неподвижных объектов 417
ного на предположении, что Е движется с постоянной ско-
ростью. Пунктирные траектории на рисунке показывают, что пе-
рехват происходит, когда Р оказывается в точке С, находящейся
в центре круговой области.
Но что если Е выберет менее прямой путь к цели? Сплошные
линии на рисунке изображают некоторые возможные пути (что-
бы подчеркнуть суть дела, не будем бояться фантастических ук:
лонений) '). Если Е производит случайный выбор из некоторого
Рис. 12.2.3.
множества таких траекторий, то перехватчик по существу оказы-
вается перед лицом игры поиска. Его цель состоит в том, чтобы
обнаружить Е перед тем, как тот достигнет цели.
Мы не можем решить этой игры, где оптимальные стратегии
являются заведомо смешанными. Она представляет собой еще
одну иллюстрацию трудностей, возникающих при их определе-
нии. Использование со стороны Е крайних внешних траекторий
делает его обнаружение очень трудным, но большая длина та-
ких траекторий слишком увеличивает время его уязвимости и
тем самым понижает вероятность успеха. Каков наилучший
компромисс между чистой — идти прямо к цели — и смешанной
стратегиями?
12.3. ИГРЫ ПОИСКА НЕПОДВИЖНЫХ ОБЪЕКТОВ
В простейшем случае один игрок Е прячет какой-нибудь объ-
ект где-то в районе S?, который может быть частью простран-
ства любого числа измерений. Его противник Р стремится найти
этот объект за минимальное время. Е старается максимизиро-
вать время поиска, и, значит, оно является платой.
') Продп<.>ля1ается, что запас юрючего у Е неограничен.
27 Зак. 522
418 Гл. 12. К теории игр с неполной информацией
Мы предположим, что простое движение представляет собой
хорошее приближение для способа движения Р — фиксирован-
ная скорость с полной свободой в выборе направления. Окру-
жим Р фиксированной областью наблюдения, скажем шаром
диаметра d. Объект считается найденным, если он окажется вну-
три шара. Тогда по мере поиска из Ж вырезаются полосы диа-
метра d. Такой путь Р по Ж, при котором весь район Ж, оказы-
вается осмотренным без наложений, будет называться «туром».
Мы будем терпимыми к этому определению. Например, при
круговой области обнаружения Р не может совершить безупреч-
ный тур по квадрату. Но мы простим малые погрешности, вроде
перекрытий при крутых поворотах его траектории, или неболь-
шие выходы за пределы района Ж, на зубцах или острых углах
его границы. Итак, мы будем предполагать, что «площадь» по-
перечного сечения полосы Р, умноженная на длину тура, яв-
ляется «объемом» Ж. (Слова в кавычках применимы к трех-
мерному Ж; в плоском случае следует читать «ширина» и «пло-
щадь»'.) Следовательно, длина тура фиксирована, и поскольку
Р движется с данной скоростью, то и необходимое для тура вре-
мя тоже фиксировано. Последнее мы обозначим через Т. Факти-
чески существенно полный поиск в Ж, с учетом неизбежных на-
ложений и потерь, потребует лишь ненамного большего времени,
и мы будем этим пренебрегать.
В этой простой игре поиска Е имеет лишь один ход: он по-
мещает объект где-то в Ж. После этого Р пытается найти его
по возможности быстрее, начиная с точки, которую он произ-
вольно выбирает.
Теорема 12.3.1. Цена простой игры поиска равна Т/2.
Единственная оптимальная смешанная стратегия для Е состоит
в том, чтобы расположить объект в Ж с равномерным распре-
делением вероятности. Оптимальная стратегия для Р состоит в
том, чтобы пройти либо некоторый тур, либо обратный к нему
(тот же тур, но с противоположным направлением движения),
каждый с вероятностью '/2.
Доказательство. Представим себе, что путь, проходи-
мый в некотором туре, вытянут в прямую линию. Тогда с допу-
стимо малой ошибкой каждое место, которое прячущий Е может
выбрать в Ж, можно отождествить с той точкой тура (прямой
линии), находясь в которой Р обнаруживает этот объект.
1. Пусть Е использует стратегию с равномерным распреде-
лением вероятности. Если Р ищет, используя некоторый тур, то
объект будет иметь равномерную вероятность распределения
вдоль прямой. Поскольку Р проходит эту прямую с постоянной
скоростью, то математическое ожидание времени обнаружения
12.3. Игры поиска неподвижных объектов 419
равно половине общего времени и составляет Т/2. Если Р выби-
рает любую схему поиска, не являющуюся туром, то ясно, что
неэффективность таких действий приведет к тому, что матема-
тическое ожидание времени будет не меньше Т/2.
2. Пусть Р использует стратегию, указанную в теореме. Чи-
стая стратегия Е эквивалентна выбору точки на распрямлен-
ном туре. Если U представляет собой время ее отыскания при
прохождении тура в одном направлении, то Т — U есть время,
соответствующее обратному направлению. Плата тогда состав-
ляет D2)[U+(T—U)] = T/2.
Утверждение теоремы следует из стандартных определений
теории игр.
Замечание. Из доказательства мы видим, что свобода,
предоставленная Р для выбора начальной точки, — это несколь-
ко чрезмерная щедрость.
Задача 12.3.1. Дать оптимальную стратегию для Р, существенно
отличную от приведенной в теореме, или от полученной смеши-
ванием таких стратегий для различных туров.
Если Р управляет группой в s идентичных искателей, то ясно,
что надо разделить 1 на s районов с равной площадью и по-
слать в каждый район по одному искателю. Оптимальная игра
для Р получается, если каждый из искателей действует опти-
мально в своем районе. Итак, мы имеем
Следствие 12.3.1. Цена простейшей игры поиска с s ис-
кателями (и одним прячущимся) есть T/2s.
С другой стороны, если увеличить число спрятанных объек-
тов, а платой считать время обнаружения их всех, то трудность
задачи резко возрастает. Отыскание оптимальных стратегий
представляется здесь довольно трудным делом; они могут за-
висеть от формы района М. Например, если <$, будет длинным
и узким, так что его поперечное сечение не превосходит d, то
возможны лишь два тура, которые идут из одного конца района
М в другой. Если искатель один, а спрятанных объектов два,
то наилучшей стратегией для Е будет расположить их в край-
них точках района М, поскольку плата тогда будет не меньше
Т — наибольшей возможной величины. В противоположность
этому для сферического М, очевидно, не существует чистой
стратегии, которая могла бы быть оптимальной для Е. Еще
труднее найти оптимальные стратегии поиска.
Но — и это наш главный пункт — если число h спрятанных
объектов ^достаточно велико, то стратегия поиска почти не
меняется. То есть Р каждому из своих s искателей назначает
тур по A/s) -й части площади района М. Даже если он объявит
27*
420 Гл. 12. К теории игр с неполной информацией
полное описание этой стратегии и Е применит свои знания для
того, чтобы использовать места, куда искатели заглянут в самый
последний момент, то и тогда плата не слишком превысит цену
игры.
Более точно, мы по существу доказали, что
где V есть цена игры. Это неравенство показывает, что при до-
статочно большом числе /г, например 10, V не слишком отли-
чается от длительности совместного тура Tjs. Итак, любой такой
тур дает игроку Р плату, почти равную цене.
Мы выведем аналог неравенства A2.3.1) для дискретной
модели. Пусть район М испещрен точками и соседние из них
соединены отрезками, т. е. <$, аппроксимируется линейным гра-
фом. Новый вариант нашей игры очевиден: Е тайно распола-
гает h объектов в некоторых различных точках: Р в свою
очередь начинает поиск с любых s точек и за каждый ход пере-
мещает каждого из своих искателей в одну из соседних (связан-
ных отрезком) точек. Объект считается найденным, если иска-
тель занял его точку. Платой является число ходов, после кото-
рых все объекты оказываются найденными.
Мы будем считать, что граф, соответствующий достаточно
мелкому разбиению, хорошо моделирует непрерывную игру. Для
удобства сделаем предположение, что число точек /V делится Has.
Результат, установленный для таких дискретных игр в при-
веденной ниже теореме 12.3.2, аналогичен неравенству A2.3.1).
Пусть v — плата игры при следующих стратегиях: Е исполь-
зует равновероятностную стратегию, т. е. распределяет объекты
случайно, так что выбор любого подмножества из h точек равно-
вероятен; Р использует любой совместный тур, при котором ни
один искатель не попадает в уже пройденную точку.
Лемма 12.3.1.
/г N
Доказательство. Если все объекты найдены за k ходов,
то Р изучил ks точек. Тогда h объектов должны были быть спря-
таны в этих точках и, по крайней мере, один был в точке, заня-
той при последнем ходе. Число способов размещения h объск-
тов по ks точкам равно \ /г )• Мы должны отбросить те случаи,
/(k—\)s\
число которых равно I h , когда все ооъекты находятся
12.3. Игры поиска неподвижных объектов 421
в (k—])s неконечных точках. Разность, поделенная на ( , ] —
общее число возможных расположений объектов, — равна ве-
роятности того, что плата равна k. Поскольку v есть математи-
ческое ожидание платы, имеем
(Г)
где М — jV/s.
Преобразуя („суммируя по частям"), получаем
.. / Ms \
V~ IN
\ h
где
ж — 1
/-0
Далее, поскольку Ms~N, имеем
N а
v =
S
Чтобы оценить о, используем известное соотношение
i-O
Далее,
что очевидно, если правую часть рассматривать как сумму s
равных членов. Если просуммировать по / и заметить, что «чис-
лители» справа пробегают множество целых чисел от 0 до
sM—1=/V—1, то получим
N-1
«-о
И, наконец,
If N \
U j
1 Г
_1 Г л/
_1 Г л/ Ч _JL_
ЛМ ~s[ ' Л + 1 J A + f
j
422 Гл. 12. К теории игр с неполной информацией
Теорема 12.3.2. Цена V для дискретного варианта с N точ-
ками простой игры поиска с h объектами и s искателями удо-
влетворяет неравенству
Доказательство. Поскольку N/s есть число ходов в со-
вместном туре, за которое все спрятанные объекты всегда будут
обнаружены, правая часть неравенства очевидна.
Пусть Е использует равновероятностную стратегию. В силу
леммы любой тур Р ведет к плате, большей чем (h/h+l) (N/s).
Это неравенство применимо для всех стратегий Р, поскольку
любая стратегия с наложением может быть заменена лучшей
стратегией без наложения. А поскольку Е является максимизи-
рующим игроком и располагает стратегией, при которой плата,
удовлетворяющая этому неравенству, гарантирована, то цена
игры также должна удовлетворять этому неравенству.
Проблема 12.3.1. Проанализировать предыдущую игру при усло-
вии, что она кончается после того, как найдено определенное
число (<h) спрятанных объектов, или определенная доля от
этого числа (<1).
12. ИГРЫ ПОИСКА С ДВИЖУЩИМИСЯ ОБЪЕКТАМИ
Насколько мы знаем, о решении таких игр не известно, по
существу, ничего. Следующие примеры приведены для того,
чтобы выявить квинтэссенцию задачи.
Пример 12.4.1. Принцесса и чудовище. Чудовище Р ищет прин-
цессу Е; время, требуемое для воплощения его замыслов, яв-
ляется платой. Оба они находятся в абсолютно темном поме-
щении Ж (любой формы), но обоим известны границы этого
помещения (может быть, с помощью маленьких пропускающих
свет отверстий высоко на стенах). Поимка происходит, если
расстояние РЕ становится меньше величины /, малой по срав-
нению с размерами помещения М. Чудовище, которое предпола-
гается в высокой степени интеллектуальным, осуществляет про-
стое движение с известной скоростью w. Принцессе мы разре-
шим полную свободу перемещения.
Мы не знаем, как решить эту задачу, но кажется весьма
вероятным, что оптимальные стратегии должны в значительной
мере использовать случайные движения. Мы думаем, что не
важно, как именно игроки используют свою возможность вы-
бора траекторий; наверное, один случайный изгиб траектории
так же хорош, как и любой другой.
12.5. Важность аппроксимации 423
По-видимому, единственное важное решение остается за
принцессой — насколько быстро она должна бежать? Одна
крайность — полная неподвижность — не слишком обещающая
стратегия. Действительно, Р, сделав тур по Ж, будет иметь
определенную плату, не превышающую фиксированной вели-
чины. В то же время любой другой вид движения Е оставляет
по крайней мере возможность того, что до момента поимки прой-
дет произвольно большой отрезок времени1). Другой крайний
случай — очень высокая скорость (в сравнении с w)—вряд ли
желателен для Е, поскольку вероятность поимки за короткое
время станет очень близка к единице; принцесса сама набежит
на чудовище.
Оптимальная скорость принцессы должна лежать где-то
между этими крайностями. Где именно?
Этот пример является типичной задачей для чистых игр
типа поиска. Следующий пример также не решен, но кажется
проще и, возможно, послужит опорным камнем для предыду-
щего.
Пример 12.4.2. Упрощенный вариант игры «принцесса и чудо-
вище». Единственное нововведение состоит в том, что теперь
как Р, так и Е должны двигаться по фиксированной замкнутой
кривой. Возьмем в качестве такой кривой окружность.
Упрощение состоит в том, что при фиксированных скоро-
стях игроков в каждый момент времени каждый игрок имеет
лишь два различных выбора.
Теперь у нас есть основание для догадки, что оптимальная
скорость движения Е должна быть равна w — скорости движе-
ния Р. Шаткое основание для этой догадки состоит в том, что
лишь равные скорости сохраняют неизменным расстояние РЕ,
если оба игрока используют одну и ту же чистую стратегию.
Проблема 12.4.1. Решить дискретный вариант этой игры. Ка-
ждый игрок занимает одну из п(п^-З) точек, распределенных
по границе круга. Они ходят по очереди в одну из двух сосед-
них точек. Поимка считается состоявшейся, если оба игрока по-
падают в одну и ту же точку. Платой является число ходов,
например, игрока Р до момента поимки. По-видимому, для на-
чала надо разобрать случай равномерного распределения.
12.5. ВАЖНОСТЬ АППРОКСИМАЦИИ
Почти все исследования в теории игр до настоящего времени
касались точных утверждений, но ведь имеется существенная
') Может, разумеется, оказаться, что математическое ожидание этого
времени будет меньше времени тура, но это кажется неправдоподобным.
424 Гл. 12. К теории игр с неполной информацией
область этой теории, где точное решение имеет лишь ничтож-
ные с практической точки зрения преимущества перед прибли-
женным. Ниже мы обсудим два таких случая. Первый относится
не только к играм, но и вообще к проблеме максимизации1).
Второй применим к играм с неполной информацией, решение
которых включает в себя смешанные стратегии.
1. Принцип горизонтальной неточности
Несмотря на то что мы рискнули дать этому принципу на-
звание, он настолько очевиден, что даже неудобно о нем на-
поминать. Он лежит перед носом каждого изучающего элемен-
тарный математический анализ. И все же мы не можем вспо-
мнить ни одного примера его явного описания.
Студенты рано узнают, что для отыскания минимума функ-
ции надо найти точки, где ее производная равна нулю. Очевид-
ный принцип, который мы торжественно провозглашаем, заклю-
чается в следующем.
Для определения максимума точное значение аргумента
функции не является, вообще говоря, необходимым. Это проис-
ходит просто-напросто потому, что производная — интерпрети-
руемая элементарным способом как' скорость изменения — в
точке максимума равна нулю. На рис. 12.5.1, а показаны три
типа максимумов: один с нулевой производной и два другие
общего типа; третий достигается в граничной точке области из-
менения аргумента. Отметьте относительное изменение величи-
ны функции для одного и того же отклонения аргумента от его
значения в точке максимума в этих трех случаях.
Решения задач вариа'ционного исчисления, которые являются
интегралами уравнений Эйлера, часто тоже принадлежат к
виду экстремумов с нулевой производной. Мы будем называть
все максимумы (или минимумы) такого типа горизонтальными.
Все они подчинены нашему принципу: малые отклонения аргу-
мечта от оптимизирующего значения не опасны.
Весьма вероятно, что принцип горизонтальной неточности
объясняет удивительную немногочисленность практических при-
менений многих элегантных математических решений задач мак-
симизации, полученных на протяжении истории науки2).
') Что, как хорошо известно, логически эквивалентно минимизации, так
как для отыскания минимума достаточно сменить знак и найти максимум.
2) Примеры. Прямой круговой цилиндр с данным объемом имеет мини-
мальную площадь поверхности, если его высота равна диаметру, однако кон-
сервные банки с этими пропорциями редко появляются на .магазинных пол-
ках. Плоское эллиптическое крыло Мунка с минимальным сопротивлением
редко встречается в проектах самолетов.
12.5. Важность аппроксимации
425
Это же рассуждение можно применить и к седловым точкам,
а следовательно, к теории игр. В дифференциальных играх этот
принцип подводит к некоторому практичному правилу. В слу-
чаях, когда максимизирующие или минимизирующие управления
лежат внутри области, не стоит чересчур тщательно отыскивать
оптимальную стратегию. Однако если управления лежат на
Рис 12.5.1.
границе области, как, например, в случае линейной вектограм-
мы, то выгоды от использования точного решения могут ока-
заться очень существенными.
Посмотрим, наконец, на игры с неполной информацией и
смешанными оптимальными стратегиями. Для простоты пред-
ставим себе случай конечной дискретной матрицы. Типичное
решение со смешанной стратегией заключается в том, что один
игрок выбирает определенное подмножество ') из п своих стра-
тегий с положительными вероятностями ри . . ., р„ Bрг-= 1), а
его противник делает то же самое с вероятностями qt, ... , qm.
') Следует подчеркнуть тот факт, что это очень часто собственное под-
множество; некоторые стратегии не используются вообще. В таких случаях
.можно (обычно так и делается) суммировать по всему множеству, считая,
что последние стратегии имеют вероятность нуль. Но у нас есть основание
для различения этих двух видов стратегий.
426 Гл. 12. К теории игр с неполной информацией
Положительность pi и qt означает, что по ним достигнут вну-
тренний и, следовательно, горизонтальный экстремум. Наш
принцип при этом показывает, что к малым ошибкам надо от-
нестись терпимо. Например, график платы при ш = п = 2 как
функция от вероятностей р и q (мы пишем р к 1 — р вместо
Pi, р2 и т. д.) имеет вид, показанный на рис. 12.5.1,6; отметьте,
что в седловой точке поверхность имеет горизонтальную каса-
тельную плоскость.
Но совсем другое дело — стратегии, не входящие в указан-
ное выше подмножество. Для них вероятности р; и qt (см. сно-
ску на стр. 425) равны пулю, следовательно, экстремум дости-
гается на границе области и, значит, чувствителен по отноше-
нию к изменениям. Это не математическая тонкость, а обычная
вещь для полных матричных игр, включающих все стратегии, да-
же до абсурда плохие. Последние уверенно отбрасывает даже по-
средственный противник. Игрок в бридж не станет сбрасывать
хорошие карты даже с малой положительной вероятностью.
2. Принцип вероятностной неопределенности
Вновь рассмотрим игру с неполной информацией и смешан-
ными оптимальными стратегиями (по крайней мере для одного
игрока). Действительное использование этих стратегий превра-
щает каждую партию в случайное событие. Изменение страте-
гии меняет шансы.
Второй аргумент в пользу применимости приближенного ре-
шения лежит в сфере, близкой к фундаментальному вопросу
теории вероятностей. Каков действительный результат действия
вероятностного распределения на множестве различных исхо-
дов, если число испытаний мало?
Если азартный игрок постоянно ставит на одно и то же со-
бытие и если ве'роятность выигрыша в действительности равна
0,45, хотя он думает, что она равна 0,5, то ему надо сделать
очень много попыток, для того чтобы почувствовать свою ошиб-
ку. Большая часть науки статистики посвящена выводам, кото-
рые можно сделать из таких повторных попыток, и предмет
этот далеко не прост. Не нужно переоценивать важность за-
кона больших чисел, который в данном случае утверждает
только то, что для очень длинного ряда испытаний игрок почти
наверное выиграет в числе случаев, очень близком к 45%.
Теперь представим себе, что это относится к изучаемым на-
ми играм1) и что изменение в вероятности выигрыша происхо-
дит от улучшения смешанной стратегии противника. Тогда ка-
') Которые для полной аналогии можно считать играми типа победа-или-
поражение (плата имеет два значения), хотя идея тут, очевидно, общая.
Важность аппроксимации 427
кова же ценность улучшенной стратегии, если рассматривается
малое число партий?
Для игр со смешанными оптимальными стратегиями оба
принципа, 1 и 2, могут оказаться действенными, и тогда оба
эффекта усиливают друг друга. В некоторых крайних случаях
их совместное действие может привести к тому, что область до-
пустимости приближенного решения оказывается настолько
большой, что теория игр принесет немного пользы. Необходим
способ распознавания таких случаев на практике.
Рассмотрим в качестве примера движущуюся цель, напри-
мер самолет или корабль, обстреливаемый противником. С точ-
ки зрения теории игр плата должна выражать следующий факт:
поражен этот объект или нет. Цель может делать определен-
ные маневры, так что ее положение трудно обнаружить или
предсказать. Выбор маневра составляет стратегию, причем в
этой игре, сущность которой состоит в информации, стратегия
определенно должна быть смешанной. За плату следует при-
нять вероятность поражения.
Предположим, что с помощью различных улучшений страте-
гии цель может свести вероятность поражения, например, к 5,
10, 25 или 50%. Для отдельных или немногочисленных реализа-
ций ситуация становится похожей на случай с азартным игро-
ком. Играет ли большую роль сведение шансов к 5 или 10%?
Если с 50%, то да, а если с 25%?
Но возможны повторения этой ситуации. На протяжении
войны может произойти много столкновений подобного рода.
Процент разбитых объектов приблизится к вероятности пора-
жения. Стоит ли сводить процент сбитых самолетов к 5%?
А к 10, 25 или 50%?
Таковы наши основания для заключения, что практическая
задача теории игр, особенно игр с недостатком информации,
должна состоять в отыскании приближенных решений. Доказа-
тельств в пользу этого, видимо, немного. В самом деле, игра
поиска с большим числом неподвижных объектов из § 12.3 — это
единственный известный нам пример. В § 12.4 мы высказали до-
гадку, что в случае подвижных объектов не очень существен
выбор конкретных траекторий. Доказательство этого и подобных
ему утверждений, если они верны, означало бы решительный
и полезный прогресс в теории игр. Итак, существенная задача
состоит в том, как оценить степень приближенности, приемле-
мую для различных классов игр.
Но даже если мы уверены в том, что для некоторой игры
надо искать именно приближенное решение, то как его искать?
Технику таких предметов, как математическая физика, надо
использовать очень осторожно. Действительно, мы имеем дело
428 Гл. 12. К теории игр с неполной информацией
с конфликтами, и здесь всегда есть противник, который готов
до предела использовать всякое отклонение от оптимальности.
Поскольку вся теория строится на предположении, что он всегда
действует разумно, нам придется считать, что и в данном случае
он будет действовать так же.
Если, например, один игрок защищает город со ста ворота-
ми и его стратегия состоит в выборе распределения своих сил
для их защиты, то он получит близкое приближение к велико-
лепной стратегии, равномерно распределив свою охрану на
девяносто девять из них. Но если его противник достаточно
умен, то он все свои силы бросит на незащищенные ворота и
почти совершенная защита окажется бесполезной.
Следовательно, само понятие приближенного решения тре-
бует некоторых видоизменений. Отклонение от оптимальной стра-
тегии должно быть таким, чтобы противник не смог извлечь из
этого слишком много выгоды.
Хотя мы агитируем за исследования в области приближен-
ных решений, мы вовсе не против других подходов. Если точная
оптимальная смешанная стратегия будет найдена, скажем, для
игр поиска из § 12.3 и 12.4, то, несмотря на то что ее использо-
вание, по-видимому, мало что принесет соперникам, само ее
открытие, возможно, бросит яркий свет па совершенно темную
область.
12.6. МЕТОД ПРЕДПОЛОЖИТЕЛЬНЫХ ВЕРОЯТНОСТЕЙ
Название, которым мы окрестили эту технику решения неко-
торых игр, звучит довольно неуклюже1). Возможно, что это же
прилагательное подходит и к самому методу, но для решения
некоторых видов задач мы не можем предположить ничего
другого.
Предположим, что игра двух игроков с нулевой суммой и с
неполной информацией имеет «устойчивый», или «стационарный»
характер. Определение этого понятия проще всего дать для ди-
скретной модели. Игра называется стационарной, если характер
решения циклически повторяется и на каждом цикле партия
либо заканчивается, либо ситуация, за исключением принятых
при этом решений, совпадает с ситуацией на предшествующих
циклах. Это означает, что зритель, который начал наблюдать
за партией в середине игры, не может сказать, сколько времени
игра длилась до него.
Пусть Р — минимизирующий игрок — ходит первым. Если
это необходимо, можно искусственным образом присоединить
>) В подлиннике — «chancifying method». — Прим. ред.
12.6. Метод предположительных вероятностей 429
«прошлое», чтобы возникающее положение не отличалось
от того, которое возникает в середине игры. Изменим правила
так, чтобы первый ход делался не по решению Р, а в силу
обусловленных вероятностей xv ..., .*„ B-**= l\, совокуп-
ность которых мы обозначим через х. То есть первое движение
теперь является случайным. Цена этой новой игры зависит от х
и будет обозначаться через ср(х).
Применяя правила первого полного цикла ходов, часто мо-
жно получить функциональное уравнение, которому должна
удовлетворять ц>(х). Если решение этого уравнения единственно,
то функция ф будет найдена. Ценой исходной игры будет1)
поскольку единственным отличием исходной игры от этой слу-
жит то, что Р может сам выбрать значения х, и он будет пы-
таться при этом минимизировать плату2).
Пример 12.6.1. Простая игра «прицеливание и увертывание». Эта
игра является простейшей из нетривиальных дискретных моде-
лей примера 12.2.3. Пусть имеется бесконечный в обе стороны
ряд точек. В одной из точек этого ряда стоит фишка. В каждый
из своих ходов Р имеет выбор между движениями фишки вправо
или влево в соседние точки. Его ход чередуется с ходом Е, кото-
рый, в свою очередь имеет выбор между ожиданием — отсут-
ствием хода — и «стрельбой». Если Е выбирает последнее, то
он должен выбрать точку, в которую стреляет. Тогда игра за-
канчивается; если фишка окажется в указанной точке, то по-
беждает Е, в противном случае побеждает Р.
Основой здесь является неполная информация, обусловлен-
ная запаздыванием во времени. Непосредственно перед своим
ходом Е знает все ходы Р, за исключением двух последних. Сле-
довательно, в момент выстрела Е знает, что либо фишка нахо-
дится на том месте, где он видел ее в последний раз (Р двинул
фишку вправо-влево или влево-вправо), или она на две
точки правее либо на две точки левее. Поэтому разумно стре-
лять лишь по этим трем точкам. Если Р и Е используют сме-
шанные стратегии, что мы, конечно, и предположим, то платой
будет вероятность того, что Е попадет, т. е. правильно угадает
положение фишки.
') Иногда inf ф(х), поскольку существуют случаи, когда игрок не имеет
х
оптимальной стратегии, т. е. он не может достичь цены игры V. по зато
имеет стратегии, гарантирующие ему плату, произвольно близкую к V.
2) По поводу дальнейших примеров см. [14].
430
Гл. 12. К теории игр с неполной информацией
Применим для Р наш метод предположительных вероятно-
стей. Предположим, что он имеет первый ход. Пусть Р перед
этим перешел в данную точку слева. Заменим движение Р слу-
чайным, а именно движением влево с вероятностью х и движе-
нием вправо с вероятностью A—л:)@^х<Л). Цену, минимакс
вероятности поражения, обозначаем через у(х). Она опреде-
ляется выражением
[ хс
... I x(l—c)-\-(l—x){\ —d)
Ф (л:) = mm max { у ' A2.6.1)
с, d A —x)d V '
Здесь максимум относится к четырем строчкам в правой
части, а минимум по переменным с, d ищется в области
()
Чтобы установить справедливость выражения A2.6.1), по
крайней мере эвристически, предположим сначала, что Р про-
должает свое движение следующим образом: если фишка сдви-
нулась влево (с вероятностью х), то последующее его движение
Рис. 12.6.1.
влево имеет вероятность с, а вправо A —с). Точно так же, если
случайное движение было вправо, то последующее движение
вправо имеет вероятность d. Величины cad являются частью
оптимальной стратегии игрока Р и будут в дальнейшем фикси-
рованы.
Четыре строки после фигурной скобки в A2.6.1) соответ-
ствуют четырем возможным ответам игрока Е. Если он стреляет
в самую левую точку — два шага влево от последней наблю-
даемой позиции, — то он попадает лишь в том случае, когда
фишка оказывается в этой точке, что требует двух левых дви-
жений, а вероятность этого и, следовательно, вероятность пора-
жения есть хс. Аналогично следующая строка есть вероятность
12.6. Метод предположительных вероятностей 431
того, что фишка останется в центральной точке, имея в качестве
предшествовавших движений движения влево-вправо или впра-
во-влево. Итак, вероятность поражения, если Е стреляет по
центральной точке, равна второй строке после скобки. Третья
строка соответствует стрельбе Е по крайней правой точке.
Наконец, последняя строка есть плата в случае, когда Е
ждет. Если фишка сдвинулась влево с вероятностью х, мы ока-
зываемся перед повторением исходной ситуации и начинаем
нашу игру с предположительными вероятностями, в которой на
месте х должно стоять с. Цена ее равна ц>(с). Аналогично с ве-
роятностью A —х) Е сталкивается с игрой, цена которой рав-
на ф(с?); таким образом четвертая строка равна математиче-
скому ожиданию поражения в случае, когда Е ждет.
Теперь при любых заданных значениях с и d E выбирает
максимум из этих четырех величин. Тогда, чтобы играть опти-
мально, Р надо выбрать cad так, чтобы минимизировать этот
максимум. Результат дает цену игры, т. е. у(х).
График функции ф(х), получаемой в результате решения
уравнения A2.6.1), приведен на рис. 12.6.1. На центральном ин-
тервале АВ функция ф(х) постоянна, зато на обоих крайних
интервалах ее график состоит из бесконечно большого числа
прямолинейных отрезков, концы которых имеют своими предель-
ными точками А и В.
Мы решили несколько подобных задач, и результирующая
функция ф была столь же сложной. Найти ее было очень трудно.
А ведь все, что нам от нее нужно для решения исходной зада-
чи, — это ее минимум!
Но нет ли здесь намека на возможность построения прибли-
женного решения? Ломаные в графике на рис. 12.6.1 поражают
своей близостью к гладкой кривой. Существует ли такой при-
ближенный метод, включающий в себя аналог функции ф, в ко-
тором эта функция окажется более простой?
Рассмотренная игра принадлежит к тому типу игр, где при-
менимы доводы за построение приближенного решения, приве-
денные в пунктах 1 и 2§ 12.5. Следовательно, в силу этих пунк-
тов и в силу существования многих других более реалистичных
примеров той же природы, которые имеют большую практиче-
скую ценность, разумно выбранное приближенное решение может
оказаться достаточным и имеющим большое значение.
Дальнейшие детали, касающиеся этой игры, приведены в
работах [13].
Дополнение
Это дополнение, за исключением первой главы, составлено
из новых различных примеров дифференциальных игр. Наме-
чены пути решения и даны указания в случае появления особен-
ностей или формальных трудностей.
АЛ. ПЛАТА —ВЕРОЯТНОСТЬ ПОРАЖЕНИЯ
В некоторых военных играх, таких, как приведенные в § А.2
и А.5, один игрок, например Е, непрерывно стреляет по своему
противнику. Плата есть общая вероятность поражения.
Плотность вероятности поражения р предполагается задан-
ной: р есть функция от фазовых координат (а возможно, также
и от управлений). Тем самым по мере развития некоторой пар-
тии р становится функцией времени и вероятность поражения
на интервале (t, t + h) равна hp(t)+O(h2).
Лемма АЛ. В рассматриваемом случае игра имеет инте-
гральную плату и можно принять
Q = p. (A.I.I)
Доказательство. Пусть Q(t) есть вероятность того, что
цель не была поражена на протяжении интервала времени @, t).
Вероятность того, что цель не будет поражена на интервале
(О, t + h), есть произведение вероятностей того, что она уцелеет
на интервале @, t) и на интервале (t, t + h). Итак, если к мало,
то
Q(t + h)=Q(t)(l-hp(t)),
или
Q(f+h)-Qli)=-pW(t),
что дает в пределе
Поскольку Q@)—1, мы имеем
-- f p(u)du)
А.2. Игра преследования с неподвижной батареей 433
Итак, вероятность поражения на интервале времени @, t)
равна 1—Q(t), а эта функция растет с ростом интеграла. Сле-
довательно, стратегия, которая максимизирует интеграл, макси-
мизирует также и вероятность поражения.
Заметим, что формальная цена игры V(х), получаемая при
решении, не является вероятностью поражения. Действительная_
цена игры равна 1 —exp(V(x)),
Будем представлять себе непрерывный огонь как последова-
тельность коротких выстрелов (что согласуется с действитель-
ностью). Нетрудно показать, что в двумерном пространстве при
достаточно больших расстояниях г от оружия до цели вероят-
ность поражения одним выстрелом обратно пропорциональна г.
Поэтому можно положить р = а/г, где а — некоторая константа.
В трехмерном пространстве соответственно р = а/г2 (двумерный
случай использован в двух последующих задачах лишь в связи
с формальными математическими трудностями).
А.2. ИГРА ПРЕСЛЕДОВАНИЯ С НЕПОДВИЖНОЙ БАТАРЕЕЙ
Оба игрока осуществляют простое движение на плоскости.
Преследователь Р быстрее и легко мог бы поймать Е, если бы
не заградительный огонь, защищающий Е. Огонь непрерывен
и ведется из батареи, расположенной в точке О. Мгновенная
вероятность поражения обратно пропорциональна расстоянию
ОР, и интеграл от нее, как и в § АЛ, будет платой.
Итак, Р пытается поймать Е с минимальной вероятностью
поражения. Он должен выбрать курс, являющийся компромисс-
ным между прямым преследованием и осторожностью, требую-
щей того, чтобы не быть слишком долго поблизости от О. Со
своей стороны Е должен включить в свой полет от Р маневри-
рование, имеющее целью завлечь Р в опасную близость к О.
Мы используем полярные координаты г, 6 для Р и прямо-
угольные координаты х, у для Е\ начала систем координат на-
ходятся в О, прямые 8 = 0 и у = 0 совпадают. Скорости игроков
Р и Е равны соответственно 1 и ш, причем да<1, так что w в
действительности означает отношение скоростей. Управления ф
и г|з показаны на рис. А.2.1. Уравнения движения имеют вид
/- = coscp,
e=(l/r)sin<p,
X = W COS ф,
у =_ w sin ф.
28 Зак. 522
434
Дополнение
Плата есть интеграл, причем
где а — фиксированная положительная константа. Терминаль-
ная поверхность определяется условием \РЕ\=1, где / — задан-
ное положительное число, а пространство игры <^ определяется
условием \РЕ\^-1.
Решение почти целиком получается с помощью непосред-
ственного интегрирования. Этот пример является исключитель-
ным в смысле отсутствия здесь особенностей. Все же одна син-
гулярная поверхность здесь определенно есть: если Р, О, Е ле-
Рис. А.2.1.
жат на одной прямой в перечисленном порядке, то два сим-
метричных пути, с помощью которых Р может обойти О, оче-
видно, приводят к наличию рассеивающей поверхности с мгно-
венной смешанной стратегией на ней.
Наш обычный метод не приводит к затруднениям (за исклю-
чением, возможно, обычной трудности выбора знака Vt в на-
чальный момент). Из уравнений характеристик тотчас же после-
дует, что Е всегда движется по прямой линии. В то же время
любой путь Р определяется уравнением
1 = с, sh (±
- с3))+с2 ch (±/Г (в -
где си .. ., с4, К—постоянные; К может иметь произвольный
знак, но при этом подразумевается, что в тех случаях, когда он
отрицателен, sh и ch следует заменить на sin и cos.
На рис. А.2.2 изображен график (со шкалой) для типичной
партии. Здесь ш = 2/3; точки отмечают положения в последова-
тельные моменты времени. Разумеется, любая соответствующая
пара зтих точек может быть принята за начальное положение.
А.2. Игра преследования с неподвижной батареей
435
Упражнение А.2.1. Написать для этой задачи уравнения движе-
ния, используя три фазовые координаты вместо четырех.
Рис. А.2.2.
Упражнение А.2.2. Решить вариант предыдущей задачи, отли-
чающийся от нее тем, что батарея теперь равномерно распре-
делена вдоль некоторой прямой»^. Это означает, что G = a/d,
где d — расстояние игрока Р от прямой»^.
Проблема А.2.1. Предположим, что в предыдущей задаче в ка-
честве G используется функция, убывающая с ростом расстоя-
ния быстрее, чем 1/л Может показаться, что если это убывание
достаточно быстрое и у ? имеется достаточно времени, то наи-
лучшей стратегией для него будет подойти близко к точке О и
остаться там. Случается ли это когда-нибудь на самом деле?
Если да, то как решать такую задачу?
28*
436 Дополнение
А. 3. ОПТИМАЛЬНЫЕ ТРАЕКТОРИИ УПРАВЛЯЕМЫХ РАКЕТ
Проектирование траекторий ракет дальнего радиуса дей-
ствия, максимизирующее их эффективность, — это задача, для
решения которой применимы настоящие методы. Здесь мы
имеем дело с игрой одного игрока и в качестве платы, т. е.
величины, которую надо оптимизировать, принимаем расход
горючего.
Рассмотрим сначала сам прототип. Координатами в про-
странстве игры cf (фазовыми координатами) будут следующие
величины:
позиционные координаты- ракеты,
компоненты скорости,
угол рыскания и другие подобные величины,
текущий вес ракеты (убывающий при расходовании горю-
чего).
Управлениями будут, разумеется, те величины, которые регу-
лируются системой наведения.
Пусть мы имеем дело с межконтинентальной баллистической
ракетой, спроектированной для того, чтобы из одной точки
земной поверхности прибыть в другую точку, отдаленную от пер-
вой. Существует два (или больше) участка активного полета,
возможно, с отбрасыванием использованных ступеней в конце
каждого из них, а в конце следует участок пассивного полета.
Используя наш подход, мы будем, как обычно, изучать зада-
чу в обратном порядке. Начиная с заданного пункта назначения,
найдем множество точек в пространстве фазовых координат,
обладающих тем свойством, что свободное падение из любой
такой точки приведет ракету в цель. Это множество опреде-
ляет в cf поверхность 'tSх. Используя %\ в качестве совокупности
начальных условий, построим обычным методом регрессивные
оптимальные траектории; результат дает решение для послед-
него участка активного полета. Это решение продолжается на-
зад до тех пор, пока не выполнятся условия перехода в пред-
шествующую стадию. Полученные состояния образуют новую
поверхность <?2' и цена будет известной функцией на ней. Мы
продолжаем этот процесс до тех пор, пока не доходим до уча-
стка полета, включающего в себя запуск.
Не в пример многим другим задачам, которые мы изучали,
эта задача пользовалась большим вниманием на протяжении
последних лет. Многие исследователи получили здесь перво-
классные результаты, даже не зная ничего о дифференциаль-
ных играх. Можно ли утверждать, что только что описанный
подход имеет какие-либо преимущества?
А.З. Оптимальные траектории управляемых ракет 437
С точки зрения чистой логики метода — нет.
Всегда начинают с того, что создают модель которая более
или менее упрощенно описывает реальность. Благодаря модели,
и только ей, может быть использована математика. Вообще го-
воря, и почти наверняка в данном случае, изучаемая задача
ставится так, чтобы имелся единственный ответ. Тогда любые
приемы, с помощью которых можно получить этот единственный
ответ, одинаково хороши. В самом деле, должен существовать
способ, устанавливающий их логическую эквивалентность.
Но дифференциальные игры имеют преимущество перед
другими методами, по крайней мере некоторыми, по отношению
к следующим двум вопросам: насколько процедура решения
освещает аспекты поведения в любом положении, отличном от
самой траектории? Применим ли используемый математиче-
ский метод к более реалистическим и более трудоемким мо-
делям?
Во-первых, благодаря определенным выше поверхностям мы
включаем оптимальную траекторию в семейство траекторий, по
каждой из которых ракета движется оптимально к оптимальной
точке перехода в стадию пассивного полета. (Разумеется, то
же самое можно достичь с помощью вариационного исчисления,
если варьировать условия на конце траектории. Тем самым наше
утверждение гораздо слабее: такое рассмотрение гораздо есте-
ственнее с точки зрения дифференциальных игр.)
Вторым преимуществом нашего подхода является то, что
ракета не ограничена единственной навигационной программой.
Если некоторое неблагоприятное событие собьет ее с курса, то
она не должна вновь возвращаться на старую траекторию, а
движется оптимально по пути, соответствующему новым значе-
ниям координат. С математической точки зрения такая ситуа-
ция становится возможной благодаря тому, что наш метод ве-
дет к вычислению V, а следовательно, и управлений (которые
выражаются через частные производные от V) во всех точках
пространства cf. Это означает, что в любой ситуации (фазовые
координаты), которая может встретиться на протяжении поле-
та, мы знаем (именно для этой ситуации) наилучший способ
управления ').
Пример А. 3.1. Упрощенная задача о полете ракеты. Упрощения
довольно решительные, но в принципе ничто не приносится в
жертву. Наша модель является не реалистической, а иллюстра-
тивной. Сделаем следующие предположения:
') Подход, совершенно аналогичный изложенному здесь, используется в
методе динамического программирования Р. Беллмана. — Прим. ред.
438
Дополнение
Имеется единственная стадия активного полета, за которой
следует свободное падение.
Земля плоская, силы гравитации равномерны и вертикаль-
ны. Нет трения о воздух.
Тяга ракеты постоянна по величине; управление дости-
гается изменением ее направления. Физическое простран-
ство двумерно; ракета всегда остается в вертикальной
плоскости, содержащей точки запуска и цели.
Потери веса ракеты вследствие использования горючего
не учитываются.
Итак, в плоскости х, у наша ракета должна быть запущена
из начала координат О с нулевой скоростью. Цель, располо-
женная р. точке R (см. рис. А.3.1), имеет координаты (R, 0).
N
О
R
Рис. А.3.1.
С включенным двигателем "ракета следует до точки К (сплош-
ная кривая), откуда начинается свободное падение.
Плата, которая должна быть минимизирована, есть исполь-
зованная энергия. В силу наших предположений о постоянстве
тяги и веса ракеты это эквивалентно минимизации длительности
активного участка полета.
Фазовыми координатами являются х, у— положение ракеты
и и, v — ее вектор скорости. Сила тяги, приходящаяся на еди-
ницу массы, представлена на рис. А.3.1 вектором длины F. Угол
наклона этого вектора ср является единственным управлением.
А.З. Оптимальные траектории управляемых ракет 439
Движение ракеты описывается обычными ньютоновскими урав-
нениями (g— ускорение силы тяжести)
х — и,
и = F cos <р,
v = F sincp— g.
Мы построим множество ^(^i в предыдущем обсуждении),
состоящее из всех таких точек пространства §°, откуда может
начаться свободное падение; одной из этих точек является изо-
браженная на рисунке точка К-
Использование элементарной динамики дает
v = s2> s3 > 0, s, > 0.
Читатель без труда проверит, что если тело начинает дви-
жение из указанного выше начального положения (х, у) с на-
чальной скоростью (si, Si), то в момент времени s3 оно призем-
лится в точке (R, 0).
Составив основное уравнение и уравнения характеристик и
интегрируя последние при выписанных выше начальных усло-
виях, получим траекторию
а = s, + F%1 (— s2 + gs3) x,
v = s2-\-(F2s3,lsl-Jrg)x,
x = R — sfy — s,t — F2s5l (— s2 + gs3)T t2,
» = -?з+2^~52т~(Я5зЦ + %т'- (А.3.1)
где
X = Fh Vs* + (s2-gs3y.
Далее, V=x и для оптимальной стратегии
3 — s2
Следовательно, направление силы в активном полете остается
постоянным; к этому мы еще вернемся позднее. Траектория ра-
кеты будет параболой с осью, параллельной направлению сум-
мы векторов тяги и силы тяжести.
440
Дополнение
Затем решим систему (А.3.1) относительно sb s2, s3 .и т. Ис-
ключение их приводит к уравнению четвертой степени, и все
искомые величины будут выражаться через один из его корней,
подходящим образом выбранный.
Но если речь идет о конкретной траектории с начальными
условиями
х = у = а = v = О,
ее легко найти. Нетрудно получить линейную аппроксимацию
для V в окрестности этой траектории (в cf), поскольку частные
90'
1
0.8
0.6
0,1
0.2
0
95
80
75
Г 7а
- 65
60
- 55
¦ 50
¦ 45
\
1
{
\
V
—. _
Рис. А.3.2.
производные от V будут фигурировать в полном интеграле
уравнений характеристик.
Проведя необходимые вычисления, получим
^3 — ilBS2— l) = 0,
где S = sinq). Таким образом, угол наклона тяги является функ-
цией от Fig. Легко начертить эту зависимость, обращая график
зависимости Fjg от S. Это сделано на рис. А.3.2.
Величину Fjg можно рассматривать как величину силы, если
вес ракеты принять за единицу. Она должна быть больше 1 для
того, чтобы ракета смогла подняться с земли. Если она очень
велика, то график показывает, что угол ф очень близок к 45° —
вполне естественное заключение, поскольку это хорошо извест-
А.З. Оптимальные траектории управляемых ракет 441
ный угол для баллистической стрельбы на максимальное рас-
стояние (в вакууме), а очень большая сила должна действовать
очень короткое время. По мере того как F/g убывает до 1, угол
наклона тяги возрастает, давая в пределе вертикальный старт.
На том же рисунке мы начертили r/(T + s3)[ = S/(F/g)]. Эта
величина является хорошим критерием для всей оптимальной
траектории, так как представляет собой отношение времени ра-
боты двигателя к полному времени полета. При большой тяге
продолжительность активного участка мала; почти весь путь
составляет свободное падение. Оба времени полета одинаковы
при отношении Fjg, равном примерно 1,6, а для еще меньших
отношений сил время активного полета доминирует.
Мы видим, что задача движения с минимизацией времени
приводит к использованию тяги постоянного направления. Но
это случается не всегда, даже при нашем простом гравитацион-
ном поле сил, отсутствии сил сопротивления и т. д. Интегрируя
уравнения характеристик, получаем
где С,- — константы.
Если цель ракеты состоит лишь в_ достижении за минималь-
ное время заданного положения, то ф будет постоянным, однако
произвольные терминальные поверхности ?", которые нам прихо-
дится рассматривать, зависят наряду с х, у также от и и и,
т. е. учитывают не только конечное положение, но и конечную
скорость. Ясно, что объект, приближаясь к ?\ должен предви-
деть конечное значение скорости в момент прибытия. Выраже-
ние (А.3.2) для оптимальной стратегии с этой точки зрения
весьма правдоподобно. Действительно, если т велико (х далеко
от ??), то угол ф будет почти постоянным, но когда х прибли-
жается к %', вектор силы меняет направление, чтобы удовлетво-
рить граничным условиям.
Мы подчеркиваем этот факт, чтобы отметить, что простота
полученного решения является, по-видимому, скорее исключе-
нием, чем правилом. Здесь ф имеет постоянное значение лишь
благодаря тому, что скорость на терминальной поверхности
принимает подходящие значения. Стоит, однако, изменить за-
дачу— включить сопротивление воздуха, многоступенчатость
и т. д. — и мы, вероятно, получим гораздо более сложное ре-
шение.
Задача A.3.I. Показать, что для ракеты, движущейся в постоян-
ном поле сил и управляемой поворотом силы тяги, как в пре-
дыдущем примере, необходимое и достаточное условие того, что
442 Дополнение
значение ф на оптимальных траекториях минимального времени
постоянно, состоит в том, что на терминальной поверхности
Vyv — VyVu = 0. (A.3.3)
В частности, показать, что это же условие выполнено и для
поверхностей, зависящих только от положения.
Проблема А.3.1. Каково будет управление, если вместо постоян-
ного поля сил взять поле с потенциалом G(x, уI). Особенно
важно поле сил, обратно пропорциональных квадрату рас-
стояния.
Проблема А.3.2. Каков наиболее экономный способ запуска
спутника на любую круговую орбиту вокруг Земли? Мы под-
разумеваем здесь академическую, но интересную модель. Сде-
лать те же предположения о полете, что и раньше в этом пара-
графе, за исключением того, что силы гравитации радиальны и
меняются обратно пропорционально квадрату расстояния от
центра Земли О. В качестве & следует использовать множество
тех значений фазовых координат, при которых ракета находится
на круговой орбите (центробежные силы уравнивают гравита-
ционные).
Предположим, что Земля совершенно проницаема. При ка-
ких условиях радиус орбиты будет больше радиуса точки пуска
(предполагается, что она расположена на поверхности Земли),
так чтобы орбита оказалась осуществимой? Даже при осуще-
ствимости в этом смысле траектория вывода может проходить
сквозь Землю. Такой случай должен означать, что спутник за-
пускается с вершины горы.
А.4. ПРИМЕР ИЗ ТЕОРИИ УПРАВЛЕНИЯ
Мы отмечали, что современная теория управления, по-види-
мому, входит в предмет дифференциальных игр как игра с
одним игроком. Следующий простой, но типичный пример мы
заимствовали у Хейла и Ла-Салля [18].
Тело единичной массы движется в жидкости с единичной
вязкостью (сила вязкого трения равна скорости с обратным
знаком). Мы можем управлять, прикладывая к телу силу, по
величине не превосходящую единицы, Задача состоит в том,
чтобы перевести тело в заданную точку О за минимальное
время при условии нулевой конечной скорости.
1) В этом случае два из уравнений движения имеют вид u = F cos ф — Gx,
v=F sin <p — Gy.
А.4. Пример из теории управления
443
Пусть х — координата (для точки О х — 0), а у— скорость
тела. Уравнения движения имеют вид
(Второе уравнение означает, что ускорение равно сумме силы
сопротивления и управляющей силы.) Плата интегральная, при-
чем G= 1.
<Р =
Рис. А.4.1.
Решение авторов показано на рис. А.4.1. Две кривые полу-
универсальны; они являются единственными траекториями, до-
стигающими начала координат; все другие являются притоками
к ним.
Интересно возникновение полууниверсальных кривых. Наш
метод требует принять за SS окружность радиуса / с центром
в точке х = 0, у = 0 и затем устремить / к нулю. При положитель-
ном / будет полное семейство траекторий, исходящих из SS, с
двумя кривыми переключения. Когда / становится нулем,
траектории склеиваются в две кривые, показанные на рисунке.
Поверхность переключения должна совпасть с ними и поэтому
становится полууниверсальной.
444 Дополнение
Проблема А.4.1. Та же задача, только теперь следует минимизи-
ровать энергию, необходимую для того, чтобы перевести тело
в точку О. Так как энергия равна ф^х, единственное формаль-
ное изменение состоит в том, что теперь G = <py.
А.5. ИГРА «БОМБАРДИРОВЩИК И БАТАРЕЯ»
Этот пример иллюстрирует удивительное многообразие, скры-
тое в простых на первый взгляд военных (или других) играх.
Здесь полное решение расщепляется на девять отдельных слу-
чаев, и некоторые из них допускают дальнейшее логическое
подразделение. Мы только наметим эту картину, останавливаясь
на особенно поучительных моментах.
Атакующий самолет, управляемый игроком Р, осуществляет
простое движение по плоскости со скоростью и. Его целью яв-
ляется территория игрока Е, ограниченная береговой линией^.
Из батареи, находящейся в фиксированной точке О, Е стреляет
по Р. Игра происходит в соответствии с условиями § АЛ, так
что платой является вероятность поражения.
Каждый игрок по-разному ограничен в своих действиях.
Для Р ограничено время полета, запас горючего или длина
траектории; все эти ограничения эквивалентны в силу постоян-
ства скорости. Мы выберем первое: время полета не должно
превосходить заданной величины Т. Это ограничение того типа,
который обсуждался в § 5.7.
У Е ограничен запас боеприпасов т, который он имеет в
своем распоряжении для стрельбы по цели Р. Пусть с — мак-
симальная скорость, с которой может стрелять Е. Его управле-
нием г|з будет та часть этой скорости, которую он может выби-
рать в каждый момент времени. Поэтому мы включим в уравне-
ния движения уравнение
т = с$, 0<1|:<1,
и заменим в этом случае G — a\r (см. § АЛ) на
q _ aii _
г
Таким образом, уменьшение скорости стрельбы пропорциональ-
но отражается на уменьшении текущей эффективности оружия.
Задача игрока Р состоит в выборе такой траектории со вре-
менем полета, не превосходящим Т, по которой он из своей
точки старта достигнет линии J? с минимальной вероятностью
поражения. В течение этого полета Е стреляет по нему, так рас-
пределяя свое фиксированное количество боеприпасов m по вре-
мени стрельбы, чтобы максимизировать вероятность поражения.
А.5. Игра «бомбардировщик и батарея»
445
Решение, по-видимому, не будет иметь большой практической
важности, так как разница вероятности поражения для мало от-
личных друг от друга путей будет, по всей видимости, незна-
чительной (см. обсуждение практических оценок в гл. 11). Зато
поучительность решения здесь велика: разнообразие явлений
типично для других, особенно военных за
дач. Кроме того, задача иллюстрирует на-
личие двух различных и одновременно эф-
фективных видов ограничений.
Если не оговорено противное, мы будем
считать J? прямой линией с батареей О,
расположенной на ней. Для некоторых це-
лей будет полезнее поместить О впереди
JP;тогда мы будем говорить о выдвинутай
защите ').
В первом из приведенных ниже приме-
ров будет рассмотрен также случай произ-
вольной формы береговой линии.
Положение Р будем задавать полярны-
ми координатами г и 6; эти координаты и
управление ф показаны на рис. А.5.1. Дру-
гими фазовыми координатами служат Т — время полета игро-
ка Я и m — количество боеприпасов, находящихся в распоряже-
нии у Е. Итак, уравнения движения имеют вид
г — г» sin ф,
д V
к
Рис. А.5.1.
f = --l.
Помимо очевидных условий от>0 и г>0, потребуем, чтобы
так что Р всегда может достичь 3" (по крайней мере по прямой
РВ на рисунке), и
в силу симметрии. Очевидно, что 8 = 0 будет рассеивающей по-
верхностью (но никакой мгновенной смешанной стратегии здесь
не требуется).
!) Случай зашиты, когда точка О расположена за
нового и интересного.
не обещает ничего
446 Дополнение
Существуют две естественные возможности для выбора тер-
минальной поверхности:
%Y P находится на^7. Здесь партия кончается. При этом мо-
жет существовать или не существовать некоторый избыток бое-
припасов т. Введем следующую параметризацию:
6 = 0, (А.5.2)
т = s3 > 0,
Т = 0.
Далее, на поверхности ??! имеем V=0, и в соответствии с усло-
виями § 5.7 мы в качестве третьего параметра выбираем
vy = — а,, я > о.
<?2- Если пг = О, то шансов поражения больше не остается.
С этого момента стратегия игрока Р может быть любой (мы
предполагаем, что Т достаточно велико, чтобы позволить ему
достичь.2% т. е. что выполнено условие (А.5.1)). Итак, плоскость
m — Q есть естественная терминальная поверхность. Здесь пара-
метризация такова:
r=s,>0,
G = s2, 0<s2<4p (A.5.3)
m = 0,
Следующие три примера — это поучительные, но крайние
случаи в том смысле, что они лежат на границе множества
решений.
Пример А.5.1. Неограниченный запас боеприпасов. Предполо-
жим, что m настолько велико, что Е может вести огонь в полную
силу (гр=1) на протяжении всей партии. Тогда m можно не счи-
тать фазовой координатой. Выберем начальные условия на ^
(с отброшенным третьим неравенством из (А.5.2)) и положим
<Э = а/г. Тогда задача превратится в иллюстрацию к уже рассмо-
тренному случаю интегральных ограничений из § 5.7, где, конеч-
но, L=\.
Если решить систему с Я = 0, то мы получим траектории, ко-
торые, как мы знаем, будут оптимальными для Р даже в том
случае, если он свободен от ограничений на Т. Для береговой
А.5. Игра «бомбардировщик и батарея»
447
линии общего вида эти траектории (такие, как показанная на
рис. А.5.2 траектория РА) описываются уравнениями вида
r=Ciexp(—с28), где с,— константы.
При /1>0 мы получаем траектории (РСи РС2,. . ., показан-
ные на рисунке), где ограничение существенно, т. е. время Т, ко-
торым располагает Р, оказывается меньшим, чем то, которое
необходимо для прохождения РА. Наконец, появляется траекто-
рия РВ, где времени Т хватает лишь на то, чтобы пройти по
горизонтальному отрезку ((А.5.1) пре-
вращается в равенство).
В нашем стандартном случае пря-
молинейного берега с расположенной
на нем батареей абсолютно оптималь-
ная траектория РА (см. рис. А.5.1)
оказывается дугой окружности с по-
стоянным г. В то же время существен-
но ограниченные траектории опреде-
ляются уравнениями
(А.5.4)
du
Рис. А.5.2.
где X (х) = ('УтJ-)-(а/Я + 51J.
Выражение для 8 в конечном виде можно получить, если
взять неопределенный интеграл
1 ,._ h (Сх -\- В) -\- А + Вх + а УХ
, (Сх -\-В)-\-А-\-Вх-\-а УХ~ '
dx
:1П
где Х = Сх2 + 2Вх + А, а |; — корни многочлена X — а2.
Следующее тождество, которое можно получить с помощью
уравнений характеристик и основного уравнения, оказывается
полезным при интегрировании почти во всех случаях:
(ГУГ) =
VT) = COnSt.
(A.5.5)
Пример А.5.2. Неограниченное время полета. Если Р может
лететь по траектории любой длины, а Е ограничен как в макси-
мальной скорости стрельбы с, так и в запасе боеприпасов т, то
оптимальная игра становится очевидной: Р движется по прямой
от О до тех пор, пока Е не истратит все боеприпасы; после этого
он любым способом следует к _§='. Ясно также, что Е сразу
448 Дополнение
начинает стрелять с полной скоростью (г|з=1) и продолжает де-
лать это до полного истощения боеприпасов1).
Упражнение А.5.1. Используя <?2' получить этот результат ана-
литически.
Разумеется, приведенное выше решение справедливо и при
условии, что время Т ограничено, если только оно достаточно
велико, чтобы позволить Р после радиального полета достичь J?,
не уменьшая при этом расстояние
ОР. Более точно: нужно, чтобы
(А.5.6)
Равенство приводит к траектории
РАВ, показанной на рис. А.5.32). Здесь
АВ — дуга окружности.
Пример А. 5.3. Ограниченность боепри-
пасов и неманеврирующий самолет.
Если в (А.5.1) должно выполняться
_ равенство, то у Р не остается иного
выбора, кроме прямолинейного пути,
перпендикулярного к J?- Тогда поло-
жение идентично рассмотренному в
Рис. А.5.3. примере 7.14.1 с имеющейся там полу-
универсальной поверхностью.
Интересно изучить обобщение задачи на случай выдвину-
той защиты, когда батарея О расположена на расстоянии D
впереди J?. Предположим сначала, что m мало. Тогда Е будет
стрелять в полную силу (гр=1), в то время как Р будет дви-
гаться в интервале соответствующей длины, симметричном отно-
сительно О. Но если m>2Dclv, то у Е остается достаточно бое-
припасов, чтобы начать стрельбу до того, как Р подойдет к J?
на расстояние 2D. Тогда Е начинает стрелять в полную силу в
тот самый момент, когда он окажется способным поддерживать
полный огонь до тех пор, пока Р не достигнет J?. Таким обра-
зом, он стреляет на протяжении последнего интервала игры дли-
') Если рассматривать эту задачу вне настоящего контекста, то решение
покажется практически нелепым, но тем не менее оно верно с математиче-
ской точки зрения. Нереальность является здесь следствием формулировки
задачи, а не ее решения. Такие формулировки создают трудности для нович-
ка в военном анализе, и мы приглашаем читателя подумать над этим при-
мером.
2) Разумеется, А лежит на терминальном множестве ^2, и, следователь-
но, дуга АВ не является частью формального решения. Тем не менее через
несколько страниц такие траектории появятся.
А.5. Игра «бомбардировщик и батарея»
449
тельностью т/с. Если же x^Cvm/c, то Е открывает полный огонь
немедленно; Р достигает J?, когда часть боеприпасов еще оста-
ется неиспользованной.
Все это приводит к траекториям в пространстве «f, показан-
ным на рис. А.5.4 (на плоскости т, г необходимы только две
Рис А.5.4.
фазовые координаты), которые читатель без труда сможет ис-
толковать.
Проблема А.5. Можно ли получить это очевидно верное реше-
ние чисто аналитическим путем?
Исследуем теперь более общие решения и найдем возмож-
ную гр-универсальную поверхность. Идеи гл. 7 требуют, во-пер-
вых, сведения к случаю терминальной платы. Число фазовых
координат станет тогда равным пяти; наша обычная техника
оказывается неприменимой, но можно решить эту игру по
частям.
Три уравнения G.13.2) имеют в этом случае вид
cV +-
min v \Vr sin ф ¦— cos ф 1
=0,
= — pv — Vr — 0,
sin cp =
(a)
(P)
(Y)
где и — вновь введенная фазовая координата. '
Оставляя в стороне очевидно тривиальный случай 1/м = 0, на-
ходим из (у), что sin ф = 0. Такое движение означает, что траек-
тория является дугой окружности постоянного радиуса г с цен-
тром в точке О.
29 Зак. 522
450 Дополнение
Если Е имеет достаточно боеприпасов для поддержания не-
прерывного огня с максимальной скоростью, то мы возвращаем-
ся к примеру А.5.1. Поэтому мы предположим, что не всегда
i|: = l. Нам придется найти гр — оптимальный для Е способ рас-
пределения ограниченного количества боеприпасов.
Мы утверждаем, что значение гр в течение игры должно быть
постоянным и при этом таким, чтобы Е израсходовал весь свой
запас т как раз в тот момент, когда Р достигнет _§*. Действи-
тельно, если Е распределит свой запас неравномерно, то будет
существовать по крайней мере один малый интервал времени,
где гр будет больше, чем среднее значение гр, и некоторый дру-
гой, на котором гр меньше, чем это значение. Если Р укоротит
свой путь на протяжении последнего интервала, летя по хорде,
а не по дуге окружности своей оптимальной круговой траекто-
рии, и, используя сэкономленное время Т, слегка увеличит г на
протяжении первого интервала, то он улучшит (уменьшит) пла-
ту. Следовательно, такая стратегия Е не сможет быть опти-
мальной.
На поверхности, которая должна быть универсальной, г и гр
постоянны и равны, скажем, s4 и s2. Введем параметризацию (в
исходном пространстве <?):
в = «-|2., (А.5.7)
m = cs2s3,
На этой поверхности в силу первоначального определения
плата равна
Задача А.5.1. Показать, что необходимые условия (а), (р), (у)
выполняются на поверхности (А.5.5). Доказать непосредствен-
ным рассуждением, что эта поверхность универсальна.
Используя (А.5.5) в качестве начальных условий, мы можем
проинтегрировать уравнения характеристик обычным образом
при i}> = 0 и ip=l для получения двух множеств траекторий-при-
токов.
Траектории-притоки при максимальной скорости стрельбы
Интегрирование показывает, что г всегда является возра-
стающей функцией от т, и, следовательно, эти траектории под-
Л.5. Игра «бомбардировщик и батарея»
451
ходят к универсальной поверхности с внутренней стороны. За-
метим также, что они отличаются от траекторий примера А.5.1,
где г — невозрастающая функция от т.
Не все интегралы уравнений характеристик представляют
собой оптимальные траектории. Действительно, если бы траек-
тории, на которых s2 = 0, пересекали универсальную поверхность
на линии J? с израсходованными боеприпасами и были опти-
мальными, то это противоречило бы установленному в примере
А.5.1.
Изучим предельное поведение
при гр —»0. Среди уравнений траек-
торий с S2 = 0 находим
г —s, — vx, 9 = -^-.
Но это радиальная траектория при-
мера А.5.2. Далее мы видим, что по
достижении универсальной поверх-
ности (т = 0) т обращается в нуль
и Р продолжает движение по дуге
окружности при отсутствии огня
(лр = 0). Таким образом, мы полу-
чаем в точности всю траекторию,
приведенную на рис. А.5.3. Эта тра-
ектория единственна, если у ? не хватает запаса времени для
какой-либо другой. Поэтому этот случай отмечает то критиче-
ское значение Г, при переходе через которое исследуемый здесь
случай переходит к случаю, рассмотренному в примере А.5.2.
Посмотрим теперь, что случится, если Т начнет убывать от
этого критического значения. Траектории последовательно из-
меняются, проходя через точки Л,, В{ на рис. А.5.5. На участке
РАг поддерживается максимальная скорость стрельбы (гр=1),
на дугах окружностей Л,-В, (г'?=1) Е стреляет с такой постоян-
ной скоростью гр<1, чтобы исчерпать все боеприпасы как раз
в тот момент, когда Р достигнет J3?.
Посмотрим, что случится при другом предельном переходе,
когда \p = s2—* 1. Траектории-притоки переходят в дуги окружно-
стей, которые лежат на универсальной поверхности. Это может
случиться, только если
О
Рис. А.5.5.
Таким образом, нет качественного различия между притоками
и универсальными траекториями.
Итак, посмотрим, что происходит, когда Р начинает движе-
ние из заданной начальной точки при фиксированном, но доста-
29*
452 Дополнение
точно большом пг, а располагаемое им время Т принимает раз-
личные значения. Наименьшее допустимое Т допускает лишь
прямолинейную траекторию PF, показанную на рис. А.5.5. При
увеличении Т траектория непрерывным образом переходит в ду-
гу PD (как в примере А.5.1); плата при этом уменьшается.
Предположим, что остается избыток боеприпасов, т. е. т>0 в
точке D. Большие значения Т, как мы знаем, приводят к траек-
ториям РАгВ{. Но поскольку Т на этом множестве траекторий
убывает, мы должны начать с траектории РА0, где Ло лежит на
J2? и гр=1 на всем протяжении партии. Эта траектория, как мы
видим, отлична от PD и не является оптимальной. Итак, плата
для РА0 больше, чем для PD. Но плата для PAi(Bi) меньше
(она наименьшая из всех возможных). Следовательно, должна
существовать промежуточная траектория, скажем РА2В-2, для
которой значение платы равно ее значению на PD.
Таким образом, если Т возрастает выше значения, соответ-
ствующего траектории PD, то на некотором интервале времени
Т последняя остается оптимальной, а плата V — постоянной. Это
происходит до тех пор, пока Т не возрастет настолько, чтобы
оказалась осуществимой траектория РА^В^, здесь Р имеет две
оптимальные стратегии. (Есть ли здесь рассеивающая поверх-
ность?) Дальнейшее увеличение Т ведет к траекториям РАгВг с
возрастанием V, пока, наконец, мы не получим траекторию РЛ4.
Чем больше пг, тем больше указанный пробел. Случай беско-
нечного пг, как в примере А.5.1, приводит к тому, что наилуч-
шей возможной траекторией оказывается PD и пробел, увеличи-
ваясь до бесконечности, перестает существовать.
Проблема А.5.2. Охарактеризовать множество начальных поло-
жений, для которых Р имеет две оптимальные стратегии. Может
ли оно быть получено конструкцией, аналогичной той, которая
приведена в § 6.5 и результатом которой является рассеиваю-
щая поверхность?
Траектории-притоки при отсутствии стрельбы (гр = 0)
Интегрирование уравнений характеристик показывает, что
эти траектории прямолинейны. Следовательно, они касаются
универсальной поверхности и имеют вид, показанный на рис.
А.5.6.
Ясно, что для них выполняется условие
гб > vT,
и пг меньше того значения, которое требуется для поддержива-
ния огня с полной скоростью во время прохождения указанной
на рисунке пунктирной дуги.
А.5. Игра «бомбардировщик и батарея»
453
Отметим естественность результата. Траектории таковы, что
максимизируется достигающееся на них минимальное расстояние.
Наконец, должен быть еще один класс решений. Рассмотрим
пример А.5.3, в котором wr=rsin8, так что Р обязан двигаться
Р
Рис. А.5.6.
по прямолинейному горизонтальному отрезку, a m невелико, и
поэтому Е стреляет с полной скоростью лишь на конечном ин-
тервале. Мы видели, что в результате получается полуунивер-
сальная поверхность.
Рис. А.5.7.
При небольшом увеличении Т траектории расположены по-
близости от прямой траектории и следует ожидать, что между
ними будет качественное сходство. Это явление более интересно
в случае выдвинутой защиты. Основное новшество состоит в том,
что многие оптимальные партии кончаются, когда запас m уже
исчерпан, а Р еще не достиг J? (причины этого интуитивно яс-
ны). Поверхность &2 состоит из положений, находящихся левее
454
Дополнение
О, где запаса времени Т в точности достаточно для горизонталь-
ного полета до О.
Решения разбиваются на два класса. Один состоит из траек-
торий, на которых г растет вместе с t, искривляющихся по на-
правлению к J?\ Второй содержит поверхность переключения.
Типичная оптимальная траектория показана на рис. А.5.7. Здесь
Рис. А.5.8.
В есть точка поверхности ?f2, a А — точка поверхности пере-
ключения. На прямолинейных отрезках РА и ВС огонь отсут-
ствует. Стрельба ведется только на АВ — кривой, которая глад-
ко переходит в РА и ВС. На ней г<\ОА\ = \ОВ\ (за исключе-
нием самих точек Л и В), и она симметрична относительно
своей средней точки.
Хотя такие траектории и похожи на траектории примера
А.5.3, однако мы здесь не изучили деталей распределения огня.
Он, по-видимому, также постепенно уменьшается до гр = О на
притоках к универсальной поверхности.
Эта поверхность в случае выдвинутой защиты включает оп-
тимальную игру, подобную изображенной на рис. А.5.8. Дуга
Р\В лежит на универсальной поверхности и заканчивается на
множестве точек, представленном на рисунке точкой В; слева
от нее, как и раньше, лежат горизонтальные траектории без
стрельбы.
Возможность слияния притоков рис. А.5.6 с такой универ-
сальной поверхностью, траектории которой показаны на
рис. А.5.1, достаточно очевидна.
ЛИТЕРАТУРА
[!] Isaacs R., Rand Reports RM-1391 C0. XI. 1954), RM-1399 C0. XI. 1954),
RM-1411 B1. XII. 1954), RM-1486 B5. III. 1955).
[2] П о н т р я г и н Л. С, Болтянский В. Г., Гамкрелидзе Р. В.,
Мищенко Е. Ф., Математическая теория оптимальных процессов, Физ-
матгиз, М., 1961.
[3] К е л е н д ж е р и д з е Д. Л., К теории оптимального преследования, ДАН
СССР, 138, № 3 A961), 529—532
[4] В е г к о v i t z L. D., A variational approach to differential games, Rand
Report RM-2772 A961).
Fleming W. H., The convergence problem for differential games,
/. Math. Analysis and Appi, 3 A961), 102—116.
Berkovitz L. D., Fleming W. H., On differential games with in-
tegral payoff; Fleming W. H., A note on differential games of prescri-
bed duration; Scarf H., On differential games with survival payoff;
статьи в сборнике Contributions to the theory of games III под редакцией
Dresher M., Tucker A. W., Wolfe P., Annals of Mathematics
Study 39, Princeton University Press, 1957.
[5] Bellman R., G 1 i с k s b e r g I., Gross O., On the "Bang-bang" control
problem, Quart. Appl. Math., 14 A956), 11 — 18.
Busliaw D. W., Ph. D. Thesis, Department of Mathematics, Princeton
University, 1952; Differential equations with a discontinuous forcing term,
Experimental towing tank, Stevens Institute of Technology, Report № 469
(January 1953); Optimal discontinuous forcing terms, Contributions to the
theory of nonlinear oscillations, IV, Princeton, 1958.
Гамкрелидзе Р. В., Теория оптимальных по быстродействию процес-
сов в линейных системах, Изв. АН СССР, сер. матем., 22, № 4 A958),
449—474.
Кр а со веки й Н. И., К теории оптимального регулирования, Автома-
тика и телемеханика, 18, № 11 A957), 960—970.
LaSalle J P., Abstract 247t, Bull. Amer. Math. Soc, 60 A954), 154;
Study of the basic principle underlying the "Bang-bang" Servo, Goodyear
Aircraft Corp., Report GER-5518 (July 1953); The time optimal control
Problem, Contributions to the theory of nonlinear oscillations, V, 1—24,
Princeton, 1960.
К aim an R. E., Ho Y. C, Narendra K. S., Controllability of linear
dynamical systems, Contributions to differential equations, I A963),
189—213.
[6] Курант Р., Гильберт Д., Методы математической физики, том II:
Курант Р., Уравнения с частными производными, изд-во «Мир», М.,
1964 г.
[7] JaSalle J. P., Stability and control, RIAS Technical Report 16—17.
456 Литература
[8] В и л ь я м с Дж., Совершенный стратег, или букварь но теории стратеги-
ческих игр, изд-во «Советское радио», М., 1960.
[9] I s а а с s R., Decoy attacks, Hughes Aircraft Company Report SRS 10—300
A958).
[10] Дрешер М., Стратегические игры. Теория и приложения, изд-во «Со-
ветское радио», М., 1964.
[11] Danskin J., A game over function space, Riv. Mat. delta Univ. di Par-
ma, 4 A952).
[12] Grenander L1., A tactical study of evasive maneuvers, FOAP Re-
port 126, Research Institute of National Defense, Stockholm 80, Sweden
(March 1963).
[13] Dubins L. E., A discrete evasion game, Inst. Air Weapons Res. Tech.
Note № 2.
К a r 1 i n S., Isaacs R., A game of aiming and evasion, Rand Report
RM-1316.
Isaacs R., A game of aiming and evasion: general discussion and
Marksman's strategies, Rand Report, RM-1385; The problem of aiming and
evasion, Naval Res. Logistics Quart., Vol. 2, № 1, 2 (June 1955).
[14] Norris R. C, Studies in search of a conscious evader, Lincoln Labora-
tory Tech. Rep. № 279 A962).
[15] J. von Neumann, Morgenstern O., The theory of games and eco-
nomic behavior, Princeton University Press, 1947. (Русский перевод гото-
вится к печати в изд-ве «Наука».)
[16] В i I h а г z H., Z. angew. Math. Mech., 22 A942), 206—215.
В u s h a w D., Contributions to the theory of nonlinear oscillations IV,
Princeton, 1958.
Fliigge-Lotz I., Discontinuous automatic control, Princeton, 1953.
Andre J., Seibert P., Archiv d. Math., 7 A956), 148—156, 157—165
(русский перевод см. в сб. Механика, № 5 D5), A957), 131—145); Сотр-
tes Rendus, 245 A957), 625—627; Bol. Soc. mat. mexicana, A961), 242—245.
Солнцев Ю. К., Ученые записки МГУ, 48, № 4 A951), 144—180.
[17] Isaacs R., Rand Report P-257, Games of Pursuit A7. XI. 1951).
[18] Hale, La S a 1 1 e, Differential Equations; Linearity vs. Nonlinearity SI AM
Review, 5, № 3 A963).
ПРИЛОЖЕНИЕ
Обзор некоторых результатов
по теории дифференциальных игр
М. И. Зеликин, Э. Н. Симакова
Теория дифференциальных игр — это новое математическое
направление, возникшее всего лишь несколько лет назад. Она
тесно связана с теорией оптимального синтеза, адаптивными
процессами и управлением случайными процессами; некоторые
ее аспекты переплетаются с такими классическими направления-
ми, как многошаговые (дискретные) игры, дифференциальные
уравнения, вариационное исчисление. Теория дифференциальных
игр, интенсивно развивающаяся в настоящее время, весьма да-
лека от завершения. В этом обзоре мы попытаемся осветить со-
временное состояние и наиболее существенные продвижения в
теории дифференциальных игр, не затронутые в книге Айзекса.
Первые работы, посвященные дифференциальным играм, по-
явились 10—15 лет назад. Толчком к изучению дифференциаль-
ных игр послужили задачи из различных практических областей.
Одним из первых интересные результаты в этой области полу-
чил Р. Айзеке. Вопросы существования решения дифференциаль-
ной игры и вопросы сходимости решения многошаговой игры к
решению дифференциальной исследовал в 1957—1964 гг. В.Фле-
минг [1—З]1). Л. Берковиц [4, 5], используя подходы вариацион-
ного исчисления, получил в 1964 г. необходимые условия опти-
мальности и некоторые достаточные условия, сформулированные
в терминах поля. Достаточные условия в более общих пред-
положениях, а именно когда решение уравнения Беллмана мо-
жет иметь ветвление, получены Л. С. Понтрягиным [6, 7] в 1964 г.
Практический метод решения некоторых дифференциальных игр
был предложен в 1965 г. Н. Н. Красовским и др. [8, 9]. Исследо-
ванию различных аспектов теории и решению конкретных задач
посвящены появившиеся в последнее время работы [10—24,
27—35].
Мы будем использовать принятые в советской литературе
обозначения, которые несколько отличаются от обозначений,
применяемых Айзексом.
Игра задается системой дифференциальных уравнений
z = f(z, u, v), A)
') Цифры относятся к литературе приложения. — Прим. ред.
458 Приложение
где z=(zb ..., 2„), и=(мь ..., ир)?Еи, v=(ub ..., у„) ??„;
Eu и Ev — компактные множества в евклидовых пространствах
Rp и Rq соответственно. Игра считается оконченной, когда точка
z достигает заданного многообразия S <= Rn. Кроме того, за-
дается функционал (плата)
B)
где Т — момент первого достижения точкой z терминального
многообразия S.
Стратегиями называются вектор-функции u(z) ?Qu,v(z) 6Q»,
принимающие значения в Еи и Ev соответственно; Qu и Qv — не-
которые пространства допустимых функций.
Эта игра будет в дальнейшем обозначаться G(/,u, v).
1. Вопросы сходимости и существования. Вопрос о сущест-
вовании цены игры и оптимальных стратегий игроков в общей
задаче дифференциальных игр очень сложен. Оптимальные стра-
тегии u(z), v(z) по определению являются функциями, которые
сопоставляют состоянию игры z определенные значения управ-
лений; таким образом, задача об отыскании оптимальных стра-
тегий есть общая задача синтеза, осложненная наличием игро-
вой ситуации.
Известно, что всякая многошаговая игра с полной информа-
цией имеет седловую точку в чистых стратегиях (см., например,
[25, теорема 6.1]). Поэтому естественный подход к проблеме су-
ществования в дифференциальных играх — исследовать их как
предельный случай многошаговых игр, когда число шагов не-
ограниченно возрастает. Такой подход в настоящее время раз-
работан Флемингом [1—3], получившим в этом направлении ин-
тересные результаты.
Флеминг рассматривает дифференциальную игру G(J, u, v),
оканчивающуюся в момент t = T. Предполагается, что функции
fa, fi, ¦¦¦, fn непрерывны на RnxEuxEv и удовлетворяют усло-
вию Липшица по z, т. е.
\f,(z, и, у) — fi(z', u, v)|<C|z — z'|, / = 0,1,..., л, C)
где С — константа, не зависящая от z, z'. Дискретный аналог
игры G(J, u, v) —многошаговая игра, описываемая разностными
уравнениями
zJ+l = Z]-\-bkf(Zj,Uj,Vj), D)
где Z; есть j-e состояние игры, 6/{ = 2-ftT — интервал времени ме-
жду двумя последовательными ходами, &=1, 2, . .. ; управления
Обзор некоторых результатов 459
и,, V,- выбираются одновременно из выпуклых компактных мно-
жеств Еи, Ev; начальным состоянием игры является гг, а конеч-
ным Zjv, N = 2h. Обозначим tr = r8k, гдеО<г<2й(л— целое).
Тогда плата, соответствующая некоторой фиксированной партии,
равна
лг-1
Л(zr, tr) = 2 h(*л u;. vyN, + K°(Zyv), E)
где l/°(zA-) —непрерывная функция, удовлетворяющая условию
Липшица; V0 определяет значение платы, соответствующее ко-
нечному состоянию zN. Условия C) гарантируют ограниченность
последовательности {z,., zr+i, . . ., zN}. Обозначим сформулирован-
ную многошаговую игру через G(Jh, u, v).
Индукцией по г легко показать, что цена игры G(Jh, u,v),
которую мы будем обозначать через Vh{z,t), удовлетворяет
функциональному уравнению (см., например, [39])
J0(z, u- v) + ^(z + 6,f(z, u, v), t ]
Vk(z, T) = V°(z), A=l, 2, ....
Здесь Val — цена одношаговой игры, определенной на множе-
стве EuxEv, с платой, задаваемой выражением, стоящим в квад-
ратных скобках.
Назовем минорантой игру, совпадающую с игрой G(Jk, u, v),
но с той лишь разницей, что на /-м шаге игрок Р при выборе
своего управления Uj уже знает управление противника v;-. Ма-
жорантной назовем игру, когда при выборе v,- игрок Е знает
управление Uy. Соответствующие значения цены обозначим че-
рез Vn (z, t) и Vt (z, t). Тогда для V*". V*' имеют место урав-
нения
V* (z, 0 = max min [6ftf0 (z, u, v)-f V^ (z+6*f (z, u, v), t + 6*)],
l/,-(z, Г) = И(г), G)
Vt(z, O = minmax[6*fo(z, u, v) + n+(z + 6,f (z, u, v), ]
l/,+ (z, r) = V°(z), A=l, 2
Легко видеть, что
V." < V* < Vk ¦
Определенные таким образом минорантная и мажорантная
игры представляют собой многошаговые игры с полной инфор-
мацией, для которых доказано существование решения в чистых
стратегиях (см., например, [25]).
460 Приложение
В работах [1, 2] устанавливается, что если в многошаговой
игре G(Jh, u, v) функции /f, ...,/„ удовлетворяют условию Лип-
шица C) и линейны относительно u, v, a f0 выпукла по и, вогну-
та по v и представима в виде
fo(z, u, v) = fj(z, u) + f2(z, V),
то справедливы соотношения
lim V~k (z, /f)= lim V* (z, /f)= lim V*(z, г1)-
k~>co k~>co k->co
В статье [10] получен более слабый результат для общего
случая игр на выживание, а именно, там показано, что предел
функции Vn(z), удовлетворяющей уравнению Беллмана F) для
многошаговой игры, подчиняется неравенствам
V~ = lim VI < lim V*(z)< lim V? = V+f
k ~> CO k -> CO k -> CO
где Vft". Vt — значения цены для соответствующим образом
определенных минорантной и мажорантной игр.
В работе [3], посвященной проблеме сходимости, с помощью
интересного построения доказано более сильное утверждение:
Если в многошаговой игре G(Jh,u,v) функции f0, /i, ...,/„
непрерывны и удовлетворяют условию Липшица C), то сущест-
вует lim Vk{z, t); при этом имеет место равномерная сходи-
мость на каждом ограниченном множестве пространства состоя-
ний (z, t).
Остановимся коротко на основных этапах доказательства это-
го утверждения. Наряду с детерминированной игрой G(Jk, u, v)
рассмотрим вспомогательную многошаговую стохастическую
игру, описываемую стохастическими разностными уравнениями
z;-+1 = Zj -H bkf (Zj, Uj, Vj) + « Vbk •4/. (8)
где r\ —(ц1 . . ., xfj} — взаимно независимые случайные величи-
ны, принимающие значения 1 и —1; математическое ожидание
и дисперсия равны соответственно Miij = 0, Drjj = 1; а — положи-
тельный малый параметр; платой является математическое ожи-
дание E). Цена этой игры V% для каждого а>0 удовлетворяет
функциональному уравнению (см., например, [39])
V%(z, *) = ValM[6J0(z, u, v) +
u,v
+ Vi (z +- 6*/ (z, u, v) 4- a /67 Л, t +- 6»)]. (9)
Обзор некоторых результатов 461
Эта стохастическая игра имеет решение в смешанных страте-
гиях \i(z,t) и v(z,t), которые каждому состоянию (z, t) сопо-
ставляют вероятностные меры, сосредоточенные соответственно
на Еи и Ev.
Рассмотрим теперь нелинейное параболическое уравнение
fo(z, u, v) +
+ \fi%n,
= 0, A0)
Va(z, T) =
где AVa— У^—2 оператор Лапласа. Существование класси-
ческого решения этого уравнения установлено в [35, 36].
Тогда (см., например, [3]) для каждого е>0 найдутся такие
константы Л>0, 0<ос<Л и такое 1г0, что
\Vak(z, t)-Va(z, 0|<(е + Л6*O- A1)
для каждого состояния (z, t) и &>max (k0, k(T)).
Использование некоторых вероятностных соображений позво-
ляет оценить разность между ценой детерминированной много-
шаговой игры Vk(z,t) и ценой стохастической многошаговой иг-
ры Vk(z, t) и установить, что
\V%(z,t)—Vt(z,t)\<K-aYJ, A2)
где К — положительная константа.
Теперь из A1) и A2) легко следует доказываемое утвержде-
ние. В самом деле,
lim Vk(z, 0<Va(z, t)-\-tt + Ka.yT,
lim Vk (z, t) > Va (z, t) — et — Ka УТ,
fc-^co
и так как е и а произвольны, то lim Vh(z, t) существует.
k ->co
Формальный переход к пределу при ^->оо в функциональ-
ном уравнении F) дает следующее уравнение в частных произ-
водных первого порядка:
+ Va! [)?Mz, u, v) | fo(z, u, v)] =0.
A3)
462 Приложение
Это уравнение было, по-видимому, впервые получено Р. Айзек-
сом. Заметим, что вывод этого уравнения предполагает диффе-
ренцируемость функции V(z,t).
Уравнение A3) для дифференциальных игр является анало-
гом уравнения Гамильтона — Якоби для задач вариационного
исчисления. В классических работах по вариационному исчис-
лению существование решения уравнения Гамильтона — Якоби
показано в предположении существования гладкого поля экстре-
малей.
В ряде работ по уравнениям в частных производных [29—33]
при значительно менее жестких условиях доказано существова-
ние решения уравнения Гамильтона — Якоби, правда в некото-
ром обобщенном смысле. Остановимся несколько подробнее на
аналогичных результатах, полученных в [29] для уравнений ти-
па A3).
Рассматривается задача Коши для уравнения в частных про-
изводных первого порядка:
dt A4)
V(z, T) = V°()
где функция Н равномерно по t удовлетворяет условию Гёль-
дера с показателем 0<р<1
\H(t\z,V,p)-H(t,z,V,p)\<K(l+\V\ + \p\(t'-tf2),
a V°(z) ограничена и удовлетворяет условию Липшица. Под об-
общенным решением уравнения A4) будем понимать функцию
V(z,t), удовлетворяющую условию Липшица, для которой A4)
выполняется для почти всех (z, t).
Основной результат работы [29] — это установление сущест-
вования обобщенного решения уравнения A4). Методы доказа-
тельства этого результата аналогичны методам работы [3] и
основаны на несколько более общих конструкциях, представляю-
щих самостоятельный интерес.
Рассмотрим вспомогательную стохастическую игру с полной
информацией, описываемую системой стохастических дифферен-
циальных уравнений Ито в векторной форме:
где г|(^) = (t]i(/), . . . , цп{()) есть га-мерный винеровский процесс;
o(t> I) — i\oij(t, |)ll — положительно определенная матрица. В ка-
Обзор некоторых результатов 463
честве платы возьмем условное математическое ожидание (при
условии, что |@)= г)
У(г, 0) = М fo(t, I, u, v)dt + V°(l(T))\l@) = z\ A6)
I - I
(о J
функционала B).
Главная причина рассмотрения такого рода конструкций за-
ключается в том, что функция
j ъ *=м{ (f si и
J(z,t - ^J os, i, u, ^
при некоторых ограничениях гладкости на f и а удовлетворяет
параболическому дифференциальному уравнению (см. [34])
п
^y + ^-gj-fiO1. z, u, v) + fo(z, u, v) = 0, A7)
где
n
dJ V^ d2J (z, t)
Детерминированный аналог уравнения A7) (ajj(z, 0=0) имеет
место лишь при очень сильном дополнительном предположении
о гладкости функции /(z, t) при любых управлениях u, v. В ра-
боте [29] рассматривается уравнение Беллмана для игры A5),
A6) вида
™%-n=v*v>*V')=°' A8)
где
H(t, z, V, Vz) =
здесь h = h(z, t) — коэффициент обрыва диффузионного процесса
A5). Как уже упоминалось, существование классического ре-
шения квазилинейного параболического уравнения A8) при не-
вырожденной матрице о(г, t) доказано в [35] и при более ослаб-
ленных предположениях — в [36]. Однако наибольший интерес
для дифференциальных игр представляет случай вырожденных
операторов L; в частности, если a,i(z. 0 ~0, то мы имеем дело
с обычной дифференциальной игрой.
464 Приложение
Доказательство существования обобщенного решения (в
смысле Соболева) уравнения A8) для вырожденного оператора
L проводится по следующей схеме.
Рассматривается невырожденное параболическое уравнение,
зависящее от малого параметра е>0:
где Д —оператор Лапласа. Далее, пусть Vt(z, t) — цена стоха-
стической многошаговой игры, описываемой разностным анало-
гом системы A8), с матрицей диффузии a(z,t)+sl, где / — еди-
ничная матрица, a Vft(z, t)—цена соответствующей игры при
е = 0. Показывается, что V\(z, t)-± Vk(z, t) при е —> 0 равно-
мерно по k и (z, t). В то же время V% (z, t) -> V (z, t) при k-*oo.
Таким образом, lim Vе (z, t)= lim Vk(z, t)= V(z, t) является
e~>0 k ->co
обобщенным решением задачи Коши для уравнения A8). При-
менительно к детерминированному случаю Qij(z, ?)=0 по той же
схеме доказано, что функция V (z, t)-= lim Vj.(z, t) является
ft-* со
обобщенным решением уравнения A3).
Рассмотренные выше стохастические дифференциальные иг-
ры, которые использовались в качестве вспомогательных кон-
струкций в проблемах сходимости и существования, тесно свя-
заны с теорией управляемых диффузионных процессов (см. [40,
41]) и представляют самостоятельный интерес.
В работе [12] рассматривалась стохастическая дифферен-
циальная игра типа A5), A6), где в качестве терминального
многообразия взята граница некоторой области в расширенном
пространстве состояний (z,t). Предполагается, что управления
игроков входят линейно в правые части уравнений A5) и при
фиксированном (z, t) множества значений управлений обоих иг-
роков представляют собой невырожденные эллипсоиды в про-
странствах /?р, R,,, зависящие, вообще говоря, от (z, t).
На основании результатов, связанных с существованием ре-
шений квазилинейных параболических уравнений, в работе [12]
показано, что цена игры'Удовлетворяет уравнению A3) и дости-1
гается на чистых стратегиях.
Кроме рассмотренных выше работ, вопросы существования
решения дифференциальных игр затронуты в [13, 14]. В частно-
сти, в [13] дифференциальная игра рассматривается в рамках
общей теории непрерывных игр, формулируемых следующим об-
разом. Стратегии игроков Р и Е являются элементами некото-
рых абстрактных множеств Qu, Qr. Пусть-задано отображение
множества QuxQr в некоторое топологическое пространство X.
Тогда можно определить игру в нормальной форме G (J, u, v),
Обзор некоторых результатов 465
где J — действительная функция, определенная на X. Очевидно,
что такая постановка формально охватывает дифференциальные
игры. Для такого рода игр при некоторых ограничениях топо-
логического характера на } (z) сформулирован ряд теорем суще-
ствования. Однако проверка этих условий в конкретных ситуа-
циях наталкивается на существенные трудности, а в дифферен-
циальных играх эти условия, как правило, не выполняются. Для
заданных таким образом непрерывных игр в работе [13] рассма-
триваются также их многошаговые аналоги и обсуждаются во-
просы аппроксимации непрерывных игр многошаговыми.
2. Необходимые условия оптимальности. Предположим, что
сформулированная выше дифференциальная игра G(J, u,v)
имеет седловую точку (u(z), v(z)). Рассмотрим вектор-функцию
ty(t), удовлетворяющую сопряженной системе дифференциаль-
ных уравнений
и положим
1-0
Имеет место следующее необходимое условие оптимальности в
форме, аналогичной принципу максимума Понтрягина (см. [37]).
Пусть u(z), v(z)—оптимальные стратегии игроков Р и Е,
z (z0, t, u (z), v (z)) = z (t) — соответствующая им оптимальная
траектория, исходящая из начального положения z0 в момент
t = t0 и оканчивающаяся на терминальном множестве S в мо-
мент t=T. Тогда существует такая ненулевая непрерывная век-
тор-функция ty(t), которая вместе с z(t), u(z(t)), v(z(t)) удо-
влетворяет уравнениям A8), A9), прл:"ем для всех t(z[O, T]
$(t), i(t), u, v) =
veBvu?Btt
= min тахЯШ/f), z(t), u, v). B0)
6В6й
Это условие было получено в работе [15] для случая гладкого
синтеза. Аналогичные необходимые условия получены Л. Берко-
вицем [5] для случая, когда любой допустимый синтез приводит
к так называемому регулярному разложению области X.
30 Зак. 522
466 Приложение
Предположим, что синтез u(z), v(z) разбивает область X на
непересекающиеся подобласти, разделенные кусочно-гладкими
многообразиями и заполняющими всю область X; на этих мно-
гообразиях стратегии u(z), v(z) могут иметь особенности опре-
деленного характера, а внутри каждой подобласти они являются
гладкими функциями. Кроме того, предполагается, что если точ-
ка находится на этих многообразиях, то скорость, соответствую-
щая паре функций u(z), v(z), не касается многообразия в этой
точке (последнее предположение особенно сильное и редко вы-
полняется в реальных ситуациях). Такое разбиение Берковиц
называет регулярным разложением области X, порожденным па-
рой стратегий u(z), v(z). В работе [5] рассматривается случай
синтеза, порождающего регулярное разложение области X;
ограничения на управления игроков предполагаются гладкими.
Необходимые условия оптимальности в этом случае можно за-
писать в форме, аналогичной принципу максимума.
3. Достаточные условия оптимальности. Если найдена глад-
кая функция V(z), удовлетворяющая уравнению A3), то эта
функция является ценой игры, а функции u(z, Vz), v(z, Vz), обе-
спечивающие соответственно минимум и максимум Н, опреде-
ляют оптимальные стратегии u(z), v(z).
Л. Берковицем в работе [5] сформулированы достаточные
условия в терминах поля: если стратегии u(z), v(z), допускающие
регулярное разбиение области X и удовлетворяющие необходи-
мым условиям оптимальности, таковы, что соответствующие им
функции образуют кусочно-гладкое поле, то эти стратегии опти-
мальны, если допустимыми стратегиями считать только те пары
функций u(z), v(z), которые в совокупности образуют регуляр-
ный синтез. Отметим, что для получения результатов, содержа-
щихся в [5], использованы подходы вариационного исчисления.
Дальнейшее продвижение в проблеме достаточных условий
было сделано Л. С. Понтрягиным в [6, 7]. Для формулировки
основного результата нам потребуется ввести некоторые обозна-
чения и понятия.
Рассмотрим дифференциальную игру преследования, описы-
ваемую уравнением
z = /(z, u, v),
где
Окончанием игры считается достижение точкой z многообразия
М. Введем функцию
п
И (ф, z, u, v) = 2 bh = Hi №. z, и) + Н2 (ф, z, v); и ? Еи, v ? Ev,
Обзор некоторых результатов 467
где Еи и Ev — гладкие многообразия. Рассмотрим систему лиф-
ференциальных уравнений
dzj _ дН
dx <5%
d\pj _ Ш_ ._„ 1
где т — время со знаком минус, отсчитываемое от момента окон-
чания, т. е. от терминального многообразия М. Найдем функции
v, и, доставляющие соответственно максимум и минимум Н.
Пусть решение системы B1), соответствующее этим функциям,
имеет вид
z = z(t, z0, Фо>,
ф = Ф(т, z0, ф0),
u = u(t, zo, Фо), B2)
v = v (т, z0, ф0),
z @, z0, ф0) = z0; Ф @, z0, ф0) = Фо-
Обозначим (т, z0, фо)=5, где zo?M, ф0 — вектор, ортогональный
к М в точке Zo, т-^0. Тогда соотношение B2) задает отображе-
ние © многообразия 5 в фазовое пространство Rn.
Рассмотрим случай, когда обратное отображение простран-
ства Rn на S неоднозначно, а именно, прообразами точки z слу-
жат точки (n, zOi, фоО, . . . , (тР, Zop, фор), где (т,-, z0,, фо.-) € 5. Мы
будем говорить, что точка s* = (t*, z*0, v]?*), являющаяся прообра-
зом точки z, принадлежит верхнему слою, если т*— max т,:.
1< <
Для удобства формулировки обозначим теперь (т, z0, г[?0) =
= (sb ..., sn). Пусть F(z, ф, u, v) — произвольная функция пе-
ременных z, ф, u, v. Заменив в ней переменные z, ф их выраже-
ниями через s из B2), мы получим функцию F(s, u, v) =
= /7(z(s), фE), и, v); заменив все аргументы выражениями из
B2), получим функцию F(s)—F(z(s),ty(s),u(s),v(s)).
Рассмотрим следующие условия:
1. Векторы d(alds2, .. ., da>/dsn линейно независимы в каждой
точке многообразия 5.
2. Если в некоторой точке многообразия S функция Я обра-
щается в нуль, то градиент ее в этой точке отличен от нуля.
3. Функция H](s, и) переменного u6?u достигает своего
максимума в единственной точке u(s) многообразия Еи. Точно
30*
468 Приложение
так же функция H2(s, v) переменного v?Ev достигает своего
минимума в единственной точке v(s) многообразия ?„.
4. Квадратичные формы, соответствующие максимуму функ-
ции #i(s, u) и минимуму функции H2(s, v), невырождены.
5. В каждой точке s, принадлежащей верхнему слою, Н(
6. Уравнение
u,v) = H(s, u, v) — H(s) = Wj(s, u) + A//2(s, v) = 0
всегда разрешимо относительно и для всех s?S и v?Ev. При
этом если vM=v(s), то это решение можно выбрать так, что гра-
диент по и функции A#i(s, u) будет в этой точке отличен от
нуля.
7. Многообразия Еи, Ev, M являются аналитическими; функ-
ции /(z, u, v), (o(s), ip(s), u(s), v(s) — аналитические.
8. Для всякой точки а пространства Rn и положительного
числа Т найдутся настолько малое положительное число е
и настолько большое положительное число р, что, ка-
ковы бы ни были управления u(^), v(^), O^O^T, и начальное
значение z0, удовлетворяющее условию |z0 — а|<е, решение
z(t) уравнения
с начальным значением z@)=z0 удовлетворяет неравенству
\z(t) — a\<p при 0<^<7\
9. Оба многообразия Еи и Ev компактны.
Сформулированная ниже теорема доказана в двух вариан-
тах: при выполнении условий 1, 2, 3, 4, 6, 8, 9 или условий 1, 2,
3, 4, 5, 7, 8, 9.
Теорема. Пусть A = a(s). Рассматриваемая игра на мно-
жестве А может быть закончена за время \х*\.
Заметим, что существуют примеры, где нарушение условия
1 приводит к такому положению дел, когда выбор управления
v ??„, соответствующего некоторому другому (не верхнему)
слою, приводит к захвату за время большее, чем |т*|.
4. Методы решения дифференциальных игр, не затронутые
в книге Айзекса. Сущнесть метода, предложенного в работах
[8, 9], состоит в том, что нахождение оптимальных управлений
игроков сводится к задаче нахождения управлений, позволяю-
Обзор некоторых результатов 469
щих перевести игру в некоторую точку фазового пространства,
определяемую областями достижимости WP и WE- Если эти об-
ласти — выпуклые замкнутые множества, то такой точкой будет
точка касания этих множеств в «момент поглощения», т. е. в пер-
вый момент времени, когда Wpzd We. Очевидно, что искомая точ-
ка зависит от положения игроков в начальный момент — от со-
стояния z. Поэтому управления игроков, «нацеливающие» дви-
жение их в эту точку, также являются функциями от z, т. е. они
осуществляют синтез. Ограничением к применению этого метода
является требование существования и единственности «точки
прицеливания». В работе [9] обсуждаются трудности примене-
ния метода и намечены пути их преодоления.
Наконец, следует упомянуть так называемый «геометриче-
ский» метод, используемый в основном при решении игр пресле-
дования. Исходя из различных геометрических построений, мо-
жно получить «области достижимости» игроков Р и Е и нахо-
дить решение. Особенно успешно этот метод применяется при
рассмотрении так называемых «простых игр преследования» —
игр, где скорости игроков постоянны, а управлениями являются
направления этих скоростей. Задачи этого типа рассмотрены в
[19, 20].
5. Некоторые конкретные задачи. Трудности, возникающие
при решении конкретных дифференциальных игр, весьма суще-
ственны. Прежде всего остается открытым вопрос о существо-
вании цены игры в общем случае игр на выживание. Рассмотрен-
ный Л. Берковицем [38] пример показывает, что для довольно
простой дифференциальной игры цена игры в чистых страте-
гиях не существует. Далее, во многих случаях оказывается, что
цена игры существует не во всей области X, а лишь в некоторой
ее подобласти; задача выделения этой подобласти представляет
собой некоторую игру качества. Как уже отмечалось, решение
дифференциальной игры есть задача синтеза; определение опти-
мальных стратегий u(z), v(z) связано с выявлением и нахожде-
нием большого числа сингулярных многообразий. Поэтому ре-
шение конкретных задач представляет наряду с практическим
большой теоретический интерес, помогая выявить трудности
проблемы и наметить пути их преодоления. Приведем некоторые
результаты, связанные с решением конкретных задач.
Хорошими моделями дифференциальных игр, к тому же под-
дающимися геометрическим методам решения, являются так на-
зываемые простые игры преследования. В таких играх скорости
игроков Р и Е постоянны, а управлениями служат направления
скоростей; платой, как правило, выбирается время захвата. Если
Р имеет превосходство в скорости, а игра происходит во всем
4?0 Приложение
пространстве /?„, то цена игры существует (см. [21]). В работе
[20] рассмотрены некоторые варианты плоской простой игры
двух точек, а также задача погони двух точек за третьей. Раз-
личные варианты плоской игры преследования в Rn, а также
игры с «линией жизни» и «линией смерти» и некоторые группо-
вые игры рассмотрены в [16—18]; при этом предполагается, что
игроку Р в каждый момент известно не только состояние игры,
но и управление своего противника Е.
В работах [8, 9] рассматриваются игры преследования, опи-
сываемые линейными дифференциальными уравнениями с по-
стоянными коэффициентами; платой является время захвата. На
управления наложены ограничения интегрального типа. Игра
преследования между однотипными объектами рассмотрена в
[22]. Автор сводит задачу преследования к некоторой задаче об
оптимальном быстродействии и находит аналитическое выраже-
ние оптимальных управлений игроков через оптимальные управ-
ления, полученные для последней задачи.
В работе [23] наряду с некоторыми другими оптимальными
задачами рассматривается игра преследования спутников, дви-
жущихся по круговой орбите радиуса R вокруг Земли в поле си-
лы тяжести. Управлениями игроков являются направления по-
стоянного по величине ускорения, развиваемого двигателями; в
качестве платы выбрано время захвата. Показано, что при оп-
тимальном движении спутников направления их ускорений
должны совпадать.
В [44] рассмотрена плоская игра преследования между объ-
ектами, скорости и радиусы кривизны которых ограничены, в ка-
честве платы выбирается время захвата, и захватом считается
сближение игроков на заданное расстояние. Постановка этой
задачи приведена Айзексом, а в работе [44] найдены оптималь-
ные стратегии и определена цена игры в области, где начальное
расстояние между объектами больше радиуса кривизны их
траекторий.
Постановка задачи в линейной игре преследования с фик-
сированным временем содержится в [24]; платой выбирается
функционал, определяющий энергетические затраты игроков;
необходимые условия получены формальным применением ва-
риационного исчисления.
ЛИТЕРАТУРА
1. Fleming W. H., A note on differential games of prescribed durations,
Contributions to the theory of games, Ann. of Math. Studies, № 3, 1957,
407—412.
2. Fleming W. H., The convergence problem for differential games,
J. Math. Anal, and Appl., 3 A961), 102—116.
Обзор некоторых результатов 471
3. Fleming W. H., The convergence problem for differential games, II,
Adv. in game theory, Ann. of Math. Studies, 1964, 175—195.
4. Bercovitz L. D., Fleming W. H., On differential games with in-
tegral payoff, Contributions to the theory of games, Ann. of Math. Studies,
№ 3, 1957, 413—435.
5. Bercovitz L. D., A variational approach to differential games, Adv.
in game theory, Ann. of Math. Studies, 1964, 127—175.
6. Понтрягин Л. С, О некоторых дифференциальных играх, ДАН СССР,
156, № 4 A964).
7. П о н т р я г и н Л. С, К теории дифференциальных игр, УМН 21, № 4
A40), 1966.
8. Красовский Н. Н., Репин Ю. М„ Третьяков В. Е., О некото-
рых игровых ситуациях в теории управляемых систем, Изв. АН СССР,
Техническая кибернетика, № 4 A965), 9—13.
9. Красовский Н. Н., Третьяков В. Е., К задаче о преследовании
в случае ограничений на импульсы управляющих сил, Дифференциальные
уравнения, 2, № 5 A966), 587—599.
10. Scarf M., On differential games with survival payoff, Contributions to
the theory of games, Ann. of Math. Studies, № 3, 1957, 393—405.
11. Гришин В. П., Оптимальная стабилизация систем, подверженных влия-
нию возмущающих сил, Диссертация, ИАТ (ТК), 1966.
12. Г и р с а н о в И. В., Минимаксные задачи в теории диффузионных процес-
сов, ДАН СССР, 136, № 4 A960), 761—764.
13. Mysielski J., Continuous games of perfect informations, Adv. in game
theory, Ann. of Math. Studies, 1964, 103—113.
14. Nardzewski C. R., A theory of pursuit and evasion, Adv. in game
theory, Ann. of Math. Studies, 1964, 113—127.
15. Зе ликин М. И., Тын я некий Н. Т., Детерминированные дифферен-
циальные игры, УМН, 20, № 4 A965), 151 — 157.
16. Петросян Л. А., Об одном семействе дифференциальных игр на вы-
живание в пространстве Rn, ДАН СССР, 161, № 1, A965).
17. Петросян Л. А., Дифференциальные игры на выживание со многими
участниками, ДАН СССР, 161, № 2 A965).
18. Петросян Л. А., Сведение одной игры преследования на выживание
к решению задачи Коши для уравнения в частных производных первого
порядка, ДАН Арм. ССР, 40, № 4 A965).
19. Петросян Л. А., Об одном классе игр преследования. Диссертация,
ЛГУ, 1965.
20. 2igba A., An example of pursuit theory, Studia Math., 22 A962), 1—6.
21. Zigba A., Fundamental equations of the theory of pursuit, Trans, of the
II Prag. con. in math, stat, 1959.
22. Красовский Н. Н., К задаче преследования в случае линейных одно-
типных объектов, ПММ, 3, № 2 A966), 209—225.
23. Билл ик Б., Некоторые оптимальные маневры встречи с малым ускоре-
нием, Ракетная техника и космонавтика, 3 A964), 126—131.
24. Н о Y. С, Bryson A. E., Baron S., Differential games and optimal
pursuit evasion strategies, IEEE Trans. Automat. Control, 16, № 4 A965),
385—389.
25. Мак- К и пси Дж., Введение в теорию игр, Физматгиз, М., 1960.
26. Келен джеридзе Д. Л., К теории оптимального преследования ДАН
СССР, 138, № 3 A961), 529—532.
27. Ju - С h i - Н о, Optimal terminal maneuvre and evasion strategy, SIAM
Journal on control, 4, № 3 A966), 421—427.
28. Болтянский В Г., Достаточные условия оптимальности и обоснова-
ние метода динамического программирования, Изв. АН СССР, сер. мат.,
28, № 3 A964), 481—514.
472 Приложение
29. Fleming W. H., The Cauchy problem for degenerate parabolic equa-
tions, J. of Math, and Mech., 13, № 6 A964), 987—1008.
30. О л е й н и к О. А., Разрывные решения нелинейных дифференциальных
уравнений, УМН, 12, N° 3 A956), 3—73.
31. С о n w а у Е. D., Hopf E., Hamilton's theory and generalized solutions of
the Hamilton — Jacobi equations, /. of Math, and Mech., 13, № 6 A964),
939—986.
32. D о u g 1 i s A., The continious dependence of generalized solutions of non-
linear partial differential equations upon initial data, Comtn. Pure Appl.
Math., 14 A961), 267—284.
33. Кружков С. Н., Обобщенные решения нелинейных уравнений первого
порядка со многими независимыми переменными, I, Математический сбор-
ник, 70, № 3 A966), 394—416.
34. Д ы и к и н Е. Б., Марковские процессы, Физматгиз, М., 1963.
35. Friedman A., On quasi-linear parabolic equations of second order,
J. of Math, and Mech., № 9 (I960), 539—556.
36. О л е й н и к О. А., Кружков С. М., Квазилинейное уравнение второго
порядка со многими независимыми переменными, УМН, 16, № 5 A961),
115—155.
37. П о н т р я г и н Л. С, Болтянский В. Т., Гамкрелидзе Р. Д.,
Мищенко Е. М, Математическая теория оптимальных процессов, Физ-
матгиз, М., 1961.
38. Bercovitz L. D., A differential games without pure strategy solutions
on the open set, Adv. in game theory, Ann. of Math. Studies, 1964, 175—195.
39. Беллман Р., Процессы регулирования с адаптацией, изд-во «Наука1»,
М., 1964.
40. Fleming W. H., Some marcovian optimizations problems, /. of Math, and
Mech., 12 A963), 131 — 140.
41. Ширяев А. Н., Некоторые новые результаты в теории управляемых слу-
чайных процессов, Доклад на IV Пражской конференции по случайным
процессам и теории информации, Прага, 1965.,
42. Fleming W. H., Duality and a priory estimates in markovian optimiza-
tion problems, /. of Math. Anal, and Appl., 16, № 2 A966), 254—284.
43. Симакова Э. Н. Дифференциальные игры, Автоматика и телемеханика,
11 A966), 161 — 178.
44. Симакова Э. Н., Об одной дифференциальной игре преследования,
Автоматика и телемеханика, 2 A967), 7—12.
45. Кочетков Ю. А., Применение метода Понтрягина к исследованию ми-
нимаксных задач процессов управления, Изв. АН СССР, Техническая ки-
бернетика, 5 A965), 13—22.
46. Г а д ж и е в М. Ю., Применение теории игр к некоторым задачам автома-
тического управления, Автоматика и телемеханика, 23, № 8, 9 A962).
АЛФАВИТНЫЙ УКАЗАТЕЛЬ
Автомобиль
вывод на стоянку 220
кратчайший путь к месту на-
значения 216
уравнения движения 20
Базовая линия 101
Барьер 77, 100, 105, 255
естественный 268
другие возможные типы 284
искусственный 272
построение 267, 273
связь с управляемостью 332
статический 258
Бапьер-огибающая 272
Берковиц Л. Д. 13, 466
Битва при Банкер-Хилл 384
плата — огневая сила 388
плата — численность войск 390
универсальная поверхность 232
уравнения 385
Бомбардировщик и батарея 444
неограниченное время полета
447
неограниченный запас боепри-
пасов 440
ограниченные боеприпасы 448
Брахистохрона 121
с ограниченной кривизной 230
Вариационное исчисление 31, 90, 118
128, 161, 219, 237
Вектограмма 44
выпуклая 60
канонизация 60
круговая 64
линейная 90, 205
полная 44
Военные игры 18
Война на изнурение и нападение
второй вариант 400
первый вариант 129, 383
Воздушные бон 30, 293, 331
Вывод автомобиля на стоянку 220
Граница допустимой области 111
Граница зоны безопасности 183
Гренандер У. 412, 416
Дама в озере 197
Данскин Дж. 385
Данциг Д. 208
Долихобрахистохрона 122, 283
Допустимая область 111
Дрешер М. 181, 281
Дуэльные игры 385
Захват 22
Защита объекта 35
Земба 189
Зона безопасности 183
Игра 17, 43
блокирования 186
двух автомобилей 253, 294
дискретная 66
дифференциальная 43, 56
дуэльная 385
качества 23, 54
квазидискретная 85
поиска 410
«полицейский автомобиль» 79
преследования 22
— простейшая 32
— с одним шансом 181
с неполной информацией 18
с полной информацией 17
стационарная 428
степени 23, 54
— геометрический метод реше-
ния 183
Игроки 17, 22
Изопернметрическая задача 167
Изотропные ракеты 139, 301, 308
барьер 308
игра качества 301
— степени 139
уравнения движения 141
474
Алфавитный указатель
Информация
заданная 408
полная 17
приобретаемая 409
Карлин С.57
Катера-перехватчики 189
Критерий для
поверхности переключения 236
пустой области 235
Крыса, загнанная в угол 234
Я-стратегии 57
Курс столкновения 176
Ла-Салль 332, 442
Линия жизни 313
Линия смерти 40, 314
односторонняя игра 324
Маневр разворота 29
Мгновенная смешанная стратегия
175
Менгель А. 400
Метод
предположительных вероятно-
стей 428
явной политики 251, 253
Моргенштерн О. 15, 58
Начальные условия ПО
Недопустимая область 111
Нейман Дж. фон 15, 58, 288, 330
Нейтральный исход 254
Нетерминальное множество 100
Область захвата 254
Область избежания захвата 254
Ограничения 44, 63
интегральные 161
Окончание барьера 262
Окончание игры 49, 111
Окружность Апполония 184
Оптимальная программа производ-
ства стали 151
Основное уравнение 91
Перехват при раннем обнаружении
410
Перехват прямолинейно летящей це-
ли 278
Песчаные кучи 196
Плата игры 18, 51
Поверхность 18, 38
минимальной площади вращения
201
переключения 119, 237
полупроницаемая 95, 256
— построение 257
полууниверсальная 246
— достаточные условия 247
рассеивающая 104, 173
— построение 179
сингулярная 89, 170
терминальная 49
универсальная 173, 199, 218
— необходимые условия 214
— «подозрительная» 213
экивокальная 344
— пример 349
Понтрягин Л. С. 13, 466
Постоянно действующая дилемма 176
Предположение о выпуклости 61
Предположение о замкнутости 62
Преследователь Р 22
Принцесса и чудовище 422
Принцип
вероятностной неопределенности
426
горизонтальной неточности 424
огибания 286
перехода 90
регрессивный 108
Прицеливание и увертывание 415
Простое движение 22, 45
Пространство
естественное 47
игры 17, 43
редуцированное 47
состояний 17
фазовое 17
Разрывное решение Гольдшмидта 202
Рассеивающая поверхность 104, 173
Решение игры 87
в большом 89, 170
в малом 89, 170
существование 37, 38
Сингулярные поверхности 89, 170
классификация 171
Стационарная игра 428
Стохастические процессы 412, 415,416
Стратегия 29
мгновенная смешанная 175
оптимальная 30, 32, 55, 88
смешанная 104, 407, 408
Стрелок и приближающаяся цель 246
Алфавитный указатель
475
Тактика 58, 98
Терминальная поверхность 49
Терминальное множество 100
Траектория 38
оптимальная 38, 87
— управляемых ракет 436
Трение 140
Убегающий Е 22
Управления 17, 43
Уравнение основное 91
Уравнения
Гамильтона — Якоби 109
движения 43
характеристик 108
— в регрессивной форме 109
Условие оптимальности 97
Флеминг В. 13, 458
Футболисты 185
Хейл 442
Цена игры 18, 56
«Шофер-убийца»
асимметричный вариант 244
барьер 288
геометрическое решение 334
дискретный вариант 244
универсальная поверхность 243
уравнения движения 46, 48
экивокальная поверхность 362
Фазовое пространство 17, 44
Фазовые координаты 17, 44
Эвольвента 290
Экивокальпая поверхность 344
Экстенсивная форма 66
ОГЛАВЛЕНИЕ
Предисловие 5
Предисловие автора к русскому изданию . . 9
Из предисловия к американскому изданию П
Глава 1. Введение 15
1.1. Теория игр 15
1.2. Фазовые координаты и управления 17
1.3. Военные игры 18
1.4. Игры с движущимся объектом 19
1.5. Игры преследования 22
1.6. Игры качества и игры степени 29
1.7. Стратегии 29
1.8. Воздушные бои, сражения, программирование и спортивные
игры . . 30
1.9. Два примера 32
1.10. Возможности для уточнения 37
1.11. Перспектива дальнейшего развития 39
1.12. Как читать книгу 41
Глава 2. Определения, формулировки и предположения 43
2.1. Кинематика 43
2.2. Естественное и редуцированное пространства 47
2.3. Окончание игры ........'. 49
2.4. Плата 51
2.5. Игры качества и игры степени 54
2.6. Стратегии 55
2.7. Канонизация вектограмм 60
2.8. Лемма о круговых вектограммах . 64
Глава 3. Дискретные дифференциальные игры 65
3.1. Введение . 65
3.2. Общая дискретная игра 66
3.3. Игры на уничтожение 72
3.4. Две дискретные игры преследования 79
3.5. Квазндискрегные игры . . 85
Глава 4. Математические обоснования и техника решения в малом . 87
4.1. Природа решения 87
Оглавление 477
4.2. Принцип перехода и основное уравнение , 90
4.3. Полупроницаемые поверхности и второй вывод основного ура-
внения . 94
4.4. Некоторые достаточные условия оптимальности 97
4.5. Уравнения характеристик 107
4.6. Регрессивный принцип 108
4.7. Начальные условия ПО
4.8. Теорема о построении 113
Ответы 116
Глава 5. Основные примеры; поверхности переключения; интегральные
ограничения 118
5.1. Поверхности переключения 119
5.2. Долихобрахистохрона 121
5.3. Связь с уравнением Эйлера 128
5.4. Война на изнурение и нападение . 129
5.5. Игра «изотропные ракеты» 139
5.6. Оптимальная программа производства стали ........ 151
5.7. Интегральные ограничения 161
Глава 6. Рассеивающие поверхности 170
6.1. Сингулярные поверхности 170
6.2. Рассеивающие поверхности 173
6.3. Природа рассеивающих поверхностей 174
6.4. Вопрос о постоянно действующей дилемме 176
6.5. Построение рассеивающих поверхностей 179
6.6. Дальнейшие примеры 181
6.7. Геометрический метод для простых игр преследования .... 183
6.8. Дальнейшие примеры; футболисты и катера-перехватчики . . . 185
6.9. Существование постоянно действующей дилеммы 190
6.10. Разные задачи 193
Глава 7. Универсальные поверхности 199
7.1. Введение 199
7.2. Универсальные поверхности, на которых подинтегральная функ-
ция обращается в нуль 201
7.3. Универсальные поверхности для случая линейных вектограмм
(интуитивные соображения) 205
7.4. Аналитические необходимые условия существования универсаль-
ной поверхности для случая линейных вектограмм 210
7.5. Необходимые условия для случая л = 3 214
7.6. Почему мы назвали такую поверхность универсальной? .... 218
7.7. Точка зрения вариационного исчисления 219
7.8. Случай, когда все стратегии оптимальны 221
7.9. Рабочий критерий для случая п!>4 223
7.10. Критерий для незаполненной траекториями области и дальней-
шее необходимое условие универсальной поверхности .... 235
478 Оглавление
7.11. Критерий для поверхности переключения 236
7.12. Дальнейшее обсуждение вопроса о природе универсальных по-
верхностей и связь их с уравнением Эйлера 237
7.13. Случай произвольного числа управлений 239
7.14. Полууниверсальные поверхности 246
Глава 8. Игры качества 251
8.1. Введение 252
8.2. Понятие барьера 254
8.3. Построение полупроницаемых поверхностей 257
8.4. Окончание барьеров 262
8.5. Построение барьера 267
8.6. Несколько примеров 278
8.7. Другие возможные типы барьеров 284
8.8. Объединение игр качества и игр степени 285
Глава 9. Примеры игр качества 287
9.1. Игра «шофер-убийца» 288
9.1.А. Воздушный бой 293
9.2. Игра двух автомобилей 294
9.3. Игра «изотропные ракеты» 301
9.4. Изотропные ракеты. Барьер-огибающая 308
9.5. Две почти одинаково сформулированные и совсем непохожие
игры 313
9.6. Обобщения и приложения игры с линией смерти 324
9.7. Некоторые другие игры 330
9.8. Применения к устойчивости и управлению 332
Глава 10. Экивокальные поверхности и игра «шофер-убийца» . . . 334
10.1. Введение .334
10.2. «Шофер-убийца». Геометрическое решение игры качества . . 334
10.3. Предварительное решение игры «шофер-убийца» как игры сте-
пени 339
10.4. Универсальная кривая и ее притоки 342
10.5. Экивокальные поверхности 344
10.6. Пример с экивокальной поверхностью; предварительное рассмо-
трение 349
10.7. Пример с экивокальной поверхностью; решение . . ... 354
10.8. Обсуждение вопросов, касающихся экивокальных поверхностей 360
10.9. Экивокальные явления в игре «шофер-убийца» 362
Дополнение. Аналитические детали 367
Глава 11. Приложения к военному делу 371
11.1. Теория игр и война 371
11.2. Методы, которыми мы располагаем 373
11.3. Виды приложений 374
11.4. Более широкие задачи типа сражений 375
Оглавление 479
1 Г.5. Проблемы, возникающие при постановке задачи 378
11.6. Война на изнурение и нападение: изучение 380
11.7. Битва при Банкер-Хилл 384
11.8. Некоторые трудности применения теории игр к военному делу 399
11.9. Война на изнурение и нападение. Второй вариант 4С0
Глава 12. К теории игр с неполной информацией 407
12.1. Введение . . . . : 407
12.2. Общая постановка задач 408
12.3. Игры поиска неподвижных объектов 417
12.4. Игры поиска с движущимися объектами 422
12.5. Важность аппроксимации 423
12.6. Метод предположительных вероятностей 428
Дополнение 432
АЛ. Плата — вероятность поражения 432
А.2. Игра преследования с неподвижной батареей • . . 433
А.З. Оптимальные траектории управляемых ракет 436
А.4. Пример из теории управления 442
А.5. Игра «бомбардировщик и батарея» . 444
Литература 455
Приложение. М. И. Зеликин, Э. Н. Симакова. Обзор некоторых резуль-
татов по теории дифференциальных игр 457
Алфавитный указатель 473
Р. АЙЗЕКС
Дифференциальные игры
Редакторы В. В. В е л и ч е и к о и
Л. Б. Штейнпресс
Художник Н. С. Хмелевская
Художественный редактор
В. И. Шаповалов.
Технический редактор В. П. Сизова
Сдано в производство 18/1 1967 г.
Подписано к печати 20/V 1967 г.
Бумага 60х907,6. Бум. л. 15.
Печ. л. 30. Уч.-изд. л. 26,38. Изд. № 1/3464
Цена 2 руб. 08 коп. Зак. 522
ИЗДАТЕЛЬСТВО «МИР»
Москва, 1-й Рижский пер., 2
Ленинградская типография № 2 имени
Евгении Соколовой Главполнграфпрома
Комитета по печати при
Совете Министров СССР
Измайловский проспект, 29