Текст
                    


Л.А.Петросян Н.А.Зенкевич ЕА.Семина ТЕОРИЯ ИГР Учебное пособие Рекомендовано Министерством общего и профессионального образования Российской Федерации в качестве учебного пособия для студентов университетов, обучающихся по специальности «Математика» УНИВЕРСИТЕТ КНИЖНЫЙ дом Москва 1998
УДК 51 ББК 22.1 ПЗО Рецензенты: кафедра исследования операций Московского государствен- ного института электроники и математики (зав. кафедрой д-р физ.-мат. наук, проф. В. А. Каштанов) и кафедра исследования операций факультета вычисли- тельной математики и кибернетики Московского государственного университета им. М. В. Ломоносова (зав. кафедрой чл.-кор. АН РАН П. С. Краснощеков). Петросян Л. А. и др. П 30 Теория игр: Учеб, пособие для ун-тов:/Л. А. Петросян, Н. А. Зенкевич, Е. А. Семина. - М.: Высш, шк., Книжный дом «Университет», 1998. - 304 с.: ил. ISBN 5-06-001005-8 ISBN 5-8013-0007-4 Книга представляет собой краткое и сравнительно элементарное учебное посо- бие, пригодное как для первоначального, так и для углубленного изучения теории игр; в ней проводится исследование математических моделей принятия решений в условиях конфликта. Впервые в отечественной научной литературе дано системати- ческое изложение единой теории статических и динамических игр. Рассмотрены конечные и бесконечные антагонистические игры, многошаговые игры, бескоалици- онные и кооперативные игры, дифференциальные игры. В каждой главе содержатся задачи разной сложности. Книга предназначена для студентов и аспирантов университетов, экономических и технических учебных заведений, представляет интерес как для математиков, рабо- тающих в области теории игр, так и для специалистов в области экономики, теории управления и исследования операций. ISBN 5-06-001005-8 ISBN 5-8013-0007-4 © Л. А. Петросян, Н. А. Зенкевич, Е. А. Семина, 1998
ОГЛАВЛЕНИЕ Предасловие ........................................................... 5 Введение............................................................... 7 Глав* I. Матричные игры.......................................... 9 § 1. Определение антагонистической игры в нормальной форме . . 9 § 2. Максиминные и минимаксные стратегии .........................14 § 3. Ситуации равновесия..........................................16 $ 4. Смешанное расширение игры....................................21 § 5. Некоторые сведения из теории выпуклых множеств и систем линей* ных неравенств ....................................................25 § 6. Существование решения матричной игры в классе смешанных стра- тегий ............................................................28 § 7. Свойства оптимальных стратегий и значения игры...........32 § 8. Доминирование стратегий .................................40 § 9. Вполне смешанные и симметричные игры.....................46 § 10. Итеративные методы решения матричных игр.................52 Упражнения и задачи............................................56 Глава II. Бесконечные антагопстическне игры..............................60 § 1. Бесконечные игры ..........................................60 § 2. Ситуация е-равновесия, а-седловые точки и е-оптимальные стратегии 63 § 3. Смешанные стратегии........................................68 § 4. Игры с непрерывной функцией выигрыша.......................77 § 5. Игры с выпуклой функцией выигрыша..........................84 § 6. Одновременные игры преследования ..........................94 § 7. Один класс игр с разрывной функцией выигрыша..............101 § 8. Решение бесконечных одновременных игр поиска..............104 Упражнения и задачи............................................109 Глава III. Неангагоннстнческне игры......................................113 § 1. Определение бескоалиционной игры в нормальной форме . . . § 2. Принципы оптимальности в бескоалиционных играх............. § 3. Смешанное расширение бескоалиционной игры.................. § 4. Существование ситуации равновесия по Нэшу.................. § 5. Свойства оптимальных решений............................... § 6. Равновесие в совместных смешанных стратегиях............... § 7. Задача о переговорах....................................... § 8. Игры в форме характеристической функции.................... § 9. С-ядро и Я — М-решение..................................... | 10. Вектор Шепли.............................................. Упражнения и задачи............................................. 113 117 125 129 133 138 142 146 155 163 170 Глава IV. Позиционные игры...........................................176 1. Многошаговые игры с полной информацией...................176 2. Ситуация абсолютного равновесия..........................182 3. Основные функциональные уряштения........................188 4. Стратегии наказания .....................................191 3
§ 5. Иерархические игры .......................................194 § 6. Иерархические игры (кооперативный вариант)................196 § 7. Многошаговые игры с неполной информацией..................204 § 8. Стратегии поведения ......................................211 § 9. Функциональные уравнения для одновременных многошаговых игр 218 Упражнения и задачи............................................224 Глава V. Дифференциальные игры......................................230 § 1. Антагонистические дифференциальные игры с предписанной продол* жительностью ...................................................230 § 2. Многошаговые игры с полной информацией и бесконечным числом альтернатив ....................................................240 § 3. Существование ситуаций е-равновесия в дифференциальных играх с предписанной продолжительностью...............................245 § 4. Дифференциальные игры преследования на быстродействие .... 253 § 5. Необходимые и достаточные условия существования оптимальной программной стратегии убегающего ...............................260 § 6. Основное уравнение ........................................265 § 7. Методы последовательных приближений для решения дифференци- альных игр преследования........................................273 § 8. Примеры решения дифференциальных игр преследования .... 278 § 9. Игры преследования с задержкой информации у преследователя . . 282 Упражнения и задачи.............................................290 Литература .....................................................295
ПРЕДИСЛОВИЕ Математическая теория игр является составной частью исследо- вания операций. Она находит широкое применение в различных областях человеческой деятельности, таких, как экономика и менед- жмент, промышленность и сельское хозяйство, военное дело и стро- ительство, торговля и транспорт, связь и т. д. Несмотря на наличие богатой монографической и специальной литературы по теории игр, учебных пособий, посвященных этому разделу математики, сравнительно немного и в них рассматриваются в основном отдельные разделы теории игр. Настоящее учебное посо- бие восполняет этот пробел. В нем отражено большинство современ- ных направлений теории игр. Пособие методически построено так, что понятие модели конфликта (игры) развивается от простой (мат- ричные игры) до наиболее сложной (дифференциальные игры). Большинство учебных программ вузов предполагает чтение от- дельных разделов или специальных курсов по теории игр. Данное учебное пособие построено таким образом, чтобы каждая глава могла служить основой такого курса. Для предварительного оз- накомления с теорией игр достаточно изучить материал гл. I. Типовой курс по теории игр может быть построен на основе гл. I, III и IV. Наиболее подробно изложена теория антагонистических игр (гл. I, II, IV, V). В курсах «Системный анализ» и «Модели принятия решений» целесообразно использовать гл. Ш и IV. Теория неан- тагонистических игр изложена в гл. Ill, IV, а теория динамических игр — в гл. IV, V. В пособии не отражены результаты теории дифференциальных игр многих лиц, поскольку этот класс игр еще недостаточно изучен. Однако имеющиеся в этом направлении рабо- ты широко представлены в списке литературы [38, 45, 51, 77, 87, 88]. При построении курса лекций по приложениям теории игр полезно также воспользоваться специальной литературой [5, 10, 12, 20, 27, 34, 52, 53]. Во всех главах содержатся многочисленные примеры, иллю- стрирующие основные положения теории. Некоторые из них пред- ставляют самостоятельный интерес. В конце каждой главы при- ведены упражнения для индивидуальной работы, расположенные в порядке изложения материала и возрастания сложности. В ряде случаев они существенно дополняют содержание главы. Систе- матическое решение этих упражнений является важной формой изучения теории игр. 5
Для усвоения основных понятий и результатов, приведенных в учебном пособии, достаточно знания курса математики в объеме университетской программы. Наиболее сложной в математическом отношении является гл. II, которая предназначена для студентов математических специальностей. Материал, набранный петитом, при первоначальном изучении может быть опущен. В списке рекомендованной литературы приведены основная (учебники и задачники), дополнительная (монографии и учебные пособия) и справочная (справочники, обзоры, сборники статей) литература. В список дополнительной литературы включены также статьи, которые цитируются в основном тексте книги. Вместе с тем библиография не претендует на полноту. Библиографические ссыл- ки можно найти в справочной литературе. Пособие может быть использовано как для первоначального, так и для углубленного изучения теории игр. Оно предназначено для студентов и аспирантов, специализирующихся в области при- кладной математики, будет также полезно студентам экономичес- ких и технических специальностей, факультетов менеджмента, из- учающим математические методы принятия решений в сложных системах. Книга заинтересует специалистов, занимающихся воп- росами теории игр, исследования операций, теории управления, математической экономики, теории менеджмента и их приложени- ями. Учебное пособие написано на основе курсов «Теория игр и ис- следование операций», «Системный анализ», «Математические мо- дели принятия решений в экономике и управлении», а также ряда специальных курсов по разделам и приложениям теории игр, прочи- танных Л. А. Петросяном и Н. А. Зенкевичем студентам старших курсов и аспирантам на факультете прикладной математики — про- цессов управления Санкт-Петербургского государственного универ- ситета. Параграфы 7, 9 гл. I, § 5, 10 гл. Ш, § 4 — 6, 8 и 9 гл. IV, § 2 — 6, 8 гл. V написаны совместно с Е. А. Семиной. Авторы
ВВЕДЕНИЕ в.1. В настоящем учебном пособии изложены основные понятия и результаты теории игр. Теория игр — это раздел математики, в котором исследуются математические модели принятия решений в условиях конфликта, т. е. в условиях столкновения сторон, каждая из которых стремится воздействовать на развитие конфликта в сво- их собственных интересах. Теорию математических моделей при- нятия оптимальных решений принято называть исследованием операций, поэтому теорию игр следует рассматривать как при- кладную математическую теорию — составную часть исследования операций. В.2. Задачи исследования операций можно классифицировать по уровню информации о ситуации, которой располагает субъект, принимающий решение. Наиболее простыми уровнями информа- ции о ситуации являются детерминированный (когда условия, в ко- торых принимаются решения, известны полностью) и стохастичес- кий (когда известно множество возможных вариантов условий и их вероятностное распределение). В этих случаях задача сводится к на- хождению экстремума функции (или ее математического ожидания) при заданных ограничениях. Методы решения таких задач изучают- ся в курсах математического программирования или методов оп- тимизации. Наконец, третий уровень — неопределенный, когда известно множество возможных вариантов, но без какой-либо информации об их вероятностях. Такой уровень информации о ситуации являет- ся наиболее сложным. Эта сложность оказывается принципиальной, так как могут быть не ясны сами принципы оптимального поведе- ния. Следуя определению Н. Н. Воробьева, теория игр — это те- ория математических моделей принятия решений в условиях неоп- ределенности, когда принимающий решение субъект («игрок») рас- полагает информацией лишь о множестве возможных ситуаций, В одной из которых он в действительности находится, о множестве решений («стратегий»), которые он может принять, и о количествен- ной мере того «выигрыша», который он мог бы получить, выбрав в данной ситуации данную стратегию*. Установление принципов оптимального поведения в условиях неопределенности, доказательство существования решений, удов- *Воробъев Н. Н. Философская энциклопедия. Т. 5. М., 1970. С. 208—210. 7
летворяющих этим принципам, указание алгоритмов нахождения решений, их реализация и составляют содержание теории игр. В.З. Неопределенность, с которой мы встречаемся в теории игр, может иметь различное происхождение. Однако, как правило, она является следствием сознательной деятельности другого лица (лиц), отстаивающего свои интересы. В связи с этим под теорией игр часто понимают теорию математических моделей принятия оптимальных решений в условиях конфликта. Таким образом, моделями теории игр можно в принципе содержательно описывать весьма разнооб- разные явления: экономические, правовые и классовые конфликты, взаимодействие человека с природой, биологическую борьбу за существование и т. д. Все такие модели в теории игр принято называть играми. Математическое описание игры сводится к перечислению всех действующих в ней игроков, указанию для каждого игрока всех его стратегий, а также численного выигрыша, который он получит после того, как игроки выберут свои стратегии. В результате игра становится формальным объектом, который поддается математи- ческому анализу. В.4. Игры можно классифицировать по различным признакам. Во-первых, бескоалиционные игры, в которых каждая коалиция (множество игроков, действующих совместно) состоит лишь из одного игрока. Так называемая кооперативная теория бескоалици- онных игр допускает временные объединения игроков в коалиции в процессе игры с последующим разделением полученного выигры- ша или принятие совместных решений. Во-вторых, коалиционные игры, в которых принимающие решение игроки согласно правилам игры объединены в фиксированные коалиции. Члены одной ко- алиции могут свободно обмениваться информацией и принимать полностью согласованные решения. По выигрышу игры можно разделить на антагонистические и иг- ры с ненулевой суммой. По характеру получения информации — на игры в нормальной форме (игроки получают всю предназначенную им информацию до начала игры) и динамические игры (информация поступает игрокам в процессе развития игры). По количеству стратегий — на конечные и бесконечные игры. Начнем изучение теории с простейшей статической модели — матричной игры, в которой участвуют два игрока, множество стратегий каждого из игроков конечно, а выигрыш одного игрока равен проигрышу другого.
ГЛАВА I МАТРИЧНЫЕ ИГРЫ § 1. ОПРЕДЕЛЕНИЕ АНТАГОНИСТИЧЕСКОЙ ИГРЫ В НОРМАЛЬНОЙ ФОРМЕ 1.1. Определение. Система Y=(X,Y,K), (1.1) где X и Y— непустые множества, и функция К:Хх У-»/?1 называ- ется антагонистической игрой в нормальной форме. Элементы хеХ и ye Y называются стратегиями игроков 1 и 2 соответственно в игре Г, элементы декартового произведения X'x.Y (т. е. пары стратегий (х, у), где хеХ и yeY— ситуациями, а функция К—функцией выигрыша игрока 1. Выигрыш игрока 2 в ситуации (х, у) полагается равным [—К(х, у)], поэтому функция К также называется функцией выигрыша самой игры Г, а игра Г — игрой с нулевой суммой. Таким образом, используя принятую терминологию, для задания игры Г необходимо определить множе- ства стратегий X, Y игроков 1 и 2, а также функцию выигрыша К, заданную на множестве всех ситуаций X х У. Игра Г интерпретируется следующим образом . Игроки одно- временно и независимо выбирают стратегии хеХ, yeY. После этого игрок 1 получает выигрыш, равный К(х, у), а игрок 2 — (-Дх.У». Определение. Игра Г'=(У', У', К') называется подыгрой игры. Г=(Х, У, К), если X' с У, У' с У, а функция К': X' х У'-»Л1 являет- ся сужением функции К на X' х У'. В данной главе будут рассматриваться главным образом ан- тагонистические игры, в которых множества стратегий игроков конечны. . 12. Определение. Антагонистические игры, в которых оба игрока имеют конечные множества стратегий, называются мат- ричными. Пусть игрок 1 в матричной игре (1.1) имеет всего т стратегий. Упорядочим множество X стратегий первого игрока, т. е. установим взаимно однозначное соответствие между множествами 2, •мт} и X. Аналогично, если игрок 2 имеет п стратегий, то можно Установить взаимно однозначное соответствие между множествами w*{1, 2,..., и} и У. Тогда игра Г полностью определяется заданием 9
матрицы Л = {a,,у}, где а,7=Л(х„ уу), {i,j)eMxN, (xf, y)eXx Y, ieM, jeN (отсюда и название игры — матричная). При этом игра Г ре- ализуется следующим образом. Игрок 1 выбирает строку ieM, а игрок 2 (одновременно с ним) — столбец jeN. После этого игрок 1 получает выигрыш ау, а второй — (—«у)- Если выигрыш равен отрицательному числу, то речь идет о фактическом проигрыше игрока. Игру Г с матрицей выигрышей А обозначим Гл и назовем (т х и)-игрой (по размерности матрицы А). Если из изложения понятно, об игре с какой матрицей идет речь, то индекс А будем опускать. Нумерация стратегий в матричной игре может производиться различными способами, поэтому каждому отношению порядка, строго говоря, соответствует своя матрица. Таким образом, конеч- ная антагонистическая игра может быть описана различными мат- рицами, отличающимися друг от друга лишь порядком строк и сто- лбцов. 1.3. Пример 1. (Оборона города.) Этот пример известен в литера- туре под названием «игра полковника Блотто» [4]. Полковник Блот- то имеет т полков, а его противник — п полков. Противник защи- щает две позиции. Позиция будет занята полковником Блотто, если на ней наступающие полки окажутся в численном превосходстве. Противоборствующим сторонам требуется распределить полки между двумя позициями. Определим выигрыш полковника Блотто (игрока 1) на каждой позиции. Если у него на позиции полков больше, чем у противника (игрока 2), то его выигрыш на этой позиции равен числу полков противника плюс один (занятие позиции равносильно захвату одно- го полка). Если у игрока 2 полков на позиции больше, чем у игрока 1, то игрок 1 теряет все свои полки на этой позиции и еще единицу (за потерю позиции). Если обе стороны имеют одинаковое число полков на позиции, то имеет место ничья и каждая из сторон ничего не получит. Общий выигрыш игрока 1 равен сумме выигрышей на обеих позициях. Игра, очевидно, антагонистическая. Опишем стратегии игроков. Пусть, для определенности, т>п. Игрок 1 имеет следующие страте- гии: х0=(т, 0) — послать все полки на первую позицию, хх=(т— 1, 1)—(т— 1) полков послать на первую позицию, а один — на вто- рую, х2=(т—2, 2),..., хт_! = (1, т— 1), хт=(0, т). Противник (игрок 2) имеет такие стратегии: у0 = (п, 0), yt=(n —1, 1), ..., ул=(0, п). Пусть игрок 1 выбрал стратегию х0, а игрок 2 — стратегию у0. Вычислим выигрыш а00 игрока 1 в этой ситуации. Поскольку т>п, на первой позиции выигрывает игрок 1. Его выигрыш равен и+1 (единица — за удержание позиции). На второй позиции — ничья. Поэтому a00 = n+l. Вычислим а01. Так как т>п— 1, то на первой ю
позиции выигрыш игрока 1 равен п —1 + 1= и. На второй позиции выигрывает игрок 2. Поэтому проигрыш игрока 1 на этой позиции равен единице. Таким образом, а01=п — 1. Рассуждая аналогично, получаем a.Oj=n—j+1 — l=n—j, 1</<ж Далее, если m— 1>и, то а10=я+1 + 1=и + 2, ап = и-1 + 1=и, av=n-j+l-l-l=n-j-l, В общем случае (для любых тип) элементы а,у, 1=0, т, у=6j п матрицы выигрышей вычисляются следующим образом: п+2, если m—i>n—j, i>J, n—J+\, если m—i>n—j, i=J, если m—i>n—jt i<j, если m—i<n~J, i>J, если m—i=n—jt i>j, если m—i<n~j, i<j, если m—i=n—j, i<j, если m—i<n—J, i=j, если hi—i=n—J, i=J. Так, при m=4, n=3, рассмотрев всевозможные ситуации, полу- чим матрицу выигрышей А этой игры: У о У1 У2 Уз *оГ 4 2 1 Xi 13 0 А=х2 -2 2 2 х3 -10 3 0“ -1 -2 1 4. x4L 0 1 2 Пример 2. {«Игра на уклонение».) Игроки 1 и 2 выбирают целые числа i и j между 1 и и, при этом игрок 1 выигрывает величину |/ —/|. Игра антагонистическая. Матрица выигрышей этой игры квадрат- ная, размера (п х п), где a/y=|i— j\. Так, если п=4, то матрица А игры принимает вид 12 3 4 1 ГО 1 2 3“ ^_2 10 12 3 2 1 0 1 • 4[_3 2 1 0_ 11
Пример 3. (Дискретная игра типа дуэли.) Игроки продвигаются навстречу друг другу на п шагов. После каждого сделанного шага игрок может выстрелить или нет, но во время игры он может выстрелить только один раз. Считается, что вероятность того, что игрок попадает в своего противника, если выстрелит, продвинув- шись на к шагов, равна к/п (к^п). Стратегия игрока 1(2) заключается в принятии решения стрелять на i-м (/-м) шаге. Пусть i<J и игрок 1 принимает решение стрелять на i-м шаге, а игрок 2 — на j-м шаге. Тогда выигрыш afJ игрока 1 определяется формулой ' Л Л/ п(1~1)+у atJ=— 1— -=----------—. л \ nJ п п Таким образом, выигрыш Оу — это разность вероятностей пораже- ния противника и собственной гибели в дуэли. В случае i> j первым стреляет игрок 2 и a(J= — ал. Если же i=j, то полагаем ау=0. Так, если положить п—5, то матрица этой игры, умноженная на 25, имеет вид О -3 -7 -11 -15" О } -2 -5 -10 7 5 2-7 0 15 5 -5 -15 0_ Пример 4. (Игра «нападение — защита».) Пусть игрок 1 намерен атаковать один из объектов с., .... с„, которые имеют положитель- ные ценности >0,..., тл>0. Игрок 2 защищает один из этих объек- тов. Будем считать, что если атакован незащищенный объект с{, то он с достоверностью уничтожается (игрок 1 выигрывает т(), а защи- щенный — поражается с вероятностью 1 >/?,>0 (объект ct выдержи- вает нападение с вероятностью 1—Д>0), т. е. игрок 1 выигрывает (в среднем) i=l, 2, ..., п. Тогда задача выбора объекта нападения (для игрока 1) и объекта защиты (для игрока 2) сводится к матричной игре с матрицей выигрышей Г^1Т1 Ti —Ti Т2 ^2Т2 —т2 12
Пример 5. (Игра дискретного поиска.) Имеется п ячеек. Игрок 2 прячет предмет в одной из п ячеек, а игрок 1 хочет его найти. При проверке f-й ячейки игрок 1 тратит Т/>0 усилий, при этом вероят- ное» найти предмет в i-й ячейке (если там он спрятан) равна »=1, 2............п. Если предмет найден, то игрок 1 получает дохоД а. Стратегиями игроков являются номера ячеек, в которых соответственно прячут и ищут предмет. Выигрыш игрока 1 равей разности между ожидаемым доходом и усилиями, затрачен- ными на поиск предмета. Таким образом, задача поиска и прятания предмета сводится к матричной игре с матрицей выигрышей ГаД1-Т1 —4... -Tt ‘ — Т2 «@2~*2 ~ *2— ~ *2 — ТЯ ~^Я <Я— ®Д>— Пример 6. (Поиск «шумного» объекта.) Предположим, что игрок 1 ведет поиск подвижного объекта (игрок 2) с целью его обнаруже- ния. Игрок 2 преследует противоположную цель (т. е. стремится уклониться от обнаружения). Игрок 1 может двигаться со скоростя- ми а. =1, «2=2, а, = 3, а игрок 2 — соответственно со скоростями Pi^i, Р2—^ Рз—*- Дальность действия средства обнаружения иг- рока 1 в зависимости от скоростей движения участников игры приведена в матрице Pi Рг Рз а, 4 5 б D = a2 3 4 5 а3 L1 2 3_ Стратегиями игроков являются скорости движения, а в качестве выигрыша игрока 1 в ситуации (ab fa) примем производительность поиска i= 1, 3, j=1, 3, где 8tJ — элемент матрицы D. Тогда задача выбора скоростей игроков при поиске — уклонении может быть представлена матричной игрой с матрицей Pi Рг Рз “1 Г4 5 6~ А = <*2 6 8 10 • “э 1_3 б 9_ 13
§ 2. МАКСИМИННЫЕ И МИНИМАКСНЫЕ СТРАТЕГИИ 2.1. Рассмотрим антагонистическую игру Г=(Х, Y, К). Здесь каждый из игроков выбором стратегии стремится максимизировать свой выигрыш. Но для игрока 1 он определяется функцией К(р, у), а для второго — (—К(х, у)), т. е. цели игроков прямо противополо- жны. При этом заметим, что выигрыш игрока 7(2) определен на ситуациях (х, y)eX Y, складывающихся в процессе игры. Нр каж- дая ситуация, а следовательно, и выигрыш игрока зависят не только от его выбора, но и от того, какая стратегия будет выбрана против- ником. Поэтому, стремясь получить возможно больший выигрыш, каждый игрок должен учитывать поведение противника. Поясним сказанное на примере игры «оборона города». Если игрок 1 хочет получить максимальный выигрыш, то он должен принять стратегию х0 (или х4 ). В этом случае, если игрок 2 приме- нит стратегию Уо(у3), то первый получит выигрыш, равный 4 еди- ницам. Но если игрок 2 применит стратегию у3 (соответственно у0), то игрок 7 получит выигрыш, равный 0, т. е. потеряет 4 единицы. Аналогичные рассуждения можно провести и для игрока 2. В теории игр предполагается, что оба игрока действуют ра- зумно, т. е. стремятся к получению максимального выигрыша, считая, что соперник действует наилучшим (для себя) образом. Что может себе гарантировать игрок 7? Пусть игрок 1 выбрал стратегию х. Тогда в худшем случае он выиграет min К{х, у). Поэтому игрок 1 всегда может гарантировать себе выигрыш max min К(х, у). Если отказаться от предположения достижимости экстремума, то игрок 1 может всегда получить выигрыш, сколь угодно близкий к величине »=sup inf К(х, у), (2.1) “ хеХ уеГ которую будем называть нижним значением игры. Если же внешний экстремум в (2.1) достигается, то величина v называется также максимином, принцип построения стратегии х, основанный на мак- симизации минимального выигрыша,— принципом максимина, а вы- бираемая в соответствии с этим принципом стратегия х — мак- симинной стратегией игрока 1. Для игрока 2 можно провести аналогичные рассуждения. Пусть он выбрал стратегию у. Тогда в худшем случае он проиграет шах К(х, у). Поэтому второй игрок всегда может себе гарантиро- X вать проигрыш — min max К(х, у). Число У х » = inf sup К(х, у) (2.2) уеТ хеХ 14
называется верхним значением игры Г, а в случае достижения вне- ШВ^о экстремума в (2.2) и минимаксом. При этом принцип постро- ения стратегии у, основанный на минимизации максимальных по- тсрц называется принципом минимакса, а выбираемая в соответст- вии а этим принципом стратегия у — минимаксной стратегией иг- рока 2. Подчеркнем, что существование минимаксной (максимин- ной) стратегии определяется достижимостью внешнего экстремума в (2.2) ((2.1)). Пусть задана матричная (тхп)-игра Гл. Тогда экстремумы в (2.1) и (2.2) достигаются, а нижнее и верхнее значения игры соответственно равны v=max min ау, v = min max ау. 1</<л (2.4) Минимакс и максимин для игры Гл могут быть найдены по следу- ющей схеме: -«И «12 -«I»- а21 а22 J*ml «m2 -«тл.. min aty j min a2j V J f max min .....I i > mmohj max ал max/2...max ain 4* —_______L----- min max 0^=5 Так, в игре Гл с матрицей О 4 3 8 L.6 О 1J нижнее значение (максимин) v и максиминная стратегия i0 первого игрока равны v=3, i0=2, а верхнее значение (минимакс) v и мини- максная стратегия j0 второго игрока — » = 3, у0=2. 2.2. Для любой игры Г—(Х, Y, К) справедливо следующее утверждение. Лемма. В антагонистической игре Г (2.5) или 15
sup inf K(x, y) <inf sup K(x, y). (2.6) xgX yeY yeY xgX j Доказательство. Пусть хеХ — произвольная стратегия игро- ка 1. Тогда имеем К(х, у) <sup К(х, у). хеХ Отсюда получаем inf К(х, y)<inf sup К(х, у). yeY ycY xgX Теперь заметим, что в правой части последнего неравенства стоит константа, а значение хеХ выбиралось произвольно. Поэтому вы- полняется неравенство sup inf К(х, yj^inf sup К(х, у). хеХ уеТ уеГ хеХ § 3. СИТУАЦИИ РАВНОВЕСИЯ 3.1. Рассмотрим вопрос об оптимальном поведении игроков в антагонистической игре. Естественно считать оптимальной в игре Г= (X, Y, К) такую ситуацию (х*, у*) е X- Y, от которой ни одному из игроков невыгодно отклоняться. Такая ситуация (х*, у*) называ- ется равновесной, а принцип оптимальности, основанный на постро- ении равновесной ситуации,— принципом равновесия. Для антагони- стических игр, как это будет показано ниже, принцип равновесия эквивалентен принципам минимакса и максимина. Конечно, для этого необходимо существование равновесия (т. е. чтобы принцип оптимальности был реализуем). Определение. В антагонистической игре Г=(Х, Y, К) ситуация (х*. у*) называется ситуацией равновесия или седловой точкой, если Дх,у»)<Дх*,у»); (3.1) К(х*. у)>К(х*, у*) (3.2) для всех хеХ uyeY. Множество всех ситуаций равновесия в игре Г обозначим через Z(F), Z(r)cX- Y. Для матричной игры ГА речь идет о седловых точках матрицы выигрышей А, т. е. таких точках (i*, j*), что для всех ieM и jeN выполняются неравенства 16
В седловой точке элемент матрицы а.,-^ является одновременно минимумом в своей строке и максимумом в своем столбце. Напри- • П о 4"1 мер, в игре с матрицей 5 3 8 ситуация (2.2) является равновес- ной. 6 о 1 3.2. Множество ситуаций равновесия в антагонистической игре Г обладает свойствами, которые позволяют говорить об оптималь- ности ситуации равновесия и входящих в нее стратегий. Теорема. Пусть (х*, у*), (х*. у*) — две произвольные ситуации равновесия в антагонистической игре Г. Тогда 1) ад. У?)=ад. УП у®=К(х*г, уТ); 2)(xT,y?)eZ(r),(x!,yT)eZ(D. Доказательство. Из определения ситуации равновесия для всех хеХ nyeY имеем к(х. у?хад, ях ад. у); (з.з) К(х, y^K(xl y^K(xl у). (3.4) Подставим в левую часть неравенства (3.3) х?, в правую—у?, в левую часть неравенства (3.4) — х* и в правую yf. Тогда получим ад. яхад. яхад. яхад. яхад. уп- Откуда следует равенство ад. яхад. яхад. я)=ад. я). <з.5> Покажем справедливость второго из утверждений. Рассмотрим си- туацию (х$, у*). Тогда из (3.3) — (3.5) имеем к{х, ут^к(хь яхад. яхад. яхад. я (з.б> для всех х е X, у е Y. Доказательство равновесности ситуации (х*, у*) проводится аналогично. Из теоремы следует, что функция выигрыша принимает одно и то же значение во всех ситуациях равновесия. Поэтому разумно ввести следующее определение. Определение. Пусть (х*, у*) — ситуация равновесия в игре Г. Тогда число и=Дх*, у*) (3.7) называется значением игры Г. Из второго утверждения теоремы следует, в частности, такой факт. Обозначим X* и У* проекции множества Z(T) на X и Y соот- ветственно, т. е. Т* = {х*|х* еХ, Зу* е Y, (х*. у*) €Z(T)}, 17
y*={y*|y*e Y, Эх*еХ, (х*, y*JeZ(TJ}. Тогда множество Z(T) можно представить в виде г(Г)=Г»хУ». (3.8) Доказательство (3.8), как следствие второго утверждения теоремы, предоставим читателю. Определение. Множество Т*(У*) называется множеством оптимальных стратегий игрока 1(2) в игре Г, а его элементы — оптимальными стратегиями игрока 1 (2). Заметим, что равенство (3.5) указывает на взаимозаменяемость оптимальных стратегий, т. е. любая пара оптимальных стратегий образует ситуацию равновесия, а выигрыш в ней равен значению игры. 33. Оптимальность поведения игроков не изменится, если в игре множества стратегий остаются прежними, а функция выигрыша умножается на положительную константу (или к ней прибавляется постоянное число). Лемма (о масштабе). Пусть Г=(Х, Y, К) и Г'=(Х, Y, К') две антагонистические игры, причем К=рК+а, Р>0, а=const, /?=const. (3.9) Тогда Z(T')=Z(T), ®г =^»г+а. (3.10) Доказательство. Пусть (х*, у*) — ситуация равновесия в игре Г. Тогда имеем К’(х*, у*)=рк(х*, у*)+а</Щх», у)+а=К'(х*, у), К'(х, y*)=PK(x, у*)+а^рк(х*, у*)+а=К’(х*, у*) для всех хеХ uyeY. Поэтому (х*, y*)eZ(T9, Z(T)c.Z(T'). Обратно, пусть (х, y)eZ(T'). Тогда К(х, у)=(1/Р)К'(х, у)—а/Р и, рассуждая аналогично, получаем, что (х, y)eZ(V). Поэтому Z(T)=Z(r'), при этом выполняется равенство vr=K'(x*, у*)=рК(х*, y*)+a=/tor+a. Содержательно данная лемма говорит о стратегической эквива- лентности двух игр, отличающихся лишь началом отсчета выигры- шей, а также масштабом их измерения. 3.4. Теперь установим связь между принципом равновесия и при- нципами минимакса и максимина в антагонистической игре. Теорема. Для того чтобы в игре Г=(Х, Y, К) существовала 18
ситуация равновесия, необходимо и достаточно, чтобы существова- ли мцнимакс и максимин I min sup К(х, у), max inf К(х, у) (3.11) У х х у и выполнялось равенство v=max inf К(х, j)=min sup К(х, y)=v. (3.12) - X у ух Доказательство. Необходимость. Пусть (x*,y*)eZ(T). То- гда для всех хеХ ayeYвыполняются неравенства К(х,у*)^К(х*,у*)^К(х*,у), (3.13) отсюда sup К(х, у*)<Х(х*. у*). (3.14) X Вместе с тем имеем inf sup К(х, y)<sup К(х, у*). (3.15) ух X Сравнивая (3.14) и (3.15), получаем inf sup К(х, j)<sup К(х, j*)<A(x*, у*). (3.16) ух X Рассуждая аналогично, приходим к неравенствам Дх*, y*)<inf Дх*, y)<sup inf К(х, у). (3.17) ’ ‘ У X у Таким образом, inf sup Дх, y)<sup inf К(х, у), ух х у С другой стороны, всегда выполняется обратное неравенство (2.6). Итак, получаем sup inf Дх, y)=inf sup К(х, у), (3.18) X У ух этом неравенства (3.16), (3.17) выполняются как равенства гл inf SUP К(х> j) = sup К(х, у*)=К(х*> у*), ух X sup inf K(x, y)=inf K(x*, y)=K(x*t у*), x у у 19
т. е. внешние экстремумы у минимакса и максимина достигаются в точках у* и х* соответственно. Достаточность. Пусть существуют минимакс и максимин max inf К(х, y)=inf К(х*, у); (3.19) * У У min sup Дх, y)=sup К(х, у*) (3.20) ух X и выполняется равенство (3.12). Покажем, что ситуация (х*, у*) является равновесной. Действительно, Дх*, y*)>inf £(х*, y)=max inf Дх, у); (3.21) У * У К(х*, y*)<sup К(х, y*)=min sup К(х, у). (3.22) х ух Согласно равенству (3.12) минимакс равен максимину, а из (3.21), (3.22) следует, что он равен также и величине К(х*, у*), т. е. неравенства в. (3.21), (3.22) выполняются как равенства. Теперь имеем Дх*. y*)=inf К(х*, у)< Дх*, у), У К(х*, y*)=sup К(х, у*)^К(х, у*) для всех хеХ и уе У, т. е. (х*, y*)eZ(T)- Заметим, что в ходе доказательства показано, что общее значе- ние минимакса и максимина равно К(х*, у*)=ю — значению игры, при этом любая минимаксная (максиминная) стратегия у*(х*) в условиях теоремы является оптимальной, т. е. ситуация (х*. у*) является равновесной. Из доказательства теоремы получаем следующее утверждение. Следствие 1. Если_минимакс и максимин в (3.11) существуют и достигаются науих соответственно, то max inf К(х, у)^К(х, y)<min sup К(х, у). (3.23) х у ух Игры, в которых существуют ситуации равновесия, называются вполне определенными. Поэтому данная теорема устанавливает кри- терий вполне определенной игры и может быть переформулирована следующим образом. Для того чтобы игра была вполне определена, необходимо и достаточно, чтобы существовали минимакс и мак- симин в (3.11) и выполнялось равенство (3.12). Заметим, что в матричной игре Гл экстремумы в (3.11) всегда достигаются, поэтому теорема принимает следующий вид. 20
Следствие 2. Для того чтобы матричная (тх nJ-игра Гл была вполне определена, необходимо и достаточно выполнение равенства min max а»= max min а/у. (3.24) j-1, 2..., п i»l, 2..., т /«*1, 2, т 2, п 1 Например, в игре с матрицей 2 „ „ о равновесной. При этом 4 1 3 4 -2 7 ситуация (2,1) является max min ay=min max ay=2. С другой стороны, игра с матрицей весия, поскольку 1 О О 1 не имеет ситуации равно- min max а„= 1 >max min а„=0. Ji i J Заметим, что игры, сформулированные в примерах 1 — 3 (п. 1.3), не являются вполне определенными, а игра в примере б вполне опреде- лена и ее значение ю=6. § 4. СМЕШАННОЕ РАСШИРЕНИЕ ИГРЫ 4.1. Рассмотрим матричную игру Гл. Если в ней существует ситуация равновесия, то минимакс равен максимину, причем соглас- но определению ситуации равновесия каждый из игроков может сообщить свою оптимальную (максиминную) стратегию против- нику и от этого ни один из игроков не может получить дополнитель- ную выгоду. Теперь предположим, что в игре Гл не существует ситуации равновесия. Тогда согласно теореме п. 3.4 и лемме п. 2.2 имеем min max а,7—max min а,7>0. (4.1) В этом случае максиминная и минимаксная стратегии не являются оптимальными. Более того, игрокам бывает невыгодно их придер- живаться, так как они могут получить больший выигрыш. Однако Сообщение о выборе стратегии противнику может привести к еще большим потерям, чем в случае максиминной или минимаксной стратегии. Действительно, пусть матрица А имеет вид 21
Для такой матрицы min max ал=5, max min а,у=3, т. е. ситуации i J равновесия не существует. Обозначим через i* максиминную страте- гию игрока 1 (j* — 1), а минимаксную стратегию игрока 2 через J* (/*=2). Пусть игрок 2 придерживается стратегии j* = 2, а игрок 1 выберет стратегию г=2. Тогда последний получит выигрыш 5, т. е. на 2 единицы больше, чем максимин. Однако если игрок 2 догадает- ся о выборе игрока 1, то он изменит стратегию на у=1, и тогда первый получит выигрыш лишь 2 единицы, т. е. на единицу меньше, чем в случае максимина. Аналогичные рассуждения можно провести и для второго игрока. По существу вопрос стоит о том, как раз- делить между игроками выигрыш (4.1)? Оказывается, что в этом случае игрокам разумно действовать случайно, что обеспечивает наибольшую скрытность выбора стра- тегии. Результат выбора не может стать известным противнику, поскольку до реализации случайного механизма не известен самому игроку. 4.2. Определение. Случайная величина, значениями которой являются стратегии игрока, называется его смешанной стратегией. Так, для матричной игры Гл смешанной стратегией игрока 1 является случайная величина, значениями которой являются номе- ра строк ieM, М={\, 2,..., т} матрицы А. Аналогично определяет- ся смешанная стратегия игрока 2, значениями которой являются номера jeN столбцов матрицы А. Учитывая только что введенное определение смешанных страте- гий, прежние стратегии будем называть «чистыми». Так как случай- ная величина характеризуется своим распределением, то будем отождествлять в дальнейшем смешанную стратегию с вероятност- ным распределением на множестве чистых стратегий. Таким об- разом, смешанная стратегия х игрока 1 в игре есть m-мерный вектор х=(^,.... Ые/Г, Z ^=1, &>0, i=l,..., т. (4.2) /“1 Аналогично, смешанная стратегия у игрока 2 есть л-мерный вектор п У=(П1....fh), Е Я/>0 (4.3) >1 При этом и ^>0— вероятности выбора чистых стратегий ieM и jeN соответственно при использовании игроками смешан- ных стратегий х и у. Обозначим через X я Y соответственно множества смешанных стратегий первого и второго игроков. Нетрудно заметить, что мно- жество смешанных стратегий каждого игрока — компакт в соответ- ствующем конечномерном евклидовом пространстве (замкнутое, ограниченное множество). Определение. Пусть х=(^1, .... —смешанная страте- 22
гия игрока 1. Тогда множество индексов Mx={i\ieM, £,>0}, (4‘4) где Л/={1, 2,т], назовем спектром стратегии х. Аналогично для смешанной стратегии у= (rfa, r]n) е Y игрока 2 спектр Ny определяется следующим образом: (4.5) где #={1, 2, п}. Спектр смешанной стратегии состоит из таких чистых стратегий, которые выбираются с положительными вероят- ностями. Для любой смешанной стратегии х спектр Мх^0, поскольку вектор х имеет неотрицательные компоненты, сумма которых равна 1 [см. (4.2)]. Рассмотрим смешанную стратегию 14 "(Ci» .... £(, .... £т)еХ, где {(=1, i=l, 2,..., т. Такая стратегия предписывает выбор i-й строки матрицы А с вероятностью 1. Естественно отождествлять смешанную стратегию uteX с выбором i-й строки, т. е. с чистой стратегией ieM игрока 1. Аналогично отождествим смешанную стратегию wJ=(ril, гу, .... q^eY, где ^=1, ^,=0, ..., п, с чистой стратегией jeN игрока 2. Тем самым мы получили, что Множество смешанных стратегий игрока есть расширение его про- странства чистых стратегий. Определение. Пара (х, у) смешанных стратегий игроков в мат- ричной игре Гл называется ситуацией в смешанных стратегиях. Определим выигрыш игрока 1 в ситуации (х, у) в смешанных стратегиях для матричной (т х п)-игры Гл как математическое ожи- дание его выигрыша при условии, что игроки используют смешан- ные стратегии соответственно х и у. Выбор стратегий игроками осуществляется независимо друг от друга, поэтому математическое ожидание выигрыша К(х, у) в ситуации (х, у) в смешанных стратеги- ях .... Cm), У“(Ч1. •••. Чп) равно Щх, у)=£ £ aIJCi/lj=(xA)y=x(Ay). (4.6) i-i j-i При этом функция Х(х, у) является непрерывной по хеX и ye Y. Заметим, что выигрыши K(i, у), К(х, J) при применении одним из игроков чистой стратегии (i или j соответственно), а другим — сме- шанной стратегии (у или х) имеют вид K(i, y)=K(Ui, у)=£ ciijTij^aty, i=l, ..., т, j-i K(x,J)=K(x, Wj)=Y atjCi=xaj,j=l, ..., n, l—l 23
где ab aj — i-я строка и j-й столбец соответственно (т х ^-матри- цы А. Таким образом, от матричной игры Гл=(Л/, N, А) мы пришли к новой игре Гд=(Х, Y, К), где X и У — множества смешанных стратегий в игре Гл, а К — функция выигрыша в смешанных страте- гиях. Игру Гл будем называть смешанным расширением игры Гл. Игра Гл является подыгрой для Гл, т. е. ГЛ<=ГЛ._ 43. Определение. Ситуация (х*, у*) в игре Гл образует ситу- ацию равновесия, а число v=K(x*, у*) является значением игры Гл, если для всех хеХ и yeY К(х,у*)^К(х*,у*)^К(х*,у). (4.7) Из теоремы п. 3.2 следует, что стратегии (х*, у*), входящие в ситуацию равновесия, являются также оптимальными. Более того, согласно теореме п. 3.4 стратегии х* и у* являются соответственно максиминной и минимаксной, поскольку внешние экстремумы в (3.11) достигаются (функция К(х, у) непрерывна на компактных множествах X и У). В п. 3.3 была показана стратегическая эквивалентность двух игр, отличающихся лишь началом отсчета выигрышей, а также масш- табом их измерения (лемма о масштабе). Оказывается, что если две матричные игры Гл и Гл находятся в условиях этой леммы, то их смешанные расширения стратегически эквивалентны. Формально этот факт устанавливается следующим утверждением. Лемма. Пусть Гл и Гл — две матричные (т х п)-игры, причем А'=аА+В, а>0, а=const, а В — матрица с одинаковыми элементами 0, т. е. /?,у= ft для всех i и j. Тогда Z(rA')=Z(TА), vA=avA+ft, где Гл и Гл — смешанные расширения игр Гл и Гл соответственно, a vA>, vA — значения игр ТлиГЛ. Доказательство. Обе матрицы А и А' размерности тпхп, поэтому множества смешанных стратегий в играх Гл и Гл совпада- ют. Покажем, что для любой смешанной ситуации (х, у) выполняет- ся равенство К'(х,у)=аК(х,у)+р, (4.8) где К' и. К — выигрыши игрока 1 в играх Гл и Гл соответственно. Действительно, для всех хе Хи у в У имеем К'(х, у)=хА'у=а(хАу)+хВу=аК(х, y) + fl. Тогда из леммы о масштабе следует, что Z(rA)=Z(TA), vA- = oivA +fl- 24
Пример 7. Проверим, что стратегии j* = (x/2, Чр Ч*)* х* = =(х/2’ х/4, х/4) оптимальны, a v=0 — значение игры Гл с матрицей 1 А = L-1 -1 -1 -1 з 3 -1_ Упростим матрицу А (с целью получения максимального числа нулей). Прибавляя ко всем элементам матрицы А единицу, получим матрицу 2 О Я'= О О О 4 L0 4 0J Каждый элемент матрицы А! разделим на 2. Новая матрица прини- мает вид 1 о о’ 0 0 2 L0 2 0J По лемме значение игр связано равенством «л*=1/2 vA^l/2(yA + l). Таким образом, требуется проверить, что значение игры Гл* рав- но ll2- Действительно, К(х*, у*)=х* Л"у* = хД. С другой стороны, для каждой стратегии yeY, y=(rilt fj2, Пз/ имеем K(x*t у) = в1/2’/1 + 1/2’Т2+1/2Чз = 1/21 = 1/2, а для всех x=f£x, £2, £3Л хеХ, К(х, У*)= /г£1+ /2^2+ /2^3= /г- Следовательно, указанные стра- тегии х*. у* являются оптимальными, а «л=0. В дальнейшем, говоря о матричной игре Г убудем предпола- гать, что речь идет о ее смешанном расширении Гл. § 5. НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЫПУКЛЫХ МНОЖЕСТВ И СИСТЕМ ЛИНЕЙНЫХ НЕРАВЕНСТВ Этот параграф носит вспомогательный характер и при первом чтении может быть опущен. Однако для понимания доказательств последующих утверждений полезно напомнить широко распрост- раненные понятия и результаты. Большинство из них будет приве- дено без доказательств, в необходимых случаях даны ссылки на специальную литературу. 5.1. Множество Мс-К" называется выпуклым, если вместе с любыми двумя точками этого множества xlt х2еМ в нем содержатся все точки отрезка 25
Лхх+(1 — А)х2, 0<Л<1. Понятие выпуклого множества можно сформулировать и в более общем, но эквивалентном виде. Множество M^Rm называется выпуклым, если вместе с точками хР.., х^ из М оно содержит и все точки вида к к х® £ Afxf, £ Ai=l, t-1 1-1 называемые выпуклыми линейными комбинациями точек хр..., х*. Пересечение выпуклых множеств всегда выпукло. Рассмотрим систему линейных неравенств хА^Ь или xai^PpjeN, W-{1,...» и}, (51) где A-fa^, jeN]~(шх л)-матрица, xelf, Обозначим У={х|хЛ< ^множество решений системы (5.1). Непосредственно из определения следует, что X — выпуклое множество. Множество X называется выпуклым много- гранным множеством, заданным системой ограничений (5.1). 5.2. Точка х е М, где М — выпуклое множество, называется крайней точкой, если из условия х=Ах1+(1—Л) х2, х±еМ, х2бЛ/иО<Л<1 следует, что хх=х2=х. Содер- жательно определение означает, что хеМ — крайняя точка, если не существует отрезка, содержащего две точки из М, для которого х является внутренней. Заметим, что крайняя точка выпуклого множества всегда является граничной, обратное неверно. Пусть X — выпуклое многогранное множество, заданное системой ограничений (5.1). Тогда справедливы следующие утверждения. Теорема. Множество X имеет крайние точки тогда и только тогда, когда гапкЛ=кЛjeJV]=m[16, с. 69]. Теорема. Для того чтобы точка хоеХбыла крайней, необходимо и достаточно, чтобы она была решением системы x^-pjJeN,; (5.2) (5.3) где ЛГ rank[*/, jeNJ—m [16, с. 65, 66]. Последняя теорема дает алгоритм нахождения крайних точек множества X Для этого необходимо рассмотреть столбцовые базисы матрицы А, решить систему линейных уравнений (5.2) и проверить выполнение неравенств (5.3). Однако такой способ поиска крайних точек многогранного множества мало пригоден для практи- ки, поскольку он связан с полным перебором всевозможных столбцовых базисов матрицы А. 5.3. Выпуклой оболочкой множества Р будем называть пересечение всех выпук- лых множеств, содержащих Р, и обозначать conv (Р). Данное определение эквивален- тно следующему. Выпуклая оболочка множества Р состоит из всех выпуклых линей- ных комбинаций всевозможных точек из Р, т. е. п п conv(PJ-{x|x= £ hXi, Л(-1, ^>0, x(6?}. i-i i-i Выпуклая оболочка конечного числа точек называется выпуклым многогранни- ком, порожденным этими точками. Выпуклый многогранник порожден своими край- ними точками. Так, если рассмотреть множество X смешанных стратегий игрока 1 в (тхл)-игре, то Z—convf^,..., где uf=(0,..., 0,1,0,...,0) — орты пространства ЯР* или чистые стратегии игрока 1. Множество X является выпуклым многогранни- ком размерности (ли—1) и называется также (т— \)-мерным симплексом (или фун- даментальным симплексом). При этом все векторы щ (чистые стратегии) являются 26
крайними точками многогранника X. Аналогичные утверждения справедливы для множества Y смешанных стратегий игрока 2. Конусом С называется множество таких точек, что если хе С, Л>0, то ЛхеС. Содержательно конус С — это такое подмножество Я'", которое вместе с точкой х содержит и всю полупрямую (х), где (х) ={у\у=^. Л>0}. Конус С называется выпуклым конусом, если выполняется условие: для всех х, уе С справедливо х+уеС. Другими словами, конус С — выпуклый, если он замкнут относительно операции сложения. Можно дать и другое эквивалентное определение. Конус называется выпуклым, если он является выпуклым множеством. Сумма выпуклых конусов С1 + С2 = {с\с^с1+с2, с1еС1, сеС2} и их пересечение CiQC2 также являются выпуклыми конусами. Непосредственной проверкой определения можно показать, что множество С—{х|хЛ<0] решений однородной системы линейных неравенств, соответству- ющей (5.1),2шляется выпуклым конусом. Пусть X — выпуклое многогранное множество, заданное системой ограничений (5.1), записанной в эквивалентной форме т (5.4) /-1 где x^((lt ^JeR*, at— i-я строка матрицы A, /==1, ..., т, Предположим, что rank А=г^т, и векторы at,а? образуют строчечный базис матрицы А, Разложим остальные строки по базису г dijOi»j**r+\,..., т, (5.5) /I Подставляя (5.5) в (5.4), получим эквивалентную (5.4) систему неравенств г / т ч S (5-6) i-l \ >г+1 / Обозначим через XQ множество векторов х=({р удовлетворяющих неравенствам (5.6) и условию f/=0,J=r+l,m. По теореме п. 52 множество Хо имеет крайние точки. Справедлива следующая теорема {16, с. 70 — 74}. Теорема о представлении многогранного множества. Пусть Xмногогран- ное множество, заданное системой ограничений (5.4). Тогда Х~М+С, где Af+C=={x| x==y+z, уеМ, zeC}, М—выпуклый многогранник, порожденный крайними точками многогранного множества XQ, заданного (5.6), а С={х|хЛ<0} — ^рыпуклый конус. Из теоремы,_ в частности, следует, что если множество X решений системы (5.4) Л|раничено, то X — выпуклый многогранник. 5.4. Напомним, что задача нахождения mincx при ограничениях < хА>Ь, х>0, (5.7) ЩеЛ— (т х п) -матрица, сеЯ”1, xeR*, be К* называется прямой стандартной задачей линейного программирования, а задача, заключающаяся в определении шах бу при Шраничениях Ау^с,у>0, (5.8) ГДе yeR1 — двойственной задачей линейного программирования для (5.7). Вектор хе R*, удовлетворяющий системе (5.7), называется допустимым решени- ем задачи (5.7). Аналогично вводится понятие допустимого решения у е к* задачи 27
(5.8). Допустимое решение х(у) называется оптимальным решением задачи (5.7) [(5.8)], если на нем достигается минимум (максимум) функции сх(Ьу) на множестве всех допустимых решений. Справедливо следующее утверждение [16]. Теорема двойственности. Если обе задачи. (5.7), (5.8) имеют допустимые решения, то они обе имеют оптимальные решения х, у соответственно, при этом cx—by. 5.5. В заключение параграфа приведем одно свойство выпуклых функций. Снача- ла напомним, что функция (р: M-+R1, где — выпуклое множество, называет- ся выпуклой, если + (1 - W ^<p(Xl) + (\-Х)<р(х2) (5.9) для любых xlt х2 е М и Л е[0,1]. Если же в (5.9) выполняется обратное неравенство, то функция ф называется вогнутой. Пусть <pi(x) —выпуклые на М функции /-1, ... , л. Тогда верхняя огибающая ф(х) этого семейства функций ф(х) = max q>i(x) (5.10) .... л является выпуклой на М. Действительно, по определению выпуклой функции для xit х2еМ и ае[0, 1] имеем <Pi( + (1 “ J < <Wi(х i)+(1 - «W х2) < max Ф/бч^ + О—а) max <Pi(x2). i i Отсюда получаем ф(axt + (1 - л)х2) =max ф/ooq + (1 - a)x2) < что и требовалось доказать. Аналогично можно показать вогнутость нижней огибающей (в (5.10) берется минимум по 0 семейства вогнутых функций. § 6. СУЩЕСТВОВАНИЕ РЕШЕНИЯ МАТРИЧНОЙ ИГРЫ В КЛАССЕ СМЕШАННЫХ СТРАТЕГИЙ Докажем, что произвольная матричная игра вполне определена в классе смешанных стратегий. 6.1. Теорема. Всякая матричная игра имеет ситуацию равнове- сия в смешанных стратегиях. Доказательство. Пусть Гл — произвольная (тпхл)-игра со строго положительной матрицей A={atJ}, т. е. ау>0 для всех i= 1, т и J=l, п. Покажем, что в этом случае теорема справедлива. Для этого рассмотрим вспомогательную задачу линейного программи- рования min хм, xA^w, х>0 (6.1) и двойственную ей задачу (п. 5.4) 28
maxyw, Ay^u, j>0, (6.2) где u=(l, ... 1)еЛ", w=(l, 1)еЛ". Из строгой положительности матрицы А сп&яует, что существует такой вектор х> 0, для которого x4>w, т. е. задача (6.1) имеет допустимое решение. С другой стороны, вектор у=0 является допустимым решением задачи (6.2) Поэтому по теореме двойственности линейного программирования [см. п. 5.4) обе задачи (6.1) и (6.2) имеют оптимальные решения х, у соответственно, при этом xu=yw=0>0. (6.3) Рассмотрим векторы х*=х/0 и у*=у/0 и покажем, что они являются оптимальными стратегиями игроков 1 и 2 соответственно в игре Гл, при этом значение игры равно 1/0. Действительно, из (6.3) имеем х*м=(хи)19=(yw)/0=у *w=1, а из допустимости х и у для задач (6.1), (6.2) следует, что х*=х/0>О и у*=у/0^О, т. е. х* и у*—смешанные стратегии игроков 1 и 2 в игре Гл. Вычислим выигрыш игрока 1 в ситуации (х*, у*): К(х*, у*)=х*Ау*=(хАу)/02. (6.4) С другой стороны, из допустимости векторов х и у для задач (6.1), (6.2) и равенства (6.3) имеем 0=wy^(xA)y=x(Ay)^xu=0. (6.5) Таким образом, хАу=0, из (6.4) получаем, что Дх*, у*)=1/0. (6.6) Пусть хе У и уеУ—произвольные смешанные стратегии иг- роков 1 и 2. Тогда выполняются неравенства Дх*,у)=(хМ)у=(хЛ)у/0>(м/у)/0=1/0; (6.7) Щх, у*')—х(Ау*)=х(Ау)/0^(хи)/0—1/0. (6.8) Сравнивая (6.6) — (6.8), получаем, что fx*. у*)—ситуация рав- новесия, а I/O — значение игры Гл со строго положительной ма- трицей А. Теперь рассмотрим (тхп)-игру с произвольной матрицей Л'==[«,;}. Тогда существует такая константа В>0, что матрица 4*М'+В—-строго положительна, где В={^,7; — f/nx nJ-матрица, i=\,m,j=\, п. В игреГл существует ситуация равновесия (х*, £*) в смешанных стратегиях, а значение игры равно vA= 1|/0, где 0 определяется как в (6.3). 29
Из леммы п. 4.3 следует, что (х*, y*)eZ(Tz) — ситуация равно- весия в игре Гл в смешанных стратегиях, а значение игры равно Р= Теорема доказана. Неформально факт существования решения в классе смешанных стратегий означает, что игроки всегда могут снять неопределен- ность выбора стратегии, с которой они столкнулись перед началом игры, рандомизируя множество чистых стратегий. Следует отме- тить, что не всегда в антагонистических играх существует решение в смешанных стратегиях. Примеры таких игр с бесконечным числом стратегий приведены в § 3, 4 гл. П. Заметим также, что доказательство теоремы конструктивно, по- скольку сводит решение матричной игры к задаче линейного про- граммирования, при этом алгоритм решения игры Гл следующий. 1. По матрице А' строится строго положительная матрица А—А'+В, где В={0ц}, Ри=0>Ъ. 2. Решаются задачи линейного программирования (6.1), (6.2). Находятся векторы х, у и число 0 [см. 6.3)]. 3. Строятся оптимальные стратегии игроков 1 и 2 соответ- ственно х*=х/0, у*—у 19. 4. Вычисляется значение игры ГА v^l/9-р. Пример 8. Рассмотрим матричную игру Гл, определенную мат- рицей L2 3J Соответствующие ей задачи линейного программирования имеют следующий вид: min ^1 + ^2, шах^+Чг. 4£1+2е2>1, 4^1, 3£2>1, 2Л1 + Зг12^1, fi>0, $2>0, >?1>0,^2>0. Заметим, что эти задачи в эквивалентной форме могут быть записа- ны для ограничений типа равенств: тт^ + <?2, 4f1+2£2—£3 = 1, max +>/2, 4»h + »h=l. 30
3£2-£4=l, 2jj1 + 3^2 + ^4= 1, <fi>0,^2>0, £з>0, £4>°, »h>0, »j2>0, ^3>0, »/4 >0- Таким образом, любой метод решения задач линейного про- граммирования может быть приспособлен для решения матричных игр. Наиболее распространенным методом решения таких задач является симплекс-метод, систематическое изложение которого мо- жно найти в [16, 25, 73]. 62. Задача линейного программирования в определенном смыс- ле эквивалентна матричной игре Гл. Действительно, рассмотрим следующие прямую и двойственную задачи линейного програм- мирования min хи xA>w, (6.9) х>0; maxyw Ау^и, (6.10) j>0. Пусть Xи Y — множества оптимальных решений задач (6.9) и (6.10) соответственно. _ Обозначим (11в)Х={х10\хеХ}, mY={y/e\yeY},e>0. Теорема. Пусть Гл — (тхп)-игра с положительной матрицей А (все элементы положительны) и даны две двойственные задачи линейного программирования (6.9) и (6.10). Тогда имеют место сле- дующие утверждения. 1. Обе задачи линейного программирования имеют решение и Y*®), при этом 0=min хи=max yw. * У 2. Значение vA игры Гл равно ®л=1Я а. стратегии х* = х/0, у*=у1в, являются оптимальными, где хеХ — оптимальное решение прямой задачи (6.9), a yeY— двойственной задачи (6.10). ' 3. Любые оптимальные стратегии х*еХ* и у* е У* игроков мо- гут быть построены указанным способом, т. е. x*=(i/ejx, у*=(\/в)у. Доказательство. Утверждения 1, 2 и включения (1/0)Хс2Х*, 31
l/6Yc.Y* непосредственно следуют из доказательства теоремы □. 6.1. Покажем обратное включение. Для этого рассмотрим векторы х* = (£*,.... £♦)£.¥* и х=(£р ...» D, где х=6х*. Тогда для всех JeN имеем xaJ= 6x*aJ^ 6(1/6)=1, при этом х>0, так как 6>0 и х*>0. Поэтому х — допустимое решение задачи (6.9). Вычислим значение целевой функции xu=0x*u=0=min хи, X т. е. хеХ— оптимальное решение задачи (6.9). Аналогично доказывается включение У* с (1/0) Y. Теорема до- казана. § 7. СВОЙСТВА ОПТИМАЛЬНЫХ СТРАТЕГИЙ И ЗНАЧЕНИЯ ИГРЫ Рассмотрим свойства оптимальных стратегий, которые в ряде случаев помогают находить значение игры и ситуацию равновесия. 7.1. Пусть (х*. у*)еХх Y—ситуация в смешанных стратегиях в игре Гл. Оказывается, что для проверки ситуации (х*, у*) на равновесность неравенства (4.7) достаточно проверять не для всех хеХ и yeY, а лишь для ieM и JeN, поскольку справедливо следующее утверждение. Теорема. Для того чтобы ситуация (х*. у*) была равновесной в игре Гл, а число v=K(x*, у*) —значением игры Гл необходимо и достаточно выполнение следующих неравенств для всех ieM и jeN: K(i, у*)^К(х*, у*)^К(х*, J), (7.1) Доказательство. Необходимость. Пусть (х*, у*)— ситу- ация равновесия в игре Гл. Тогда К(х, у*)^К(х*, у*)^К(х*, у) для всех хеХ, ye Y. Поэтому, в частности, для щеХи Wje Yимеем K(i, y*)=K(uit у*)<Х(х*. у*)^К(х*, wj)=K(x*,j) для всех ieM и jeN. Достаточность. Пусть (х*. у*) — пара смешанных стратегий, для которой выполняются неравенства (7.1). Пусть также х=($15 ... ..., £ж)еХиy=(rii,Jjn)e Y — произвольные смешанные стратегии игроков 7 и 2 соответственно. Умножая первое и второе неравенства (7.1) на Ct и fy соответственно и суммируя, получаем 32
x Mi, y*)Mx*. J*)L 6=Дх*. j*); (7.2) i«l i=l £ Mx*. j)>K(x*. Z) £ Дх», j*). (7.3) j-i j-i При этом имеем £«/,П=Дх,у*); (7.4) 1=1 п ^M^,j) = K(x\y). (7.5) Подставляя (7.4), (7.5) в неравенства (7.2) и (7.3) соответственно н учитывая произвольность стратегий хе У и ye Y, получаем равно- весность ситуации (х*, у*). Следствие 1. Пусть (i*. j*) — ситуация равновесия в игре Гл. Тогда ситуация (i*. j*) равновесна и в игре Гл. Пример 10. (Решение игры на уклонение.) Предполагается, что игроки выбирают целые числа i и j между 1 и и, а игрок 1 выигрыва- ет величину ay=|i—Л, т. е. расстояние между числами i и J. Пусть первый игрок придерживается стратегии х*=(х/2, 0, ... .... 0,1/2). Тогда Дх*. j)=l/2|l —j|4-l/2|n—/| = 1/2(/—1)+1/2(л—у)=(л—1)/2 для всех 1</<и. а) Пусть n=2k+1 — нечетно. Тогда игрок 2 имеет чистую стра- тегию j* = (n+ l)/2=fc+l такую, что оу = | i - (и +1 )/21 = 11 - к -11« к=(и -1 )/2 для всех i= 1, 2,..., п. б) Предположим, что п=2к— четно. Тогда игрок 2 имеет та- кую стратегию у* = (0, 0, .... 1/2, 1/2, 0, ..., 0), где г{к=1/2, ^+i = 1/2. ty=0, что K(i, у*)=1/21 i—к|.+1/21 i—к—11<l/2fc + l/2(fc-1) = (n-1)/2 ДЛЯ всех 1^1<л. Теперь, используя теорему, нетрудно убедиться, что значение Гры ю=(л—1)/2, игрок 1 имеет оптимальную стратегию х*, а оп- тимальная стратегия игрока 2 равна j*, если n=2fc+l, и у*, если 7.2. Приведем результаты, являющиеся непосредственным след- ‘ Фнием теоремы п. 7.1. Теорема. Пусть Гл-(тхп)-игра. Для того чтобы ситуация ^ смешанных стратегиях (х*, у*) была равновесной в игре Гл, необ- 2 Теория игр 33
ходимо и достаточно выполнение равенства max K(i, y*J = min К(х*, j). (7.6) Доказательство. Необходимость. Если (х*. у*)— ситуа- ция равновесия, то согласно теореме п. 7.1 имеем K(i,y*)^K(x\y*)^K(x*,j) для всех ie{1,..., m},je{l,..., п]. Поэтому K(i,y*)^K(x*,j) для каждого i и j. Предположим противное, т. е. (7.6) не выполнено. Тогда max K(i, у*) < min К(х*, j). l<i<m 1</<л Следовательно, имеют место неравенства К(х*, у*)= £ (i Kfa max Д*. У*)< min К{х*, /)< /-1 1<«т 1</<я ^(x^j>*(x*,y*). >1 Полученное противоречие и доказывает необходимость утвержде- ния теоремы. Достаточность. Пусть пара смешанных стратегий (х, у) тако- ва, что max K(i, y)=min К(х, j). Покажем, что в этом случае (х, у) — ситуация равновесия в игре Гл. Справедливы соотношения min К(х, _/)< £ J)=^(*> У)= J-1 = £ ^K(i, у)< max K(i, у). i-1 Поэтому имеем X(i, y)^max K(i, y)=K(x, y)=min K(j, x)^K(X,j) i i для всех 1 < и тогда по теореме п. 7.1 (х, у) — ситуация равновесия в игре Гл. Из доказательства следует, что любое из чисел в (7.6) равно значению игры. _ 7.3. Теорема. Для матричной игры Гл справедливы следующие соотношения: max min К(х, j)—vA=TDin max K(i, у), (7.7) * J у i 34
причем экстремумы по смешанным стратегиям х и у в (7.7) достига- ются на оптимальных стратегиях игроков. Теорема является следствием теорем п. 3.4, 7.2, и ее доказатель- ство предоставляем читателю. 7.4. Теорема. В матричной игре Гя множества оптимальных смешанных стратегий X* и Y* игроков являются выпуклыми много- гранниками. Доказательство. Согласно теореме п. 7.1 множество явля- ется множеством всех решений системы неравенств xa^vA,jeN, хи=1, х>0, где «=(1, ...» vA— значение игры. Таким образом, X*— выпуклое многогранное множество (п. 5.1). С другой стороны, Х*с.Х, где X—выпуклый многогранник (п. 5.3). Поэтому X* — ограничено. Следовательно, по теореме п. 5.3 множество X* — вы- пуклый многогранник. Аналогично доказывается, что У* — выпуклый многогранник. 75. В качестве примера использования теоремы п. 7.3 приведем геометрическое решение игр с двумя стратегиями у одного из игроков ((2 х и)- и (т х 2)-игры). Такой подход в литературе также называется графоаналитическим методом решения игр. В основе графоаналитических методов лежит свойство оптимальных страте- гий х* и у* доставлять внешние экстремумы в равенстве f ‘ , vA=max min К(х, j)=min max K(i, y). x i У ‘ Пример 11. ((2 x п)-игра). Рассмотрим игру, в которой игрок 1 имеет две стратегии, а игрок 2 — п стратегий. Матрица имеет вид [ап а12 ... а1я-| . а21 а22 ... Пусть игрок 1 выбрал смешанную стратегию х=(£, 1 — 0, а иг- рок 2 чистую стратегию jeN. Тогда выигрыш игрока 1 в ситуации (х, j) равен Дх,Д«еац+(1-0^ (7.8) Геометрически он представляет собой прямую в координатах (О К). Таким образом, каждой чистой сратегии j соответствует своя прямая. Графиком функции Я(0=шш К(х, j) j 2» 35
является нижняя огибающая семей- ства прямых (7.8). Эта функция вог- нута как нижняя огибающая семей- ства вогнутых (в данном случае ли- нейных) функций (п. 5.5). Точка £*, в которой достигается максимум фу- нкции Я(0 по £ е [0, 1], и дает требу- емое оптимальное решение х* = (£*, 1 — £*) и значение игры vA—H(%*). Для определенности рассмотрим игру с матрицей , Г1 3 1 41 Для каждого j= 1, 2, 3, 4 имеем: К(х, 1)=—£+2, К(х, 2)=2£+1, К(х, 3;=-Зе+4, К(х, 4) =4^. Нижняя огибающая ff(£) семейства прямых Рис. 1 {Дх, J)} и сами прямые К(х, j), j=l, 2, 3, 4, изображены на рис. 1. Максимум Н(£*) функции Я(£) находится на пересечении первой и четвертой прямых. Таким образом, £* — решение уравнения 4е*=-е*+2=«л. Откуда получаем оптимальную стратегию х* = (2/5, 3/5) игрока 1 и значение игры гя = 8/5. Оптимальную стратегию игрока 2 най- дем из следующих соображений. Заметим, что в рассматриваемом случае К(х*, 1)=к(х*, 4)=гл=8/5. Для оптимальной стратегии y*=(ih, >h, Чз, >4) должно выпол- няться равенство vA—K(x*, у*)=П1 К(х*. 1)+Ч‘2 К(х*. 2)+г{з К(х*. 3) + ^ КЦх*. 4). При этом К(х*. 2) >8/5, К(х*, 3)>8/5, следовательно, г?2 —>7з —О, a tfa. можно найти из условия (7.1) >h+4>4=8/5, 2^ = 8/5. Таким образом, ^ = 4/5 и >4=1/5 и оптимальная стратегия игрока 2 равна у* = (4/5, 0, 0, 1/5). Пример 12. ((т х 2)-ыгра.) В этом примере Две стратегии имеет игрок 2, а игрок 1 — т стратегий. Тогда матрица А имеет вид Г“и “12 1 &т2 36
дня пиз этой игры проводится аналогично. Действительно, пусть 1 —ty) — произвольная смешанная стратегия игрока 2. Тогда уцигрыш игрока 1 в ситуации (i, у) равен Дъ у)=а„>/4-<ха(1->?)=(ал-аа)^+аа. График функции Д/, у) — прямая. Рассмотрим верхнюю огиба- ющую этих прямых, т. е. функцию Я(»?)=тах [(ая - ай>+ац]. функция Н(ц) выпуклая (как верхняя огибающая семейства выпук- лых функций). Точка минимума ц* функции H(rf) дает оптимальную стратегию {—у*) и значение игры vA=H(q*)= min H(rf). тт - [0. 1] 7л. Приведем результат, полезный при отыскании решения игры. .... Теорема. Пусть х*=(сь...» fm) и у*=(>?!,..., >м) — оптимальные стратегии в игре Гл и vA — значение игры. Тогда для любого i, при котором K(i, y*)<vA, имеет место равенство {’=0, а для любого j такого, что vA<K{x*,j), имеет место равенство ijj—O. !t -Обратно, если £’>0, то K(i, y*)—vA, а если ty>0, то K(x*,j)—vA. Доказательство. Допустим, что для некоторого i9eM выпол- нено Д1о, y*)<vA и при этом <^#0. Тогда получаем, что д^гк^д- Для всех ieM K(i, y*)^vA, поэтому K(i,y*)C^AC Следовательно, Дх*, y*)<vA, что противоречит тому, что vA — зна- чение игры. Вторая часть теоремы доказывается аналогично. Этот результат является аналогом теоремы о дополняющей нежесткости [73] или, как ее еще называют, канонической теоремой равновесия для задачи линейного программирования [25]. Определение. Чистая стратегия ieM (jeN) игрока 1 (2) назы- вается существенной или активной стратегией, если cyujecmeyem оптимальная стратегия х*=(&, .... О (y*—(i]\> —> *1пУ) этого игрока, для которой £’>0 (ту>0). Из определения и последней теоремы следует, что для каждой существенной стратегии i игрока 1 и любой оптимальной стратегии У* € У* игрока 2 в игре ГА выполняется равенство K(i,y*)=aiy*=vA. Аналогичное равенство имеет место для любой существенной стратегии jeN игрока 2 и оптимальной стратегии х*еХ* игрока 1 37
K(x*, j)=aJx* =vA. Если для чистой стратегии i е М и смешанной стратегии у е Y выпол- няется равенство ay=vA, то говорят, что стратегия i уравновешива- ет смешанную стратегию у в игре Гл. Таким образом, в данной терминологии теорему можно перефо- рмулировать следующим образом. Если чистая стратегия игрока существенна, то она уравновешивает любую оптимальную страте- гию противника. Знание спектра оптимальной стратегии упрощает нахождение решения игры. Действительно, пусть — спектр оптимальной стратегии х* игрока 1. Тогда каждая оптимальная стратегия У* — (Ч1> —• игрока 2 и значение игры v удовлетворяют системе неравенств а<у*=«, Z ty = 1» При этом в спектр М* любой оптимальной стратегии х* могут входить лишь существенные стратегии. 7.7. В заключение параграфа приведем аналитическое решение игры «нападение — защита» (см. пример 4 п. 1.3) Пример 13. Рассмотрим игру с (п х п) матрицей А Pixi Ti — ri . т2^2 Х2 "• Х2 _ Хп Т» Рп _ Здесь г,>0 — ценность, а 0</?,<1—вероятность поражения объекта С„ i=l, 2, ..., п, при условии, что он защищен. Пусть Определим функцию <р от целых чисел 1, 2, ... ..., п следующим образом: <р(к)=№ (l-pd-l-l]li (7.9) G-* )/i-k и пусть /е{1, 2, ..., п} — целое число, доставляющее максимум функции ф(к), т. е. <р(/)= max (р(к). . (7.10) *-1, 2.л Установим свойства функции <р(к). Обозначим символом R один из знаков отношения порядка {>, =, <}. В этом случае 38
<p(k)R<p(k+\.) тогда и только тогда, когда xkR<p(k), к=\, 2, и—1, то=0. Действительно, из (7.9) получаем (1-ЛН , -------------------+ <р(к)=(р(к+1) + 4 Е {<Д-Д)}-‘ i-k+l Тогда имеем рХЛ) I т* (1-РкГ1 п E М-Ю}-1 (7-11) (7-12) (l-fa)'1 я E Ы1-Л)}’1 i-Jt+l 4-<p(fc) = <p(fc4-l). (7.13) Заметим, что коэффициент в (7.13), стоящий после квадратных скобок, положительный. Поэтому из (7.13) получаем эквивалент- ность соотношений (7.11) и (7.12). Теперь так как <р(О><р(/—1) или </>(/)> ф(/+1) (в этом случае Т/_1<ф(/—1) или т/>ф(/)), то из соотношений (7.10), (7.11) имеем неравенство (7.14) Найдем оптимальные стратегии в игре Гл. Напомним, что мы предполагаем выполненными неравенства Г£^т2^...^тл. Тогда оп- тамальными смешанными стратегиями x* = (Ci, .... Ст) и у* = (Сь rfj игроков 1 и 2 соответственно являются следующие: {о, i=l...l-\, I" (7 15) м-дт1/! до-дт1, > «>• * (о, 7=1, ..., Z-1, »?={ (7.16) 1 1[т/-Ф(0]/[ту(1-Д)], j-l. .... п, 4 7 а значение игры равно »л = <р(1)- Действительно, >0, i= 1,2,..., и и £ С = 1. Из определения <р(/) п (7.14) получаем, что ^>0,7=1, 2, ..., ли J ^’ = 1. П3гсть К(х*, J) — выигрыш игрока 1 в ситуации (х*. j), аналогич- но Kfj, у*) — выигрыш в ситуации (i, у*). 39
Подставляя (7.15), (7.16) в функцию выигрыша и используя предположение о неубывании ценностей объектов, а также (7.14), получаем С S П<=Ф(0+ X {г/1 -ДО-ф<?(/), 7=1, /-1, 1 н L/-/ J \i»/ Таким образом, для всех i, j= 1, ..., п выполняются неравенства Тогда по теореме п. 7.1 х* и у* — оптимальные стратегии игроков и ®4 = ф(0 — значение игры. Игра решена. § 8. ДОМИНИРОВАНИЕ СТРАТЕГИЙ Сложность решения матричной игры возрастает с увеличением размеров матрицы А. Вместе с тем в ряде случаев анализ матрицы выигрышей позволяет сделать вывод, что некоторые чистые страте- гии не входят в спектр, оптимальной стратегии. Это приводит к замене первоначальной матрицы на матрицу выигрышей меньшей размерности. 8.1. Определение. Говорят, что стратегия х? игрока 1 до- минирует стратегию х" в (тхп)-игре Гл, если для всех чистых стратегий Je(l, ..., п) игрока 2 выполняются неравенства х^хГа1. (8.1) Аналогично, стратегия у' игрока 2 доминирует его стратегию у", если для всех чистых стратегий ie {1,..., т} игрока 1 а^^ау". (8.2) Если неравенства (8.1), (8.2) выполняются как строгие, то говорят о строгом доминировании. Частным случаем доминирования страте- гий является их эквивалентность. Определение. Будем называть стратегии х! и х" игрока 1 эк- вивалентными в игре ГА, если для всех Jg {1.п} х'а-'=х"а7, и обозначать х'~х". 40
Для двух эквивалентных стратегий х' и х" выполняется (для каждого у е Y) равенство Дх',у)=^(х\у). Аналогично, стратегии у' и у" игрока 2 эквивалентны (у'~у") в игре если для всех ig{1, т} у'а,=у"а(. Отсюда имеем, что для любой смешанной стратегии хеХ игрока 1 выполняется равенство К(х,У)=К(х.Г). Для чистых стратегий введенные определения трансформируют- ся следующим образом. Если чистая стратегия f игрока 1 до- минирует стратегию Г, а чистая стратегия f игрока 2 — стратегию j* того же игрока, то для всех г=1, т, j=\, ..., п выполняются неравенства Это можно записать в векторной форме следующим образом: аг>а,« и </ <<?’. Эквивалентность пар стратегий Г, и означает выполнение равенства аг—а^ (of=сГ). Определение. Будем говорить, что стратегия х"(у") игрока 1 (2) доминируема, если существует стратегия х'^=х"(у'^у") этого игрока, которая доминирует хп(уп). В противном случае стратегия х (у*) недоминируема. Аналогично стратегия х" (соответственно у") игрока 1 (2) назы- вается строго доминируемой, если существует стратегия х'(у') этого игрока, которая строго доминирует х"(у"), т. е. для всех j=*l, n(i— 1, m) выполняются неравенства х'а1>х"У, aiy'<aty"'. В противном случае говорят, что стратегия х"(у") игрока 1 (2) недоминируема строго. 8.2. Покажем, что игроки могут не использовать доминируемые стратегии. Этот факт устанавливает следующее утверждение. Теорема. Если в игре Гл стратегия х' одного из игроков до- минирует оптимальную стратегию х*, то стратегия х' также оптимальна. Доказательство. Пусть, для определенности, х' и х* — стра- тегии игрока 1. Тогда в силу доминирования x'aJ^x*aJ 41
для всех j=l, п. Откуда в силу оптимальности стратегии х* (см. п. 7.3) получаем ®л=пмп x*aJ>min x'ay>min х*а>=юл j j j для всех J= 1, n. Поэтому согласно теореме п. 7.3 стратегия х' также оптимальна. Итак, оптимальная стратегия может быть доминируема лишь оптимальной стратегией. С другой стороны, никакая оптимальная стратегия не является строго доминируемой, поэтому игроки не должны использовать строго доминируемые стратегии. Теорема. Если в игре Гл стратегия х* одного из игроков оп- тимальна, то х* — недоминируема строго. Доказательство. Пусть, для определенности, х* — оптималь- ная стратегия игрока 1. Предположим, что х* — строго доминиру- ема, т. е. существует такая стратегия х'еХ, что х'а}> x*aJ, j=l,2...п. Откуда min x'a7>min x*a7. i i Но в силу оптимальности х*еХ выполняется равенство min х*а7=гя. Поэтому справедливо строгое неравенство i max min хау>вл, X j что противоречит тому, что vA — значение игры (п. 7.3). Получен- ное противоречие доказывает теорему. Понятно, что обратное утверждение, вообще говоря, неверно. Так, в игре с матрицей Р °" |_0 2_ 1-я и 2-я чистые стратегии игрока 1 недоминируемы строго, но они неоптимальны. С другой стороны, интуитивно понятно, что если i-я строка матрицы А (j-я столбец) доминируема, то нет необходимости при- писывать ей (ему) положительную вероятность. Таким образом, для нахождения оптимальных стратегий вместо игры Гл достаточно решить подыгру Г^, где А' — матрица, получаемая из матрицы А вычеркиванием доминируемых строк и столбцов. 42
• Прежде чем перейти к точной формулировке и доказательству этого результата, введем понятие расширения смешанной стратегии х на i-м месте. Если x=(^lt.... £т)еХи 1 <i^m + 1,_то расширени- ем стратегии х на i-м месте будем называть вектор х,= £,_(, О, С». — > ^m)e^n+l- Так, расширением вектора (1/3, 2/3, 1/3) на 2-м мдое является вектор (1/3, 0, 2/3,1/3); расширением на 4-м месте — вектор (1/3, 2/3, 1/3, 0); расширением на 1-м месте — вектор (0, 1/3, 2/3, 1/3). 83. Теорема. Пусть Гл — (тхп)-игра. Предположим, что i-я строка матрицы А доминируема (т. е. доминируема чистая страте- гия i первого игрока) и пусть Гл- — игра с матрицей А', получаемой ца ‘А вычеркиванием i-й строки. Тогда справедливы следующие утвер- ждения. 1. VA=VA'. 2. Всякая оптимальная стратегия у* игрока 2 в игре Г> являет- ся оптимальной и в игре Гл. 3. Если х* — произвольная оптимальная стратегия игрока J в игре Гл- и х* —расширение стратегии х* на i-м месте, то xi — оптимальная стратегия этого игрока в игре Гл. 4. Если i-я строка матрицы А строго доминируема, то произ- вольная оптимальная стратегия х* игрока 1 в игре Гл может быть получена из некоторой оптимальной стратегии х* в игре Гл- рас- V; ; ширением на i-м месте. Доказательство. Не нарушая общности, можно предполо- жить, что доминируемой является последняя т-я строка. Пусть х== —> tm) — смешанная стратегия, которая доминирует строку т. Если 4m=0, то из условия доминирования для всех 7=1, 2, ..., п цолучаем ' m т—1 (8.3) £>0,/=1, ..., т-1. В противном случае (£ж>0) рассмотрим вектор х'=(£1, ..., &)» гДе (0, i=m Компоненты вектора неотрицательны ({/>0, /=1, ..., т) и £ {/=1. С другой стороны, для всех j—1, ..., п имеем 43 Лх (8.4)
< т . т Е ба^а^-—- У 1-1 1 —CmZ=l ИЛИ « m—1 « m—1 — Z Ьа^а*— Е 1 “Ьт |-| 1 “Ьт /»| Учитывая (8.4), получаем т-1 т-1 Е Е ^=вц/»;=1,л, 1-1 1-1 (8.5) Ё &а1> 1=1> •••> т~1- 1-1 Таким образом, всегда из доминирования т-я строки следует, что она не превосходит выпуклую линейную комбинацию оста- льных т— 1 строк [(8.5)]. Пусть (х*, y*)GZ(TA) — ситуация равновесия в игре Г\ , х*=(&, —, Cn-i), У*=(ф. •••> Сп)- Для доказательства утверждений 1, 2, 3 теоремы достаточно показать, что К (х*т, y*)=vA' и Ё av Ё “'/ £*+0 ** (8.6) >1 1-1 для всех 1=1,..., т; J=l, ..., п. Первое равенство очевидно, а из оптимальности стратегий (х*, у*) в игре ГА следует выполнение неравенств п т—1 Е Е “иС’ 1=1> m~1 BJS=1, •••> «• (8.7) 7-1 1-1 Из (8.7) очевидным образом следует правое из неравенств (8.6). Докажем левое неравенство. Для этого достаточно показать, что Л Е «тМу^А - 7-1 Из неравенств (8.3), (8.5) получаем л л т-1 т-1 Е “m/’l/^E Е ЯуС' Е VA'C = VA; 7-1 7-1 1-1 1-1 что и доказывает первую часть теоремы. Для доказательства второй части теоремы (утверждение 4) до- статочно заметить, что в случае строгого доминирования m-й стро- ки неравенства (8.3), (8.5) выполняются как строгие для всех j = 1, и. 44
Поэтому j ля m—1 ' j-l /-! i-1 Тогда из теоремы п. 7.6 получаем, что у любой оптимальной стратегии игрока 1 в игре Гл т-я компонента равна нулю. Теорема доказана. Сформулируем теорему о доминировании для второго игрока, доказательство которой опустим. Теорема. Пусть Гл — (т х п)-игра. Предположим, что j-й сто- лбец матрицы А доминируем и пусть игра с матрицей А', получаемой из А вычеркиванием j-го столбца. Тогда справедливы следующие утверждения: 1. vA-vA. , 2. Всякая оптимальная стратегия х* игрока 1 в игре Гл> являет- ся оптимальной и в игре Гл. 3. Если у* — произвольная оптимальная стратегия игрока 2виг- ре ГА и у, —расширение стратегии у* на j-м месте, то yj — оптимальная стратегия игрока 2 в игре Гл. 4. Далее, если j-й столбец матрицы А строго доминируем, то произвольная оптимальная стратегия у* игрока 2 в игре ГА может быть получена из некоторой оптимальной стратегии у* в игре Г# расширением на j-м месте. 8.4. Обобщим полученные результаты. Подведем итоги. Теоре- мы п. 8.3 дают алгоритм понижения размерности матрицы игры. Так, если строка (столбец) матрицы не больше (не меньше) некото- рой выпуклой линейной комбинации остальных строк (столбцов) этой матрицы, то для нахождения решения игры можно эту строку (столбец) вычеркнуть. При этом расширение оптимальных страте- гий в игре с усеченнной матрицей даст оптимальное решение исход- ной игры. Если неравенства выполнялись как строгие, то множество Оптимальных стратегий в первоначальной игре можно получить {Расширением множества оптимальных стратегий усеченной игры, В противном случае при такой процедуре оптимальные стратегии можно потерять. Поясним применение данных теорем на примере. Пример 14. Рассматривается игра с матрицей Г2 1 1 0“| ’ J" 2 3 13 А= 3 1 2 О .0 3 0 6. Так как 3-я строка а3 превосходит первую (a^aj), то, вычеркивая 45
первую строку, получаем 3 1 3 1 2 О 3 0 6- В этой матрице 3-й столбец а3 не превосходит 1-й столбец а1. Поэтому получаем ГЗ 1 А2= 1 2 _3 0 3" 0 6 В последней матрице никакая строка (столбец) не доминируется другой строкой (столбцом). Вместе с тем 1-й столбец а1 превос- ходит выпуклую линейную комбинацию столбцов а2 и а3, так как а1>\12аг+\12а3, поскольку 3> 1/2+1/2-3, 1 = 1/2.2+1/20, 3=0 • 1/2+1/2 • 6. Исключая 1-й столбец, получаем 1 з 2 0 _0 6_ В этой матрице 1-я строка эквивалентна смешанной стратегии х=(0, 1/2, 1/2), поскольку 1 = 1/2-2+0-1/2, 3 = 0-1/2+6-1/2. Таким образом, исключая 1-ю строку, получаем матрицу 2 О’ 0 6_ Оптимальные стратегии х* и у* игроков в игре с этой матрицей равны х* = у* = (3/4; 1/4), при этом значение v игры равно 3/2. Последняя матрица получена вычеркиванием первых двух строк и столбцов, поэтому оптимальными стратегиями игроков в исход- ной игре являются расширения указанных стратегий на 1-ми 2-м местах, т. е. х‘2=у*,=(0, 0, 3/4, 1/4). § 9. ВПОЛНЕ СМЕШАННЫЕ И СИММЕТРИЧНЫЕ ИГРЫ Знание спектра оптимальной стратегии упрощает нахождение решения игры. В спектр оптимальной стратегии могут входить лишь существенные чистые стратегии игрока. При этом никакая существенная стратегия не является строго доминируемой, что не- посредственно следует из теорем § 8. 9.1. Рассмотрим класс игр, в котором знание спектра достаточ- но для нахождения решения игры. 46
| Определение. Стратегия х (у) игрока 1 (2) называется вполне смешанной, если ее спектр состоит из множества всех стратегий игрока, т. е. Mx=M(Ny—N). \ Ситуация равновесия (х*, у*) называется вполне смешанной, если стратегии х* и у* — вполне смешанные. Игра Гл называется вполне смешанной, если каждая ситуация равновесия в ней является вполне смешанной. Следующая теорема утверждает, что вполне смешанная игра имеет единственное решение. Теорема. Вполне смешанная (т х п)-игра Гл имеет единственную ситуацию равновесия (х*, у*) и квадратную матрицу (т=п). Если vA=fiO, то матрица А невырожденная и (9.2) Доказательство. Пусть х*=(£1, .... &)£.¥* и у*—(Ц1, ... .... y'jeY* — произвольные оптимальные стратегии игроков, a vA — значение игры Гл. Поскольку Гл — вполне смешанная игра, х* и у* — вполне смешанные стратегии, которые (и только они) явля- ются решениями систем линейных неравенств п. 7.6: xaJ=vA, xu = i, x>0,j=l, ..., л; (9.4) yai=vA, yw= 1, y>0, i= 1, ..., m, (9.5) где м=(1,..., l)e/T, w=(l,..., 1)бЛ". Покажем, что решение вполне смешанной игры (х*, у*) единст- венно. Множества X*. У*, заданные (9.4) и (9.5), являются непус- тыми выпуклыми многогранниками и, следовательно, имеют край- ние точки. Согласно второй из теорем п. 5.2 имеем т < rang [а1, .... <?, «]=rang [А, и]^т, (9.6) n<rang[ap ...» ат, w]=rang[^, и>]<л. (9.7) Теперь из этой же теоремы следует, что множества X*, У* имеют по одной крайней точке и, следовательно, состоят только из них (как ЙЫпуклые многогранники, содержащие единственную крайнюю точ- ку). Единственность решения (х*. у*) доказана. Пусть vA=0. Тогда однородная система xaJ=vA,j=\, п 47
имеет ненулевое решение, откуда rang (А) < т. Так как rang [Л, нт]=/и, имеем: rang(^4)=m—1. Аналогично, из (9.5) и (9.7) следует, что rang(^)=n— 1. Отсюда п=т. Пусть vA^0. Тогда rang (А)=rang [A, vjl«]=rang[^, и]=т, rang (Л) = rang [A, v<w] = rang [A, w]=n. Отсюда имеем п=т=rang (А), т. е. Л —невырожденная матрица. Система уравнений x*A=vau имеет решение x*=vauA~1. Запишем решение системы Ay*—vAu: y*—vAA~lu. Так как х*и— 1 =vauA~1u, то «.=—-—. Л А иА~'и Теорема доказана. Справедливо и обратное утверждение, доказательство которого предоставляем читателю. Теорема. Пусть в (тхт)-игре Гл матрица А является невыро- жденной. Тогда, если игрок 2 имеет в Гл вполне смешанную оп- тимальную стратегию, то игрок 1 имеет единственную оптималь- ную стратегию х* (9.1). Если в игре Гл вполне смешанную оптималь- ную стратегию имеет игрок 1, то игрок 2 имеет единственную оптимальную стратегию у* (9.2), при этом значение игры vA равно (9.3). Пример 15. ((2 х 2)-игра.) Пусть дана (2 х 2)-игра с матрицей л=Гв11 Я1а 1«21 «22. Произвольная смешанная стратегия х игрока 1 может быть записа- на в виде х=(£, 1—0, где 0<£<1. Аналогично, смешанная страте- гия игрока 2 имеет вид у—(ц, 1 — tj), где 1. Выигрыш в ситу- ации (х, у) равен К(х, у)={[ах я+а12(1 - О]+(1 - О [а2Л+“ггО ~ ?)]• Предположим теперь, что в игре Гл нет ситуации равновесия в чистых стратегиях (в противном случае решение просто найти из равенства минимаксов) и пусть х*=(£*, 1 —£*), У*=(ч*, 1— Ч*) — произвольные оптимальные стратегии соответственно первого и второго игроков. Ситуация (х*, у*) и игра Гл являются вполне смешанными (£*>0 и ij*>0). Поэтому по теореме п. 9.1 в игре существует единственная пара оптимальных смешанных стратегий, которые являются решением системы уравнений 48
\ аХ1?/* + (1-»/*)а12=«л. ‘ а21’Г+(1-’?*)“22=»л> аи{* + (1-е*)а21-«л. а12^* + (1_^*)а22 = ”л- Если добиваться, чтобы vA^0 (например, если все элементы матри- цы А положительны, то это неравенство выполняется), то решение нгры «л=—~Г. x*=vauA l,y*=vAA 1ы, иА ^де u=(l, 1). Так, легко проверить, что у матрицы Л = седловой точки. Обратная матрица А 1 равна А 1== L j - Тогда .,= 1/3, х* = (2/3, 1/3), ,* = (1/3, 2/3). 92. Исследуем частный класс игр с матрицами специального Мда. Определение. Игра Гл с квадратной матрицей А называется Симметричной, если матрица А — кососимметричная, т. е. если для всех i и j. В этом случае все диагональные элементы матрицы А равны О, Х (в. аи=0 при всех i. Для кососимметричной матрицы А всегда Исполняется условие АТ— —А. Поскольку матрица А квадратная, множества смешанных стратегий игроков совпадают, т. е. X— Y. да-., Докажем теорему о свойствах решения симметричной игры Гл, которая полезна при отыскании ситуации равновесия. Теорема. Пусть Гл — симметричная игра. Тогда »я=° р множества оптимальных стратегий игроков совпадают, т. е. г Х* = У*. '^Доказательство. Пусть А — матрица игры и хеХ— произ- ЙШ&ная стратегия. Тогда хАх=хАТх= —хАх. Поэтому хАх—0. ; Пусть (х*, y*)eZ(A) — ситуация равновесия, a vA— значение игры. Тогда vA=х*Ау* < х*А у, vA=х*Ау* ^хАу* ДЛЯ всех хеХ, уeY. Следовательно, vA х*Ах* = 0, vA >у*Ау*=0. Откуда получаем vA=0. 49
Пусть стратегия х* оптимальна в игре Г., тогда (см. теорему п. 7.1) х*Л>0. Однако отсюда следует, что х*(—Лг)^0, поэтому х*Лт<0. Таким образом, получаем Лх*<0. Значит, по той же теореме п. 7.1 х* — оптимальная стратегия игрока 2. Таким образом, доказано, что Обратное включе- ние доказывается аналогично. В дальнейшем на основании равенства X* = Y*, говоря об оп- тимальной стратегии игрока в симметричной игре, мы не будем указывать, о каком именно игроке идет речь. Пример 16. Решим игру с матрицей о -1 1 А= 1 о -1 L-1 1 0J Пусть х*=(£1, £1) — оптимальная стратегия в игре Гл. Тогда должны выполняться неравенства Й-Й>0, (9.8) £1+£1+£1=1, £1>о, й>0, £1>о. Покажем, что эта игра вполне смешанная. Действительно, пусть £1=0. Тогда из системы неравенств (9.8) получаем систему £1~£з^0, £1>0, -£1>0, £1+£1+£з = 1, которая не имеет неотрицательного решения. Аналогичные рассуж- дения показывают невозможность случаев £1=0 или £1=0. Поэто- му игра Гл — вполне смешанная. Следовательно, компоненты £1, £2, £1 являются решением системы £1-£з=0, -£1+£1=о, £1-6=0, £1+£1+£1=1,£<>0,1=1,2, з. Эта система имеет единственное решение. Оптимальной стратегией является вектор х*=(1/3, 1/3, 1/3). 50
k' •- • Пример 17. Решим дискретную игру типа дуэли с пяти шагов 1 и одним выстрелом у каждого игрока, сформулированную в п. 1.4 (сМ- пример 3). Матрица А выигрышей игрока 1 является симмет- . ричной и имеет вид го —3—7 -11 -151 30 1-2-5 7-1 0 7 5 11 2 -7 0 15 15 5 -5 -15 0 Заметим, что 1-я стратегия каждого игрока (1-я строка и 1-й *»рлбец матрицы) строго доминируема, поэтому она не может быть существенной и ее можно вычеркнуть. В полученной усеченной матрице Ж Сн- А'= 0 — 1 2 5 1 0 -7 -5 -2 7 0 -15 —5" 5 15 0 ж»се стратегии являются существенными. ^'Действительно, из симметричности игры Г\ следует, что ^=0. бы все стратегии были существенными, то оптимальная стра- ''Яягия х* была бы решением системы уравнений х*а7=0,>=2, 3,4, 5, £ S-i. ‘-2 Шиорая решения не имеет. Ж*Шеребирая варианты, остановимся на существенной подматрице ЯГ.составленной из строк и столбцов матрицы А с номерами 2, '115: о -1 5 1 0 -5 -5 5 0_ Цж с матрицей А" является вполне смешанной и имеет единствен- ^решение J=x=(5/ll, 5/11, 1/11). еперь в исходной игре рассмотрим стратегии х*=у* = (0, 5/11, |^0, 1/11), которые и являются оптимальными. образом, окончательно имеем: гл = 0, ситуация равнове- 51
сия (х*, у*) единственная. С точки зрения правил игры получаем, что дуэлянту не следует стрелять на 1-м шаге, он должен стрелять с равной вероятностью после 2-го и 3-го шагов, никогда после 4-го шага и лишь с малой вероятностью стрелять в упор. § 10. ИТЕРАТИВНЫЕ МЕТОДЫ РЕШЕНИЯ МАТРИЧНЫХ ИГР Распространенный способ решения матричной игры путем сведе- ния ее к задаче линейного программирования обладает тем недо- статком, что процесс решения задачи линейного программирования существенно усложняется для матриц большой размерности. В та- ких случаях обычно используют методы декомпозиции задачи ли- нейного программирования, когда вместо решения задачи с ис- ходной матрицей строится координирующая задача с матрицей, у которой мало строк, но много столбцов. На каждой итерации координирующей задачи решается некоторая совокупность вспомо- гательных задач линейного программирования с матрицами мень- ших размерностей. К сожалению, декомпозиционные методы эф- фективны лишь для матриц специального вида (например, блочно- диагональных). 10.1. Итеративный метод Брауна — Робинсона (метод фиктивного разыгрывания). Идея метода — многократное фиктивное разыгры- вание игры с заданной матрицей выигрыша. Одно повторение игры будем называть партией. Пусть разыгрывается игра с (т х ^-мат- рицей А={ац}. В 1-й партии оба игрока выбирают совершенно произвольные чистые стратегии. В к-й партии каждый игрок выби- рает ту чистую стратегию, которая максимизирует его ожидаемый выигрыш против наблюдаемого эмпирического вероятностного распределения противника за (к— 1) партий. Итак, предположим, что за первые к разыгрываний игрок 1 использовал i-ю стратегию $ раз (i=l, ..., т), а игрок 2—j-ю стратегию раз (j=l, ..., л). Тогда в (£+1)-й партии игрок 1 будет использовать 4+1-ю стратегию, а игрок 2 — свою jk+гЮ стратегию, где »‘=тах £ t J i И t?=min 0^=2 а,Л+1 j ‘ i Пусть v — значение матричной игры Гл. Рассмотрим отношения J*/fc=max £ 1 j j 52
V к/к=min £ <Xtj &/к=£ a,7jt+, tf/k. J i i Векторы x*=(£i/fc, —, &Jk) и y*=(>ji/fc, .... ifyk) являются смешан- ными стратегиями игроков 7 и 2 соответственно, поэтому по опре- делению значения игры имеем max v*/fc<i><min vk/k. к ~ к Таким образом, получен некоторый итеративный процесс, по- зволяющий находить приближенное решение матричной игры, при ЭТОМ степень близости приближения к истинному значению игры '* ’7. Г” определяется длиной интервала I max vk(k, min vklk . Сходимость Г L * “ к Йхгоритма гарантируется теоремой [64]. й Теорема. с 3 1 1 lim I min vk/k 1 = lim I max vkjk j=«. Л-юо \ к / £-юо \ к / * Пример 18. Найти приближенное решение игры с матрицей b 1 о 2 а 2 3 1 а /» 7 эзначим а, Р, у стратегии игрока 1 и а, Ь, с — стратегии игрока 2. лгь сначала игроки выбрали стратегии а и а соответственно. Если 1 выбрал стратегию а, то игрок 2 может получить один из Игрышей (2, 1, 3). Если игрок 2 выбрал стратегию а, то игрок может получить один из выигрышей (2, 3, 1). Во 2-й и 3-й партиях $рок 1 выбирает стратегию р, а игрок 2 — Ь, поскольку эти страте- ги обеспечивают наилучший результат и т. д. табл. 10.1 приведены результаты разыгрываний, в этой табли- це указаны стратегия игрока, накопленный выигрыш и средний Цигрыш. Таким образом, за 12 партий мы получили приближение реше- ШЛх12=(1/4,1/6, 7/12), у12=(1/12,1/2, 5/12), а точность может быть -ЭДенена числом 1/2. Основным недостатком рассмотренного метода Шляется его малая скорость сходимости, которая уменьшается ^ростом размерности матрицы. Это_ является также следствием ЧЙМонотонности последовательностей vk/k и vk/k. .Рассмотрим другой итеративный алгоритм, который избавлен ^указанного недостатка. 53
10.2. Монотонный итеративный алгоритм решения матричных игр. Рассмотрим смешанное расширение Гл= (X, Y, К) матричной игры с (т х л)-матрицей А. Обозначим ..., £т)еХ приближение оптимальной стра- тегии первого игрока на N-я итерации и cFeR”, = .... у%) — вспомогательный вектор. Алгоритм позволяет находить (точно и приближенно) оптимальную стратегию игрока J и значение игры v. В начале процесса игрок 1 выбирает произвольную чистую стратегию i0, т. е. х° = (0,..., 1,..., 0)=^ и вспомогательный вектор вида со = а/о, где а,0 — строка матрицы А, имеющая номер i0. Итеративный процесс строится следующим образом. Пусть вы- полнена N— 1 итерация и получены векторы xN , с1*-1. Тогда х? и с” вычисляются по следующим итеративным формулам: х"=(1-aw) xN-1+aNxN; (10.1) с*=(1 - aw) 1+(Ю.2) где параметр 0<aN<l. Векторы х1* и с1* будут получены ниже. Таблица 10.1 Номер партии Выбор игрока 1 Выбор игрока 2 Выигрыш игрока 1 Проигрыш игрока 2 5*/* v^/k а р У а b с 1 а а 2 3 1 2 1 3 3 1 2 Р b 3 3 3 5 1 4 3/2 1/2 3 Р b 4 3 5 8 1 5 5/3 1/3 4 У b 5 3 7 9 3 6 7/4 3/4 5 У b 6 3 9 10 5 7 9/5 5/5 6 У b 7 3 11 11 7 8 11/6 7/6 7 У b 8 3 13 12 9 9 13/7 9/7 8 У с 11 4 14 13 11 10 14/8 10/8 9 У с 14 5 15 14 13 И 15/9 11/9 10 У с 17 6 16 15 15 12 17/10 12/10 И a с 20 7 17 17 16 15 20/11 15/11 12 a с 23 8 18 19 17 18 23/12 17/12 Рассмотрим вектор с2* 1 = (yi \ ...» и выберем такие индексы jk, на которых достигается минимум min 1 = 1. >-•..» Обозначим через Vя 1— min yj1 1 (10.3) и J* 1 = —> jk! множество индексов, на которых (10.3) до- стигается. 54
?; Пусть ГЛсГл — подыгра игры Гл с матрицей А7*={ау *}, i= 1, т, а индекс/*-1 е/*-*. Решаем подыгру и находим оптимальную стратегию х^еХигрока 1. Пусть х7*=(^, ££) Вычислим вектор €*= £ £j*af. Пусть вектор с7* имеет компонен- той 2*=(У1,у?). Рассмотрим (2хл)-игру с матрицей рг1. •••• rf’1! L я....г. Найдем оптимальную стратегию (aw, 1 — aw), 0<aN<l, игрока 1 в этой подагре. Подставляя найденные значения х7*, с7*, а7* в (10.1), (10.2), нахо- дим г и Л Процесс продолжаем до тех пор, пока не выполнится равенство aw=0 или не будет достигнута требуемая точность вычис- ^Квий. Сходимость алгоритма гарантируется следующей теоремой Теорема. Пусть {и7*}, {х7*} — итеративные последовательности, Определяемые (10.1), (Го.З). Тогда справедливы следующие утвержде- 1. ®7*>®7*-1, т. е. последовательность {г7*-1} строго монотонно фзрастает. (Ю.4) lim vN=v=v. ЛГ->оо 3. lim xF=x*, где х*еХ* — оптимальная стратегия игрока 1. ер 19. Решим, используя монотонный алгоритм, игру с мат- 2 1 3 0 -1 2 з 1 1_ ^'Итерация 0. Пусть игрок 1 выбрал 1-ю строку матрицы А, т. е. ^•«(1,0,0) и с°=а1=(2,1, 3). Вычислим »°=min у®=У2=1, <7° = {2}. терация 1. Рассмотрим подыгру Г1сГ' с матрицей “1“ Лх= о . _2_ ой стратегией х1 игрока 1 является вектор х1 = (0, 0, 1). 55
2 1 3 1 2 1 2 1 1 2 Тогда с1=а3=(1, 2, 1). Решаем (2 х 3)-игру с матрицей Заметим, что 3-й столбец матрицы доминируем, поэтому"рас.- смотрим матрицу В силу симметрии оптимальной стратегией игрока 1 в этой игре является вектор (aw, 1 — aN)=(x/2, 1/2)- Вычисляем х1 и с1 по формулам (10.1), (10.2). Имеем l/2Jc1 = (l/2, 0, 1/2), с1 = 1 /2с° + 1/2сх = (3/2, 3/2, 2), v1=min у/=у,=у2=3/2>г° = 1. Множество индексов имеет вид J1 = {1, 2}. Итерация 2. Рассмотрим подыгру Г2сГ с матрицей Первая строка в этой матрице доминируема, поэтому достаточ- но рассмотреть подматрицу Гз о" |_1 2_ Оптимальной стратегией игрока 1 в этой игре является вектор (Х/4, 3/Д поэтому х2 = (0, 1/4, 3/4). Вычислим с2 = 1/4д2 +3/4а3=(3/2, 3/2, 1) и рассмотрим (2x3)- ~Гз/2 3/2 С игру с матрицей 3/2 3/2 2' ®TOPM стРатегия игрока 1 доминирует первую, поэтому а2=0. Таким образом, вычисления закончены х*=х1=(1/2, 0, 7г), значение « игры равно «=«1 = 3/2, а оптималь- ная стратегия игрока 2 имеет вид у*=(1/2,1/2, 0) (см. пример 18). Упражяеявя задачи 1. Каждый из двух игроков показывает другому т пальцев на руке (1<т<5) и одновременно называет число пальцев, которое, по его мнению, может показать противник. Если один игрок угадывает правильно, а другой неправильно, то тот, который угадал, выигрывает сумму, равную числу пальцев, показанных обоими игроками. Во всех остальных случаях выигрыши обоих игроков считаются ну- левыми. а) Сколько стратегий имеет каждый игрок при п=3*> б) Построить матрицу игры для л=2. 2. Распределена поисковых усилий. В одной из п ячеек игрок 2 прячет предмет. 56
Игрок 1 имеет в распоряжении г ищущих, которые должны быть распределены по ячейкам для поиска предмета. Например, в первую ячейку могут быть направлены (г— 1) ищущих, один — во вторую ячейку, а в остальные ячейки — ни одного и т. п. Предполагается, что известна вероятность обнаружения предмета в i-й ячейке (если он там находится) при поиске одним ищущим. Обнаружение предмета каждым из ищущих — независимые события. Выигрыш игрока 1 — вероятность обнаружения предмета при заданном рас- пределении ищущих. а) Вычислить число т чистых стратегий игрока 7. б) Построить матрицу игры. 3. Поиск многих предметов. Игрок 2 прячет т черных шаров в п урнах. Общее количество шаров (черных и белых), находящихся в j-й урне, равно lj, у=1, ..., п. Игрок 2 дрлжев. распределить т черных шаров между п урнами, при этом общее количество шаров в каждой урне постоянно и равно lj, lj>m. Противник (игрок 1) старается обнаружить максимальное число черных шаров, имея возможность проверить одну из урн. При проверке i-й урны игрок 1 наугад (равновероятно) выбирает т шаров из 1Ь и его выигрыш равен математическому ожиданию количества черных шаров в выборке из т шаров. а) Пусть в i-й урне спрятаны Pi черных шаров. Вычислить вероятность Ру того, что выбранная из i-й урны группа г шаров содержит ровно j черных. б) Построить матрицу игры. 4. Противовоздушная оборона. В системе ПВО объекта могут применяться три типа средств поражения воздушной цели (1, 2, 3), которые должны быть рас- пределены между двумя стартовыми установками. У противника (игрока 2) имеется два типа самолетов (тип 1 и тип 2). Вероятности поражения самолетов одним средством сведены в матрицу г- 1 2-. 1 0,3 0,5 2 0,5 0,3 . 3 Lo,l 0,6_ Предполагается, что возможно нападение только одним из самолетов. Выигрыш игрока 1 — вероятность поражения самолета системой ПВО. а) Построить матрицу игры. б) Выяснить, имеется ли решение в чистых стратегиях. 5. Найти ситуации равновесия и значения следующих игр: "1/2 0 1/2 " 1 3/2 1/2 -0 —17/4- 6. Проверить, что v=2 и пара (х*, у*), где х*=(0, 0, 1), у* «=(2/5, 3/5, 0) — соответственно значение и ситуация равновесия в игре с матрицей 3—2 4 -1 4 2 - 2 2 6- 7. Пусть А'(А”) — подматрица матрицы А, получающаяся вычеркиванием ряда строк (столбцов) А, Показать, что выполняются неравенства где vA>, ! 1 — значения игр Г^', Гл* соответственно. А & Рассматривается игра с матрицей 57
-1 3 л= 2 0 L 2 1 -3 3 0- Значение игры vx=l и оптимальная стратегия игрока 1 есть х*=(1/3, 2/3, 0). Найти оптимальную стратегию у* игрока 2. 9. Решить графически игру с матрицей ’-4 0’ 3 -2 5 -3 ‘ .-1 -1. 10. Показать, что строго доминируемая стратегия не может быть существенной. 11. Показать, что 3-я строка матрицы Л доишиируемд, где 20 0 0 8 5J 12. Показать, что выбор 1-го столбца эквивалентен смешанной стратегии у«(0, 1/3, 2/3), где матрица игры имеет вид Г1 3 °1 |_2 0 3J 13. Используя понятие доминирования, найти решение игры с матрицей "1 7 2’ 6 2 7 -5 1 6- 14. Доказать теорему п. 7.3. 15. Решить игру поиска с одной попыткой. Игрок 2 прячет предмет в одну из п ячеек. Игрок 1 ищет его в одной из этих ячеек, при этом вероятность обнаружения предмета в i-й ячейке равна Д>0, i=l, ..., п (при условии, что он там находится). Показать, что рассматриваемая игра вполне смешанная. Найти решение игры. 16. Решить игру дискретного поиска (пример 5, п. 1.3) в предположении afii—i«l,..., п. Указание. Воспользоваться результатом п. 7.7. 17. Игра поиска двух предметов. Игрок 2 прячет два предмета в п ячейках (можно оба в одной ячейке). Цель игрока 1 — обнаружить хотя бы один предмет, при этом он имеет возможность проверить одну ячейку (/?/>0 — вероятность об- наружения одного предмета в i-й ячейке) (при условии, что он там находится). Если в Ай ячейке находятся одновременно два предмета, то вероятность их одновремен- ного обнаружения равна Р*. Таким образом, матрица Л»{о^}, a=(i,j), i> j«l,..., п, имеет вид а^жО, i«j, i*k, 58
<*ka=PjJ=k, i^j, aka — fli(2'— fit), i—j=k. Решить игру. 18. Решить игру поиска многих предметов (см. упр. 3). 19. Игра поиска нескольких множеств на плоскости. Заданы набор п фиксирован- ных компактных выпуклых множеств Klt К2, ..., ^сЯ2и система т конгруэнтных между собой компактных выпуклых множеств 7\, ..., ТтсЛ2. Дискретная одновре- менная игра поиска заключается в следующем. Игрок 2 прячет т множеств 7} (j— 1, ..., т) в п множествах Ki ..., п) таким образом, что они пересекают Тот факт, что pi множеств спрятаны в Ki} означает, что совокупность множеств {7}} в количест- ве pt единиц бросается на плоскость случайно. Чистая стратегия а игрока 2 имеет вид п a=(Pi.Pi....Y.Pi=m, 1—1 где Pi — количество множеств Tj, спрятанных в множестве kj Игрок 1 может проверить одно из множеств Ki, бросая случайно в Ki точку х. Выигрыш игрока 1 — математическое ожидание числа множеств {Tj, которым при- надлежит х. Найти решение игры. 20. Игра поиска с двумя попытками у ищущего. Игрок 2 прячет предмет в одной ИВ л ячеек, а игрок 1 (ищущий) производит поиск в одной из этих ячеек, имея мзможность просмотреть две ячейки (повторный просмотр ячейки не допускается). ' Множество чистых стратегий игрока 1 состоит из несовпадающих пар (i, j), f = 1, л, j= 1, ..., л, и содержит С2 элементов. Множество чистых стратегий игрока ^Определяется индексом k, к= 1,..., л, и содержит л элементов. Матрица выигрышей цвет вид Л={/*(/,» *}> где ft (о*, если i**k или j=k, (0 — в противном случае. Шййить игру в предположении о^о2>...'^оп>0 и + И. В игре поиска с двумя попытками у ищущего рассмотреть случай, когда Ымпжестро чистых стратегий игрока 1 состоит из всевозможных пар (i, j) и сод ержит ^ элементов. Решить игру в предположении Л“1 В игРе m уклонение (п. 7.1) показать, что игрок 1 всегда имеет единственную шНшальную стратегию. ' ж
ГЛАВА II БЕСКОНЕЧНЫЕ АНТАГОНИСТИЧЕСКИЕ ИГРЫ § 1. БЕСКОНЕЧНЫЕ ИГРЫ 1.1. В этой главе рассматриваются антагонистические игры, которые отличаются от матричных тем, что в них один или оба игрока имеют бесконечное (счетное или континуум) множество стратегии. С теоретико-игровой точки зрения это отличие малосу- щественно, поскольку игра остается антагонистической и проблема состоит в использовании более сложного аналитического аппарата исследования. Таким образом, будем исследовать общие антагонистические игры, т. е. системы вида Г=(Х Y, Н), (1.1) где У и Y — произвольные бесконечные множества, элементы кото- рых являются стратегиями игроков 7 и 2 соответственно, а Н: X х Y-^R1 — функция выигрыша игрока 7. Напомним, что правила антагонистической игры изложены в п. 1.1 гл. 1. Выигрыш игрока 2 в ситуации (х, у) равен [—Н(х, у)], хеХ, yeY (игра антагонистическая). В этой главе будем рассматривать такие игры, у которых функция Н ограничена. 1.2. Пример 1. (Одновременная игра преследования на плоскости.) Пусть и S2 — множества на плоскости. Игра Г заключается в следующем. Пусть 7 выбирает некоторую точку xeSlt а игрок 2 — точку yeS2. При совершении выбора игроки 7 и 2 не имеют информации о действиях противника, поэтому подобный выбор удобно интерпретировать как одновременный. Точки xeSlf yeS2 являются в этом случае стратегиями игроков 7 и 2 соответственно. Таким образом, множества стратегий игроков совпадают с множе- ствами и S2 на плоскости. Целью игрока 2 является минимизация расстояния между ним и вторым игроком (игрок 7 преследует противоположную цель). Поэтому под выигрышем Н(х, у) игрока 7 в этой игре будем понимать евклидово расстояние р(х, у) между точками xeSt и у 6 S2, т. е. Н(х, у)=р(х, у), х е S2, у е S2. Выигрыш игрока 2 полага- ем равным выигрышу игрока 7, взятому с обратным знаком (игра антагонистическая). Пример 2. (Поиск на отрезке.) Простейшей игрой поиска с бес- конечным числом стратегий является следующая игра. 60
Игрок 2 (прячущийся) выбирает точку у 6 [0, 1], а игрок 1 (ищу- щий) выбирает одновременно и независимо точку хе[0, 1]. Точка у считается «обнаруженной», если |х—у|</, где 0</< 1. В этом случае игрок 1 выигрывает величину +1, во всех остальных случаях его выигрыш полагается равным 0. Игра антагонистическая. Таким образом, функция выигрыша имеет вид (1, если |x-y|«U, Н(х,у)=\ (О — в противном случае. Выигрыш игрока 2 полагается равным [—Н(х, у)]. Пример 3. (Поиск на сфере.) Пусть в R3 задана сфера С радиуса R. Игрок 1 (ищущий) выбирает систему из точек xt, х2, .... xteC, а игрок 2 — одну точку у е С. Выборы точек осуществляются игро- ками одновременно и независимо Друг от друга. Игрок 2 считается обнаруженным, если точка у еС оказывается в r-окрестности одной ИЗ точек Xj, j= 1, ...» s. Здесь под r-окрестностью точки х} будем понимать сферический сегмент с вершиной в точке х} и радиусом основания г (рис. 2). В дальнейшем r-окрестность точки Xj будем обозначать через S(Xj, г). Целью игрока 1 является обнаружение игрока 2. Игрок 2 пресле- В противоположную цель. В соответствии с этим положим выиг- игрока 1 равным '1; и-/ ч р.ссли УеМх. Н(х, у) — < ‘ (0 — в противном случае, =(х1, .... х,) и Мх— (J S(x}, г). Выигрыш игрока 2 полагается Пример 4. (шумная дуэль.) Каждому из двух дуэлянтов разреша- ется выстрелить только один раз. Предполагается, что оба они В ют «шумные» пистолеты, так что каждый знает, когда выстре- его противник. Предполагается также, что функция меткости ) (вероятность попадания при стрельбе в момент времени х) эка 1 определена на [0,1], непрерывна, монотонно возрастает по Р1(1)— !• Аналогично, точность выстрела игрока 2 опи- я функцией р2(у) на [0, 1], где р2(0)=0, р2(1)=1. Если игрок ает игрока 2, то первый получает выигрыш +1; если игрок ^Поражает игрока 1, то игрок 1 получает —1, если оба игрока т одновременно и с одинаковым результатом (успешным гнет), то выигрыш игрока 1 равен 0. ; Структура информации в этой игре (тот факт, что оружие шум- ) принимается во внимание при составлении функции выигрыша ». Если х<у, то вероятность того, что игрок 1 поразит а, равна pt(x) и выигрыш игрока 1 равен 1 • р±(х); вероят- того, что игрок 1 промахнется, равна 1—р1(х). Если игрок 61
2 еще не стрелял и знает, что игрок 1 больше не может выстрелить, то игрок 2 будет увеличивать свои шансы на успех, ожидая, пока у не станет равным 1. Таким образом, если игрок 1 промахнется в момент х, то он наверняка будет поражен игроком 2, если х<у, следовательно, Н(х, у)=Р1(х) + (-1)[1 -PiW], х<у. Аналогично имеем Н(х, у)=р2(у) (-1)4-[1 -Р2(У)] • 1. Х>У и Н(х, y)=Pi(x) [1 -р2(у)] +р2(у) [1 -Р1(х)] (-1), х = у. Таким образом, функция выигрыша Н(х, у) в игре равна Н(х, у)= 2₽iW-b х<у> Р1(х)-р2(у), х=у, Л—2р2(у), х>у, Рис. 2 где хе[0, 1], уе[0, 1]. Пример 5. (Бесшумная дуэль.) Снова каждому из дуэлянтов разрешается вы- стрелить только один раз, но в этом слу- чае ни один из дуэлянтов не может опре- делить, выстрелил его противник или нет. Предположим для простоты, что фун- кции меткости заданы следующим обра- зом: Pi(x)=p2(x)=x. Тогда функция выиг- рыша, описывающая игру, имеет вид (х— (1— х)у, если х<у, Н(х, у) = \ 0, если х=у, L—у+(1 — у)х, если х>у, где хе [О, 1], у 6 [0, 1]. Построение функции выигрыша Н(х, у) в этой игре производится так же, как и в примере 4, за исключением того, что в данном случае ни один из игроков не может определить момента выстрела противника, если только этот выстрел не оказал- ся успешным. Пример 6. (Поиск «шумного» объекта.) Рассматривается задача поиска «шумного» объекта (игрок 2) подвижным средством об- наружения (игрок 1). Дальность действия 1(х, у) средства обнаруже- ния в зависимости от скоростей хе[х0, хх] и уб[у0, yj игроков 1 и 2 соответственно имеет вид 62
Я(х,у)=2х 1(.Х,У) = Ку)~^ где ~l(y)=l0 + P(y-y0), Р=(11-1о)/(У1-Уо), ^1=7(У1). 1о=1<Уо)- Поло- жительные числа х0<х1( у0 <yt, l0<li считаются заданными. Таким образом, 1<х ,л(ЦИ1-у)+Му-><>)] 01-Jo) 01-Хо) В качестве функции выигрыша Я(х, у) игрока 1 понимается произ- водительность поиска, т. е. просмотренная площадь в единицу времени Я(х, у)=2х-1(х, у). Выигрыш игрока 2 полагаем равным [—Я(х, у)]. Таким образом, получаем игру с функцией выигрыша ?o(ji-j)+^<J-Jo) 01-х) 01-Jo) 01-Хо)’ где хе[х0, xj, уе[у0, yj. 13. В заключение отметим специальный класс антагонистичес- ких игр, в которых Х= У=ГО, 1]. В этих играх ситуации суть пары чисел (х, у), где х, у с [О, 1]. Эти пары задают точки единичного квадрата. Поэтому такие игры называются играми на единичном квадрате. Класс игр на единичном квадрате во многом характеризу- ет бесконечные антагонистические игры и поэтому является базо- вым при исследовании бесконечных игр. В частности, примеры 2, 4, 5 — примеры игр на единичном квадрате. Пример 6 также игра на единичном квадрате, если положить хо=уо=0, х1=у1 = 1. § 2. СИТУАЦИЯ е-РАВНОВЕСИЯ, fi-СЕДЛОВЫЕ ТОЧКИ И £-ОПТИМАЛЬНЫЕ СТРАТЕГИИ 2.1. Как и во всякой антагонистической игре Г=(Х Y, Н), в бесконечной игре принципом оптимального поведения игроков является принцип равновесия. Оптимальной (равновесной) является такая ситуация (х*, у*), для которой выполняются неравенства Я(х,у*)^Я(х* у*)<Я(х*,у) (2.1) при всех хеХ, y&Y. Этот принцип реализуется в игре Г в том и только в том случае, когда v=max inf Я(х, у), (2.2) - X У ®=min sup Я(х, у), У * т. е. внешние экстремумы максимина и минимакса достигаются 63
и нижнее значение игры v равно верхнему значению v. Такая ан- тагонистическая игра Г называется вполне определенной, а число v — значением игры (см. п. 3.4 гл. 1). Для матричных игр существование и равенство максимина ми- нимаксу было доказано в классе смешанных стратегий (см. § 6 гл. I), поэтому решение игры заключалось в нахождении их общего значения v и тех стратегий х*, у*, на которых достигаются внешние экстремумы в (2.2). Для бесконечных игр существование внешних экстремумов в (2.2), вообще говоря, не обязательно. 2.2. Пример 7. Пусть, каждый из игроков 1 и 2 выбирает число из открытого интервала (0, 1), после чего игрок 1 получает выигрыш, равный сумме выбранных чисел. Таким образом, по- лучаем игру на открытом единичном квадрате с функцией вы- игрыша Н(х, у) игрока 1 Н(х, у)=х+у, хе(0, 1), уе(0, 1). (2.3) Здесь ситуация (1, 0) была бы равновесной, если бы 1 и 0 входили в число стратегий игроков, а значение игры v было бы v= 1. В дейст- вительности внешние экстремумы в (2.2) не достигаются, а верхнее и нижнее значения игры равны между собой. Поэтому v— 1 и игрок 1, выбирая число 1—в, е>0, достаточно близкое к 1, всегда может получить выигрыш, достаточно близкий к значению игры. С другой стороны, игрок 2, выбирая число е>0 достаточно малым (близким к 0), может гарантировать, что его проигрыш будет сколь угодно близким к значению игры. 23. Определение. Ситуация (х„ уд в антагонистической игре Г=(Х, Y, Н) называется ситуацией е-равновесия, если для любых стратегий хеХ и уе У игроков 1 и 2 соответственно выполняется неравенство Н(х, уд - в < Н(х„ уд < Н(х„ у)+в. (2.4) Точка (х„ уд, для которой имеет место (2.4), называется г- седловой точкой, а стратегии х, и у, — г-оптимальными стратеги- ями игроков 1 и 2 соответственно. Полезно сравнить определения ситуации равновесия (2.1) и в- равновесия (2.4). Если отклонение от оптимальной стратегии приво- дит лишь к уменьшению выигрыша этого игрока, то отклонение от Е-оптимальной стратегии может привести к его увеличению, но не более чем на е. Так, ситуация (1—в, в), 0<е< 1, является е-равновесной в приме- ре 7, а стратегии х,—1—е, у«=в — е-оптимальными стратегиями игроков 1 и 2 соответственно. 2.4. Заметим, что для двух стратегически эквивалентных игр Г=(Х, У, Я) и Г=(У, У, Н), где Н'=рН+а., Д>0, справедливы следующие результаты. Если (х„ уд — ситуация в-равновесия в игре 64
Г, то она является ситуацией (/?е)-равновесия в игре Г' (ср. с леммой о масштабе § 3 гл. I). 23. Основное свойство е-оптимальных стратегий дает следу- ющая теорема. Теорема. Для того чтобы supinfZZ(x,y)= X у =inf sup/Z(x, j)=v< 4- оо, необходимо и достаточно, чтобы для лю- У X бого е>0 существовали в-оптимальные стратегии х9, у9 игроков 1 и 2, при этом lim Я(х„ у^=®. (2.5) 8—*0 Доказательство. Необходимость. Пусть игра Г имеет ко- нечное значение v. Для любого е>0 выберем стратегию у, из условия sup Я(х, у,)-е/2<» (2.6) и стратегию х, из условия inf Я(х„ у)+е/2>». (2.7) Из (2.2), (2.6), (2.7) получаем неравенство Я(х, у,)—е/2<®<Я(х„ у)+е/2 (2.8) для всех стратегий х, у. Следовательно, \H(x„yt)-v\^l2. (2.9) Из неравенств (2.8), (2.9) следуют соотношения (2.4), (2.5). Достаточность. Если для любого числа е>0 выполняются неравенства (2.4), то sup ш£Я(х, у)—inf вирЯ(х, у)=®< + оо X у ух »=inf sup Я(х, y)<sup Я(х, у,)<Я(х„ у„)+е< У * <inf Я(х„ y)+2e<sup inf Я(х, у)+2е=»+2е. (2.10) У X у Отсюда заключаем, что но согласно лемме п. 2.2 гл. I справед- ливо противоположное неравенство. Таким образом, остается до- казать, что значение игры Г конечно. Возьмем такую последовате- льность {ел}, что lim е,=0. Пусть 8*б{б„}, б*+л,с{ея}> где т — любое л-юо фиксированное натуральное число. Имеем ШХ‘к+т‘ Уч)+ sk+m^ Н(Х,к*т, У«*+т)^Н(х,к, У»к+т)— Ек+т> Теория игр 65
H(Xtk, Уек+т)+.Вк^ ^(xek, Уек)^Н(х,к+т, ytk) Ek- Таким образом, |Я(х,*, У^~Н(х,к+т, ь*+т)|^е*:4-е*:+т = 5*т. Так как lim 6*„ = 0 при любом фиксированном значении т, то существует /с-» со конечный предел lim Н(хе, у,). Из соотношения (2.10) получаем 8->0 неравенство \Н(х„ у„)—следовательно, r=lim Н(х„ у,). Теоре- 8—* 0 ма доказана. 2.6. Для иллюстрации приведенных в этом параграфе определе- ний рассмотрим подробно пример 1 п. 1.2. Пример 8. Предположим, что множества и S2 представляют собой замкнутые круги с радиусами и К2 (R2<R^. Найдем нижнее значение игры ««max min р(х, у). "" xeSt yeS2 Пусть XgGSi- Тогда min р(х0, у) достигается в точке у0 пересече- У ния прямой, проходящей через центр Ог круга S2 и точку х0, с границей круга S2. Очевидно, что величина min p(xQt у) достигает > Уе52 максимального значения в точке MgS19 являющейся точкой пересе- Рис. з 66
чения линии центров OOt (рис. 3) с границей круга 5\, наиболее удаленной от точки Ot. Таким образом, v = —R2. Для вычисления верхнего значения игры v=min max р(х, у) yeSt xeS, рассмотрим два случая. Случай 1. Центр О круга 5\ принадлежит множеству S2 (рис. 4). Для каждого y0eS2 точка х0, доставляющая max р(х, у0), строится следующим образом. Пусть Хд и Хд — точки пересечения прямой О2у0 с границей круга а Хо — точка пересечения прямой Оу0 с границей круга 5Х, наиболее удаленная от точки у0. Тогда х0 определяется из условия Р^о-Уо>=тах Р(^о.Уо)- /-1, 2, 3 По построению, для всех у0 g S2 max р(х, Уд)=р(х0, yg)>Rt. xeSt Однако при _уо=0 получаем max р(х, OJ —Rt, xeSi пвзгоиу min max р(х, y)=v=Rv . .у,- . xeS, v! Непосредственно видно, что, поскольку OeS2, в случае R2=v. При этом равенство возможно лишь при Условии, что О принадлежит границе множества S2. v Таким образом, если в случае 1 точка О не принадлежит границе множества S2, то значения игры и ситуации равновесия не существу- ет. Если же точка О принадлежит границе множества S2, то суще- ствует ситуация равновесия, при этом оптимальная стратегия игро- ка/ заключается в выборе точки М, лежащей на пересечении линии Центров OOt с границей множества St и наиболее удаленной от точки Оптимальная стратегия игрока 2 заключается в выборе точки у eS2, совпадающей с центром О круга 5\. Значение игры при этом равно v=v=v=R1+R2—R2 = Rl. ( Случай 2. Центр круга O$S2. Этот случай рассматривается как 67
вариант случая 1, когда центр круга принадлежит границе мно- жества S2. Вычислим величину v (рис. 5). Пусть у0е52. Тогда точка х0, доставляющая max р(х, у0), со- w xeS2 впадает с точкой пересечения х0 прямой, проходящей через у0 и центр О круга с границей круга S\, наиболее удаленной от точки у0. Действительно, круг радиусом ХоУо с центром в точке у0 содержит и его граница касается границы круга в единствен- ной точке х0. Очевидно, что величина max р(х, у0)=р(х0, у0) xeSi достигает минимума в точке пересечения отрезка ОГМ с гра- ницей круга S2. Таким образом, в рассматриваемом случае »=min max р(х, Я2=1>. yeS2 xeSt Оптимальные стратегии заключаются в выборе точек MeSY и MteS2 игроками 1 и 2 соответственно. Если в качестве множеств стратегий в примере 1 п. 1.2 рассмат- ривать открытые круги 5'1 и S2, то в случае 2 значение игры существует и равно v=sup inf р(х, yj = inf sup р(х, y)=v = \OtM\—R2=v. xeSj xgSj Однако оптимальных стратегий не существует, поскольку M$Sit Mt^S2. Тем не менее для любого е>0 существуют 8-оптимальные стратегии — это точки из 8-окрестности точек М и 1И15 принадлежащие соответственно можест- вам и S2. 2.7. В заключение отметим, что игра в примере 6 имеет ситуацию равновесия в чистых стратегиях (см. упр. 7), а игры в примерах 1 — 5, вообще говоря, не име- ют ситуации равновесия и значения игры. Так, в примере 2 лишь при /> 1{2 у игрока 1 есть оптимальная стратегия х* = 1/2, а значение игры равно единице (у игрока 2 оптимальной является любая страте- гия). § 3. СМЕШАННЫЕ СТРАТЕГИИ 3.1. Рассмотрим антагонистическую игру Г=(Х, Y, Н). Если она не имеет значения, то v>v. Для увеличения своего 68
гарантированного выигрыша в таких случаях каждому игроку, как уже отмечалось в § 4 гл. I, важно знать намерение противника. И хотя правила игры не представляют такой возможности, при достаточно частом повторении игры с одним и тем же противником можно статистически оценить возможность выбора той или иной стратегии и поступить определенным образом. Как же должен поступить игрок, не желающий, чтобы его намерение было рас- крыто? Единственным разумным способом в этом случае является выбор стратегии случайным образом, в соответствии с определен- ным случайным механизмом, т. е. необходимо использовать сме- шанные стратегии. Дадим формальное определение смешанной стратегии для бес- конечной игры. 3.2. Пусть х — некоторая <т-алгебра подмножеств множества X (включающая в себя одноточечные множества хеХ) и v — <т- алгебра подмножеств Y (yev, если ус У)- Обозначим через X и I множества всех вероятностных мер на сг-алгебрах х и v соот- ветственно, и пусть функция Н измерима относительно ст-алгебры Xxv. Рассмотрим интеграл К(ц, v>=| |Н(х, y)dp(x)dv(y), реХ, vef, (3.1) X Y представляющий собой математическое ожидание выигрыша Н(х, у) по мерам д, v [85]. Определение. Смешанным расширением игры Г=(Х, Y, Н) называется антагонистическая игра в нормальной форме с множе- ствами стратегий X, Y и функцией выигрышей К(р, v), т. е. игра Т=(Х, У, К). Поведение игроков в смешанном расширении игры Г можно Интерпретировать следующим образом. Игроки выбирают незави- симо друг от друга меры деТ и ve?. В соответствии с этими дерами они реализуют (например, с помощью таблицы случайных |Иоел) случайный выбор стратегий хеХ и ye Y. После этого игрок 1 получает выигрыш Н(х, у). Стратегии деТ, vg? называются Смешанными, а хеХ, yeY — чистыми стратегиями в игре Г. Введение смешанного расширения бесконечной игры требует определенных пояс- нений. Множества X и У зависят от того, на каких tf-алгебрах / и v рассматриваются вероятностные меры. В случае матричных игр (множества X и У конечны) в смешан-* ом расширении игроки выбирали свои стратегии согласно вероятностным рас-* Пределениям на множествах X и У. Если X— бесконечное множество и мы будем поступать так же, как в конечном случае, то необходимо рассматривать меры, для которых измеримы все подмножества бесконечного множества X. Однако таких мер сравнительно мало: это меры, сосредоточенные на не более чем счетных множествах tpMK. Используя только такие меры, игроки обедняют свои возможности (и далеко * всегда могут гарантировать существование ситуации равновесия в смешанных стратегиях). Поэтому используют менее обширные ст-алгебры, на которых определя- 69
ют вероятностные меры. Тогда возможных вероятностных мер существенно больше (и, как правило, гарантируется существование ситуации равновесия в смешанных стратегиях). Однако в этом случае не всякая функция Н на X х У окажется измери- мой, поэтому нельзя определить математическое ожидание выигрыша и тем самым понятие равновесия, значения игры и оптимальных стратегий. Таким образом, здесь необходим известный компромисс. С точки зрения проблемы нахождения решения желательно, чтобы смешанные стратегии имели наиболее простой вид и в то же время в этом расширении существовало, по крайней мере, значение игры. Строго говоря, интеграл в (3.1) должен браться по мере дху на декартовом произведении Хх У. Однако согласно правилам антагонистической игры смешанные стратегии (меры) д и v игроками выбираются одновременно и независимо друг от друга, т. е. вероятностные меры дир — стохастически независимы. Определение. Ситуацией (fi,v) в смешанных стратегиях назы- вается пара вероятностных мер деУ, ve У, которые стохастически независимы. Таким образом, в ситуации (д, v) в смешанных стратегиях выиг- рыш К(р, v) равен повторному интегралу (3.1). Одноточечные множества принадлежат а-алгебре подмножеств множества страте- гий, на которой определяются вероятностные меры, поэтому каж- дой чистой стратегии х(у) можно поставить в соответствие вероят- ностную меру nxeX(vyeY), сосредоточенную в точке хеХ (yeY). Отождествляя стратегии х и р„ у и vy, видим, что чистые стратегии являются частным случаем смешанных, т. е. справедливы включе- ния ХеХ, Ус= У. Тогда выигрыши игрока 1 в ситуациях (х, v) и (ц, у) равны соответственно математическим ожиданиям: К(х, v) =К(цх, v)=JН(х, y)dv(y); (3.2) г К(р, у) =К(ц, vy) = jН(х, y)dp(x), (3.3) X где интегралы в (3.1), (3.2), (3.3) понимаются в смысле Лебега — Стилтьеса. Если же распределения р(х), v(y) им/екп плотности f(x) и g(y), т. е. dp(x)=f(x)dx и dv(y)=g(y)dy, то интегралы в (3.1), (3.2), (3.3) понимаются в смысле Римана — Стилтьеса. Та- ким образом, Г с Г — подыгра своего смешанного расширения Г. Будем считать, что все интегралы в (3.1) (3.2), (3.3) существуют, каковы бы ни были вероятностные меры д и v. Определение. Пусть Г = (X, Y, Н) — антагонистическая игра, a f=(X, X, К)—ее смешанное расширение. Тогда ситуация (p.*,v*)eXxY называется ситуацией равновесия в игре Г в смешан- ных стратегиях, если для всех цели vs? выполняются неравенства К(ц, v*)^K(p*, v), (3.4) т. е. (ц*. v*) — ситуация равновесия в смешанном расширении игры 70
Г, а p*(v*) — оптимальная стратегия игрока 1 (2) в Г. Аналогично, ситуация v^e^x?) называется ситуацией е- равновесия в игре Г в смешанных стратегиях, если для всех деТ и ve У выполняются неравенства К(р, v*) — e^K(pt, у,)^К(£, v) +г, (3.5) т. е. д,*, (v*) — е-оптимальная стратегия игрока 1 (2) в Г. 33. Подобно тому, как это доказывалось для матричных игр, можно показать, что если функции выигрыша игр Г=(Х, Y, Н) и F=(X Y, Н) связаны равенством Н(х, у)=аН(х, у)+р,а>0, то множества ситуаций_равновесия у игр Г и Г' в смешанных стратеги- ях совпадают, т. е. Z(T') =Z(T), а значения игр связаны соотноше- нием »(Г')=а«(Г)+^ (см- § 4 гл. I). 3.4. Ситуации равновесия в смешанных стратегиях обладают такими же свойствами, как и в случае матричных игр, что следует из приведенных ниже теорем. Теорема. Для того чтобы пара (р*. v*), p*eX, v*eY была ситуацией равновесия (е-равновесия) в смешанных стратегиях в игре Г, необходимо и достаточно для всех хеХ, ye Y выполнение нера- венств К(х, у*) <К(р*. v*) <К(р*, у); (3.6) (К(х, v*)-e^K(p*, v*)^K(p*, у) + е). (3.7) Доказательство. Необходимость теоремы очевидна, по- скольку чистые стратегии являются частным случаем смешанных. Докажем достаточность для (3.6) (для (3.7) это доказывается аналогично). Пусть д и v — произвольные смешанные стратегии игроков 7 и 2 соответственно. Тогда из (3.1), (3.2) и (3.6) получаем К(р, v*) = |К(х, v*)dp(x)^K(p*, у*), х К(р*. у) = |К(р*. y)dy(y)>K(p*, V*). г Отсюда вытекают неравенства (3.4), что и требовалось доказать. Из теоремы, в частности, следует, что если (х*. у*) — ситуация равновесия (е-равновесия) в чистых стратегиях в игре Г, то она является и ситуацией равновесия (е-равновесия) в смешанном рас- ширении Г, при этом значение игры v сохраняется. Заметим, что смешанное расширение Г является антагонистичес- кой игрой, поэтому относительно Г справедливо понятие вполне определенной игры (п. 2.1), а также теорема п. 2.5, только речь теперь идет о ситуации равновесия и значении игры в смешанных стратегиях. 71
3.5. Теорема. Для того чтобы игра Г= (X, Y, Н) имела значение v в смешанных стратегиях, т. е. sup inf K(ji, v)=infsapK(p, v)=v, необходимо и достаточно выполнение равенства ’ д sup inf К(р, у) =inf sup К(х, v) = v. (3.8) Я У » * Если при этом игроки имеют оптимальные стратегии, то внешние экстремумы в (3.8) достигаются и равенства inf K(p*,y)=v; (3.9) У sup K(x,v*)=v (3.10) являются необходимыми и достаточными условиями оптимально- сти смешанных стратегий р*еХ и v* е У. Доказательство. Пусть v — значение игры. Тогда по опреде- лению t>=sup inf К(р, v). (3.11) Для фиксированной стратегии д множество {К(р, vJIvef} —вы- пуклая оболочка чисел К(р, у), уе Y. Так как точная нижняя гра- ница любого множества действительных чисел совпадает с точной нижней границей выпуклой оболочки этих чисел, то inf К(р, v) = inf К(р, у). (3.12) veF yeY Равенство (3.12) можно получить также из следующих соображений. Поскольку Ус У, имеем inf К(р, vj^inf К(р, у). »е? yeY Предположим, что неравенство строгое, т. е. inf К(р, v) <inf К(р, у). V у Это значит, что при некотором достаточно малом е>0 выполняется неравенство ‘ inf К(р, v)+e<inf К(р, у). v у Таким образом, при всех ye Y 12
K(p, y>>inf К(ц, v>4-6. (3.13) Теперь, переходя к смешанным стратегиям в (3.13), получаем inf К(ц, v)>inf К(ц, v) + e. V V Полученное противоречие и доказывает (3.12). Возьмем супремум по д в равенстве (3.12). Тогда t>=sup inf K(fi, у). Д У Аналогично доказывается правое из равенств в (3.8). Обратно, если (3.8) выполнено, то из (3.12) следует, что v — значение игры. Пусть теперь д*, v* — оптимальные стратегии игроков 1 и 2 со- ответственно. По теореме п. 3.4 гл. I внешние экстремумы в (3.8) достигаются, а (3.9), (3.10) являются необходимыми и достаточ- ными условиями оптимальности смешанных стратегий д* и v*. В п. 3.2 отмечалось, что введение смешанных стратегий в бес- конечной антагонистической игре зависит от способа рандомизации множества чистых стратегий. Однако из (3.8) следует, что значение v игры не зависит от способа рандомизации. Так, для доказательст- ва его существования достаточно найти хотя бы одно смешанное расширение игры, для которого выполнялось бы равенство (3.8). Следствие. Для любой антагонистической игры Г=(Х, Y, Н), имеющей значение v в смешанных стратегиях, справедливо неравен- ство sup inf Н(х, y)<v<inf sup Н(х, у). (3.14) X у ух Доказательство. Из теоремы п. 3.5 следует:. sup inf Н(х, y)<sup inf К(р, y)=v — * у д у =inf sup К(х, v) <inf sup H(x, у). V X у X 3.6. Из (3.14) следует один из способов приближенного решения антагонистической игры. Действительно, пусть внешние экстрему- мы в (3.14) достигаются, т. е. ®“=шах inf Н(х, y)=inf Н(х°, у); (3.15) х у у v+ =min sup Н(х, у)=sup Н(х, у°) (3.16) у X X и пусть a=v+ —Тогда максиминная стратегия х° игрока 1 и ми- 73
нимаксная стратегия у° игрока 2 с точностью до а описывают оптимальное поведение игроков и могут быть взяты в качестве приближенного решения игры Г. Таким образом, в этом случае задача сводится к нахождению максиминных и минимаксных стра- тегий игроков 1 и 2 соответственно, а точность приближенного решения определяется величиной а=®+— у", при этом значение игры v согласно (3.14) лежит в интервале ®б[ю~, »+]. Способам нахождения решения задач (3.15), (3.16) посвящена теория минимак- са [31, 30]. 3.7. Как и в случае матричных игр, для бесконечных игр важную роль играет понятие спектра смешанной стратегии. Определение. Пусть Г = (X, Y, Н) — антагонистическая игра. Тогда чистую стратегию хоеХ (yoeY) игрока 1 (2) называют точкой концентрации его смешанной стратегии р (v), если р (х0) >0 (у(Уо)>^)- Определение. Чистая стратегия хоеХ (yoeY), где X (соот- ветственно Y) —топологическое пространство, называется точ- кой спектра смешанной стратегии р (у), заданной на борелевской а-алгебре подмножеств множества X (Y), если для любой измери- мой окрестности со точки х0 (у0) имеет место неравенство д(ш) = J dp(x)>0(y(a))=J rfv(y)>0). ш <о Спектром смешанной стратегии р(у) назовем наименьшее за- мкнутое множество, р-мера (у-мера) которого равна единице. Точки концентрации смешанной стратегии являются точками спектра; обратное, вообще говоря, неверно. Так, чистые стратегии, в которых смешанная стратегия имеет положительную плотность, являются точками спектра, но они не являются точками концент- рации. Спектр смешанной стратегии р (соответственно v) будем обозна- чать Хц (У„). Докажем аналог теоремы п. 7.6 гл. I о дополняющей нежест- кости для бесконечных игр. Теорема. Пусть Г = (X, Y, Н) — антагонистическая игра, име- ющая значение v. Тогда, если хоеХ, a v* — оптимальная смешанная стратегия игрока 2 и К(х0, v*)<«, (3.17) то х0 не может быть точкой концентрации какой-либо оптималь- ной стратегии игрока 1. Аналогичный результат справедлив и для точек концентрации оптимальных стратегий игрока 2. Доказательство. Из оптимальности смешанной стратегии 74
v*e Y следует, что для всех хеХ выполняется неравенство К(х, v*)<«. Интегрируя его по оптимальной смешанной стратегии (мере) д* игрока 1 на множестве У\{х0}, получаем f К(х, v*)dp*(x)^v J dp*(x). Пусть д*(хо)>0, т. е. х0 — точка концентрации оптимальной сме- шанной стратегии д* игрока 1. Тогда из (3.17) имеем К(х0, v*)p* (х0) < юд* (х0). Складывая два последних неравенства, получаем противоречие f К(х, v*)dp*(x)=K(ji*, v*)=»<®. х Поэтому д* (хо)=0 для всех оптимальных стратегий д*е X. 3.8. Для бесконечных антагонистических игр можно ввести по- нятие доминирования стратегий аналогично тому, как это делалось в § 8 гл. I. _ Определение. Стратегия ptGX игрока 1 строго доминирует стратегию р2еХ(Д1>д2), если Н(р2,у)>Н(рьу) _ для всех yeY. Аналогично, стратегия игрока 2 строго до- минирует стратегию v2e Y (v^Vj), если Н(х, vi)<H(x, v2) для всех хеХ. Стратегии д2 и v2 называются строго доминиру- емыми, если существуют д2>д2 и vi^v2- Если последние неравенства выполняются как нестрогие, то говорят, что д2 доминирует д2 (д2^д2) и vx доминирует v2 (v1^=v2). Приведем без доказательства теоремы о доминировании, аналогичные теоремам ц. 8.3. Теорема. Для бесконечной антагонистической игры, имеющей решение, ни одна строго доминируемая чистая стратегия игрока не содержится в спектрах его оп- тимальных смешанных стратегий. Теорема. Пусть Г=(Х Y, Н) — бесконечная антагонистическая игра, имеющая решение (X и У — топологические пространства), и каждый элемент открытого множества Х° с X доминируется некоторой стратегией д°, спектр которой не пересе- кается с Х°. Тогда всякое решение игры Г'=(Л\У°, Y, Н) является решением игры Г. Аналогичная теорема верна и для стратегий игрока 2. 3.9. В этом параграфе рассмотрены свойства оптимальных (е- оптимальных) смешанных стратегий в предположении существова- ния решения игры. Матричная игра вполне определена в смешанных стратегиях, т. е. всегда существуют значение и ситуация равновесия, 75
что следует из теоремы п. 6.1 гл. I. Возможности решения бесконеч- ных антагонистических игр в смешанных стратегиях ограничены, что показывает следующий пример. Пример 9. (Игра, не имеющая значения в смешанных стратеги- ях.) Рассмотрим игру Г=(У, Y, И), где Х= У= {1, 2...} — множество натуральных чисел, а функция выигрышей имеет вид {1, если х>у, О, если х=у, — 1, если х<у. Эта игра не имеет значения в чистых стратегиях. Покажем, что она не имеет значения и в смешанных стратегиях. Пусть д — произвольная смешанная стратегия игрока 1, 00 и dp(x)—d„ где и £ 5Х=1. Возьмем е>0 и найдем у, такое, что х“* £ 5ж>1-б. Тогда К(р, K)=Z 8хН(х,у,)= 8хН(х,у^+ х-1 x<je + £ 8хН(х,уг)-----£ 5*+ Z ^<-l+2a. *>y> *<y* *>л В силу произвольности е>0 и так как Н(х, у) не принимает значе- ний, меньших — 1, имеем inf К(р, у)= -1. У Следовательно, поскольку стратегия д произвольна, ®=sup infK(p, у)= — 1. Я У Рассуждая аналогично, получаем 5=inf sup/T(x, v)=l. V X Так как v>v, то игра Г не имеет значения в смешанных стратегиях. Как будет показано в следующем параграфе, непрерывности функции выигрыша и компактности пространства стратегий до- статочно для того, чтобы игра имела решение (значение и оп- тимальные стратегии) в смешанном расширении. 76
§ 4. ИГРЫ С НЕПРЕРЫВНОЙ ФУНКЦИЕЙ ВЫИГРЫША 4.1. В данном параграфе рассмотрим антагонистические игры Г—(X У, Я) в предположении, что пространства стратегий 1и Y — метрические компакты (чаще всего они будут подмножествами евклидовых пространств), а функция Н непрерывна по обеим пере- менным. Под множествами X, Y смешанных стратегий игроков 1 и 2 будем понимать множества вероятностных мер, заданных на а-алгебрах хи® борелевских множеств пространств У и У соответ- ственно. Тогда выигрыш К(у, v) игрока 1 в ситуации (д, v)elx У в смешанных стратегиях — измеримая функция относительно боре- левской сг-алгебры / хи, она определяется интегралом (3.1) и пред- ставляет собой математическое ожидание выигрыша по вероятност- ной мере д х v. Игру Г=(У, У, Н), определенную указанным выше способом, будем называть непрерывной игрой. 4.2. Теорема. Если Г=(У, У, Н) — бесконечная антагонисти- ческая игра, имеющая значение v и ситуацию равновесия (у*, v*), а функции К(р*, у), К(х, v*) — непрерывны соответственно по у и по х, то справедливы равенства К(р*, y)=v, yeY^; <4 К(х, v*)=®, хеА>, (4.2) где У», X? — спектры смешанных стратегий v* и у* соотве- тственно. Доказательство. Из теоремы п. 3.4 следует, что неравенство У(д*, у)>® (4.3) выполняется для всех точек yeY. Если (4.1) не выполнено, то существует такая точка уоб У,., что К(р*, yQ)>v. В силу непрерыв- ности функции К (у*, у) неравенство (4.3) в некоторой окрестности а) точки у0 —строгое. Из того, что уое Y^> точка спектра смешан- ной стратегии v*, следует v*(co)>0. Отсюда и из неравенства (4.3) получаем v=K(y*, v*) = f К(р*, у)Л*(у)>®. г Противоречие доказывает справедливость (4.1). Равенство (4.2) до- казывается аналогично. Данный результат является аналогом теоремы о дополняющей нежесткости п. 7.6 гл. I. Напомним, что чистая стратегия х, входя- щая в спектр оптимальной стратегии, называется существенной. Таким образом, теорема утверждает, что для существенных страте- гий должны быть выполнены равенства (4.1), (4.2). 77
Теорема п. 4.2 справедлива для любой непрерывной игры, по- скольку справедливо следующее утверждение. 4.3. Лемма. Если функция Н-.Хх Y-*Rl непрерывна на XxY, то интегралы К (р,у) и К(х, v) являются соответственно непрерывными функциями от у и х для любых фиксированных смешанных страте- гий реХ и ve Y. Доказательство. Функция Н(х, у) непрерывна на компакте Хх Y, поэтому она равномерно непрерывна. Возьмем произвольное 8>0 и найдем такое <5>0, что как только р2(У1> т0 Для любого х выполняется неравенство |Я(х, Ji)~Н(х, у2)\ <е, (4.4) где р2() — метрика в пространстве У. Тогда \К(р, У1)—К(р, y2)| = |f Н(х, yi)dp(x)- X -f Я(х, y2)^(x)| = |f [Я(х, У1)—Н(х, у2)]^(х)|< X X < J |Я(х, Ji) - Я(х, у2)|</д (х) <с J dp (х) = е. (4.5) X X Следовательно, функция К(р, у) непрерывна по у. Аналогично доказывается непрерывность функции К(х, v) по х. 4.4. Сформулируем основную теорему данного параграфа. Теорема. Бесконечная антагонистическая игра Г=(Х, Y, Н), где X, Y — метрические компакты, а Н — непрерывная функция на их произведении, имеет решение в смешанных стратегиях (значение и оптимальные стратегии). Доказательство теоремы основано на аналитических свойствах смешанного расширения игры Г=(Х, У, К) и некоторых вспомога- тельных результатах. 4.5. Напомним, что последовательность борелевских мер Цп, n—1,2,..., заданных на борелевской tr-алгебре / компактного метрического пространства X, называется слабо сходящейся, если lim f ф(*МИи(х)=| <р(х)4д(х) (4.6) Л—*00 X X для любой непрерывной функции (р(х), хеХ. Лемма. В условиях теоремы п. 4.4 множества смешанных стратегий X и X(мно- жества борелевских вероятностных мер) — метрические компакты в топологии слабой сходимости. __ Приведем схему доказательства для множества смешанных стратегий Т (для Y — рассуждения аналогичны). Пространство борелевских мер У, заданных на борелевской ^-алгебре / ко- мпактного метрического пространства X, метризуемо, поскольку в X можно ввести метрику 78
р(р\ д") = тах(р', p"), где p* и p" — нижние границы таких чисел / иг" соответственно, что для любого замкнутого множества F^X p\F)<p”(V^F))+i', ^(F)<^(Vf(F))^, где Vr(F) = {x£X}: minpi (х, z)<r}, r>0, a (•) — метрика в пространстве X. zeF Известно [85], что сходимость в этом метрическом пространстве равносильна слабой сходимости, а семейство мер р на борелевской а-алгебре пространства X слабо компактно (т. е. компактно в описанном выше метрическом пространстве всех борелевских мер) тогда и только тогда, когда это семейство равномерно ограничено д(АЭ<с (4.7) и равномерно плотно, т. е. для любого е>0 существует такой компакт А£Х, что Д(*\А)<е. (4.8) Условие (4.8) следует из компактности X, а (4.7) — из того, что меры деТ нормированы (д (X)=1). 4.6. Заметим, что в условиях теоремы п. 4.4 множество смешанных стратегий Т(Т) игрока 1 (2) является компактом и в обычном смысле, поскольку в данном случае слабая сходимость последовательности мер {д,}, л=1, 2, ..., равносильна сходимости в обычном смысле: lim д,(А)-д(А) л-юо для любого борелевского множества ASX такого, что его граница А’ имеет меру нуль: utA'yz’O. Доказательство этого результата представляет определенные технические слож- ности. Его можно найти, например, в [4, с. 367]. 4.7. Обозначим через ® и v соответственно нижнее и верхнее значения игры Г=(Х, Y, К): v=sup infX(g, у), ®=inf supX(x, v). (4.9) " М У v х Лемма. В условиях теоремы п. 4.4 экстремумы в (4.9) достига- ется, поэтому i>=max minК(р, у), v=min тахХ(х, v). (4.10) ' “ цеХ yeY »еУ хеХ Доказательство. Так как Н(х, у) непрерывна, то по лемме п. 4.3 для любой меры ре X функция К(р, y) = \H(x,y)dp(x) х непрерывна по у. Так как Y— компакт, то К(р, у) в некоторой его точке будет достигать минимума. 79
По определению v для любого п существует такая мера ЦцВХ, что yy^v—ljn. У ~ Поскольку X — компакт в топологии слабой сходимости (лемма п. 4.5), то из последовательности {pn}?-i, Дя^У, можно выбрать слабо сходящуюся подпоследовательность. Пусть сама последова- тельность {д„}“_1 слабо сходится к некоторой мере доеУ. Тогда lim К(рп, y)=lim JH(x, y)dp„(x)=$ H(x, y)dp0(x)=K(p0, у), ye Y. п-ю> л-»ооХ X Но K(ji0, у) не меньше v для каждого yeY. Следовательно, пнпУ(д0, у)>ю и на доеУ достигается требуемый максимум. У Аналогично доказывается, что inf sup в (4.9) можно заменить на min max. 4.8. Перейдем непосредственно к доказательству теоремы п. 4.4. Доказательство. Так как Xи Y — метрические компакты, то для любого целого п существуют конечные (1/п)-сети ХП={Х{, ..., х?я}, у„ с у, У„={я.У& у,<= у, соответственно множеств X и У. Это означает, что для любых точек хеХ wyeY найдутся такие точки х?бУя и -fie Y„, что Pi (х, *?)<-. Pi(y,rf)< (4.11) Л л где pt ( ), р2 ( ) — метрики пространств У и У соответственно. Для произвольного целого п построим матричную игру с мат- рицей Лл={<Ху}, где а&=Я(х?, rf),*teX„,y]e У„. (4.12) Игра с матрицей А„ имеет значение 0„ и оптимальные смешанные стратегииp„=(jti,..., nJJ, 4=(Т|,..., t£) игроков 1 и 2 соответственно (см. теорему п. 6.1 гл. I). Функция Н(х, у) непрерывна на декартовом произведении Ух У метрических компактов, поэтому она равномерно непрерывна, т. е. для заданного е>0 можно найти такое <5>0, что как только Pi(x, У)<5, р2(у, у’)<8, ТО 80
|Я(х, у)-Н(х\У)\<Е. (4.13) Выберем п_настолько большим, чтобы 1/п<3, и определим стратегию по правилу P„(F)= Е *? <4-14) фХ„} для каждого борелевского множества F пространства X. Имеем <4-15) t-i Если р2(у, yj)<6, то согласно (4.4), (4.5) и (4.13) получаем \Н(х, у)—Н(х, yj)\<e, |^B,y)-№>01<e. Следовательно, для любого yeY (Y„—(1/и)-сеть множества Y) К^у^бп-г. (4.16) Так как min К(р.„, у) достигается (лемма п. 4.7), то «>0„-8. (4.17) Аналогично можно показать, что ю<0я+е. (4.18) Из (4.17) и (4.18) получаем v>v—2е. Но по лемме п. 2.2 гл. I неравенство выполняется всегда. Учитывая произвольность е>0, получаем” v=v-, (4.19) тогда из леммы п. 4.7 и (4.19) следует утверждение теоремы (см. п. £1). ( 4.9. Следствие. Имеет место равенство «=1пп0я, (4.20) л-юо где 0Я=«(ЛЯ) — значение матричной игры с матрицей (4.12). 4.10. Из доказательства теоремы п. 4.4 следует, что непрерывную игру можно с любой степенью точности аппроксимировать конеч- ными играми. Более того, справедлив следующий результат. 81
Теорема. Бесконечная антагонистическая игра Г=(Х, У, Н), где X,Y — метрические компакты, а Н — непрерывная функция на их произведении, при любом е>0 имеет е-оптимальные смешанные стратегии с конечным спектром. Доказательство теоремы следует из доказательства (п. 4.8) теоремы п. 4.4. Действительно, по игре Г построим матричные игры с матрицами А„ и смешанные стратегии Ц»еХ, определяемые соот- ветственно (4.12), (4.14) для произвольного целого п. Стратегии v„e У игрока 2 по аналогии определяются следующим образом: v»(G)= L Ъ (4.21) где f=(с?, ..., т£) — оптимальная смешанная стратегия игрока 2 в игре с матрицей А„ и значением вп. По построению имеем 0»= £ £ v„), (4.22) i-l >1 где К(р, v) — выигрыш в смешанных стратегиях (д, v) в игре Г. Из (4.16) и аналогичного неравенства для стратегии v„ получаем, что для произвольного е>0 найдется номер п такой, что К(х, у„)—е<Оя<К(рт у)+е (4.23) для всех хеХ и yeY. Учитывая, что стратегии уц, и v„ имеют конечный спектр Х„ и У, соответственно (Х„ и У„ — конечные (1/п)- сети соответственно множеств X и У), получаем утверждение те- оремы (см. п. 3.4). 4.11. Объединяя результаты теорем п. 4.4 и 4.10, можно сделать вывод, что бесконечная антагонистическая игра с непрерывной фун- кцией выигрыша и компактными множествами стратегий для любо- го £>0 имеет е-оптимальные стратегии игроков, являющиеся смеся- ми конечного числа чистых, а также смешанные оптимальные стра- тегии в классе борелевских вероятностных мер. В частности, эти результаты справедливы для игр на квадрате (п. 1.3) с непрерывной функцией выигрыша. 4.12. Имеется большое число работ, в которых доказывается существование значения бесконечных антагонистических игр. На- иболее общий результат в этом направлении принадлежит Сайону [66]. Для игр с компактными пространствами стратегий и полунеп- рерывными функциями выигрыша известны результаты [50, 75, 90]. Покажем, что в некоторых направлениях они не поддаются обобще- нию. 82
Пример 10. (Игра на квадрате, не имеющая значения в смешанных стратегиях [67]). Рассматривается антагонистическая игра Г=(X, Y, Н), где Х= У=[0, 1], а функция выигрыша Н имеет вид { — 1, если х<у<х+1/2, О, если х=у или х=х4-1/2, 1, если у<х или хЧ-1/2<у. Эта функция имеет разрывы на прямых у=х и у=х+1/2. Покажем, что sup inf К(р, v)= 1/3; inf sup K(p, v)=3/7. (4.24) И v » Д Пусть д— вероятностная мера на [0, 1]. Если д ([0, 1/2))<1/3, т0 положим уд=1. Если же д ([0, 1/2))>1/з, то выберем <5>0, чтобы д ([0» 11г~11з, и положим уд= 1/2 — 8. В каждом из этих случаев получаем неравенства МК(р, v)^K(p, yJ^l/3, которые доказываются непосредственной проверкой. С другой стороны, если д выбрано так, что д ({0})=д ({1/2})=Д ({!})=*/з> т0 для всех уе[0, 1] имеем f Я(х, уХд(х)=1/3[Я(0, у)+Я(1/2, у)+Я(1, у)]> 1/3. о Следовательно, доказано первое из равенств (4.24). >, Теперь пусть v — какая-либо вероятностная мера на [0, 1]. Если у([0, 1))>3/7, то положим х,= 1. Если v ([0, 1))<3/7, то v({1})>4/7, и в этом случае положим х„=0, если v([0, 1/2))<1/7; если же v([0, */а))> 1/7. то выберем <5>0 так, чтобы v([0, х/2 —^])> 1/7, и положим 1/2—3. В каждом из указанных случаев убеждаемся, что 8ир£(д, v)>£(x„ v)>3/7. д С другой стороны, если v выбрано так, что v({1/4})=1/7, v({l/2})=2/7, v({l})=4/7, то для любого хе[0, 1] имеем f Я(х, y)rfv(y)= 1/7[Я(х, 1/4)4-2Я(х, 1/2)4-4Я(х, 1)]3/7. о Таким образом, доказано второе из равенств (4.24). 83
§ 5. ИГРЫ С ВЫПУКЛОЙ ФУНКЦИЕЙ ВЫИГРЫША В § 4 при достаточно общих предположениях было доказано существование решения в бесконечных антагонистических играх с непрерывной функцией выигрыша и компактными множествами стратегий. Вместе с тем представляет теоретический и практический интерес выделение таких классов игр, когда один или оба игрока имеют оптимальные чистые стратегии. Такие игры рассматривают- ся в данном параграфе. 5.1. Определение. Пусть Xc.Rl”, Y<^Rn— компакты, множе- ство Y — выпукло, функция H:X*.Y-*Rl непрерывна по совокуп- ности аргументов и выпукла по yeY при любом фиксированном значении хеХ. Тогда игра Г(Х, Y, Н) называется игрой с выпуклой функцией выигрыша (выпуклая игра). Приведем симметричное определение относительно игрока 1. Определение. Если Xc-Rf, Yc.R?— компакты, множество X выпукло, функция выигрыша Н непрерывна по совокупности ар- гументов и вогнута по хеХпри любом фиксированном ye Y, то игра Г=(Х, Y, И) называется игрой с вогнутой функцией выигрыша (вогнутая игра). Если же Xc.lC, YcRn — выпуклые компакты, а непрерывная по совокупности аргументов функция выигрыша Н(х, у) вогнута по х при любом фиксированном у и выпукла по у при каждом х, то игра Г(Х, Y, Н) называется игрой с вогнуто-выпуклой функцией выигрыша (вогнуто-выпуклая игра). Рассмотрим игры с выпуклой функцией выигрыша. Аналогич- ные результаты справедливы и для вогнутых игр. Теорема. Пусть Г=(Х, Y, Н) — выпуклая игра. Тогда игрок 2 имеет оптимальную чистую стратегию, при этом значение игры равно v=min max Н(х, у). (5.1) лег хеХ Доказательство. Так как X и Y—метрические компакты (в метрике евклидовых пространств К" и RC), а функция Н непрерывна на произведении Ух У, то согласно теореме п. 4.4 в игре Г существу- ет значение v и оптимальные смешанные стратегии д*, v*. Известно, что множество вероятностных мер с конечным носителем всюду плотно в множестве всех вероятностных мер на У [85]. Поэтому существует последовательность смешанных стратегий v” с конечным спектром, слабо сходящаяся к v*. Пусть спектр стратегии у" состоит из точек у*..yfr, и они выбираются с вероятностями tfi, ..., iftn. Тогда в силу выпуклости функции Н имеем 84
K{x, v")= £ Х)>Я(х, у\ (5.2) /-1 п где у"=^г1"Уп- Переходя к пределу при п-»оо в неравенстве (5.2) 7-1 (если необходимо, то следует рассмотреть подпоследовательность {у"}), получаем К(х, v*)>H(x, у), хеХ, (5.3) где у — предельная точка последовательности {у"}. Из (5.3) и лем- мы п. 4.2 имеем max£(x, v*)>max//(x, у). (5.4) Пусть неравенство (5.4) строгое. Тогда w=maxlf(x, v*)>max27(x, y)>min тахЛГ(х, v)=«, X X V X что невозможно. Таким образом, тахЯ(х, р)=тахК(х, v*)=w и из теоремы п. 3.5 получаем, что у — оптимальная стратегия игрока 2. Установим справедливость равенства (5.1). Так как ye Y — оп- тимальная стратегия игрока 2, то ®=тахЯ(х, j)>min тахЯ(х, у). X у X С другой стороны, выполняется неравенство v=min maxA’(x, v)<min тахЯ(х, у). V X у X Сравнивая последние неравенства, получаем (5.1). 5.2. Напомним, что функция ф: У-»/?1, У a R„, У — выпуклое Множество, строго выпукла, если для всех Ле(0, 1) выполняется строгое неравенство ф(Лу1+(1-Л)^2)<Лф(у1)+(1-Л)ф(у2); yj2e У, у^уг. Теорема. Пусть Г— (X, Y,H) — выпуклая игра со строго выпук- лой функцией выигрыша. Тогда игрок 2 имеет единственную оп- тимальную стратегию, которая является чистой. Доказательство. Пусть р* —оптимальная стратегия игрока /, <р(у)=К(р*, у) и v — значение игры. Если у — точка спектра оптимальной стратегии игрока 2, то выполняется равенство 85
XIE*, y) = v. Однако для всех ye Y имеем неравенство АГ(д*, поэтому (р (J)=min ф (у)=v. yeY Функция ф(у) является строго выпуклой, поскольку для 2е(0, 1) имеет место неравенство Ф (ЛУ1 + (1 - Х)У2)=f Н{х, Лу2 + (1 - Л)у2)dp* (х) < X < Л J Н(х, у^р* (х)+(1 - 2) f Н (х, y^dp* (х)= = 2ф(у1)+(1-2)ф(у2). (5.5) Из (5.5) следует, что функция <р (у) не может достигать минимума в двух различных точках. С другой стороны, существование точки минимума у функции <р(у) гарантируется теоремой п. 5.1, что завершает доказательство. 5.3. Приведем без доказательства результаты, симметричные теоремам по п. 5.1 и 5.2 для вогнутых и вогнуто-выпуклых игр. Теорема. Пусть Г= (Х, Y, Н), X с , У а Л" — вогнутая игра. Тогда значение игры v вычисляется по формуле v=max min Н(х, у), (5.6) * у каждая чистая стратегия х*, на которой достигается max min (5.6), является оптимальной для игрока 1. Если, кроме того, функция Н(х, у) строго вогнута по х при каждом фиксированном yeY, то оптимальная стратегия игрока 1 единственна. Теорема. Пусть Г=(У, Y, Н), X с Е?, Y g 7?"— вогнуто-вы- пуклая игра. Тогда значение игры v равно v=min max/f(x, y)=max minZf(x, у). (5.7) ух X у В игре Г всегда существует ситуация равновесия (х*. у*) в чистых стратегиях, где х*еХ, у* eY— чистые стратегии игроков 1 и 2, на которых достигаются внешние экстремумы в (5.7). Если при этом функция Н(х, у) строго вогнута (выпукла) по переменной х(у) при любом фиксированном ye Y (хеХ), то игрок 1 (2) имеет единствен- ную оптимальную стратегию, которая является чистой. 5.4. Выясним структуру оптимальной стратегии игрока 1 в вы- пуклой игре Г=(Х, Y, Н). Теорема. В выпуклой игре Г=(Х, Y, Н), Yс. Rn игрок 1 имеет 86
оптимальную смешанную стратегию р* с конечным спектром, со- стоящим не более чем из (л+ 1)-й точки множества X. Доказательство этого результата основано на известной теореме Хелли о выпук- лых множествах, которую мы приведем без доказательства [63, с. 210; 3, с. 107]*. Теорема (теорема Хелли). Пусть К— семейство из не менее чем п + 1 выпуклого множества в R*, причем каждое множество из К компактно. Тогда, если каждые п+1 из множества семейства К имеют общую точку, то существует точка, общая всем множествам семейства К. Прежде чем перейти непосредственно к доказательству теоремы, докажем ряд вспомогательных утверждений. Пусть функция Н(х, у) непрерывна на произведении X х Y ком- пактных множеств X с iC, Y с Ля. Обозначим Х' = Хх ... х X декар- тово произведение г множества X. Рассмотрим функцию <р: X'xX-tR1: (р(хи ..., хп y)-maxH(xl, у). l<i<r Лемма. Функция <р(х1гхг, у) непрерывна на X'xY. Доказательство. Функция Н(х, у) непрерывна на компактном множестве Ух У, поэтому и равномерно непрерывна на нем. Тогда для любого е>0 найдется 5>0 такое, что из неравенств рх (х, х)<8, p2(yls 3'2)<^ следует неравенство |Я(х, yt)—Н(х, у2)|<£, где рД), рг (•) — расстояния в и / соответственно. Имеем |ф(х1э ..., х„ уО-фСхд, ..., х, у2)| = А = |тахЯ(х;, у^-тахЯ^, у2)| = |Я(х;,, У1)~Н(хч, у2)|, где H(xii9 yj=max H(xh Я(йа, y2)=max H(xh y2). Если Pi (xi, xt)<S для i= 1,..., г, р2(у1г У^<8 и если Я(х„ у^Щх^, Ул), то 0^Я(х/р yl)-H(xii,'y2)^H(xh, yi)-H(xit, у2)<е. Аналогичные неравенства имеют место в случае Я(х,р У1)<Я(х<2, у2). Лемма. В выпуклой игре Г=(У, У, Я), У с Rn значение игры *Вопросы, связанные с обобщениями и приложениями теоремы Хелли, подробно изложены в книге: Данцер Л., Грюнбаум Б., Кли В. Теорема Хелли. М., 1968. 87
v равно i>=min max.H(x, y)= max min max H(xhy), (5.8) у X xlt хл + 1 у 1<«л + 1 где ye Y, xteX, i=l, n+1. Доказательство. Обозначим через 0= max min max H(xh y). xlt .... хл+1 у + 1 Так как min max H(xt, y)<min max 77 (x, y)=v для каждой систе- у К/^Л+1 X у х мы точек (хь ..., хя+1)еХя+1, то (5.9) Для произвольного фиксированного набора стратегии х(еХ, i= 1..n+1, рассмотрим систему неравенств относительно у Н (xt, у)^0, ye Y, 1=1, ..., п+1. (5.10) Покажем, что система (5.10) имеет решение. Действительно, 0>min max Н(х„у)= max H(xh у)^Н(хь у), i=l, п+1. у 1^/<л+1 1<«л+1 Таким образом, у удовлетворяет системе (5.10). Следовательно, система (5.10) имеет решение для любых xteX, i=l,2, ..., п+1. Зафиксируем х и рассмотрим множество Dx={y:H(x, у)^0}. Функция Н(х, у) выпукла и непрерывна по у, поэтому множество Dx выпукло и замкнуто при каждом х. Множества {D,} образуют систему выпуклых компактных множеств в 7?", причем в силу того, что неравенства (5.10) всегда имеют решение, любой набор по (и+ 1)-му множеству системы {Dx} имеет непустое пересечение. По- этому по теореме Хелли существует точка у0 е Y, общая для всех множеств Dx, т. е. такая, что н(х,Уо)^е (5.П) при любых хеХ. Предположим, что d^v. Тогда из (5.9) и (5.11) 88
имеем 0<r=min тахЯ(х, у)^тахЯ(х, уо)^0, ух X т. е. в<в. Полученное противоречие и доказывает (5.8). Перейдем к доказательству теоремы. Доказательство. Из предыдущей леммы имеем v= max min max H(x„ y)=min max H(Xj, y)= •4.*л+1 У У 1<КлЧ-1 л 4-1 =min max H(xh У)Ъ, (5.12) у р i-1 где х15 ..., хл+1 — векторы, на которых достигается внешний мак- симум в (5.8), р=(п1г .., яя+1)еЯя+1, я^О, £ я,= 1. (5.13) i-1 Рассмотрим функцию К(р, у)— £ H(xh y)jth ye Y,peP, i-1 где P — состоит из векторов, удовлетворяющих (5.13). Функция К(р, у) непрерывна по р и у, выпукла по у и вогнута по р, а множест- ва У с Л", Р с J?"+ — компакты в соответствующих евклидовых пространствах. Поэтому по теореме п. 5.3 и из (5.12) имеем л+1 Л+1 ’ ®=min max £ Я(хг, уХ=тах min £ Н (xf, у)л,. (5.14) У Р Р У i-l Из (5.8) и (5.14) следует существование таких р* еР и у* е У, что для всех хеХ и уе У выполняется неравенство л+1 Я(х, /)<»< £ Я(х„ у)п*. i-1 Теорема доказана. Сформулируем теорему о структуре оптимальной стратегии иг- рока 2 в вогнутой игре Г= (Х, У, Н). Теорема. В вогнутой игре Г=(У, У, Н), Ус 7?'" игрок 2 имеет оптимальную смешанную стратегию v* с конечным спектром, со- стоящим не более чем из (т+1)-й точки множества У. Доказательство теоремы аналогично доказательству предыду- щей теоремы. 5.5. Суммируем результаты теорем для выпуклых игр, доказан- ные в этом параграфе. 89
Теорема. Пусть Г=(Х У, Н), X а Л", У а. 2?" — выпуклая игра. Тогда значение v игры Г определяется по формуле min тахЯ(х, у). У * Игрок 1 обладает оптимальной смешанной стратегией р0 с конеч- ным спектром, состоящим не более чем из (п+ 1)-й точки множест- вах. В то же время все чистые стратегии yQ, на которых достига- ется min max Н(х, у), являются оптимальными для игрока 2. Если, кроме Утого, функция Н(х, у) при каждом фиксированном хеХ строго выпукла по у, то оптимальная стратегия игрока 2 единст- венна. Проиллюстрируем эти результаты на примере. Пример 11. Рассмотрим частный случай примера 1 (см. п. 1.2). Пусть Sl=S2 = S и множество S представляет собой замкнутый круг на плоскости с центром в точке О и радиусом R. Функция выигрыша Н(х, у)=р(х, у), xeS, yeS, где р() — функ- ция расстояния в R2, является строго выпуклой по у при любом фиксированном х, a $ — выпуклое множество. Поэтому согласно теореме п. 5.5 значение игры v равно v=min maxp(x, у). (5.15) yeS хе S' Вычисляя min max в (5.15), получаем, что v=R (см. пример 8 п. 2.6). При этом точка у0 е S, на которой достигается минимум выражения тахр(х, у), единственная и совпадает с центром круга 5 (т. е. точкой О). Эта точка и является оптимальной стратегией игрока 2 (минимизирующего). Теорема утверждает, что у игрока 1 (мак- симизирующего) существует оптимальная смешанная стратегия, предписывающая положительную вероятность не более чем трем точкам множества S. Однако вследствие симметрии множества S в действительности оптимальная смешанная стратегия д0 игрока 1 предписывает с вероятностью х/2 выбирать любые две диамет- рально противоположные точки на границе множества S. Для до- казательства оптимальности стратегий д0, у0 достаточно устано- вить, что К(х, Уо)^К(ро, у0)^К(р0, у) для всех х, yeS, где К — математическое ожидание выигрыша, К(р0, yJ)=R[2+RI2=R. Действительно, К(х, у^=р(Д, x)^R и К(р0, у)=р(х15 у)/2+р(х2, y)/2^R, где хх и х2 — произвольные диаметрально противополож- ные точки на границе круга S. Оптимальность стратегий д0 и у0 доказана. 5.6. Рассмотрим частный случай выпуклой игры Г=(Х, Y, Н), 90
когда X=Y=[Q, I], т. e. выпуклую игру на единичном квадрате. Из теоремы п. 5.5 следует, что игрок 2 всегда имеет оптимальную чистую стратегию у0 g[0, 1], а игрок 1 — смешанную, сосредоточен- ную не более чем на двух точках, при этом значение игры равно v= min max Н(х, у). (5.16) je[0, 1] хе[0, 1] Множество всех существенных стратегий {х} с [0, 1] игрока 1 явля- ется подмножеством решений уравнений (п. 4.2) H(x,y0)=v, хе[0, 1], (5.17) где у0 — оптимальная стратегия игрока 2. Чистые стратегии х игро- ка 1, удовлетворяющие равенству (5.17), иногда называются урав- новешивающими. Множество всех уравновешивающих стратегий иг- рока 1 замкнуто и ограничено, т. е. компактно. Оптимальной чистой стратегией игрока 2 является любая точка уо=[0, 1]> на которой достигается (5.16). Обозначим через Н'у (х, у) частную производную функции Н по у (при у=0 и у=1 понимается соответственно правая и левая производные). Лемма. Если у0 — оптимальная стратегия игрока 2 в выпуклой игре на единичном квадрате с функцией выигрыша Н, дифференциру- емой по у и уо>0- то найдется уравновешивающая стратегия х! игрока 1, для которой Я;(х',уо)<0. (5.18) Если же у0<1,то существует такая уравновешивающая стратегия х* игрока 1, что Я;(х",уо)>0. (5.19) Доказательство. Докажем (5.18). (Вторая часть леммы до- казывается аналогично.) Предположим противное, а именно: для Каждой уравновешивающей стратегии х игрока 1 выполняется нера- венство Н'у(х, у^)>$, т. е. функция Н(х, •) в точке строго возрастает. Это означает, что найдутся такие е^х)>0 и 0(х)>О, что для у е [0, 1], удовлетворяющих неравенству 0(х)>уо—у>0, выпол- няется неравенство Я(х, у)<Н(х, у0)-е(х). - В силу непрерывности функции Я имеем, что для .каждой урав- новешивающей стратегии х и е (х)/2 найдется такое 3 (х) > 0, что при 9(х)>у0—у>0 выполняется неравенство Я(х, у)<Н(х, у)—е(х)/2<Н(х, у0)-е(х)/2= V =Я(х, у0)-е(х)/2 Для всех, уравновешивающих стратегий х, для которых |х—х| < 3 (х). I
Множество уравновешивающих стратегий компактно, поэтому его можно покрыть конечным числом таких S (х)-окрестностей. Пусть е — наименьшее из всех соответствующих чисел е (х). Тогда имеем неравенство, справедливое для всех уравновешивающих стратегий х (в том числе и для всех существенных стратегий) Н(х, у)^Н(х, Уо)-в/2, где jo-min0(x)<^<^o. Пусть д0 — оптимальная смешанная стратегия игрока 1. После- днее неравенство справедливо для всех точек спектра стратегии д0, поэтому, интегрируя, получаем К(ц0, у)^К(ц0, y0)-£/2=v-e/2, что противоречит оптимальности стратегии д0. Теорема. Пусть Г — выпуклая игра на единичном квадрате с функцией выигрыша Н, дифференцируемой по у при любом х, Уо — чистая оптимальная стратегия игрока 2,av — значение игры. Тогда: 1) если у0=\,то среди оптимальных стратегий игрока 1 имеет- ся чистая стратегия х?, для которой выполняется (5.18); 2) если уо=0, то среди оптимальных стратегий игрока 1 имеет- ся чистая стратегия х”, для которой выполняется (5.19); 3) если 0 <у0 < 1, то среди оптимальных стратегий игрока 1 най- дется такая, которая является смесью двух существенных страте- гий их?, удовлетворяющих (5.18), (5.19), с вероятностями а и 1—а, ае[0, 1]. При этом а является решением уравнения аН;(У, у0)+О-а)Я;(х", jo)=0. (5.20) Доказательство. Пусть у0= 1. Тогда найдется уравновешива- ющая стратегия х' игрока 1, для которой выполняется (5.18). Тогда из выпуклости функции Н{х!, у) следует, что она не возрастает по у на всем промежутке [0, 1], достигая при j=l своего минимума. Это означает, что Я(х',у0)<Я(х',?) (5.21) при всех ^е[0, 1]. С другой стороны, из (5.17) следует, что Я(х, у0)<Я(х', у0) (5.22) при всех хе[0, 1]. Неравенства (5.21), (5.22) показывают, что (х\ 7 о)— ситуация равновесия. Случай уо=0 исследуется аналогично. Перейдем к случаю 3. Если 0<jo< 1, то имеются две уравновешивающие стратегии х' и х", удовлетворяющие (5.18), (5.19) соответственно. Рассмотрим функцию ф(/0=^я;(х', у0)+(1-д)я;(х", Из (5.18), (5.19) следует, что ф(0)>0, (р(1)<0. Функция <?(/?) непре- рывна, поэтому найдется ае[0, 1], для которого ф(а)=0. 92
Рассмотрим смешанную стратегию д0 игрока 1, заключающую- ся в выборе стратегии х' с вероятностью а и стратегии х" с вероят- ностью 1—а. Функция К(ц0, у)=аЯ(х/, у)+(1 -а)Я(х", у) выпукла по у. Ее производная по у в точке у=у0 равна К'у(р.о, Уо)=аН’у(х', у0)+(1 -а)Я;(х", Jo)=°- Следовательно, в точке у0 функция K(ji0, у) достигает минимума. Отсюда, учитывая (5.17), имеем К(ц0, уо)<£(До> У), К(ц0, у)=Н(х, у0)=»=тахЯ(х, у0)>Я(х, у0) X при всех хе[0, 1] и уе[0, 1], что и доказывает оптимальность стратегий д0 и у0. 5. 7. Теорема п. 5.6 дает способ отыскания оптимальных страте- гий, который мы проиллюстрируем на примере. Пример 12. Рассмотрим игру на единичном квадрате с функцией выигрыша Я(х, у)=(х—у)2. Это есть одномерный аналог примера 11, только в качестве функции выигрыша здесь взят квадрат рассто- яния. Поэтому естественно ожидать, что значение v игры будет равно ®= 1/4, оптимальной стратегией игрока 2 является середина отрезка у0= 1/2, а оптимальной стратегией игрока 1 — выбор с ве- роятностью 1/2 крайних точек 0 и 1 отрезка [0, 1]. Покажем это, используя теорему п. 5.6. Заметим, что д2Н(х, у)/ду2=2>0, так что игра Г — строго Выпуклая, поэтому игрок 2 имеет единственную оптимальную стра- тегию, которая является чистой (теорема п. 5.5). Пусть у — фик- сированная стратегия игрока 2. Тогда Таким образом, из (5.16) v=min< min (1—у)2, min у2 Оба внутренних минимума достигаются на у0= 1/2 и принимают значение 1/4. Поэтому ®= 1/4, а у0 —1/2 — единственная оптималь- ная стратегия игрока 2. Найдем оптимальную стратегию игрока 1. Для этого заметим, что 0<уо<1 (у«=1/2). Найдем существенные стратегии игрока 1. Уравнение (5.17) в данном случае принимает вид (х—1/2)2=1/4. Откуда хх=0 и х2=1, т. е. существенными для игрока 1 являются крайние точки отрезка [0, 1]. 93
Вычислим производные Ну (хр jo) = 1 > 0, Н'у (х2, у2) = -1 < 0. Составим уравнение (5.20) относительно а. Имеем 2а — 1 =0, откуда а =1/2. Таким образом, оптимальная стратегия игрока 1 состоит в выборе им чистых стратегии 0 и 1 с вероятностью 1/2. 5. 8. В заключение параграфа приведем результат, аналогичный п. 5.6 для вогнутой игры. Теорема. Пусть Г — вогнутая игра на единичном квадрате с функцией выигрыша Н, дифференцируемой по х при любом фик- сированном у, х0 — чистая оптимальная стратегия игрока 1, a v — значение игры. Тогда: 1) если х0= 1, то среди оптимальных стратегий игрока 2 имеет- ся чистая стратегия у', для которой выполняется неравенство Н*(х0, У)^0; (5.23) 2) если хо=0,то среди оптимальных стратегий игрока 2 имеет- ся чистая стратегия у", для которой Н’(х0,У№; (5.24) 3) если 0<хо<1, то среди оптимальных стратегий игрока 2 най- дется такая, которая является смесью двух существенных страте- гий у и у", удовлетворяющих (5.23), (5.24), с вероятностями р и 1—р. При этом число /?е[0, 1] является решением уравнения рН’(х0, /)+(1 ~Р)Н'х(х0, /)-0. § 6. ОДНОВРЕМЕННЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ В этом параграфе приведено решение некоторых одновременных игр преследования, у которых функция выигрыша или множества стратегий игроков невыпуклые. К таким играм не применимы ре- зультаты § 5, поэтому решение для обоих игроков находится в клас- се смешанных стратегий. Существование решения в этом классе гарантируется теоремой п. 4.4. 6.1. Пример 13. (Одновременная игра преследования в кольце.) Эта игра является частным случаем примера 1 п. 1.2, когда множества Sj =S2=S и S' представляют собой кольцо. Радиусы внешней и вну- тренней окружностей кольца S' обозначим соответственно R и г, R>r. Покажем, что оптимальными стратегиями игроков 1 и 2 являют- ся выборы точек с равномерным распределением на внутренней (для игрока 2) и внешней (для игрока 1) окружностях кольца S'. Обозначим эти стратегии д* (для игрока 1) и v* (для игрока 2). При указанных стратегиях среднее значение выигрыша (рас- стояния) равно 94
у/R2+ r2—2Rrcos£,d£=Ф(r, R), (6.1) + p2—2prcos£d£. 2n 2n K(p*, v*)=-~2 J J y/R2+r2—2Rr cos (sp — ф) dq> dt// о о 2n __ 1 ~2it o где ф и ф — полярные углы чистых стратегий игроков 1 и 2 соответ- ственно. Если игрок 1 выбирает точку х с полярными координатами р, ф9 то ожидаемое расстояние (игрок 2 придерживается стратегии v*) равно 2п К(х, у*)=Ф(г, р)=^- 2я О При r^p^R функция р(р)=р2+г2—2prcos£ монотонно воз- растает. В частности, ф(р)^ф(Л) при г<р^Л. Отсюда имеем Ф(г, р)^Ф(г, R). Поэтому для любой стратегии игрока 1 ожидаемое расстояние не больше Ф(г, R). Рассмотрим теперь ситуацию (д*, у), в которой yeS, р и <р — полярные координаты точки у. Имеем 2я К(р*, у)=Ф(р, R)=~ j^/R2 + p2-2Rpcos^dC, r^p^Rt о Зафиксируем R и рассмотрим функцию Ф(р, 7?) на отрезке O^p^R. Дифференцируя по р, можно убедиться, что ЗФ(0, А) „ 52Ф(р, А) „ „ =0, —-~—>0, O^p^R. др др2 Поэтому функция Ф (р, R) монотонно возрастает по р, следователь- но, Ф(г, Л)<Ф(р, Л) К(х, v*)^K(p*, у) для всех х, yeS. Таким образом, оптимальность стратегий д* и v* доказана, а значение игры ® равно v*), где К(р*, v*) определяется (6.1). В частности, если S—окружность радиуса Л (случай г=Л), то значение игры равно 4R\n. 6.2. Пример 14. Рассмотрим одновременную игру, когда игрок 2 выбирает пару точек у={ух, у2}, где yY eS, у2 eS, а игрок 1, не зная выбора игрока 2,— точку xgS. Выигрыш игрока 1 полагаем рав- ным min р2 (х, у,). Приведем решение для случая, когда множество <-1, 2 95
S представляет собой круг радиуса Л с центром в начале координат (точке О)-. S=S(O, Л). Рассмотрим функцию Ф(г, р)=г2 + р2—4гр/п, где г и р принима- ют значения из промежутка г, ре [О, Л]. Установим свойства функ- ции Ф (г, р). Лемма 1. Функция Ф(г, R) (как функция переменного г) являет- ся строго выпуклой и достигает абсолютного минимума в единст- венной точке r0=2R)it. Доказательство. Имеем 52Ф/5г2=2>0. Следовательно, функ- ция Ф(г, р), ге[0, Л] строго выпукла, а производная а®(г, я) 4Я =2г (6.2) дг---------я строго монотонна. Очевидно, что функция (6.2) в единственной точке r0=2R/n обращается в нуль. В силу строгой выпуклости Ф(г, R) точка г0 является единственной точкой абсолютного минимума. Лемма доказана. Лемма 2. Функция Ф(г0, р) строго выпукла по р и достигает абсолютного максимума в точке p0=R. Доказательство. В силу симметрии функция Ф(г, р) строго выпукла по р. Поэтому максимум этой функции достигается в од- ной из точек 0 или R. Имеем Ф(г0, Я)-Ф(г0, О)=г§+А2-4гоЛ/я-г§ = =Я2 —4/я (2R/it)R=R2 (ге2- 8)/я2>0. Лемма доказана. Из лемм 1, 2 вытекает, что пара (r0, R) является седловой точкой функции Ф: Ф(г0. р)<ф(го» Я)<Ф(г, R). Теорема. Оптимальными смешанными стратегиями являются: для игрока 2 — выбор точки у с равномерным распределением на окружности S (0, г0) с центром в точке О и радиусом r0 (yt = — у2), для игрока 1 — выбор точки х с равномерным распределением на окружности 5(0, R). Значение игры равно величине Ф(г0, R). Доказательство. Указанные в теореме стратегии обозначим через р* и v* для игроков 1 и 2 соответственно. Пусть игрок 1 придерживается стратегии д*, а игрок 2 — произвольной чистой стратегии у={уь у2}, ^=(псо8фг, г, sin ср,), i=l, 2. Рассмотрим сна- чала случай, когда у^уг. Обозначим через г число г1 + г2, а через <р — угол (р1=<р2- Выигрыш игрока 1 равен К(р*, у)=— j [Я2 + г2—2Rr cos ty — <py\d&= 2я J о 96
= Л2+г2>Л2 + г2--(Лг)=Ф(г, Л). (6.3) п Тогда по лемме 1 имеем у)>Ф(г0, Л). В дальнейшем будем предполагать, что у2 J=y2- Введем на плос- кости полярную систему координат следующим образом. За начало координат возьмем точку О, за полярную ось — луч, выходящий из точки О перпендикулярно хорде АВ (множеству равноудаленных от и у2 точек круга S (О, В)). Для простоты записи предположим, что и относительно новой системы координат точка имеет те же координаты (r.cosipi, r.sincp,)- Тогда (рис. 6) выигрыш первого игро- ка равен 2я у)—~~ I min [J?2 + r2—2J4r,cos(^ —(jo()]d^ = 2я J >-1, 2 о д =— [Л2 + г2 —2Ar2cos(i/< — <p2)](ty + 2п J -Л 2я—Д +— Г [R2+rl—2Rr2 cos — 2я J P Пусть Л (ф)=[(Л2 + r2)P—2Лг2 sin 0 cos ф]/ге> ~ 0 < Ф < f2 (<p)=[(A2 + r2)(re—/?) + sin /J cos <р]/я, J? < <p < 2n—p. Стационарными точками функций и F2 являются 0 и я соответст- 2 венно, так как имеем 0</}<п/2 и функция F[((p)=-Rr2sinPsm(p9 4 Теория игр 97
F2 (ф) = — Rri sin P si® Ф> причем 0 и n — точки абсолютного мини- п мума функций F2 и F2 (F[ (ф) < 0 при <р е (—0, 0), 7*1 (<р) > 0 при <р е (0, (J); аналогично, F2((p)<0 при (pefij, я), F2(<p)>0 при <ре(я, 2я—/?)). Следовательно, К(р.\ y)=F1(q>2)+F2((p1)>F1(0)+F2(n) = р —— Г (R2+r2—2Rr2cos\l/}cty+ 2я J -д 2я-Д +— j (7?24-г2 — 2Rr1cos(^r — n))d^, (6.4) 2л J Д т. е. игрок 1 при использовании игроком 2 стратегии У1=(—0) у2 = {г2, 0} получит меньший выигрыш, чем при использовании стратегии j/,=(r,cos <pi, r,sing>,), i=l, 2. Пусть теперь точки ух_и у2 лежат на диаметре круга 5(0, Л) и расстояние между ними 2г. Обозначим через 2а центральный угол, опирающийся на дугу, стягиваемую хордой ЛВ (рис. 7). Пред- положим, что ух = (Лсо8а—г, 0), j2 = (^cosa+^ 0)- Тогда выигрыш первого игрока равен a ф(а,г)=— Г [(7?cosi/r—J? cos а—г)2 4-Л2 sin2 ф](1ф+ 2я J —а 2я—а +— I [(.Rcos^—Rcosa+r)2+R2sin2= 2n j a a =— I [Л2—2Rcosil/(Rcosa+r)+(Rcosa+r)2]di]/+ 2л J —a 2ir—a +— [R2—2Rcosil/(Rcosa—r)+(Rcosa—r)2]dil/= J a =- {[J?2 + (JJcosa+F)2]a—27Jsina(/?cosa+r)+ , n 4- [Л2 4- (R cos a—r)2] (n—a)+2R sin a x (R cos a—r)}. 98
Покажем, что функция <Д(а, г) при фиксированном г достигает минимума по а. при а=л/2. В результате элементарных вычислений получим 3|/г/5а={2Ляпа[(я—2а)г—яЛсова]}/я, поэтому для доста- точно малых значений а имеем d^(a, г)/оа<0, так как sin а> О, г(л—2а)—лЛсовасО (в предельном случае гп—яЛ<0). Вместе с тем дф (п/2, г)/5а=0. При каждом фиксированном г функция дф(а, г)/да не имеет нулей по а, кроме а=п/2. Предположим противное. Пусть ах — нуль этой функции в интервале (О, п/2). Тогда при a=at обратится в нуль и функция G(a) = (n—2a)r—re/Jcosa. Таким образом, G(a,)=G(jr/2)=0. Очевидно, что G(a)>0 для всех ае(ап п/2). Это противоречит выпуклости функции G(a) (G" (a) = nR cos a>0). Поэтому дф(а, r\/da<Q при ae(0, п/2) и дф(п/2, г)/да=0. Следовательно, функция у(а> г) достигает абсолютного минимума по а при а=я/2: ф(а, г)>^г(ге/2, г). Значит, и в этом случае имеем У)=Ф(<^ г)>ф(п/2, г)=Ф(г, Л)>Ф(г0, Л). (6.5) Из соотношений (6.3) — (6.5) вытекает, что для любой чистой стратегии у={уц у2} справедливо неравенство К(р*, у)~^Ф(г0, R). (6.6) Пусть игрок 2 применяет стратегию v*, а игрок 1 — произвольную чистую стратегию x=(pcosi/f, psini//). Тогда игрок 1 получает выигрыш 2« К(х, v*)=— | min[p2+ro—2pr0cos(^ — <р), 2n J o 2it p2 + ro + 2pr0cos(^ — <p)}dq>=~ min(p2+ro — 2л J 0 —2pr0cos£, p2+r§+2pr0cosC)rfC=®(»'o. P) и в силу леммы 2 имеем К(х, v*)=®(r0, р)<Ф(г0, Л). (6.7) Из неравенств (6.6) и (6.7) получаем, что д* и v* являются оптималь- ными стратегиями игроков, а Ф(г0, Л) — значение игры. Теорема доказана. 6.3. Пример 15. Пусть игрок 2 выбирает набор из т точек у={у15 ..., Ут}, где yteS, i= 1,..., т, а игрок 1 одновременно с ним — точку xeS. Выигрыш игрока 1 полагаем равным min р(х, у/). Решим f—1, т 4* 99
игру в случае, когда множество 5 совпадает с отрезком [—1, 1]. Теорема. Оптимальная смешанная стратегия v* игрока 2 за- ключается в равновероятном выборе двух наборов из т точек: —1 + -—-, i=0, 1, т— 1 >, < 1------—, 1=0, 1, т— 1 2zn—1 | 2/и—1 Оптимальная стратегия р* игрока 1 состоит в выборе точек 2/и—21—1 2т—1 , i=0, 1, ..., 2т— 1 с вероятностями 1/(2т). Значение игры равно 1/(2т — 1). Доказательство. Пусть д* и v* — смешанные стратегии иг- роков 1 и 2 соответственно, оптимальность которых нужно до- казать. Введем следующие обозначения: 2т—2/—1 2т—21+1 2лп—1 ’ 2/n-l f=l, 2, ..., 2m-1. Покажем вначале, что К(х9 v*)<l/(2m—1) для всех хе[—1, 1]. Действительно, при хе/, имеем 1 . 2m—41—1 AYx, v*)=- mm--------- 2 i 2m—\ 1 +- mm —2m+41+1 2m—1 x 2m—2/+1 2m-1 1 2m—1‘ (6-8) Пусть теперь игрок 1 выбирает смешанную стратегию р*, а иг- рок 2 — произвольную чистую стратегию y={ylt уж}. Обозначим 2m-2j-l . х,=-------, j=0, 1, 2т— 1. 1 2m—1 Тогда 2т—1 । K(n*,y)=Y. min P(xj,y^— = >0 M min p(xy_t, y,)+ min p(xy_2, yj) 2 _ 1 2m-l~2m-l (6.9) Из неравенств (6.8), (6.9) вытекает утверждение теоремы. 100
§ 7. ОДИН КЛАСС ИГР С РАЗРЫВНОЙ ФУНКЦИЕЙ ВЫИГРЫША Для игр, у которых функции выигрыша разрывны, нельзя гаран- тировать существование значения игры в смешанных стратегиях (см. пример п. 4.12). Однако часто именно разрывность функции выигрыша позволяет найти оптимальные стратегии и значение иг- ры. Нахождению решения помогают также эмпирические предполо- жения о виде оптимальных стратегии игроков. 7.1. В данном параграфе будут исследованы игры с выбором момента времени или игры типа дуэли (см. примеры 4.5 п. 1.2). Основной особенностью этого класса игр на квадрате является разрывность функции выигрыша Н(х, у) вдоль диагонали х=у. Рассмотрим игру на единичном квадрате с функцией выигрыша {ф(х, у), если х<у, <р(х), если х=у, 0(х, у), если х>у, где ф(х, у) — определена и непрерывна на множестве 0<х<у< 1, функция <р непрерывна на [0, 1], а 0(х, у) определена и непрерывна на множестве 0<у<х< 1. Предположим, что игра Г=(Х, Y, Н), где У=У=[0, 1], Н—задана (7.1), имеет оптимальные смешанные стратегии д*, v* игроков 1 и 2 соответственно. Более того, пред- положим, что оптимальные смешанные стратегии д*. v* являются распределениями вероятностей, которые имеют непрерывные плот- ности У* (х) и g* (х) соответственно. Далее в этом параграфе будем обозначать искомую стратегию У (соответственно g), понимая под этим плотность распределения. Выясним свойства оптимальных стратегий. Пусть/ — стратегия игрока 1. Для уе[0, 1] имеем K(f, y)=f ф (X, y)f(x)dx+}e(x, y)f(x)dx. (7.2) О у Предположим, что f и g — оптимальные стратегии игроков 1 и 2. Тогда для любой точки у0, в которой ЛГОо)>0 (7.3) (точки спектра стратегии g), выполняется W,y0)=v, (7.4) где v — значение игры. Но равенство (7.3) строгое, поэтому суще- ствует <5>0 такое, что для всех у: |у—у0|<5, неравенство (7.3) сохраняется. Таким образом, для этих у сохраняется и неравенство (7.4), т. е. выполняется равенство K(f, у)=ю. Это означает, что dK(f, у)/ду=0. (7.5) 101
Уравнение (7.5) перепишем в виде [0 О, У)~Ф(У, УЖО)=1 Фу(х’ y)f(x)dx+ О +f 0>(*. y)f(x)dx,yeS(у0, S). (7.6) У Следовательно, получено интегральное уравнение (7.6) относите- льно искомой стратегии f 7.2. Пример 16. Рассмотрим бесшумную дуэль, сформулирован- ную в примере 5 п. 1.2. Функция выигрыша Н(х, у) в игре имеет вид (7.1), где ф(х,у)=х-у+ху; (7.7) . 0(х,у)=х-у-ху, (7.8) Ф(х)=0. (7.9) Заметим, что данная игра является симметричной, поскольку Н (х, у)= —Н(у, х) (кососимметричная функция выигрыша). Поэто- му анализ, аналогичный проведенному в п. 9.2 гл. 1, показывает, что значение v игры, если оно существует, равно нулю, а оптимальные стратегии игроков (если они также существуют) должны быть оди- наковыми. Имеем: (х, у) = — 1 + х; 0У (х, у) = — 1 — х; 0 (у, у)—ф (у, у) = — 2у2 и интегральное уравнение (7.6) принимает вид -2//(y)=f (x-iy(xMx-f (х+1У(х)Л. (7.10) о у Будем искать стратегию f в классе дифференцируемых плотностей распределения, принимающих положительные значения в интервале (а, fl) с [0, 1] (интервал (a, fl)— спектр стратегии J). Тогда (7.10) можно записать следующим образом: У f -2y2f(y)=j (x-l/(x)^-f (x+l)/(x)rfx. (7.11) a у Дифференцируя обе части (7.11) по у, получим дифференциальное уравнение вида -4у/-2у2/'=(у-1)/+(у+1)/ или yf’=-3f(y*0). (7.12) Интегрируя уравнение (7.12), имеем ЛУ) = 7У~3, (7.13) где у — некоторая константа. 102
Теперь осталось найти а, Р и у. Напомним, что оптимальные стратегии игроков в рассматриваемой игре одинаковы. Из нашего предположения о спектре стратегии f следует, что K(f,y)=0 (7.14) для всех уе(а, fl). Пусть р< 1. Поскольку функция K(f, у) непрерывна по у, из (7.14) имеем K(f, fl)=0. Следовательно, д f (x-P+px)f(x)dx=O. (7.15) а Однако в случае р< 1 из (7.15) следует д K(f, l)=f (x—l+x)f(x)dx<0, а что противоречит оптимальности стратегии f Таким образом, Р=1 и K(f, 1)=0. Тогда, подставляя (7.13) в (7.15) при р=1, получаем 1 Г 2х— 1 , у I —— dx=0, у^О. J *3 а Откуда вытекает За2—4а+1=0. (7.16) Решая уравнение (7.16), найдем два корня а= 1 и а= 1/3, первый из которых посторонний- Следовательно, а= 1/3. Коэффициент у нахо- дится из условия нормировки f(y) f f(y)dy=y f y~3dy=l, 1/3 1/3 откуда y=l/4. Таким образом, получено решение игры примера 5 п. 1.2: значе- ние игры равно v=0, оптимальные стратегии /и g обоих игроков (как плотности распределения) равны между собой и имеют вид (О, если х<1/3, ДХ |1/(4х3), если х>1/3. 7.3. Пример 17. Найдем решение игры «шумная дуэль» (см. пример 4 п. 1.2) для функций меткостир. (х)=х ир2(у)=У- Функция выигрыша Н(х, у) в игре имеет вид (7.1), где ф(х,у)=2х—\; (1ЛТ) в(х, у)=1—2у; (7.18) Ф(х) = 0. (7.19) 103
Игра является симметричной, поэтому v=0, а оптимальные стратегии игроков совпадают. Здесь оба игрока имеют чистую оптимальную стратегию х*=у* = 1/2. Действительно, Я (1/2, у)=в(1/2, у)=1—2у>0, если у< 1/2, Я (1/2, у)=<р (1/2)=0, если у=1/2, Я(1/2, у)=^(1/2, у)=0, если у>1/2. С точки зрения интерпретации игры решение предписывает дуэлян- там стрелять одновременно, когда каждый пройдет половину диста- нции до барьера. В заключение следует отметить, что класс игр с выбором момен- та времени хорошо изучен (см. [6, 3, 23]). § 8. РЕШЕНИЕ БЕСКОНЕЧНЫХ ОДНОВРЕМЕННЫХ ИГР ПОИСКА В этом параграфе будет приведено решение игр поиска с бес- конечным числом стратегий, сформулированных в п. 1.2. Первая из рассматриваемых игр интересна тем, что в ней оба игрока имеют оптимальные смешанные стратегии с конечным спектром. 8.1. Пример 18. (Поиск на отрезке). Рассмотрим задачу поиска на отрезке (см. пример 2 п. 1.1), которая моделируется игрой на единичном квадрате с функцией выигрыша Н(х, у) вида Ze(O, 1), (О в противном случае. Заметим, что при /> 1/2 у игрока 1 имеется чистая оптимальная стратегия х* = 1/2 и значение игры равно единице, поскольку в этом случае Н(х*, у)=Н(1/2, у)—1, так как [у— 1 /2|1/2</для всех у е[0, 1]. Предположим, что /< 1/2. Заметим, что стратегия х—1 доминиру- ет все чистые стратегии х<1, а стратегия х= 1 — I — все стратегии х> 1 — I. Действительно, Н(х,у)=Н(1,у)=\\ ПрИ J'e[0, 2fl’ (О в противном случае, и если х<1, то »(^)=Ипри убР-,+х]- (О в противном случае. Таким образом, при х<1: Н(х9 у)^Н(1, у) для всех у е[0, 1]. Анало- гично имеем (О в противном случае, 104
и если xg[1 — I, 1], то ПРН^[Х-'’ 11 (О в противном случае. Таким образом, при хе[1—/, 1] Н(х, у)^Н(1 — I, у) для всехуе[0, 1]. Рассмотрим следующую смешанную стратегию д* игрока 1. Пусть 1—х1<х2<...<хт=1—1— точки, для которых расстояние между любой парой соседних точек не превосходит 21. Стратегия д* выбирает каждую из этих точек с равными вероятностями 1/т. Очевидно, что при этом любая точка уе[0, 1] попадает в /-окре- стность хотя бы одной точки хк. Следовательно, £(д*,у)>1/т. (8.2) Пусть теперь v* — стратегия игрока 2, которая состоит в равнове- роятном выборе точек 0=у1<у2<...<уп=1, причем расстояние между парой соседних точек больше 21. Тогда, очевидно, существует не более одной точки в /-окрестности которой содержится точка х. Следовательно, К(х, v*)^l/n. (8.3) Если бы удалось построить стратегии д*, v* так, чтобы т=п, то величина 1/и была бы значением игры, а стратегии д*, v* — оп- тимальными стратегиями игроков. Оказывается, такие стратегии действительно можно построить. Для этого достаточно взять (1/(2/), если 1/(2/) — целое, т=-п—\г. . (о.4) ([1/(2J)] +1 в противном случае. Здесь [а] — целая часть числа а. Точки х,=/+— (/-1), /= 1, 2, ..., п, (8.5) Л—1 отстоят друг от друга не более чем на 21, а расстояние между соседними точками У1=—у, (8-6) п—1 строго больше 21. Таким образом, 1/п — значение игры, а опти- мальные стратегии д*, v* являются равновероятными смесями чис- тых стратегий, определяемых формулами (8.5), (8.6). 8.2. Пример 19. Рассмотрим обобщение предыдущей задачи в том случае, когда игрок 1 (ищущий) выбирает систему из 5 точек х15 .., х„ х,е[0, 1], /=1, ..., s, а игрок 2 (прячущийся) выбирает 105
независимо и одновременно с игроком 1 точку jefO, 1]. Игрок 2 считается обнаруженным, если находится такое $}, что |у—xy|<Z, Z>0. В соответствии с этим функция выигрыша (выигрыш игрока 7) определяется следующим образом: {1, если min |у—xj<Z, 7 (8.7) О в противном случае. Предположим, что игрок 1 располагает точки xit ..., х, в точках x(=Z+(l—27)(7—1)/(л—1), являющихся точками спектра стратегии д* из предыдущего примера. Очевидно, что располагать две точки хЛ, хА в одной точке отрезка [0, 1] (т. е. выбирать совпадающие точки) невыгодно. Пусть ц, — стратегия игрока 1, выбирающая равновероятно любые .s-наборы не равных друг другу точек {х,}. Если 5>п, то, расположив в каждой из точек х, по точке Xj, игрок 1 полностью покроет отрезок [0, 1] интервалами длины 21 с центрами в точках х{ и тем самым обеспечит, что для любой точки je[0,1] будет иметь место min |х7—j| ^Z, т. е. в этом случае значение игры равно единице. Поэтому будем считать, что s<n. Число всевозможных различных выборов ^-наборов точек из множества {х,} равно C*„. Имеем у)=ЪН(^,...» 2,; у) Действительно, точка у обнаруживается, если она попадает_ в /-окрестность хотя бы одной из выбранных стратегией д* точек {х,}. Для того чтобы это произошло, необходимо игроку 7 выбрать точку х( из /-окрестности точки у. Число наборов, удовлетворяющих этому требованию, не менее Q11]. Предположим теперь, что игрок 2 использует стратегию v* из предыдущего примера, а игрок 7 — произвольную чистую страте- гию x=(xlt .... х,). Тогда АГ(хх,.... х^ v*)= £ Я(хх, ..., xs-, yj) >i « « Таким образом, значение игры равно s/п и д*, v* — оптимальные стратегии игроков. Значение игры линейно зависит от количества выбираемых ищущим игроком точек. 106
8.3. Пример 20. (Поиск на сфере). Рассмотрим игру поиска на сфере (см. пример 3 п. 1.2). Функция выигрыша Н(х, у) имеет вид fl, если уеМх, (8.8) f0 в противном случае, 3 где х=(х19 ..., xs — набор s точек на сфере С и Ms= |J 5(х/ г); S(xj, г) — r- сферическая окрестность точки Xj. Множество смешанных стратегий игрока 1 пред- ставляет собой семейство вероятностных мер {М}> определенных на декартовом произведении s сфер Сх Сх... х C=Q, т. е. на Q=cf. Множество смешанных стратегий игрока 2 определим как семейство вероятност- ных мер {у}, определенных на сфере С. Рассмотрим конкретную пару стратегий (д*, v*). В качестве стратегии v* выберем равномерную меру на сфере С, т. е. потребуем, чтобы (8.9) где L(d) — лебегова мера (площадь) множества А. Будем предполагать, что параметры игры s, г и R таковы, что можно выбрать систему точек х=(х1; х2,..., хД удовлетворяющих условию Ь(МХ)« £ L(S(xj, г)), (8.10) (сферические сегменты S(xj, г) не пересекаются). Зафиксируем фигуру М5 на некоторой сфере С. Тогда смешанная стратегия д* порождается случайным бросанием этой фигуры Мх на сферу С. Для этого в фигуре Мх фиксируется некоторая внутренняя точка z, с которой жестко связываются два «коллинеарных вектора а, b (с углом <р>0 между ними), расположенных в касатель- ной плоскости к Мх в точке z. Точка z «бросается» на сферу С в соответствии с равномерным распределением, т. е. плотностью 1/(4лЯ2). Пусть в результате реализуется точка z'eC. Фигура Мх с фиксированными на ней векторами параллельно переносится на сферу С так, чтобы точки z и / совпали. Таким образом, векторы а, b будут лежать в касательной плоскости к сфере С в точке У. Затем на промежутке [0, 2л] выбирают в соответствии с равномерным рас- пределением угол <р', и вектор b в касательной плоскости поворачивают вместе со связанной с ним фигурой Мх на угол <р' по часовой стрелке. В результате фигура Мх и вектор b переходят в новое положение на сфере С. Случайное размещение множества Мх на сфере в соответствии с описанной двухэтапной процедурой и поро- ждает случайный выбор точек х\, х^, ..., х^, соответствующих смешанной стратегии д\ а именно: игрок 1 выбирает точки х^,..., VeC, в которых оказались центры хь ..., хх сферических окрестностей S(xj, г), составляющих множество Мх. Мера д*, построенная таким образом, оказывается инвариантной, т. е. вероят- ность покрытия множеством Мх любой точки у е С не зависит от у*. Действительно, 107
найдем вероятность этого события. Пусть П={со} — пространство всевозможных размещений Мх на сфере С. Тогда средняя площадь, покрываемая на сфере С при бросании на нее множества Мх (математическое ожидание площади), равна L (Мх), в то же время L(MX)= J f J (у, cdjdydp*, (8.11) Q С где J (у, ш) — характеристическая функция множества на сфере С, покрываемого областью Мх. По теореме Фубини имеем f J J(y, (o)dydfi***$ f J(y, <o)dp*dy. Q c c Q (8.12) Однако в силу инвариантности меры д* интеграл f J(y, (d)dp*, совпадающий с веро- ятностью покрытия точки у множеством Мх, от*у не зависит и равен р. Тогда из (8.11), (8.12) имеем (8.13) L(MX) Y.L(S(Xj,ry) -----------i=i----------. 4яй2 4лЛ2 Обозначим через К(р, v) математическое ожидание выигрыша при использовании игроками смешанных стратегий ре{р} и ve{v}. Если один из игроков использует чистую стратегию, то К(х, v)=f Я(х, y)dv= f </v=Pr(yeMx), С МХ К(р, у)= f Н(х, y)dp~ f J(x, уМд«Рг (уеМД Q Q и в этом случае математические ожидания соответственно имеют смысл вероят- ностей попадания случайной точки в фиксированную область и накрытия случайной областью фиксированной точки. Для всех у и х=(хь ..., в силу условий (8.9) и (8:13) имеем К(х, V*)- ъ(мх) Z г)) ------------------ 4яЛ2 4лА2 £ L(S(Xj, г)) 4яЛ2 так как L(S(xj, г))=2яЯ(Я—л//?2—г2). Из определения седловой точки и полученного неравенства К(р*, у)>ЛГ(х, v*) следует, что смешанные стратегии д* и v* являются оптимальными и ♦См., например: Сантала Л. А. Интегральная геометрия и геометрические вероятности. М., 1983. 108
— значение рассмотренной игры поиска. 8.4. Рассмотрим вариант предыдущей игры, полагая, что игрок 2 выбирает некоторое односвязное множество Ус С и целью игрока 1 является максимизация площади пересечения l(yC\m^-l(yC\ U ' 7-1 ' Цель игрока 2 противоположна. В остальном игра совпадает с игрой, рассмотренной в начале параграфа. Стратегия д* игрока 1 совпадает с таковой в предыдущей игре. Смешанная стратегия v* игрока 2 строится аналогично стратегии д* и заключается в случайном бросании множества У на сферу (в предыдущем случае игрок 2 случайно выбирал точки у е Q. Таким образом, v* строится как инвариантная мера, которая состоит из случайного (в соответствии с равномерным распределением на С) выбора одной из фиксированных точек множества У на С и далее поворота У вокруг этой точки на случайный угол (в соответствии с равномерным распределением на [0, 2л]). Пусть К(х, v), К(р> у) соответствуют математическим ожиданиям площади пересече- ния L(Y[}MX). Тогда L(Y)L(MX) у)~К(х, v*)----—т—. 2nR2 Бели У—r-окрестность точки у, то значение игры равно K(f, (A-V^-r2)- Упражнения и задачи 1. Игра нападения — защиты. Игрок 1 силами А единиц намерен атаковать один из объектов С19..., Q, ценность которых определяется числами >0, т2>0,..., тл>0, причем Чистой стратегией х игрока 1 является вектор х=({1??л), я £ £/®=Л, где — часть сил, выделенных для атаки объекта С/. Суммарные силы обороняющейся стороны (игрок 2) равны В. Чистой стратегией у игрока 2 является выбор набора неотрицательных чисел у=*(пи ...» Пл), удовлетворяющих условию В, где fjj — часть сил, предназначенных для защиты объекта Q Результат ^тккц на объект Q пропорционален разности £ / — Пь если силы атакующих превос- ходят силы защищающихся, а в остальных случаях он равен нулю. Построить функцию выигрыша. X Игра на единичном квадрате имеет функцию выигрыша Я(х,у)=ху-1/Зх-1/2у. Показать, что (1/2, 1/3) — ситуация равновесия в згой игре. 3. Показать, что игра на единичном квадрате с функцией выигрыша #(x,y)«sign(x-y) имеет седловую точку. 4. Показать, что игра на единичном квадрате типа дуэли с функцией выигрыша 109
{ — 1/х2, х>у, О, х—у, l/У*, х<у имеет ситуацию равновесия (0, 0). 5. Показать, что игра на единичном квадрате с функцией выигрыша Н(х, у)=(х—у)2 не имеет ситуации равновесия в чистых стратегиях. 6. Показать, что в игре на единичном квадрате с функцией выигрыша Г х+у, х*1, у*й, ) l/2+у, х=1, у 9*0, Н(х, у)= \ I 1/2+х, Х9*1, У=0, 2, х«1, у«0 пара (хв, ув), где хв=1 — е, ув=е, является ситуацией s-равновесия. Имеет ли эта игра значение? 7. Решить игру «поиска шумного объекта», сформулированную в примере 6 п. 1.2. 8. Вычислить выигрыш игрока 1 в игре на единичном квадрате с функцией выигрыша Н(х9 у) в ситуации (F(x), (7 (у)) (F и G — функции распределения), если: а) Я(х, у)-(х+у)/(4ху), G(y)=/; б) Н(х, j)=«|x-y| (1 -|х->|), F(x)=x, G(y)~y; в) Н(х, у)=(х-уУ, F(x) = 1/2/0(x)+1/2/1(x), где Z*(x) — ступенчатая функция. 9. Игра дискретного поиска. Рассматривается следующая бесконечная игра. Стра- тегия игрока 2 заключается в выборе точки, равномерно распределенной на окружно- сти радиуса у, где у может принимать значения из интервала [0, 1]. Игрок 1 может просмотреть в единичном круге односвязную область Q, площадь которой а(2)«а«const, где а<Л9 Л=я— площадь единичного круга. Его стратегия х за- ключается в выборе формы области 2» имеющей площадь а, которая целиком лежит в единичном круге. Выигрыш Я(х, у) игрока 1 равен вероятности обнаружения, т. е. Н(х9 у)»Рг(уе2). Под смешанной стратегией g(y) игрока 2 будем понимать функ- цию плотности, распределения случайной величины у е[0, 1]. Найти решение игры. 10. Доказать теорему Хелли п. 5.4. 11. Рассмотрим непрерывный аналог игры «обороны города» (п. 1.3 гл. 1). Игрок 1 должен направить силы х, хб[0, 1] в наступление на первую позицию и силы (1 — х) — в наступление на вторую позицию. Игрок 2 должен направить силы у, у е [0, 1] для обороны первой позиции и силы (1 —у) — для обороны второй, на которой уже расположены постоянные оборонительные силы размером 1/2. Один игрок платит другому единицу на каждой позиции, если его силы на этой позиции меньше сил противника, и ничего не платит, если их силы равны. Построить функцию выигрыша Я(х, у) игры на единичном квадрате. Показать, что данная игра не имеет решения в смешанных стратегиях. Указание. Воспользоваться результатом примера 10 п. 4.12. 12. Показать, что в непрерывной игре с функцией выигрыша ЯСх.уМЖх+у)2]-1 стратегии F*(x)=Zj/2(x), G*(y)eV2Z0(y) + l/2Z2(y)— оптимальны для игроков 1 и 2 соответственно. 110
13. Доказать, что значение симметричной непрерывной игры на единичном квадрате равно нулю, а оптимальные смешанные стратегии совпадают (игра симмет- ричная), если функция выигрыша кососимметрична, т. е. Я(х, у)——Н(у, х). 14. Определить оптимальные стратегии и значение игры на единичном квадрате с функцией выигрыша Н(х, у)=у3 — Зху+х3. 15. Показать, что в игре с функцией выигрыша Н(Х, y)=ty~* Хб[хо> х,]. уе[у0, jrJ, у>0, игрок 2 имеет оптимальную чистую стратегию. Выяснить вид этой стратегии в зави- симости от параметра у > 0. Что можно сказать об оптимальной стратегии игрока 1. 16. Проверить, что функция выигрыша из примера 11 п. 5.5 Н(х9 у)**р(х, у), хе5(0, /), yeS(Q, /), где 5(0, /) — круг с центром в 0 и радиусом /, р (•) —расстояние в R2, строго выпукла по у при любом фиксированном х. 17. Показать, что сумма двух выпуклых функций выпукла. 18. Доказать, что если выпуклая функция <р: [о, ограничена, то она непрерывна в любой точке хе (a, fl). Вместе с тем на концах а и р промежутка (a, fl) выпуклая функция ср полунепрерывна сверху, т. е. Нтп ф(х)^<р(а) (аналогично при x-+fl). 19. Пусть дана игра Г=(Х, У, Н), Т=У=[0, 1] с выпуклой ограниченной функцией выигрыша Н(х9 •): [0,1J-+P1. Показать, что игрок 2 в этой игре имеет либо оптимальную чистую стратегию, либо для каждого е>0 чистую е-оптимальную стратегию. Относительно игрока 1 справедлив результат теоремы п. 5.6. Указание. Использовать результат упр. 18 и рассмотреть вспомогательную игру Г0»(Х У, Яо), где л- Н(х, у), если уе(0, 1), HQ(xt у) < если или j=l. 20. Решить игру «нападение — защита», сформулированную в упр. 1. 21. Рассматривается одновременная игра преследования на плоскости (см. при- мер 1 п. 1.2), когда множества стратегий 5!=52 —S, где 5— некоторое замкнутое выпуклое ограниченное множество. а) Показать, что значение рассматриваемой игры равно R, где R — радиус минимального круга S(O9 R), содержащего 5, оптимальная стратегия игрока 2 явля- ется чистой и заключается в выборе центра О круга 5(0, R). б) Показать, что оптимальная стратегия игрока 1 является смешанной и являет- ся смесью либо двух диаметрально противоположных точек касания множества 5 с кругом S(O, R) (если такие точки хг и х2 существуют), либо таких трех точек касания х'р х^, х^, что точка О лежит внутри треугольника, вершинами которого являются данные точки. 22. Решить одновременную игру преследования на плоскости, рассмотренную в упр. 21, в предположении, что игрок 2 выбирает не одну точку у 6 5, а т точек у ..., утее5. Функция выигрыша игры имеет вид ff(x,y)=- Е Р2 т где р (•) — расстояние в R2. 23. Игрок 1 выбирает системы х из т точек промежутка [—1, 1], т. е. х=(£1э ... ..., &е[— 1, 1], f=l, ..., т. Одновременно и независимо от него игрок 2 выбирает 111
систему у из п точек того же промежутка [— 1, 1], т. е. у=(^151, 1],/= 1, 2, п. Функция выигрыша Н(х, у) имеет вид Н(х, у) = 1/2 I max min |&-ty|+max min |&-^| I. ' « j j i ' Найти решение игры. 24. Рассмотреть обобщение задачи п. 8.3, а именно игру поиска, в которой игрок 2 выбирает систему у из к точек у—(ух, ..., yjt) на сфере С, а игрок 1, как и прежде, систему х из з точек х=(хь ..., xs) на сфере С. Функция выигрыша имеет вид Н(х, y) = {3/|3/=|{yf}|:yieS(x> г); j=l, ..., з}, где 5 (xj, г) — сферический сегмент с вершиной в точке xj и радиусом основания г; (запись |{yj| означает количество точек множества {yj). Точка у, считается об- наруженной, если yiGS(xj, г) хотя бы для одного Xj. Таким образом, значение функции выигрыша имеет смысл числа обнаруженных точек в ситуации (х, у). Найти решение игры.
ГЛАВА III НЕАНТАГОНИСТИЧЕСКИЕ ИГРЫ § 1. ОПРЕДЕЛЕНИЕ БЕСКОАЛИЦИОННОЙ ИГРЫ В НОРМАЛЬНОЙ ФОРМЕ 1.1. В предыдущих главах были рассмотрены антагонистические игры двух лиц, т. е. игры, в которых интересы сторон прямо противоположны. Однако реальные задачи принятия решения в условиях конфликта характеризуются большим числом участ- ников и, как следствие этого, неантагонистичностью конфликтной ситуации. Если говорить о конфликте двух лиц и его моделях, то можно заметить, что он также не исчерпывается только антагони- стическим случаем. Дело в том, что интересы игроков могут пересе- каться, но не быть обязательно противоположными. Это, в частно- сти, может приводить к ситуациям, взаимовыгодным обоим игро- кам (в антагонистическом конфликте это невозможно), что делает осмысленным кооперирование (выбор согласованного решения), приводящее к увеличению выигрыша обоих игроков. Однако воз- можны такие конфликты, когда кооперация или соглашение невоз- можны по правилам игры. Поэтому в неантагонистических играх различают бескоалиционное поведение, когда соглашения между игроками запрещены правилами (см. § 1 — 5), и кооперативное поведение игроков, когда разрешается кооперация типа выбора совместных стратегий (см. § 6 — 8) и совершения побочных плате- жей (см. § 9 — 11). Рассмотрим первый случай. 12. Определение. Система T=(N, в. которой #={1, 2, ..., и} — множество игроков, Xt — множество стратегий игрока i, ffi — функция выигрыша игрока i, определенная п на декартовом произведении множеств стратегий игроков Х= JJ Х( (множество ситуаций игры), называется бескоалиционной игрой. гл Бескоалиционная игра п лиц происходит следующим образом. Игроки одновременно и независимо друг от друга выбирают свои стратегии xt из множеств стратегий Xt, i=l, 2, .... и, в результате из
чего формируется ситуация х=(х15 хп), После этого каж- дый игрок i получает выигрыш Н^х). На этом игра заканчивается. Если множества чистых стратегий игроков X, конечны, то игра называется конечной бескоалиционной игрой п лиц. 1.3. Бескоалиционная игра Г, в которой принимают участие два игрока, называется игрой двух лиц. Таким образом, бескоалицион- ная игра двух лиц Г в нормальной форме определяется системой Г=(АГ1, Х2, Н1г Н2), где Xt — множество стратегий первого игрока, Х2 — множество стратегий второго игрока, Хг х Х2 — множество ситуаций игры, a Hi:Х2 хX2-*Rl, Н2:Х2хX2-^R1 — функции вы- игрыша соответственно 1 и 2 игроков. Конечная бескоалиционная игра двух лиц называется биматричной. Это объясняется тем, что перенумеровав множества чистых стратегий игроков числами 1, 2, ..., т и 1, 2, ..., п соответственно, функции выигрыша можно записать в виде двух матриц ац...а1я Hi=A = и Я2 = В= —Pml" 'Ртп^. При этом элементы cty и fly матриц А, В являются соответственно выигрышами игроков 1 и 2 в ситуации (i, j), ieM, jeN, M = {1,..., m}, 1M, «}• В соответствии с изложенным выше биматричная игра проис- ходит следующим образом. Первый игрок выбирает номер i строки, а второй (одновременно и независимо) номер j столбца матрицы. Тогда игрок 1 получает выигрыш а,у=//1 (х„ yj), а игрок 2 — выиг- рыш fiy-H2(xh yj). Заметим, что биматричную игру с матрицами А и В можно также задать (т х п) матрицей (А, В), каждый элемент которой есть пара (а(у, fi(j), i=l, 2,...., т; j=i, 2, ..., п. Игру, определяемую матрицами Ап В, будем обозначать Г (А, В). Если бескоалиционная игра Г двух лиц такова, что Н2(х, у)= —Н2 (х, у) для всех хе.Хг, уеХ2, то Г оказывается антагонисти- ческой игрой, рассмотренной в предыдущих главах. В частном случае, когда в биматричной игре а,у= — f)v, мы получаем матрич- ную игру, рассмотренную в гл. 1. 1.4. Пример 1. («Семейный спор».) Рассматривается биматричная игра с матрицей Рг (А, В)= «1Г(4, 1) (0,0)" а21(0, 0) (1, 4)_‘ 114
Имеются различные интерпретации этой игры, но наиболее извест- ная [44] следующая. Муж (игрок J) и жена (игрок 2) могут выбрать одно из двух вечерних развлечений: футбольный матч (а1; или театр (а2, Р2). Если они имеют разные желания (ах, /?2) или (а2, то остаются дома. Муж предпочитает футбольный матч, а жена — театр. Однако обоим гораздо важнее провести вечер вместе, чем участвовать в развлечении (хотя и предпочтительном) одному. Пример 2. (Игра «перекресток» [10] J Два автомобилиста двига- ются по двум взаимно перпендикулярным дорогам и одновременно встречаются на перекрестке. Каждый из них может остановиться (1-я стратегия ах или /?х) и ехать (2-я стратегия а2 или /?2). Предполагается, что каждый из игроков предпочитает остано- виться, а не пострадать в аварии и проехать, если другой сделал остановку. Этот конфликт может быть формализован биматричной игрой с матрицей ^2 /ЛЛА = а1Г (1’ 0 V ’ 7 а21_(2, 1-е) (0, 0) (неотрицательное число е соответствует неудовольствию от того, что игрок остановился и пропустил партнера). Пример 3. (Выбор способа передвижения ро городу [10].) Пусть число игроков п велико и каждое из множеств X, состоит из двух элементов: Х(={0, 1} (для определенности: 0 — воспользоваться автомобилем, 1 — использовать общественный транспорт). Функ- ция выигрыша определяется следующим образом: ra(f) при Я;(х1; ..., х„)=< (o(t) при 1 Я где t= £ xj. П У-1 Пусть а и Ь имеют вид, изобра- женный на рис. 8. Из вида функций а(0 и b(t) следует, что если доля иг- роков, выбирающих 1, больше то уличное движение настолько свободно, что водитель чувствует себя лучше, чем пассажир в общественном транс- порте. Если же доля автомобилистов больше 1 —10, то движение настолько интенсивное (при естественном при- оритете общественного транспорта), что сравнение теперь в пользу пасса- жиров общественного транспорта. х,= 1, х,=0, 115
Пример 4. (Распределение ограниченного ресурса с учетом ин- тересов потребителей [52].J Предположим, что п потребителей имеют возможность расходовать (накапливать) некоторый ресурс, объем которого ограничен величиной 4>0. Обозначим объем ресу- рса, который расходует (накапливает) i-й потребитель, через xt. В зависимости от значений вектора х=(хх, х2, ..., х„) потребители получают выигрыш, который оценивается для i-ro потребителя функцией hi(xt, х2, ..., х„), если общий объем израсходованного (накопленного) ресурса не превосходит заданной положительной величины 0<А, т. е. £ xt^9, Х|>0. i—1 Если выполняется противоположное неравенство, то выигрыш i-ro потребителя вычисляется с помощью функции g/(x1, х2,..., xj. При этом предполагается, что полезность ресурса резко снижается, если п £ Xt>e, т. е. в этом случае gi(xlt х2,..., хя)<Л/(х1, х2,..., хи). Рассмотрим неантагонистическую игру в нормальной форме ’ Г=(ЛГ, {X} в которой функции выигрыша игроков имеют вид J хи), £ х^в, х2, ..., хя)='\ *** ...xj, £ Xi>e, i-1 X=[o, aj, 0<a(<U, £ a,=A, N={1, 2,.... n}. i-i Игроками в этой игре являются потребители ресурса. Пример 5. (Теоретико-игровая модель охраны воздушного бассей- на от загрязнений [52]J В промышленном районе расположено п предприятий, каждое из которых имеет один источник, выбрасы- вающий в атмосферу вредную примесь. В районе имеется экологи- чески значимая зона О, уровень загрязнения в которой не должен превышать предельно допустимого значения. Усредненное по вре- мени и области значение концентрации вредной примеси в атмос- фере при наличии п источников можно приближенно рассчитать по формуле 116
q= £ ctXi, i=l, 2, ..., n, 0<x,<a,-. ;-i n Пусть в<£ ciat — значение предельно допустимой концентрации fm 1 (ПДК) вредной примеси. Считая предприятия игроками, построим игру, моделирующую конфликтную ситуацию загрязнения атмосферы. Предположим, что каждое предприятие i может снижать свои эксплуатационные рас- ходы, увеличивая выброс xh однако если в зоне О уровень загрязне- ния превышает ПДК, на предприятие накладывается штраф 5(>0. Пусть игрок I (предприятие) имеет возможность выбирать зна- чения xt из множества Х=[0, ej. Функции выигрыша игроков имеют вид {Л,(х19 х2, .... х„), ht(xlt х2, .... x„)-sh q>6, где Л/(х1, х2, ..., х„) — непрерывные и возрастающие по аргументу Xt функции. § 2. ПРИНЦИПЫ ОПТИМАЛЬНОСТИ В БЕСКОАЛИЦИОННЫХ ИГРАХ 2.1. Известно, что для антагонистических игр принципы минима- кса, максимина и равновесия совпадают (если они реализуемы, т. е. существует равновесие, а максимин и минимакс достигаются). В та- ком случае они определяют единое понятие оптимальности и реше- ния игры. В теории неантагонистических игр нет единого подхода к выработке принципов оптимальности. По существу имеется целое множество таких принципов, каждый из которых основывается на некоторых дополнительных предположениях о поведении игроков И структуре игры. [ Естественно предположить, что в игре Г каждый из игроков стремится к достижению ситуации х, в которой значение его функ- ции выигрыша было бы наибольшим. Однако функция выигрыша Н, зависит не только от стратегии z-го игрока, но и от стратегий, выбираемых другими игроками, поэтому ситуации {х}, дающие большее значение выигрыша для г-го игрока, могут не быть таковы- ми для других игроков. Таким образом, так же как и в случае антагонистической игры, стремление игроков получить наибольший выигрыш носит конфликтный характер и сама формулировка того, какое поведение является «хорошим» или оптимальным в игре, является проблематичной. Здесь имеется несколько подходов. Од- 117
ним из них является равновесие по Нэшу и его различные обобще- ния. В случае, когда игра Г является антагонистической, равновесие по Нэшу совпадает с понятием равновесия, которое представляет собой основной принцип оптимальности в антагонистической игре. Пусть х=(хх, ..., x,_i, х„ xi+1, ..., х„)— произвольная ситуация в игре Г, а х, — некоторая стратегия игрока i. Построим ситуацию, которая отлична от х только тем, что стратегия х,- игрока i заменена на стратегию х-. В результате мы получаем ситуацию (хх,.... Xt-i, х», x/+i, ...» х„), которую будем обозначать через (х)|х-). Очевидно, что если х, и совпадают, то (х||х')=х. Определение. Ситуация х* = (х|, .... xf*, ..., х*) называется ситуацией равновесия по Нэшу, если для всех х,-еХ ui=l,.... п имеет место неравенство Н{(х*)>Н(х*\\хд. (2.1) Пример 6. Рассмотрим игру примера 3 п. 1.4. Равновесными по Нэшу здесь являются ситуации, для которых выполняется условие Г + 1/n^tL, (2.2) п где t*=(l/ri) ХТ- условия (2.2) следует, что переключение каждого отдельного игрока с одной чистой стратегии на другую при условии, что другие игроки своих стратегий не изменяют, не влияет на его выигрыш. Пусть в игре реализовалась ситуация х, которой соответствует п t=(l/ri) £ Xj, te{'t0, Zj}, и пусть величина 8 — доля игроков, реши- вших переключиться со стратегии 0 на стратегию 1. Заметим, что если 8 таково, что b(t)=a(t)<a(t+8), то выигрыши этих игроков увеличиваются при таком переключении, если стратегии остальных игроков останутся прежними. Однако если это переключение дейст- вительно произойдет, то у тех же игроков возникает желание пере- ключиться со стратегии 1 на стратегию 0, поскольку выполнено условие a (t+8)<b(t+8). Если же это желание осуществится, то п доля (1/л) • £ Xj игроков уменьшится и вновь попадет на отрезок ['о> с Аналогично, пусть 8 — доля игроков, переключившихся по ка- ким-либо причинам (например, из-за случайных ошибок) со страте- гии 1 на стратегию 0, причем t—8<t0. Тогда в силу условия b(t—8)<a(t—8) у игроков появится желание переключиться обрат- ив
но на стратегию 1. При осуществлении этого желания доля Я 1/п • £ xj увеличится и вновь вернется на отрезок [?0, /J. 2^2. Из определения ситуации равновесия по Нэшу следует, что ни один из игроков i не заинтересован в отклонении от стратегии х*, входящей в эту ситуацию (согласно (2.1) его выигрыш при исполь- зовании стратегии xt вместо х* разве лишь уменьшится при усло- вии, что остальные игроки придерживаются стратегий, образующих ситуацию равновесия х*). Таким образом, если игроки договори- лись предварительно об использовании стратегий, входящих в ситу- ацию равновесия х*, то индивидуальное отклонение от договора невыгодно отклонившемуся игроку. Определение. Стратегия xfeXt называется равновесной, если она входит хотя бы в одну ситуацию равновесия по Нэшу. Для бескоалиционной игры двух лиц Г=(А\, Х2, Н1г Н2) ситу- ация (х*, у*) является ситуацией равновесия, если неравенства Н, (х, у^Н, (х*, у*), Н2(х*, у)<Я2(х*, у*) (2.3) выполняются для всех хеХ2 и у е У2. В частности, для биматричной (т х п)-игры Г (А, В) пара (i*, /*) будет ситуацией равновесия по Нэшу, если неравенства (2.4) выполняются для всех номеров строк ieM и столбцов jeN. Так, в примере 1 равновесными являются ситуации (ах, /^) и (а2, ^2)> в примере 2 — (аь и (а2, Р^). Напомним, что для антагонистической игры Г=(Х1, Х2, Н) пара (х*, y*)eXt х Х2 является ситуацией равновесия, если Я(х, у*)<Я(х*, у*)<Я(х*, у), xeXt, уеХ2. При этом имеют место следующие основные свойства антагонисти- ческих игр. 1°*. Игроку невыгодно информировать своего противника о стратегии (чистой или смешанной), которую он собирается приме- нить. (Конечно, если игрок собирается использовать оптимальную стратегию, то его выигрыш не уменьшится от того, что он объявит об этом, но он ничего и не выигрывает.) 2°. Если (х, у) е Z (Г), (х*. У) е Z (Г) — ситуации равновесия в игре Г, a v — значение игры, то (x',y)eZ(T),(x,y)6Z(T); (2.5) ®=Я(х, у)=Я(х', у')=Я(х, у')=Я(х', у). (2.6) 3°. Игроки не заинтересованы в общении перед началом игры для выработки совместных действий. 119
4°. Если в игре Г существует ситуация равновесия, а х — мак- симинная и у — минимаксная стратегии соответственно 1 и 2 иг- роков, то (х, y)GZ(T) — ситуация равновесия, и наоборот. Выясним, выполняются ли эти свойства для биматричных игр. Пример 7. Рассмотрим игру «семейный спор» (см. пример 1 и п. 1.4). Как уже отмечалось, в ней есть две равновесные ситуации (ах, pj) и (а2, Дз). Однако 1-я ситуация выгодна игроку 1, а 2-я — игроку 2. Это противоречит (2.6), поскольку выигрыши игроков в этих ситуациях различны. Далее заметим, что, несмотря на равновес- ность ситуаций (а1, pj, (а2, р2), пары (ах, Д2) и (а2, р2) не являются ситуациями равновесия по Нэшу, т. е. не выполнено свойство 2 (см. (2.5)). Если игрок 1 информирует партнера о намерении выбрать стра- тегию at и если игрок 2 убежден, что тот будет упорствовать, то ему ничего не остается, как объявить первую стратегию Аналогич- ные рассуждения можно провести и за игрока 2. Таким образом, каждому из игроков выгодно первому объявить свою стратегию, что противоречит свойству 1° для антагонистических игр. Предположим, что игроки не общаются до начала игры, а дела- ют выбор одновременно и независимо друг от друга (как и предус- мотрено правилами бескоалиционной игры). Проведем рассужде- ния за игрока 1. Ему выгодно, чтобы реализовалась ситуация (а19 Pl). Но игроку 2 выгодна ситуация (а2, р2). Поэтому, если игрок 1 выберет стратегию то игрок 2 может выбрать стратегию Д2, и они оба проиграют (вектор выигрышей (0, 0)). Тогда игроку 1 имеет смысл выбрать стратегию а2, поскольку в ситуации (а2, Р^) он получает выигрыш 1. Но игрок 2 может рассуждать аналогично и выбрать р., тогда в ситуации (а2, р2) они оба опять проиграют. Таким образом, имеет место случай, когда ситуация выгодна (и поэтому неустойчива) для игрока 1. Аналогично (с точки зрения игрока 2) можно исследовать ситуацию (а2, Р2). Поэтому игрокам выгодно общаться перед началом игры и договариваться о совмест- ном плане действий, что противоречит свойству 3°. Затруднения возникают также из-за того, что пара максиминных стратегий не является равновесной. Таким образом, мы имеем пример игры, когда не выполнено ни одно из свойств 1° — 4° антагонистической игры. Итак, в различных ситуациях равновесия по Нэшу векторы выигрышей игроков могут быть различны. Кроме того, множество ситуаций равновесия по Нэшу в отличие от множества ситуаций равновесия в антагонистической игре не является прямоугольным. Если х=(хх....х,....х„) и х'=(х'1, ..., х$, ..., х^) — две различные ситуации равновесия, то ситуация х", состоящая из стратегий, кото- рые образуют ситуации х и х', и не совпадающая ни с одной из этих ситуаций, равновесной может не являться. Ситуация равновесия по Нэшу является множественным принципом оптимальности в том 120
смысле, что различные ситуации равновесия могут быть в разной степени предпочтительными для различных игроков. Таким обра- зом, остается не решенным вопрос: какую из ситуации равновесия можно принять как устраивающий всех игроков принцип оптималь- ности? В дальнейшем будет показано, что множественность принци- па оптимальности является существенной характерной чертой оп- тимального поведения в конфликтных управляемых процессах со многими участниками. Заметим также, что в отличие от антагонистического случая равновесная стратегия г-го игрока х* далеко не всегда обеспечивает получение, по крайней мере, выигрыша Я,(х*) в ситуации равнове- сия по Нэшу, поскольку это существенно зависит от того, выберут ли остальные игроки стратегии, входящие в данную ситуацию равновесия по Нэшу. Поэтому равновесную стратегию не следует трактовать как оптимальную стратегию i-ro игрока. Такая трактов- ка осмыслена только для набора стратегий игроков, т. е. для ситуаций. 23. Важная особенность ситуации равновесия по Нэшу заключа- ется в том, что отклонение от нее двух игроков и более может привести к увеличению выигрыша одного из отклонившихся иг- роков. Пусть S <= N — некоторое подмножество множества игроков (коалиция) и пусть х=(хх..х„) — ситуация в игре Г. Обозначим через (x||xj) — ситуацию, которая получается из ситуации х при замене в ней стратегий х{, ieS, на стратегии xfteXh ieS. Иными словами, в ситуации (х||х') игроки, входящие в коалицию 5, заменя- ют свои стратегии х( на стратегии xj. Если х* — ситуация равнове- сия по Нэшу, то из (2.1) вовсе не следует, что #Xx*)^#i(x*llxs) Для всех ieS. (2.7) Это будет показано далее на простейших примерах. Можно усилить понятие равновесия по Нэшу, потребовав выпо- лнения условия (2.7) или ослабленного условия (2.7) хотя бы для одного из игроков ieS. Тогда мы приходим к следующему опреде- лению. Определение. Ситуация х* называется сильно равновесной, если для любых коалиций S с N и xs6jj Xt выполняется неравенство IeS £я((**)>£я<(х*к5)- (2.8) ieS ieS Условие (2.8) гарантирует нецелесообразность соглашения меж- ду игроками с целью вступления в некоторую коалицию S, так как в любой коалиции находится игрок i, которого это соглашение не 121
(5, 5) (0, 10) (10,0) (1, 1) устраивает. Любая сильно равновесная ситуация является равновес- ной. Бели бы сильное равновесие существовало в достаточно широ- ком классе игр, то оно могло бы явиться приемлемым принципом оптимальности в бескоалиционной игре. Однако оно существует крайне редко. Пример 8. Рассмотрим биматричную игру с матрицей Pi Рг (Л, л)=а1 а2 Здесь одна ситуация равновесия (а2, Рг) (не сильно равновесная), которая дает игрокам вектор выигрышей (1, 1). Однако если оба игрока сыграют (а15 fij), то они получат вектор выигрышей (5, 5), что выгодно обоим. Эта ситуация не является равновесной, но она лучшая для обоих игроков. Таких парадоксов в антагонистических играх не бывает. Если говорить об этом конкретном случае, то данный результат является следствием того, что при одновремен- ном отклонении от равновесной стратегии каждый из игроков мо- жет выиграть еще больше. 2.4. Пример 8 приводит к мысли о возможности других принци- пов оптимальности в бескоалиционной игре, приводящих к ситуаци- ям, более выгодным обоим участникам, чем в случае равновесных ситуаций. Таким принципом оптимальности является оптималь- ность по Парето. Рассмотрим множество векторов {Н(х)} = {(Н1 (х), ..., п Ня(х))}хеХ, Х=]Д Xt, т. е. множество значений вектор-выигрышей игроков во всех возможных ситуациях хеХ. Определение. Ситуация х в бескоалиционной игре Г называется оптимальной по Парето, если не существует ситуации хеХ, для которой имеют место неравенства Н (х)Hi(х) для всех ieN и Я<,(х)>Я^(х) хотя бы для одного ioeN. Множество всех ситуаций, оптимальных по Парето, будем обозна- чать через Хр. Содержательно принадлежность ситуации х множеству оз- начает, что не существует другой ситуации х, которая была бы предпочтительнее ситуации х для всех игроков. Следуя [2], отметим содержательное различие понятий ситуации равновесия и ситуации, оптимальной по Парето. В первой ситуации ни один игрок, действуя в одиночку, не может увеличить своего 122
выигрыша, во второй — все игроки, действуя совместно, не могут (даже не строго) увеличить выигрыш каждого. Заметим также, чтосоглашение о выборе фиксированной ситу- ации равновесия удерживает каждого индивидуального игрока от отклонения от нее. В оптимальной по Парето ситуации отклонив- шийся игрок может в некоторых случаях получить существенно больший выигрыш. В то же время сильно равновесная ситуация безусловно является и оптимальной по Парето. Так, в примере 8 ситуация (а2, Д2) равновесна, но не оптимальна по Парето. Вместе с тем ситуация (<Хр Pt), наоборот, оптимальна по Парето, но не является равновесной. В игре «семейный спор» обе равновесные ситуации (а19 /?2), (а2, р2) сильно равновесны и оптимальны по Парето, но, как уже отмечено в примере 7, не являются взаимозаме- няемыми. Такая же картина имеет место и в следующем примере. Пример 9. Рассмотрим игру «перекресток» (см. пример 2 п. 1.4). Ситуации (а2, рЛ (ах, Р2) равновесны и оптимальны по Парето (ситуация (а19 pj оптимальна по Парето, но не равновесна). Для каждого игрока равновесной является стратегия а19 р2 «остановить- ся», если другой игрок решил проехать перекресток, и, наоборот, выгодно выбрать стратегию а2, р2 «ехать», если другой игрок остановился. Однако выигрыш в две единицы каждый из игроков получает только при выборе стратегии а2 (/?2) — «ехать», поэтому здесь неизбежна борьба за лидерство, т. е. каждый из игроков заинтересован первым заявить, что он выбрал стратегию «ехать». Заметим, что точно к такому же выводу мы пришли при анализе игры «семейный спор» (см. пример 7). 2.5. Проанализируем поведение типа лидер — ведомый в игре двух лиц Г= (Х2, Х2, Нг, Н2). Обозначим Zl, Z2 множества наилуч- ших ответов игроков 1 и 2 соответственно, где Z1 = {(хп х2) | Н2 (xt, x2)=sup Нх (ур х2)}; (2.9) У1 Z2= {(х2, х2) |Я2(Хр x2)=sup Н2(Хр у2)} (2.10) Уг (предполагается, что супремумы в (2.9) и (2.10) достигаются). Определение. Назовем ситуацию (хх, х^)еХ1хХ2 i-равновеси- ем по Штакелъбергу в игре двух лиц Г, a Н i-выигрышем, если (хъ x^eZ* и выполняется равенство Hi=Hi (х1} х2)= sup Я((уру2), (2.11) <У1. Уг)*& где i=l, 2, iVj. Понятие i-равновесия можно интерпретировать следующим об- разом. Игрок 1 (лидер) знает функции выигрыша обоих игроков Нх, 123
Н2, а тем самым и множество наилучших ответов Z2 игрока 2 (ведо- мого) на любую стратегию xt игрока 1. Тогда он, обладая этой информацией, максимизирует свой выигрыш, выбирая стратегию из условия (2.11). Таким образом, — это выигрыш i-ro игрока, действующего оптимально в качестве «лидера» в игре Г. Лемма. Пусть Z(T) — множество ситуаций равновесия по Нэ- шу в игре двух лиц Г. Тогда Z(T)=Z1QZ2, (2.12) где Z1, Z2 — множества наилучших ответов (2.9), (2.10) игроков 1, 2 в игре Г. Доказательство. Пусть (х19 x2)gZ(T) — ситуация равновесия по Нэшу. Тогда неравенства (х2, х2)^Я^2 (х2, х2), Н2(х2г Хг)^Я2(х2, х2) выполняются для всех x^el^ и ^2еХ2. Откуда получаем Hi (xlf х2)=вирЯ1 (х'1, х2); (2.13) Н2 (xi> Х2)=sup Н2 (х19 Хг). (2.14) *2 Таким образом, (х19 x2)eZ* и (х19 x2)eZ2, т. е. (х19 xJeZ^Z2. Обратное включение непосредственно следует из (2.13), (2.14). Лемма доказана. Определение. Будем говорить, что в игре двух лиц Г=(2\, Х2, Ht, Я2) имеет место борьба за лидерство, если не существует такой ситуации (х19 х2)еА\ х12, что H&Ht(xu х2), г=1, 2. (2.15) Теорема. Если игра двух лиц Г=(ХГ, Х2, Н1г Н2) имеет по крайней мере две оптимальных по Парето и равновесных по Нэшу ситуации (х19 х2), (у19 у г) с различными векторами выигрышей (Я2(х19 х,), Я2(х19 х^)^(Н1(у1, у,), Я2(у19 у2», (2.16) то в игре Г имеет место борьба за лидерство. Доказательство. В силу (2.12) для всякой ситуации равнове- сия по Нэшу (z19 z2)gZ(T) справедливы неравенства Я((г19 г2)<Я, i=l, 2. Предположим противное, т. е. что в игре Г нет борьбы за лидерст- во. Тогда существует ситуация (z19 z^eXj^ х Х2, для которой Я,(х19 х^Я^Я,^, z2); (2.17) Hty^y^H^H^z^ (2.18) 124
f=l, 2. Но (х£, х2), (у,, У2) — ситуации, оптимальные по Парето. Поэтому неравенства (2.1/), (2.18) выполняются как равенства, что противоречит (2.16). Теорема доказана. В заключение заметим, что игры «семейный спор» и «перекре- сток» (п. 1.4) удовлетворяют условиям теоремы п. 2.5, поэтому в них имеет место борьба за лидерство. § 3. СМЕШАННОЕ РАСШИРЕНИЕ БЕСКОАЛИЦИОННОЙ ИГРЫ 3.1. Рассмотрим бескоалиционную игру двух лиц Г=(Х1, Х2, Н2, Н^). В антагонистическом случае мы уже убедились, что .ситуация равновесия в обычных чистых стратегиях, вообще говоря, не суще- ствует. Даже матричные игры в общем случае имеют ситуацию равновесия лишь в смешанных стратегиях. Поэтому естественно искать равновесие по Нэшу в бескоалиционной игре в классе сме- шанных стратегий. Как и в случае антагонистических игр, смешанную стратегию игрока мы отождествляем с вероятностным распределением на множестве чистых стратегийгПредположим для простоты, что мно- жества стратегий Xt конечны, и введем понятие смешанного рас- ширения игры. Пусть r = (N, {Xt}ieN, {H,}lelf) (3.1) — произвольная конечная бескоалиционная игра. Для определен- ности предположим, что игрок 1 в игре Г имеет mt стратегий. Обозначим через произвольную смешанную стратегию игрока I, т. е. некоторое вероятностное распределение на множестве страте- гий Xh которые назовем чистыми стратегиями. Через Ht(x) будем обозначать вероятность, которую стратегия д, приписывает конк- ретной чистой стратегии х1еХ1. Множество всех смешанных страте- гий игрока I будем обозначать через Xt. Пусть каждый из игроков ieN применяет свою смешанную стратегию т. е. выбирает чистые стратегии с вероятностями щ(х). Будем предполагать, что вероятность появления ситуации х=(х1#.., хя) равна произведению вероятностей выборов составля- ющих ее стратегий, т. е. Д (х)=Д1 (*i) * Д2 (х2) х •• • х Д» (*»)• (3.2) Формула (3.2) определяет вероятностное распределение на мно- Я жестве всех ситуаций Xh определяемое смешанными страте- i-1 125
гиями дь д2, ..., д„. Набор д=(д15 ..., д,) называется ситуацией в смешанных стратегиях. Ситуация в смешанных стратегиях д ре- ализует различные ситуации в чистых стратегиях с некоторыми вероятностями, поэтому значение функции выигрыша каждого из игроков оказывается случайной величиной. В качестве значения функции выигрыша i-ro игрока в ситуации д принимается математи- ческое ожидание этой случайной величины: *.(д)= Е Я,(х)д(х)= Е ... Е .., х„)х хеХ XieJfi X (*1)х... X д,(х„), ieN, х=(хи ..., х„)еХ. (3.3) Введем обозначение Е - Z Е - Е П д*(**)- (з.4) *,еХ, Xj-ieXj-i *f+ieXj+i x„eX„ k+j Пусть fij — произвольная смешанная стратегия игрока J в игре Г. Умножив (3.4) на fJ.jtx'j) и просуммировав по всем xjeXj, получаем Евд^л^едд;). Определение. Игра Г=(У, {XheH-Kibew). в которой N — мно- жество игроков, Xt — множество смешанных стратегий каждого игрока i, а функция выигрыша определяется равенством (3.3), назы- вается смешанным расширением игры Г. Если для любой чистой стратегии х( игрока i имеет место неравенство ^(д||х()<а, то для любой смешанной стратегии д$ вы- полняется неравенство ^(д||д})<а. Справедливость этого вытекает из (3.3) и (3.4) стандартным переходом к смешанным стратегиям. 3.2. Для биматричной (т х и) игры Г (А, В) можно определить множества смешанных стратегий Xt, Х2 соответственно 1 и 2 иг- роков в виде Xt={x\xu= 1, х>0, хеХ"}, X2={y\yw=l, у^О, уеВ?}, где и=(1..l)elf, w=(l,..., 1)е2?", а также выигрыши игроков К2 и К2 в ситуации (х, у) в смешанных стратегиях как математическое ожидание выигрыша Ki (х, у)=хЛу, К2(х, у)=хВу, хеХь уеХ2. 126
Следовательно, формально построено смешанное расширение Г (А, В) игры Г (А, В), т. е. бескоалиционная игра двух лиц Г (А, В) = = (УР Х2, К19 К2). Для биматричной игры (как и для матричной) множество Af*={i|^>0) будем называть спектром смешанной стратегии х=(£19 £т) игрока 1, а стратегию х, для которой МХ=М, М={1, 2, ..., т} —вполне смешанной. Аналогично, Ny={j\tlj>0} —спектр смешанной стратегии у= ..., »„} игрока 2 в биматричной (т х п)- игре Г (А, В). Ситуацию (х, у), в которой обе стратегии х и у вполне смешанные, будем называть вполне смешанной. Покажем на примере игры «семейный спор», что введение сме- шанных стратегий не снимает те трудности, которые возникают при анализе бескоалиционной игры (см. пример 7 п. 2.2). Пример 10. Пусть в игре «семейный спор» игрок 1 почек мак- симально увеличить свой гарантированный выигрыш. Это означает, что он намерен выбрать смешанную стратегию х°=(£°, 1—£°), так, чтобы максимально увеличить наименьшую из двух величин (х, и Ку (х, /?2), т. е. max min {К2 (х, ДД ^(х, ^2)}=min {Kt (х°, PJ, Kt (х°, Р2)}. X Максиминная стратегия х° игрока 1 имеет вид х° = (1/5, 4/5) и дает ему средний гарантированный выигрыш 4/5. Если игрок 2 выберет стратегию /?19 то выигрыши игроков будут равны (4/5, 1/5), если же он воспользуется стратегией Р2, то (4/5, 16/5). Таким образом, если игрок 2 догадается, что его партнер приде- рживается стратегии х°, то он выберет Р2 и получит выигрыш 16/5. (Если игрок 1 может обосновать выбор р2 за игрока 2, то он может улучшить и свой выбор.) Аналогично, пусть игрок 2 придерживает- ся максиминной стратегии, она имеет вид у0=(4/5,1/5), и если игрок 1 выбирает стратегию а19 то выигрыши игроков равны (16/5, 4/5), а если а2, то (1/5, 4/5), поэтому ему выгодно против максиминной стратегии у° применять свою стратегию аР Если оба игрока будут рассуждать таким образом, то они прихо- дят к ситуации (а19 р2), в которой вектор выигрышей (0, 0). Здесь ситуация (х°, у°) в максиминных смешанных стратегиях не является ситуацией равновесия по Нэшу. 33. Определение. Ситуация ц* называется ситуацией равнове- сия по Нэшу в смешанных стратегиях в игре Г, если для любого игрока i и для любой его смешанной стратегии щ имеет место неравенство ...п. Как показывает пример 10, ситуация в максиминных смешанных 127
стратегиях не обязательно является ситуацией равновесия по Нэшу в смешанных стратегиях. Пример 11. В игре «перекресток» (см. пример 9 п. 2.4) имеются две ситуации равновесия по Нэшу в чистых стратегиях: (als /?2) и (а2> /\). Эти же ситуации оптимальны по Парето. В смешанном рас- ширении игры возникает еще одна ситуация равновесия, а именно пара (х*, у*): * 1~£ 1 х =у =— «2. 2 — 8 2 — 8 где «i=(l, 0), м2=(0, 1) или х*=у*=((1—е)/(2—е), 1/(2-е)). Действительно, имеем 1—8 1—8 . 8 £i(at, У )=—1— = 1-----> 1 1 2—8 2-8 2—8 1 —8 8 K^y'^l---------1-—. 2 — 8 2—8 Более того, так как для любых смешанных стратегий х=(£, 1—0 и у—(>Ь 1 — q) выполняются равенства к, (х, (а,, у*)+(1 - № (а2, ?*)=1 2 — 8 £ К2(Х*, у)=Г]К2(х*, /l1)+(l-q)Ar2(x*, /?2)=1-—, 2 — 8 то получаем К2(х, у*)=^ (х*, у*). К2(х*, у)-К2(х*, у*) для всех смешанных стратегий xeXt и уеХ2. Поэтому (х*, у*) — ситуация равновесия по Нэшу. Более того, это вполне смешанная ситуация равновесия. Однако ситуация (х*, у*) не является он- (8 8 \ 1— -—, 1— -—I строго меньше (покомпонентно) вектора выигрышей (1, 1) в ситу- ации (ах, $,). Пусть K(p*)={Ki(ji*)} —вектор выигрышей в некоторой ситу- ации равновесия по Нэшу. Обозначим vi=Kt(ji*) и v={v,}. Заметим, что если в антагонистических играх значение v функции выигрыша в ситуации равновесия было одним и тем же для всех ситуаций равновесия, а следовательно, осуществлялось единственным обра- зом для каждой антагонистической игры, в которой существовала ситуация равновесия, то в неантагонистических играх вектор v опре- деляется неоднозначно. Таким образом, здесь можно говорить лишь о равновесном выигрыше ®(=Л^(д*) игрока г в ситуации 128
равновесия д*, д*еТ, Х= ПТ- Так, в игре «перекресток» в ситу- i—1 ации равновесия (ах, /?2) вектор равновесных выигрышей (t\, v2) имеет вид (1 — 6, 2), а в ситуации (х*, j>*) он равен (1 —1 —— ) \ 2—е 2— eJ (см. пример 11). 3.4. Если в бескоалиционной игре Г = (Х15 Х2, Н1} Н2) простран- ства стратегий бесконечны, например Х2аЛ", то, как и в случае бесконечных антагонистических игр, смешанные страте- гии игроков отождествляются с вероятностными мерами, задан- ными на борелевских ст-алгебрах множеств Xt и Х2. Если д и v — смешанные стратегии игроков 1 и 2 соответственно, то выигрыш игрока i в этой ситуации К,(ц, v) — математическое ожидание выиг- рыша, т. е. v)=f f Ht(x, y)dv(y), (3.5) где интегралы понимаются в смысле Стильеса. Заметим, что в ситу- ациях (х, v) и (д, у) выигрыши игроков имеют вид ^(х, v)= f Hi(x, у) dv(y), ^(д, у)= f Ht(x, у№(х), i- 1, 2. (Предполагается, что интегралы существуют.) Таким образом, формально смешанное расширение бескоалици- онной игры Г двух лиц может быть задано системой Г=(Xlt Т2, К2, К2), где Л^ = {д), T2 = {v}, а Кt и К2 определяются (3.5). Игра Г является бескоалиционной игрой двух лиц, поэтому ситуация (д*, v*) равновесна тогда и только тогда, когда выполнены неравенства, аналогичные (2.3). § 4. СУЩЕСТВОВАНИЕ СИТУАЦИИ РАВНОВЕСИЯ ПО НЭШУ 4.1. В теории антагонистических игр для существования ситу- ации равновесия в смешанных стратегиях было достаточно непре- ' рывности функции выигрыша и компактности множеств стратегий .. (см. п. 4.4 гл. II). Оказывается, что этих условий достаточно и для 4 существования ситуации равновесия по Нэшу в смешанных страте- ( гиях для бескоалиционной игры двух лиц. Вместе с тем вопрос о существовании ситуации равновесия в бескоалиционной игре двух I лиц является правомерным. Уже приводился пример антагонисти- i ческой игры, которая* не имеет ситуации равновесия в смешанных | стратегиях (см. п. 4.12 гл. II). 5 Теория игр 129
Сначала докажем существование ситуации равновесия в смешан- ных стратегиях для биматричной игры. Это доказательство опира- ется на известную теорему Какутани о неподвижной точке, кото- рую приведем без доказательства [49]. Теорема. Пусть S — компактное выпуклое множество в я” иф — многозначное отображение, переводящее точки S в компактные выпуклые подмножества S и удов- летворяющее условию: если xnsS, хп-*х, упеф(хп), уп~*у, то уеф (х). Тогда существует такое х*е$, что х* еф (х*). Теорема. Пусть Г (А, В) — биматричная (7ихп)-игра. Тогда существуют смешанные стратегии х*сХ1 иу*еХ2 игроков 1 и2 со- ответственно, такие, что пара (х*, у*) является ситуацией равно- весия по Нэшу. Доказательство. Множества смешанных стратегий и Х2 игроков 1 и 2 — выпуклые многогранники, поэтому множество ситуаций Xt х Х2 — компактное выпуклое множество. Пусть ф — многозначное отображение, ф.Х^Х^Х^Х» определяемое соотношением ^CWoHux',/) К2 (х', у0)=тах К2 (х, у0), Х2(х0, /)=тахХ2(х0, У), т. е. образ отображения ф состоит из пар наилучших ответов игроков на стратегии у0 и х0 соответственно. функции Кг и К2 как математические ожидания выигрышей в ситуации (х, у) билинейны по х и у, а следовательно, образ </г(х0, у0) ситуации (х0, у0) при отображении ф представляет собой выпук- лое компактное подмножество в Х2 х Х2. Более того, если последо- вательности пар {(х£, Уо)}, (х£, Уо) е Х1 х Х2 и {«, У„)}, (4, у^еф (х”0, Уо) имеют предельные точки, т. е. lim (хо, Уо)-(хо, Уо)> Мт «, у1), л->оо л->00 то в силу билинейности функций и X, и компактности множеств и Х2 имеем, что (х', у')е^(х0, у0). Тогда по теореме Какутани существует ситуация (х*, у*)еХ2 хХ2, для которой (х*, у*)б^(х*, у*), т. е. *i(x*, У*)>К2(х, у*), Х2(х*, у*)>Х2(х», у) для всех xeXi и у 6 Y2. Теорема доказана. 4.2. Предыдущая теорема может быть обобщена на случай не- прерывных функций выигрыша Нг и Н2. При доказательстве этого 130
результата потребуется хорошо известная теорема о неподвижной точке, принадлежащая Брауэру [49]. Теорема. Пусть S — компактное выпуклое множество в 11 , имеющее внутрен- ность. Если <р — непрерывное отображение S в себя, то существует неподвижная точка х* отображения <р, т. е. x*eS и х*=<р(х*). Теорема. Пусть Г=(АГ1, Х2, Ни Н2)— бескоалиционная игра двух лиц, пространства стратегий Х2<=.1С — компактные выпуклые подмножества, а множество Х1 х Х2 имеет внутрен- ность. Пусть также функции выигрыша Н± (х, у) и Н2 (х, у) непреры- вны на Х± х Х2, причем Н2 (х, у) вогнута по х при каждом фик- сированном у, а функция Н2(х, у) вогнута по у при каждом фик- сированном х. Тогда в игре Г существует ситуация равновесия по Нэшу (х*, у*}. Доказательство. Пусть р=(х, y)eXt хХ2 и q=(x, y)eXkxX2 — две ситуации игры Г. Рассмотрим функцию в (Р, ?)=Hi (х, у)+Н2 (х, у). Покажем прежде всего, что существует ситуация q*=(x*, у*), для которой max в(р, q*)=O(q*, q*). peXtxX, Действительно, пусть это не так. Тогда для каждого qeXtxX2 найдется такое peXk хХ2, p^q, что в(р, q)>O(q, q). Введем в рас- смотрение множество q)>e(q, ?)}• Так как функция в непрерывна (Н2 и Н2 непрерывны по совокуп- ности переменных), a Хк х Х2 — выпуклый компакт, то множества Gt открыты. Более того, согласно сделанному предположению, Х2 х Х2 покрыто множествами Gp. Из компактности Хк х Х2 следует, что найдется конечная совоку- пность этих множеств, которая покрывает Хг х Х2. Пусть это мно- жества GPi, ..., GPk. Обозначим фХ?)=тах{0(ру, q)—O(q, q), 0}. Функции q>j (q) не отрицательны, и по определению GPj в каждой точке q по крайней мере одна из функций q>j принимает положитель- ное значение. Определим отображение ф множества Х2 х Х2 в себя следующим образом: 5* 131
Ф(я)=~- Z <р(я) j где <р (?)=£ (pj(q). Функции q>j непрерывны, поэтому ф — непрерыв- ное отображение Xt х Х2 в себя. Согласно теореме Брауэра _о непо- движной точке, найдется такая точка qeXt хХ2, что ^ (?)=?, т. е. 9=(1/ф(?)) Z <Pj(9)Pj- J Следовательно, #(?, ?)=0 (-7г Е <PjG)Pj’ Я )• Но функция 0(р, q) вогнута по р при фиксированном q и, следовате- льно, 0(?> Е <PjG)0<Pj> Я)- (4-1) j С другой стороны, если Ф>(?)>0, то 0(q, q)<0(pj, q), а если <Pj(q)=O, то <Pj(q)O(Pj, q)=q>j(q)^(q, q)- Поскольку q>j(q)>0 для некоторого j, мы приходим к неравенству Е Я>Ая)в<Р* q\ ф(я) j которое противоречит (4.1). Таким образом, всегда существует q*, для которого max в(р, q*)=0(q*, ?*). peXtxXt Это означает, что Н2 (х, у*)+Я2 (х*, у)^Н, (х*, у*)+Я2 (х*, у*) при всех хеХ2 и yeY2. Последовательно полагая в последнем неравенстве х=х* и у=у*, получаем неравенства Я2(х*, у)<Я2(х», у»), ЯДх, у*)<Я2(х* у*), справедливые для всех xeXt и уеХ2. Теорема доказана. Для бескоалиционных игр двух лиц, разыгрываемых на компакт- ных множествах (в частности, на единичном квадрате) с непрерыв- ной функцией выигрыша, справедлив следующий результат. Теорема. Пусть Г=(АГ1, Х2, Ни Н2) — бескоалиционная игра двух лиц, где Н2и Н2 — непрерывные функции на Xtx Х2; Х2, Х2 — 132
компактные подмножества конечномерных евклидовых про- странств. Тогда игра Г имеет ситуацию равновесия (д, v) в смешан- ных стратегиях. Эту теорему приведем без доказательства, поскольку оно ос- новывается на непрерывности и билинейности функций v)= f f Hi(x, y)dfi(x)dv(y), 1=1, 2, xt xt на множестве Xt x X2 и почти дословно повторяет доказательство предыдущей теоремы. Мы не будем подробно останавливаться на построении смешан- ных стратегий в бескоалиционных играх п лиц с бесконечным числом стратегий и доказательстве существования ситуации равно- весия по Нэшу. Отметим только, что если функции выигрыша п игроков Н,(х) непрерывны на декартовом произведении Х=П Xi компактных множеств чистых стратегии, то в такой бескоалицион- ной игре всегда существует ситуация равновесия по Нэшу в смешан- ных стратегиях. Для существования ситуаций, оптимальных по Парето, достаточно компактностй множества {/f(x)}, хеХ, что, в свою очередь, может быть обеспечено компактностью в некото- рой топологии множества всех ситуаций X и непрерывностью в этой же топологии всех функций выигрыша К,, i= 1, 2..п. Очевидно, что для конечных бескоалиционных игр это всегда имеет место. § 5. СВОЙСТВА ОПТИМАЛЬНЫХ РЕШЕНИЙ 5.1. Приведем свойства ситуации равновесия, которые помогают находить решение бескоалиционной игры двух лиц. Теорема. Для того чтобы ситуация (д*, г*) в смешанных стратегиях в игре Г= (А\, Х2, Н2, Н2) была ситуацией равновесия, необходимо и достаточно, чтобы для всех чистых стратегий xeXt и уеХ2 игроков выполнялись следующие неравенства: (5.1) К2(ц*, у)^К2(ц*, v*). (5.2) Доказательство. Необходимость очевидна, поскольку каждая чистая стратегия является частным случаем смешанной и, следова- тельно, должны быть выполнены неравенства (5.1), (5.2). Для до- казательства достаточности необходимо перейти к смешанным стратегиям игроков 1 и 2 соответственно в неравенствах (5.1), (5.2). Эта теорема (как и в случае антагонистических игр) показывает, что для доказательства равновесности ситуации в смешанных стра- тегиях достаточно проверить неравенства (5.1), (5.2) только для чистых стратегий партнера. Для биматричной (т х п)-игры Г (А, В) ) 133
эти неравенства принимают соответственно вид KL (i, у*)=а,у* <х*Лу*=К2 (х*, у»); (5.3) К2(х*, ])=х*У ^х*Ву*=К2(х*, у*), (5.4) где а,^) — строки (столбцы) матрицы А (В), i= 1, ..., т; J= 1, ..., п. 5.2. Напомним, что для матричных игр каждая существенная чистая стратегия уравновешивает любую оптимальную стратегию противника (см. п. 7.6 гл. I). Аналогичный результат справедлив и для биматричных игр. Теорема. Пусть Г (Л, В) — биматричная (тхп)-игра и пусть (х, y)eZ(T) — ситуация равновесия по Нэшу в смешанных страте- гиях. Тогда выполняются равенства Kl(i,y)=Kl(x,y)-, (5.5) К2(х, j)=K2(x, у) (5.6) для всех ieMx и jsNy, где Mx(Ny) — спектр смешанной стратегии х(у). Доказательство. По теореме п. 5.1 имеем Kt(i,y)*Kt(x,y) (5.7) для всех isMx. Пусть выполняется хотя бы одно строгое неравенст- во в (5.7), т. е. АГ1(10,у)<ЙГ1(х,у), (5.8) где iQeMx. Обозначим & компоненты вектора х=(£х, ..., <^т). Тогда ^>0 и ^i(x,y)=E№(«,y)= /-1 = Е £ ^=^(х,у). ieAfx Противоречие доказывает справедливость (5.5). Равенства (5.6) до- казываются аналогично. Данная теорема дает способ нахождения оптимальных смешан- ных стратегий игроков в игре Г (Л, В). Действительно, предполо- жим, что мы ищем ситуацию равновесия (х, у), считая спектры стратегий Мх, Ny заданными. Тогда оптимальные стратегии должны удовлетворять системе линейных уравнений хУ=v2, (5.9) 134
где ieMx,jeNy, vt, v2 — некоторые числа. Если же ситуация равно- весия (х, у) вполне смешанная, то система уравнений (5.9) принима- ет вид Ay—v2u, (5.10) xB=v2w, где м=(1, 1), w=(l, ..., 1) — векторы соответствующей размер- ности, составленные из единиц, числа v2 = xAy, v2 = xBy — выигры- ши игроков в ситуации равновесия (х, у). 5.3. Теорема. Пусть Г (А, В) — биматричная (т х п)-игра и ма- трицы А, В — невырожденные. Если игра Г имеет вполне смешанную ситуацию равновесия, то она единственная и вычисляется по фор- мулам x=v2uB~1', (5.11) у=к2А~1и, (5.12) где vt = \l{uA~lu), v2 = \j(uB~lu). (5.13) Обратно, если для векторов х, ysJC, определяемых равенствами (5.11) — (5.13), справедливо х>0, у>0, то пара (х, у) образует ситуацию равновесия в смешанных стратегиях в игре Г (А, В) с век- тором равновесных выигрышей (у2, t?2). Доказательство. Если (х, у) — вполне смешанная ситуация равновесия, то х и у с необходимостью удовлетворяют системе (5.10). Умножая первое из равенств (5.10) на Л-1, а второе — на В~1, получаем (5.11), (5.12). С другой стороны, поскольку хи=1 и уи=1, находим значения для vt и v2. Единственность вполне смешанной ситуации (х, у) следует из единственности решения системы (5.10) в условиях теоремы. Докажем обратное утверждение теоремы. По построению векторов х, у согласно (5.11) — (5.13) имеем хи=уи=1. Отсюда и из условия х^О, у>0 следует, что (х, у) — си- туация в смешанных стратегиях в игре Г. Согласно теореме п. 5.1 для того, чтобы ситуация (х, у) являлась ситу- ацией равновесия в смешанных стра- тегиях в игре Г (Л, В), достаточно выполнения условий afy=A1(i, у)<хЛу, i=l, т, хУ=К2 (х, у)<хВу, 7=1, т, 135
или Ау^(хАу)и, хВ^(хВу)и. Проверим справедливость этих соотношений для иД"1 х =----— иВ *и Л “ ,ж и у=---. Имеем и (иВ 1АА 'и)и Ау=------- =——;---------—=(хАу)и, иА *« (иД"1и)(«Л *и) _ и (иВ~1ВА~хи)и хВ=—-=-—;---------------f- = (хВу)и, иВ *и (uB~tu)(uA~iu) что и требовалось доказать. Проиллюстрируем применение теоремы на примере игры «се- мейный спор» п. 1.4. Рассмотрим смешанное расширение игры. Множество точек, соответствующих векторам выигрышей в сме- шанных стратегиях, можно изобразить графически (рис. 9, упр. 6). Нетрудно заметить, что игра удовлетворяет условиям теоремы, поэтому здесь имеется единственная вполне смешанная ситуация равновесия (х, у), вычисляемая по формулам (5.11) — (5.13): х=(4/5, 1/5), у=(1/5, 4/5), (ylt v2)=(4/5, 4/5). 5.4. Рассмотрим свойства различных принципов оптимальности. Заметим, что определения оптимальности ситуации по Парето и Нэшу, приведенные в § 2, касаются произвольной бескоалицион- ной игры (в частности, двух лиц), поэтому они справедливы и для смешанного расширения Г. Следовательно, для игры двух лиц Z(T)=ZXQZ2 (где Z (Г) — множество ситуаций равновесия по Нэшу, Z1 и Z2 — .множества наилучших ответов игроков 1 и 2 соответственно в игре Г) и справедлива теорема о борьбе за лидерство (см. п. 2.5). В более сложном отношении находятся ситуации, равновесные по Нэшу и оптимальные по Парето. Из примеров § 2 следует, что возможны случаи, когда ситуация равновесна по Нэшу, но не оп- тимальна по Парето, и наоборот. Вместе с тем возможно, что одна и та же ситуация оптимальна и в том и в другом смысле (п. 2.4). В примере 11 п. 3.3 было показано, что дополнительная ситуация равновесия, возникающая в смешанном расширении игры Г, не является оптимальной по Парето в смешанном расширении Г. Оказывается, что это довольно распространенное свойство бимат- ричных игр. Теорема. Пусть Г (А, В) — биматричная (тхп)-игра. Тогда почти для всех (тхп)-игр (за исключением не более чем счетного множества игр) справедливо следующее утверждение. 136
Ситуации равновесия по Нэшу в смешанных стратегиях, которые не являются равновесными в исходной игре, не являются оптималь- ными по Парето в смешанном расширении. Доказательство теоремы основано на том, что ее результат справедлив для множества й так называемых регулярных игр, которое открыто и всюду плотно в множестве биматричных (т х п)-игр. Полное доказательство этой теоремы можно найти в [10]. 53. Приведем без доказательства утверждения, касающиеся бес- коалиционных игр п лиц, которые являются обобщением соответст- вующих теорем из теории биматричных игр, рассмотренных в дан- ном и предыдущем параграфах. Теорема. Для того чтобы ситуация ц* в игре Г = (N, {Hi}ieN) была ситуацией равновесия в смешанных стратегиях, необ- ходимо и достаточно, чтобы для любого i и любой чистой страте- гии xteXi выполнялось неравенство WWx^W). Теорема. В любой конечной бескоалиционной игре существует хотя бы одна ситуация равновесия по Нэшу в смешанных стра- тегиях. Теорема. Если равновесная стратегия ц* игрока i входит в си- туацию равновесия ц* и приписывает положительную вероятность чистой стратегии x^Xf (д*(х()>0), то \ K^Wx^W). 5.6. В заключение параграфа рассмотрим пример решения бима- тричных игр с малым числом стратегий, который во многом поучи- телен. Пример 12. (Биматричные (2х2)-игры [10].) Рассмотрим игру Г (А, В), в которой у каждого из игроков по две чистые стратегии. Пусть Ч т2 (А В)=*1 Г(““’ (ai2’ ^2 |_(a21’ Р21) (a22> ^22)_ Здесь индексами Sl9 <52, г1г т2 обозначены чистые стратегии игроков 1 и 2 соответственно. Предположим для простоты, что числа au, a12, a2i> a22 (0u> Pu> ^21, p22) различны. Случай 1. В исходной игре Г, по крайней мере, один игрок, пусть игрок 1, имеет строго доминирующую стратегию, скажем <5Х (см. § 8 гл. I). Тогда игра Г и ее смешанное расширение Г имеют единственную ситуацию равновесия по Нэшу. Действительно, нера- 137
венства а1.>а21, a12>a22 приводят к тому, что в игре Г чистая стратегия oY строго доминирует все остальные смешанные страте- гии первого игрока. Поэтому ситуацией равновесия является пара ($i, тД ecjni j8ji >^2, и (615 т2), если Р11<Р12‘ Случаи 2. Игра Г не имеет ситуации равновесия по Нэшу. Здесь возможны два взаимоисключающих случая а) или б): а) a2i ai2<'a22> Ри^Ры P22<-p2i’ б) а22<'а12» P12<Pll> Р21<Р22> причем det А & 0, det В 0 и поэтому выполняются условия теоремы п. 5.3. Поэтому в игре существует ситуация равновесия (х*, у*), где х*=(------------------^3*-------,----\ (5.14) \Pli+ р22~ р21~~ Р12 Р11+ р22~ р21~ Р12/ у*=(----\ (5.15) \в11 + в22 —в21 —*12 в11+Ж22 —а21—*12/ а соответствующие равновесные выигрыши vt и v2 определяются по формулам в11®22 — a12a21 . Д11022- PllPll ®2=---------------; ®2=--------------. an+e2i—в12—a2i Ри+Р22~Pi2~ Р21 Случай 3. Игра Г имеет две ситуации равновесия по Нэшу. Этот случай получается, когда выполнено одно из условий: а) a21<ail> a12<a22> P12<Pll’ P21<P22’ 6) <X21<a21, ®22<а12» Pll <‘Рг2’ Pl2<P2i’ В случае а) равновесными будут ситуации (<51; т2), (<52, т2), а в случае б) — ситуации (<51; т2), (^2> Ti)- Однако в смешанном расширении есть еще одна вполне смешанная ситуация равновесия (х*, у*), определенная формулами (5.14), (5.15). Рассмотренные случаи исчерпывают изучение (2х2)-игры при условии, что элементы в матрицах различны. § 6. РАВНОВЕСИЕ В СОВМЕСТНЫХ СМЕШАННЫХ СТРАТЕГИЯХ 6.1. Продолжим рассмотрение игр двух лиц. Как уже отмечалось в § 2, даже если ситуация равновесия является недоминируемой (оптимальной по Парето), возможны случаи, когда одна ситуация равновесия выгодна игроку 1, а другая — игроку 2. Это затрудняет нахождние взаимоприемлемого решения, возникающего неантаго- нистического конфликта на уровне формализации бескоалиционной игры. Поэтому исследуем неантагонистический конфликт в фор- мализации, разрешающей игрокам принимать совместные решения. 138
Проиллюстрируем этот подход на при- мере игры «семейный спор» (см. при- мер 1 п. 1.4). Пример 13. Рассмотрим смешанное расширение игры «семейный спор». Множество точек, соответствующих векторам выигрышей в смешанных стратегиях в игре, можно изобразить графически (см. рис. 9 п. 5.3). На рисун- ке изображены две ситуации равнове- сия по Нэшу с векторами выигрышей (1, 4), (4, 1) в чистых стратегиях и одна вполне смешанная равновесная ситуа- ция с вектором выигрышей (4/5, 4/5) (ищется с использованием теоремы п. 5.3), которая менее предпочтительна для игроков, чем каждая из ситуаций равновесия в чистых стратегиях. Напомним, что равновес- ными здесь являются ситуации: (als (а2, /?2), (х*, у*), где х*=(4/5, 1/5), у* = (1/5, 4/5), а ситуации (а15 Pt), (а2, /?2) также оптимальны по Парето. Если игра повторяется многократно, то игрокам имеет смысл сделать совместный выбор: с вероятностью 1/2 выбирать ситуацию (ai> Pi) или (а2> Аг)- Тогда средний ожидаемый выигрыш игроков будет (5/2, 5/2). Однако эта точка не лежит в множестве точек, соответствующих возможным ситуациям бескоалиционной игры (рис . 9), т. е. не может быть реализована, если игроки выбирают смешанные стратегии независимо. Под совместной смешанной стратегией игроков будем понимать вероятностное распределение на множестве всевозможных пар (г, j) (ситуаций в чистых стратегиях), не обязательно порожденное неза- висимыми случайными выборами чистых стратегий игроками 1 и 2. Тарте стратегии могут быть реализованы посредником до начала Игры. Обозначим М совместную смешанную стратегию в игре Г (А, В). Тогда ожидаемые выигрыши Kt(M), К2(М) игроков 1 и 2 при Использовании совместной смешанной стратегии соответственно равны (л/)=Е w* К2 (М)=^ i.j i.j • где A = {atJ}, В= {Ру} '— матрицы выигрышей игроков, M={ptJ}, при этомиЛ/и>=1, Л/>0, м=(1,..., 1)еЯт, w = (l,..., 1)еЛ". Геометричес- ки множество точек, соответствующее множеству векторов выигры- шей в совместных смешанных стратегиях,— это выпуклая оболочка 139
множества точек возможных выигрышей в чистых стратегиях. Для игры примера 13 оно примет вид, как на рис. 10. [*/2 0 “ о */ является оптимальной по Парето и ей соответствует вектор выиг- рышей (5/2, 5/2). Таким образом, М* может быть рекомендована в качестве решения игры «семейный спор». Определение. Для биматричной (тхп)-игры Г (Л, В) обозна- чим через М= {ру} совместное вероятностное распределение на па- рах (i, j), i=l...т; j=l, ..., п. Через pt(j) обозначим условную вероятность реализации стратегии j при условии, что реализовалась стратегия i. Аналогично, через vj(i) обозначим условную вероят- ность реализации стратегии i при условии, что реализовалась стра- тегия j. Тогда {/ л д<//£ д#> I J-i 0, Л если £ Pij^O, j-i если Ду=0, j=l......л; * / т т Ду/Е Я» ес™ Е Д'/*0’ Л / 1-1 1-1 „ 0, если ру=0, i=l, ..., т. Будем говорить, что Л/*={д£}—ситуация равновесия в со- вместных смешанных стратегиях в игре Г (А, В), если выполнены следующие неравенства: (6.1) y-i j-i 1-1 1-1 для всех i, Ге{1, 2,..., m} и j, j'e{l, 2,..., п}. 6.2. Игру Г (Л, В) в совместных смешанных стратегиях можно интерпретировать следующим образом. Пусть игроки договори- лись об использовании стратегии Л/*={д^} и пусть также в резуль- тате реализации случайного механизма выпала пара (f, j), т. е. первый (второй) игрок получил номер i(j) стратегии. Заметим, что каждый из игроков знает только свою реализацию. Этот игрок, вообще говоря, может не согласиться с реализацией i (соответствен- но j) совместной стратегии и выбрать стратегию f (j1). Тогда, если М* — равновесная ситуация, то каждому из игроков невыгодно отклоняться от предложенной реализации i (соответственно j), что следует из (6.1), где в левой части неравенства стоит о£йдаемый 140
выигрыш игрока 1 (игрока 2) в случае согласия с реализцией »’(/). Тетерь предположим, что стратегия i игрока 1 такова, что Ду=0 для всех j=l, 2, ..., п. Тогда первое из неравенств (6.1), очевидно, выполняется. Аналогично, если Цу=0 для всех i=l,m, то второе из неравенств (6.1) выполняется. Подставим выражения для и. Vj(i) через tkj в формулы (6.1). Тогда получаем, что необходимым и до- статочным условием равновесности ситуации М*={р$} является выполнение неравенств Ё <М/>Ё “oAtf, Ё Ё = j-i j-i i-i j-i (6-2> /-1 /-1 для всех i, Ге{1, 2,..., m} и j, J 'e{l, 2,..., n}. Обозначим через ZC(T) множество равновесных ситуаций в со- вместных смешанных стратегиях. Теорема. Справедливы следующие утверждения. 1. Множество Ze(T) равновесных ситуаций в совместных сме- шанных стратегиях в биматричной (тхп)-игре Г (Л, В) является непустым выпуклым компактом пространства /Г*". 2) Если (х, у) — ситуация в смешанных стратегиях игры Г (Л, Д), то определяемая по ней ситуация М = {Ду} в совместных смешан- ных стратегиях будет равновесной тогда и только тогда, когда (х, у)— ситуация равновесия по Нэшу в смешанных стратегиях в игре Доказательство. Пусть (х, у), х=(£х, ..., Q, у=0/х, ..., Цп) — ситуация в смешанных стратегиях игры Г (Л, В), а М= {ду} — соот- ветствующая ситуация в совместных стратегиях, т. е. Ду= 6' ty, »=1, т; J—1, ..., п. Необходимым и достаточным условием равновес- ности М является система неравенств (6.2), т. е. №(i,y)>^^i(i',y),^2(x,/)>»?A2(x,n (6.3) где i, Ге{1,2,..., m};j,j'e{l,..., и). Если 6=0 (ty=0), то неравенства очевидны. Поэтому система неравенств (6.3) эквивалентна следу- ющей: КЛ, У)Ж2(Г, у), К2(х, j)>K2(x,Г), (6.4) i, Ге{1, ..., т}; J, ..., л}, где i и j принадлежит спектрам стратегий х и у. Предположим, что (х, у) — ситуация равновесия по 141
Нэшу в смешанных стратегиях в игре Г (Л, В). Тогда согласно теореме п. 5.2 / К, (i, у)=К. (х, у), Кг (х, ]} = кг (х, у} / для всех i и j из спектров оптимальных стратегий. Поэтому неравен- ства (6.4) выполнены и М eZc(F). Обратно, если (6.3) выполнено, то, суммируя неравенства (6.3) по i и j соответственно и применяя теорему п. 5.1, получаем, что ситуация (х, у) равновесна по Нэшу. Выпуклость и компактность множества ZC(T) следует из того, что Zc (Г) — множество решений системы линейных неравенств (6.2), которое ограничено, а непустота — из существования ситу- ации равновесия по Нэшу в смешанных стратегиях (см. п. 4.1). Теорема доказана. Г1/, 0 1 Отметим, что совместная смешанная стратегия М* = равновесна в игре «семейный спор» (см. пример 1 п. 1.4), что просто установить проверкой неравенств (6.2). § 7. ЗАДАЧА О ПЕРЕГОВОРАХ 7.1. Основной вопрос, который мы рассмотрим в данном параг- рафе, заключается в том, как прийти к соглашению разумным игрокам при совместном выборе решения в ходе переговоров. Пе- ред тем как сформулировать задачу, еще раз вернемся к игре «семейный спор». Пример 14. Рассмотрим множество R, соответствующее возмож- ным векторам выигрышей в совместных смешанных стратегиях для игры «семейный спор» (область, заштрихованная на рис. 11). Дейст- вуя совместно, игроки могут реализо- вать любой выигрыш в смешанных стратегиях в области R. Однако это не означает, что они могут договориться о любом исходе игры. Так, игроку 1 на- иболее предпочтительна точка (4, 1), а игроку 2 — точка (1, 4). Ни один из игроков не согласится с результатами переговоров, если его выигрыш будет меньше максиминного значения, по- скольку этот выигрыш он может полу- чить самостоятельно (независимо от партнера). Максиминные смешанные стратегии игроков в этой игре х°=(1/5, 4/5) и у° = (4/5, 1/5) соответственно, а вектор выигрышей в максиминных 142
стратегиях (»®, ®2) равен (4/5,4/5). Поэтому множество S, возможное дляГпереговоров, ограничено точками a, b, с, d, е (см. рис. 11). Назовем его переговорным множеством игры. Далее, действуя со- вмество,_игроки всегда могут договориться выбирать точки на отрезке ab, поскольку это выгодно обоим (отрезок ab соответствует ситуациям, оптимальным по Парето). 7.2. ^Назовем задачу выбора точки (®2, ®2) из 5 в результате переговоров задачей о переговорах. Таким образом, мы пришли к следующей проблеме. Пусть для биматричной игры Г (А, В) задано переговорное множество 5 и вектор максиминных выигры- шей (yi, ®г)- Требуется найти правило, решающее задачу о перегово- рах, т. е. необходимо найти функцию <р, такую, что ф($,®?,^)=йЛ). (7.1) Оказывается, что при некоторых разумных предположениях за- дача (7.1) разрешима в силу справедливости следующей теоремы. Теорема. Пусть S — выпуклый компакт в В2, (»®,®®7 — вектор максиминных выигрышей в игре Г (А, В). Множество S, пара (юх, ®2) и функция удовлетворяют следующим условиям: 1) (®П ®2>- 2) (®1,®2)65'- 3) Если (®х, ®2)б5 и (®х, ®г)> то (®v ®г)=(®1» ®г)- 4) Если (у2, v2)gS<^S и (t^, v2)=<p(S, ®®, v2), то (ух, ®2) = ф(5, ю®, »$)• 5) Пусть Т получается из S с помощью линейного преобразования v'1 = a1vl+P1, vr2=a2v2+Р2; at>0, а2>0. Тогда, если <p(S, ю®, »®)=(®i> t>2), то ф(2\ + a2«®+^2)=(ai®i + ^i, а2®2"ЬРг)- 6) Если из (®1, v2)eS следует (у2, vJgS для всех (®х, v2)eS; ®®=®® И (p(S, v®, ®2)=(®i> ®г)> то ®1=®2- Тогда существует единственная функция (р такая, что (p(S,«?, ®°)=(®1» »2)- Функция <р, которая отображает игру с переговорами (S, v®, v®) в множество векторов выигрышей ®2) и удовлетворяет условиям 1) — 6), называется арбитражной схемой Нэша [11], условия 1) — 6) — аксиомами Нэша, а вектор v2) — арбитражным вектором выигрышей. Таким образом, арбитражная схема — это реализуемый принцип оптимальности в игре с переговорами. Прежде чем перейти к доказательству теоремы, обсудим ее условия на примере игры «семейный спор» (см. рис. 11). Условия 1 и 2 означают, что вектор выигрышей v2) находится в множест- 143
ве, ограниченном точками a, b, с, d, е. Ограничение 3 показывает, что (®х, г>2) лежит в множестве точек, оптимальных по Парето. Условие 4 говорит о независимости функции <р от посторонних стратегий, т. е. если (®1# v2) — арбитражный вектор выигрышей для множества 7, то при расширении множества переговоров до э реше^ нием будет либо («х, г>2), либо другая точка, но не принадлежащая 5. Ограничение 5 говорит о том, что если функции выигрыша/отлича- ются лишь масштабом измерения и началом отсчета, то также отличаются и результаты переговоров. Свойство 6 указывает на равноправность обоих игроков. Доказательство теоремы п. 7.2 основано на следующих вспомо- гательных результатах. 7.3. Лемма. Если существуют точки («х, v2)gS, что и ®2>t>2, то существует единственная точка {у2, v2), максимизиру- ющая функцию на подмножестве S2czS, 5’1 = {(®х» «гЖ®!» Доказательство. По условию Sj — непустой компакт, а в — непрерывная функция, поэтому она достигает на нем своего мак- симума Э. По предположению, 6 положительно. Пусть существуют две точки максимума (®'х, ®2) и (®", v2) функ- ции 0 на 51. Заметим , что v2 ^vn2, поскольку в противном случае из вида функции в имеем ®'2=®2- Если то ®2>®2. Так как множество — выпукло, то (®х, v^gS2, где ®x = (®i+®i)/2, v2=(y'2+v'i)l2. Имеем 0(®1»ъ)=------------ -------------= 2 2 4 Каждое из первых двух слагаемых последней суммы равно 0/2, а третье слагаемое положительно, что невозможно, поскольку в — максимум функции 0. Таким образом, точка (®2, ®2), максимизиру- ющая функцию 0 на множестве 51; единственна. _7.4. Лемма. Пусть S удовлетворяет условиям леммы п. 7.3, a ®г) — точка максимума функции в (®х, ®2) и пусть Если (®х, v2)eS, то имеет место неравенство ®2)<^(®v ®г)- Доказательство. Предположим, что существует такая точка (®х, ®2)gS, что 5(®х, ®2)>5^х, vj). Из выпуклости 3 имеем: 144
(4ф)е^ ГДе »1 = »1 + е(|,1"®1)И|,2 = ®2 + е(®2"®2), 0<е<1- В СИЛУ линейности 8 (vt , v2—v2) > 0. Имеем ч(«'1> v2)+e3(v1-v1, v2-v2)+e2(v1-v1)(v2-v2). Последнее слагаемое — бесконечно малая величина порядка 0 (е). Поэтому при достаточно малом е>0 получаем неравенство 0(®'i, и2)>0(«х, v2), но это противоречит максимальности 9(уг, ®2). 7.5. Перейдем к доказательству теоремы п. 7.2. Для этого пока- жем, что точка v2), которая максимизирует 0(®х, v2), является решением задачи о переговорах. Доказательство. Предположим, что выполнены условия лем- мы п. 7.3. Тогда определена точка 6’1,_?2), которая максимизирует 0(®i, т2). Можно проверить, что ®2) удовлетворяет условиям 1) — 4) теоремы п. 7.2. Она также удовлетворяет условию 5 этой теоремы, так как если ®i = a1®1+/J1 и ®'2 = a2®24-/f2, то 0'(»ь V2)=[v'1-(a1vl + P1)][v2-(a2v2+p2)]=^i<x2e(vi> ®z). и если (®19 т2) максимизирует 0(у1г ®2), то (®'19 ?2) максимизирует S'G4, v2). Покажем, что v2) удовлетворяет условию 6. Пусть множество S' симметрично в смысле условия 6 и ®i=«2. Тогда (у2, vl)eSl и 0(vlt v2)=0(r2, «Д Так как (®1} ®2) — единственная точка, которая максимизирует ®2) на S2, то (®2, ®2)=(®2, ®i), т. е. Таким образом, точка («2, ®2) удовлетворяет условиям 1) — 6). Покажем, что это единственное решение задачи о переговорах. Рассмотрим множество Л={(®1» ®2)|5(®1} ®2Х5(®1} Г2)}. (7.2) По лемме п. 7.4 имеет место включение ScR. Пусть Т получается из R с помощью преобразования Выражая ®2 и ®2 из (7.3) и подставляя в (7.2), получаем, что r={(®l,«'2)|®i+®i<2} и v'1°=v2°=0. Так как Т симметрично, то из свойства 6 имеем, что решение (если оно существует) должно лежать на прямой ®1 = ®2, а согласно свойству 3 оно должно быть точкой (1, 1), т. е. (1, 1)—Ф (Т, 0, 0). Обращая преобразование (7.3) и применяя свойство 5, получаем, что (у2, v2)=(p(R, ®°, ®2). Так как (®1} v2)eS, a Sc:R, на основании свойства 4 пара ®2) является решением для (S, ®°, ®2). Предположим теперь, что условия леммы п. 7.3 не выполнены, 145
т. е. не существует точек (®v v2)eS, для которых v2>v° и v2t>v2. Тогда возможны следующие случаи. / а) Существуют точки, у которых »1>®° и v2=v2. Тогда в качест- ве (»x, »2) возьмем точку в S, которая максимизирует при ограни- чении / б) Существуют точки, у которых vy=v° и ®х>ю2. В этомслучае в качестве (®., vj возьмем точку в S, которая максимизирует v, при ограничении v^=v°. [ в) Переговорное множество S вырождается в точку (®°, v°) мак- симинных выигрышей (например, случаи матричных игр). Полагаем v2~v2- Непосредственно можно проверить, что эти решения удовлет- воряют свойствам 1) — 6), при этом из свойств 1) — 3) следует единственность. Теорема доказана. В игре «семейный спор» (см. пример 14) схема Нэша дает арбитражный выигрыш (®х, ®2)=(5/2, 5/2) (см. рис. И). § 8. ИГРЫ В ФОРМЕ ХАРАКТЕРИСТИЧЕСКОЙ ФУНКЦИИ В § 6 и § 7 на примере игр двух лиц было показано, как, исполь- зуя возможность согласованного выбора стратегий, игроки могут прийти к взаимоприемлемому решению возникающего неантагони- стического конфликта (стратегический подход). Теперь будем счи- тать, что условия игры допускают совместные действия игроков и перераспределение выигрыша. Это предполагает, что полезности различных игроков могут быть оценены единой шкалой (трансфера- бельные выигрыши), и поэтому взаимное перераспределение выиг- рышей не искажает содержательной постановки первоначальной задачи. Представляется естественным, что объединение игроков в максимальную коалицию (в коалицию, состоящую из всех иг- роков) с целью получения максимального суммарного выигрыша приведет к наилучшим результатам также и с точки зрения каждого игрока, при этом нас будет интересовать не столько как коалиция игроков добивается своего суммарного выигрыша, сколько как он будет распределен между членами коалиции (кооперативный под- ход). В § 8 — 10 рассмотрена кооперативная теория игр п лиц. В ней исследуются условия, при которых объединение игроков в мак- симальную коалицию является целесообразным, а отдельные игро- ки не будут иметь желания создавать меньшие группировки или действовать индивидуально. 8.1. Пусть N— {1.и} — множество всех игроков. Любое непус- тое подмножество Sc.N называется коалицией. Определение. Характеристической функцией игры п лиц будем называть вещественную функцию v, определенную на коалициях SczN, при этом для любых непсресекающихся коалиций Т, S (T<=.N, 146
S c:\NJ выполняется неравенство \ «(7)+v(S)^i>(TU5),®(0)=O. (8.1) Свойство (8.1) называется свойством супераддитивности. Оно необходимо для содержательной интерпретации числа v(T) как гарантированного выигрыша коалиции Т в случае, когда она дей- ствует независимо от остальных игроков. При такой интерпретации неравенство (8.1) означает, что коалиция имеет не меньше возможностей, чем две непересекающиеся коалиции S и Т, дейст- вующие независимо. Из супераддитивности v получаем, что для любых непересека- ющихся коалиций S19..., S* i-i Отсюда, в частности, следует, что не существует такого разбиения множества N на коалиции, чтобы суммарный гарантированный выигрыш этих коалиций превышал максимальный выигрыш всех игроков v (N). 8.2. Рассмотрим бескоалиционную игру T=(N, {Х}16у, {Я4/еЛГ). Пусть игроки, составляющие некоторую коалицию SaN, объ- единяют свои усилия с целью увеличения своего суммарного выиг- рыша. Установим, какой наибольший выигрыш они могут себе гарантировать. Совместные действия игроков из коалиции 5 оз- начают, что коалиция S, действуя от имени своих членов как один игрок (обозначим его 7), имеет в качестве множества чистых страте- гий всевозможные комбинации стратегий, составляющих ее игроков из S, т. е. элементы декартового произведения ieS Общность интересов игроков из 5 означает, что выигрыш коалиции S (игрока 1) есть сумма выигрышей игроков из S, т. е. ieS где хеXN, x=(xi} х„) — ситуация в чистых стратегиях. Нас интересует тот наибольший выигрыш, который игроки из S’ могут себе гарантировать. В худшем для игрока 1 случае оставши- еся игроки из N \S могут также объединиться в коллективного игрока 2 с множеством стратегий X^s= f] Xt и интересом, диаме- ieN\S трально противоположным игроку 1 (т. е. выигрыш игрока 2 в ситу- 147
ации х равен — Hs (х)). В результате таких рассуждений вопрос о наибольшем гарантированном выигрыше коалиции S' превратился в вопрос о наибольшем гарантированном выигрыше игрока 1 р ан- тагонистической игре Г5=(Х5, X^s, Hs). В смешанном расширении rs=(Xs, &s) игры Г5 гарантированный выигрыш ю(5) Игрока 1 может разве лишь увеличиться по сравнению с игрой Г5, поэтому в дальнейшем будем рассматривать смешанное расширение игры Г5. Заметим, в частности, _что при такой интерпретации J(S) со- впадает со значением игры Г5 (если оно существует), a v(N)— мак- симальный суммарный выигрыш игроков. Очевидно, что v(S) зави- сит в результате только от коалиции S' (и еще от самой исходной бескоалиционной игры, которая в наших рассуждениях остается одной и той же), являясь ее функцией. Убедимся, что эта функция является характеристической функцией бескоалиционной игры. Для этого достаточно показать выполнение условия (8.1). Заметим, что для каждой бескоалиционной игры, построенной выше, ®(0)=О. Действительно, по определению, Я0(х)= Е Я(х), ie0 но последняя сумма не содержит слагаемых, откуда Н0 (х) тождест- венно равно нулю, поэтому и ®(0)=О. Лемма (о супераддативностн). Для бескоалиционной игры Г=(N, {Х}<в№ {Я(}<елг) построим функцию v(S)=sup inf Ks(ps, v^s), ScN, (8.2) Me w где pseXs, v^s^X^s, TS=(XS, X^s, Ks) — смешанное расширение антагонистической игры Г5. Тогда для всех S, Tc.N, для которых S(\T=0, имеет место неравенство v(S{jT)^v(S)+v(T). (8.3) Доказательство. Заметим, что ®(S’tj7)=sup inf £ Kt(PsuT, vn\(sUt>), MS\JT где ps\jr — смешанные стратегии коалиции S(JT, т. e. произвольные вероятностные меры на Х^т, vw\(sun — вероятностные меры на -^jv\(sun> — выигрыш игрока г в смешанных стратегиях. Если ограничиться только такими вероятностными мерами на Xs\jT, ко- торые являются произведениями независимых распределений ps 148
и vT на декартовом произведении XsxXT, то область изменения переменной, по которой производится максимизация, сузится и суп- ремум разве лишь уменьшится. Таким образом, имеем ®(S(j7)>sup sup inf £ Ki(jisxht, vNX(SUTj). to to ieS(JT Отсюда v W T) inf £ Kt (jis хцт, = . ieS(jT = inf ( £ Kites* Рт, &(/*$ хДт» Ъмзил)- VM(*U*) veS ieT / Так как сумма инфимумов не превосходит инфимум суммы, имеем ®(S(j7)> inf £ Kt(jisx цт, v^s\JT) + inf £ Ktes*Pr, v^(SUn). leT Минимизация первого слагаемого в правой части неравенства по дт, а второго — по д5 (для единообразия переименуем их соответст- венно vr и vs) приводит к соотношениям V (S(J 7) > inf inf £ Ki tes x vT, vv<in)+ Vt VK(S\JT) ieS +inf inf £ Ki(vsXfiT, to *jv\(sui) iBT >inf £ К,^, Vn\s)+inf £ Kter, W)- vt\s ie^ vMf Последнее неравенство справедливо при любых значениях мер д« в первом слагаемом и дт — во втором. Следовательно, по этим мерам можно перейти к супремумам »(S(j7)>sup inf £ Ktes, w)+sup inf ^^(дг, v^r). д» ,6S Дт ’МГ ieT Откуда, используя (8.2), получаем ' v(S\jTy^v(S)+v(T) и супераддитивность доказана. Заметим, что неравенство (8.3) также справедливо, если функция ®(S) строится по правилу »(S)=sup inf H.tes, xn\s), ScN, Xs X#\s 149
где xseXs, x^seX^s, rs=(Xs, X^s, Hs), при этом доказательство дословно повторяет приведенное выше. 8.3. Определение. Бескоалиционная игра P=(N, {X}i6x, {Ht}ieN называется игрой с постоянной суммой, если £ Ht(x)=c=const ieN для всех xeXN, ^=П Xj. Лемма. Пусть T=(N, {A\},ey, {-ffjiew) — бескоалиционная игра с постоянной суммой, функция v(S), ScN, определена, как в лемме п. 8.2, а игры Г5, ScN, имеют значения в смешанных стратегиях. Тогда v(N)=v(S)+v(N\S), ScN. Доказательство. Из определения игры с постоянной суммой получаем, что «(Л0=£Я|(х)=£ к,(ц)=с ieN ieN для всех ситуаций х в чистых ид — в смешанных стратегиях. С другой стороны v (S)=sup inf £ Ki(ps, vM5)=sup inf I с- £ Kt(fis, v^s) ) = = c—inf sup £ K{(ps,vN\s)=c-v(N\S), *n\s Ms ieN^S что и требовалось доказать. 8.4. В дальнейшем под кооперативной игрой будем понимать просто пару (N, »), где v — характеристическая функция, удовлет- воряющая неравенству (8.1), поскольку содержательная интерпрета- ция характеристической функции, обосновывающая свойство (8.1), не имеет принципиального значения. Пример 15 [10]. (Игра «джаз-оркестр».) Директор клуба обещает 100 руб. певцу S, пианисту Р и ударнику D за совместное выступле- ние*. Дуэт певца и пианиста он оценивает в 80 усл. ед., ударника и пианиста в 65 усл. ед. и одного пианиста — в 30 усл. ед. Другие дуэты и солисты не рассматриваются, поскольку присутствие фор- тепиано директор клуба считает обязательным. Дуэт певец — удар- ♦Речь вдет о «золотых рублях». 150
ник зарабатывает 50 усл. ед., а певец — в среднем 20 усл. ед. за вечер. Ударник один ничего не может заработать. Обозначая цифрами 1, 2, 3 игроков S, Ра D соответственно, мы имеем дело с кооперативной игрой (N, ®), где У={1, 2, 3}, ю(1, 2, 3)=Ю0, ®(1, 3)=50, ®(1)=20, v(l, 2)=80, ®(2, 3)=65, г(2) = 30, ®(3)=0. Основная задача кооперативной теории игр п лиц заключается в построении реализуемых принципов оптимального распределения максимального суммарного выигрыша v (N) между игроками. Пусть а,- — сумма, которую получает игрок i при распределении максимального суммарного выигрыша »(iV), N={\, 2,..., n}. Определение. Вектор а=(а15 ..., аД удовлетворяющий усло- виям ({»}), ’бЛГ; (8.4) Ё a(=«(N), (8.5) 1-1 где v ({/}) — значение характеристической функции для одноэле- ментной коалиции S—{i}, называется дележом. Условие (8.4) называется условием индивидуальной рациональ- ности и означает, что, участвуя в коалиции, каждый игрок получает по меньшей мере столько, сколько он мог бы получить, действуя самостоятельно и не заботясь о поддержке каких-либо других иг- роков. Должно также выполняться условие (8.5), так как в случае £ at<v(N) существует распределение а', при котором каждый иг- i»N рок ieN получит больше, чем его доля а,. Если же £ а,>1>(У), то ieW игроки из N делят между собой нереализуемый выигрыш, и поэтому вектор а неосуществим. Следовательно, вектор а может считаться допустимым только при выполнении условия (8.5), которое называ- ется условием коллективной (или групповой) рациональности. На основании условий (8.4), (8.5) для того, чтобы вектор a=(a19 а,) был дележом в кооперативной игре (N, v), необходимо и достаточно выполнение равенства «<=®({’})+Уь ieN’ причем У;>0, ieN, £ y!=v(N)-Y «({»})• ieN ieN Определение. Игра (N, v) называется существенной, если 151
£ ®({i})<®(tf). (8-6) ieN В противном случае игра (N, ») называется несущественной. Для любого дележа а через a(S) будем обозначать величину £ a/=a(S), а множество всех дележей — через D. Несущественная игра имеет единственный дележ а=(®({1}), ®({2}), ®({л})). Во всякой существенной игре с более чем одним игроком множе- ство дележей бесконечно. Поэтому будем анализировать такие игры с помощью отношения доминирования. Определение. Дележ а доминирует дележ /? по коалиции S (обо- значение а^Р), если s ац>Рь ieS, a(S)^»(S). (8.7) Первое из условий в определении (8.7) означает, что дележ а лучше дележа р для всех членов коалиции S, а второе отражает реализуемость дележа а коалицией S (т. е. коалиция 5 на самом деле может предложить каждому из игроков ieS величину af). Определение. Говорят, что дележ а доминирует дележ Р, если существует коалиция S, для которой а^р. Доминирование дележа Р дележом а обозначается как а^р. Доминирование невозможно по одноэлементной коалиции и множеству всех игроков N. Действительно, из а^Р следовало бы Pi<ai^v({i}), что противоречит условию (8.4). А из а^Р следовало бы, что at>Pi для всех ieN и поэтому £ «<> S Pi=v(N)’ что про™- isN ieN воречит условию (8.5). 8.5. Объединение кооперативных игр в те или иные классы существенно упрощает их последующее рассмотрение. В качестве таких классов можно рассмотреть классы эквивалентных игр. Определение. Кооперативная игра (N, ®) называется эквива- лентной игре (N, »'), если существуют положительное число kun таких произвольных вещественных чисел cb ieN, что для любой коалиции ScN выполняется равенство v'(S)=kv(S)+Y ct. (8.8) ieS 152
Эквивалентность игры (N, v) и (N, v) будем обозначать как (N, v)~(N, «/) или »~ю'. Очевидно, что Чтобы убедиться в этом, достаточно поло- жить в формуле (8.8) с,=0, fc=l, v'=v. Такое свойство называется рефлексивностью. Докажем симметрию отношения, т. е. что из условия v~v' следует ю'~». Действительно, полагая fc' = l/fc, с'= —cjk, получим V(S)~W(S)+Z4, ieS т. e. v'~v. Наконец, если и то ®~ю". Это свойство называется транзитивностью. Оно проверяется последовательным применени- ем формулы (8.8). Так как отношение эквивалентности рефлексивно, симметрично и транзитивно, оно разбивает множество всех игр п лиц на взаимо- непересекающиеся классы эквивалентных игр. Теорема. Если две игры v и v' эквивалентны, то отображение а.-* а.', где aj=fcai+c(, ieN, устанавливает также взаимно однозначное отображение множест- ва всех дележей игры v на множество дележей игры v', так что из а^р следует а^Р'. S S Доказательство. Проверим, что o' является дележом в игре (N, »')• Действительно, a'j=kaf+с, > kv ({i})+с,=v' ({i}), % a<= X (kai+cd=kv(N)+ £ c,=t/(JV). ieN ieN ieN Следовательно, для o' условия (8.4), (8.5) выполнены. Далее, если a>j8, то о oii>Pi, ieS, ^a,<®(S), ieS поэтому a-=k^i+Qi> kfii + ct=fii (k > 0), E aj=к £ a,- + £ c,< kv (S) + £ ct=v' (S), ieS ieS ieS ieS 153
т. е. Взаимная однозначность соответствия следует из суще- ствования обратного отображения (оно было использовано при доказательстве симметрии отношения эквивалентности). Теорема доказана. 8.6. При разбиении множества кооперативных игр на попарно непересекающиеся классы эквивалентности возникает задача выбо- ра наиболее простых представителей из каждого класса. Определение. Игра (N, v) называется игрой в (0 — ^редуци- рованной форме, если для всех ieN ®({i})=0, »(iV)= 1. Теорема. Каждая существенная кооперативная игра эквивален- тна некоторой игре в (0 — Vy-редуцированной форме. Доказательство. Пусть ------------------------------->0, •ОТ- L ®({0) 1бУ с,---------------, в'(5)=Ь(5)+^с,. •ОТ- Е «(W) ies ieN Тогда ®'({i})=0, v'(N)— 1. Теорема доказана. Из теоремы следует, что свойства игр, включающие понятие доминирования, можно изучить на играх в (0 — 1)-редуцированной форме. Если « — характеристическая функция произвольной суще- ственной игры (N, v), то v'(S)=------------, SfcN, (8.9) •ОТ- Е •({’}) ieN есть (0 — 1) — нормализация, соответствующая функции v. При этом дележом оказывается любой вектор а=(<х15..., а»), компоненты которого удовлетворяют условиям а(>0, ieN, £а,= 1, (8.10) ieN т. е. дележи можно рассматривать как точки (п — 1)-мерного симп- лекса, порожденного ортами w>=(0......0,1, 0,..., 0), J= 1, п простра- нства Л". 154
§ 9. С-ЯДРО ИЯ- М-РЕШЕНИЕ Перейдем к рассмотрению принципов оптимального поведения в кооперативных играх. Как уже отмечалось в п. 8.4, речь будет идти о принципах оптимального распределения максимального суммарного выигрыша между игроками. 9.1. Возможен следующий подход. Пусть игроки в кооператив- ной игре (N, v) пришли к такому соглашению о распределении выигрыша всей коалиции 2V (дележу а*), при котором ни один из дележей не доминирует а*. Тогда такое распределение устойчиво в том смысле, что ни одной из коалиций 5 невыгодно отделиться от других игроков и распределить между членами коалиции выигрыш и(5). Это рассуждение наводит на мысль о целесообразности рас- смотрения множества недоминируемых дележей. Определение. Множество недоминируемых дележей коопера- тивной игры (N, ®) называется ее С-ядром. Имеет место следующая теорема, которая характеризует С- ядро. Теорема. Для того чтобы дележ а принадлежал С-ядру, необ- ходимо и достаточно выполнение для всех ScN неравенств ®(S)<a(S)=£a(. Доказательство. Для несущественных игр теорема очевидна, и в силу теоремы п. 8.6 достаточно провести ее доказательство для игр в (0 — 1)-редуцированной форме. ' > Докажем достаточность утверждения теоремы. Пусть для деле- жа а выполнено условие (9.1). Покажем, что дележ а принадлежит jC-ядру. Пусть это не так. Тогда найдется такой дележ р, что Р^л, т. е. P(S)>a(S) н 0(S)<®(S). Но это противоречит (9.1). Покажем необходимость условия (9.1). Для любого дележа а, не удовлетворяющего (9.1), существует коалиция S, для которой a(S)<®(5). Положим v(S)—a(S) Pi—^i'^'------9 l^S, Pi— 9 l$&9 |S| |N|-|S| где |S] — число элементов множества S. Легко видеть, что Р (N)=1, Д>0 и Piga- Отсюда следует, что а не принадлежит С-ядру. Из теоремы п. 9.1 следует, что С-ядро является замкнутым, выпуклым подмножеством множества всех дележей (С-ядро может быть пустым множеством). ' , 9.2. Пусть игроки договариваются о выборе кооперативного Оглашения. Из супераддитивности v следует, что такое соглашение 155 (9.1)
приводит к образованию коалиции N всех игроков. Решается вопрос о способе дележа суммарного дохода v (N), т. е. о выборе вектора абЛ", для которого £ а,=«(У). ieN Минимальным требованием для получения согласия игроков выбрать вектор а является индивидуальная рациональность этого вектора, т. е. условие af>v({i}), ieN. Пусть игроки договариваются о выборе конкретного дележа а. Против выбора дележа может возражать некоторая коалиция S, требующая для себя более выгод- ного распределения. Коалиция S выдвигает это требование, угро- жая в противном случае нарушить общую кооперацию (это вполне реальная угроза, так как для достижения дохода v(N) требуется единодушное согласие всех игроков). Предположим, что остальные игроки N\S реагируют на эту угрозу объединенными действиями против коалиции S. Тогда максимальный гарантированный доход коалиции S оценивается числом v(S). Условие (9.1) означает сущест- вование стабилизирующей угрозы коалиции S со стороны коалиции N\S. Таким образом, С-ядром игры (N, v) является множество устойчивых в смысле коалиционных угроз распределений макси- мального суммарного дохода v (N). Приведем еще один критерий принадлежности дележа С-ядру. Лемма. Пусть а — дележ игры (N, v). Тогда а принадлежит С-ядру в том и только в том случае, когда для всех коалиций Sc.N выполняется неравенство £a,<v(A)—»(У\$). (9.2) ieS Доказательство. Так как £a,=v(2V), то приведенное выше неравенство можно записать в виде v(tf\S)< Е а.- ieN\S Теперь утверждение леммы следует из (9.1). Из условия (9.1) видно, что если дележ а принадлежит С-ядру, то ни одна коалиция S не может гарантировать себе выигрыш, превос- ходящий ^at=a(S), т. е. суммарный выигрыш, который обеспечи- 16 S' вается членам коалиции дележом а. Это делает нецелесообразным существование коалиций S, отличных от максимальной коалиции N. Теорема п. 9.1 дает достаточные основания для использования С-ядра как важного принципа оптимальности в кооперативной теории. Однако во многих случаях С-ядро может оказаться пустым, а в других случаях оно представляет собой множественный принцип 156
оптимальности и остается всегда открытым вопрос, какой все-таки дележ из С-ядра необходимо выбрать в конкретном случае. Пример 16. Рассмотрим игру «джаз-оркестр» (см. пример 15 п. 8.4). Суммарный доход трех музыкантов максимален (и равен 100 руб.) в случае их совместного выступления. Если певец выступает отдельно от пианиста с ударником, то все втроем они получают 65 + 20 руб., если пианист выступает один, то 30 + 50 руб. Наконец, суммарный доход равен 80 руб., если пианист и певец отказываются от участия ударника. Какое распределение максимального общего дохода следует признать разумным, учитывая описанные возмож- ности игроков в смысле частичной кооперации и индивидуального поведения? Вектор а=(а1, а2, а3) в игре «джаз-оркестр» принадлежит С-ядру тогда и только тогда, когда {ах>20, а2>30, а3>0, а1 + а2 + а3=100, «1 + «2^80, а2 + а3>65, oq + a^SO. Это множество является выпуклой оболочкой следующих трех дележей: (35, 45, 20), (35, 50, 15), (30, 50, 20). Таким образом, выигрыши всех игроков определяются с точностью до 5 руб. Типич- ным представителем ядра является центр (среднеарифметическое крайних точек) С-ядра, а именно: а*=(33,3; 48,3; 18,3). Для дележа а* характерно, что все двуэлементные коалиции имеют одинаковый дополнительный доход: at+aj—v({i, j})=1,6. Дележ а* является справедливым компромиссом внутри С-ядра. 9.3. Из того, что С-ядро пусто, не следует невозможность коопе- рации всех игроков N. Это просто означает, что никакой дележ не может быть стабилизирован с помощью простых угроз, описанных выше. Пустота ядра имеет место тогда, когда промежуточные Коалиции слишком сильны. Это утверждение поясняется следу- ющим образом. 157
Пример 17 [10]. (Симметричные игры.) В симметричной игре коалиции с одинаковым числом игроков имеют одинаковый выиг- рыш. Характеристическая функция v имеет следующий вид: r(S)=/(|S|) для всех ScN, где |S| — число элементов множества S. Предположим без потери общности, что/(1)=0 и У={1, ..., л}. Тогда множеством дележей игры (N, v) является следующий симп- лекс в Л”: ^a/=/(n)=v(iV), a,>0, i=l, .... п. i—1 С-ядром является подмножество множества дележей, определенное линейными неравенствами (9.1), т. е. это выпуклый многогранник. В силу симметричности v (S) С-ядро также симметрично, т. е. ин- вариантно относительно любой перестановки компонент а15 ..., ая. Учитывая, кроме того, выпуклость С-ядра, можно показать, что оно не пусто в том и только в том случае, когда содержит центр а* множества всех дележей (af=f(n)/n, i=l, ..., л). Возвращаясь к си- стеме (9.1), получаем, что С-ядро не пусто тогда и только тогда, когда для всех |5] = 1....... п имеет место неравенство (1/|5|)/(|5|)<(1/л)/(и). Таким образом, С-ядро непусто тогда и толь- ко тогда, когда не существует промежуточной коалиции S, в кото- рой средняя доля каждого игрока больше соответствующей вели- чины в коалиции N. Рис. 12 (13) соответствует случаю, когда С-ядро непусто (пусто). 9.4. Пример 18 [2]. Рассмотрим общую игру трех лиц в (0 — 1)- редуцированной форме. Для ее характеристической функции имеем ю(0)=г(1)=ю(2)=ю(3)=О, v(l, 2, 3)=1, г(1, 2)=с3, »(1, 3)=с2, «(2, 3)=с19 где 0<с(<1, i=l, 2, 3. На основании теоремы п. 9.1, чтобы дележ а принадлежал С-ядру, необходимо и достаточно выполнение следующих неравенств: a1 + a2>c3, ax+a3>c2, a2+a3>c1 или a3<l-c3, a2<l-c2, ai^l-Cj. (9.3) Складывая неравенства (9.3), получаем “1 + «2 + аЗ<3~(С1+С2 + Сз). или, поскольку сумма всех a,-, i= 1, 2, 3, тождественно равна единице, с1+с2+с3<2. (9.4) Последнее неравенство является необходимым условием сущест- 158
вования в рассматриваемой игре непустого С-ядра. С другой сто- роны, если (9.4) выполняется, то существуют такие неотрицатель- ные £15 £3, что з ^(с,+е,)=2, с,+£,<1,1=1, 2, 3. Положим Д=1—1=1, 2, 3. Числа pt удовлетворяют нера- венствам (9.3), так что дележ P=(fii, Рг> Рз) принадлежит С-яд- ру игры. Таким образом, соотно- шение (9.4) является также доста- точным для существования непу- стого С-ядра. Геометрически множество дележей в рассматриваемой игре есть симплекс: а1 + а2 + а3 = 1, а,^0, /=1, 2, 3 (треугольник АВС, рис. 14). Непустое С-ядро представляет собой пересечение множества деле- жей (Д АВС) и выпуклого многогранника (параллелепипеда) 0<а,<1-с„ i=l, 2, 3. Это часть треугольника АВС, вырезаемая линиями пересечения плоскостей а, = 1 —с„ i=l, 2, 3 (9-5) с плоскостью ДАВС. На рис. 14 через ah /=1, 2, 3, обозначена прямая, образованная пересечением плоскостей а, = 1 — с, и а2 + а2 + а3 = 1. Точка пересечения двух прямых а, и а, принадлежит треугольнику АВС, если неотрицательна к-я (k^i,k^j) координата этой точки, в противном случае она находится за пределами А АВС (рис. 15, 16). Таким образом, С-ядро имеет вид треугольника, если совместное решение любой пары уравнений (9.5) и уравнения «1 + а2 + а3 = 1 состоит из неотрицательных чисел. Это требование выполняется при С1 + Сг>1, ct+c3>l, с2 + с3>1. (9.6) В зависимости от различных случаев (а всего их может быть восемь) С-ядро будет приобретать тот или иной вид. Например, если не выполняется ни одно из трех неравенств (9.6), то С-ядро оказывает- ся шестиугольником (рис. 16). 9.5. Другим принципом оптимальности в кооперативных играх является Н — ЛТ-решение. Н — ЛТ-решение, так же как и С-ядро, является множественным принципом оптимальности в множестве 159
вл(о,о, О Вл(0,0,1) А Рис. 15 Рис. 16 всех дележей. Хотя элементы С-ядра и не доминируются никакими другими дележами, однако нельзя утверждать, что в С-ядре для любого наперед заданного дележа а найдется доминирующий его дележ. Поэтому оказывается целесообразной формулировка при- нципа оптимальности, который бы учитывал и это последнее обсто- ятельство. Определение. Подмножество дележей L кооперативной игры (N, v) называется Н — М-решением, если: 1) из а>/? следует, что либо афЬ, либо 0фЬ (внутренняя устой- чивость); 2) для любого афЬ существует такой дележ РфЬ, что (внешняя устойчивость). К сожалению, применение понятия Н — М-решения на практике невозможно. Оно несет скорее философский, нежели практический смысл. Между С-ядром кооперативной игры и ее Н — Л/-решением имеется известная связь. Например, если С-ядро не пусто и Я — М- решение существует, то оно содержит С-ядро. Действительно, пусть дележ а принадлежит С-ядру; тогда если бы он не принадлежал Н — Af-решению L, то согласно свойству 2) нашелся бы такой дележ а', что а'>а. Однако это противоречит принадлежности а С- ядру как множеству недоминируемых дележей. Теорема. Если для характеристической функции игры (N, v) в (0 — \)-редуцированной форме (|2V| = n) выполняются неравенства v(S)^----?--, п-ISI + 1 где |S| — число игроков в коалиции S, то С-ядро этой игры не пусто и является ее Н — М-решением. 160
Доказательство. Возьмем произвольный дележ а, лежащий вне С-ядра. Тогда существует непустое множество коалиций {5}, по которым можно доминировать а, т. е. это те и только те коалиции S, для которых a(S)<v (S). Множество {S} частично упорядочено по включению, т. е. St>S2, если St=>S2. Возьмем в нем какой- нибудь минимальный элемент So, который, очевидно, существует. Пусть к — число игроков в коалиции So. Очевидно, 2<к<п— 1. Построим дележ Р следующим образом: С ®(‘S'o)—“(%) . с 10Q+------, ieS0, В=< к )-№>) its I п-к ' Так как P(S0)=v(S0), Д>а(, ieSQ, то /? доминирует а по коалиции So. Докажем, что Р содержится в С-ядре. Для этого достаточно показать, что P(S)^v(S) при произвольном S'. Пусть сначала |5]<к. Заметим, что р не доминируется по 5'0, так как P(S0)=v(S0) и не может доминироваться ни по какой коалиции Sc=S0, поскольку Pi>Oi (ieS0), a So — минимальная коалиция, по которой можно доминировать а. Если же хоть один игрок из S не содержится в So, то 1 l-v(S0) 1-и-Л+Г 1 1 ------>----------=----->-------> v (S). л—к п—к п—fc+1 п—1>$|+1 Таким образом, Р не доминируется ни по какой коалиции, содер- жащей не более к игроков. Пусть теперь |5] > к. Если S=S0, то P(S)=------------4- ю (So) > > п—к п—к |S|-fc+*-|S| + l 1 >------------=------> v (S). п—к+к—|S| + 1 п-|S| + 1 Если же S не содержит So, то число игроков множества S, не содержащихся в So, не меньше |Sj—k+1, поэтому й,п^-*+1Ю-’(5оКИ-*+Ч 1 Р (S) >------------->------->--------(S). л—к п—к+l л—|S| + 1 Таким образом, Р не доминируется ни по какой коалиции S. Следовательно, р содержится в С-ядре. Кроме того, р доминирует а. Итак, доказано, что С-ядро непусто и удовлетворяет свойству 2, характеризующему множество Н — ^/-решений. Свойству 1 С-ядро 6 Теория игр 161
удовлетворяет автоматически в силу определения. Теорема до- казана. 9.6. Определение. Игра (N, г) в (0 — \)-редуцированной форме называется простой, если для любых Sc-N v(S) принимает лишь одно из двух значений 0 или 1. Кооперативная игра называется простой, если проста ее (0 — \)-редуцированная форма. Пример 19 [2]. Рассмотрим простую игру трех лиц в (0 — 1)- редуцированной форме, в которой коалиция, состоящая из двух и трех игроков, выигрывает (v(S)=l), а коалиция, включающая только одного игрока, проигрывает (»({i})=0). Для этой игры рассмотрим три дележа: а12=(1/2, 1/2, 0), а13=(1/2, 0, 1/2), а23=(0, 1/2, 1/2). (9.7) Ни один из этих трех дележей не доминирует никакого другого. Множество дележей (9.7) имеет и следующее свойство, любой дележ (кроме трех дележей ау) доминируется одним из дележей а,7. Чтобы это проверить, рассмотрим какой-нибудь дележ а=(а15 а2, а3). Так как мы рассматриваем игру в (0 — 1)-редуцированной форме, то а,>0 и а1 + а2+а3 = 1. Следовательно, не более двух компонент вектора а могут быть не меньше 1/2. Если их действительно две, то каждая из них равна 1/2, в то время как третья равна 0. Но это означает, что а совпадает с одним из ау. Если же а — какой-нибудь иной дележ, то он имеет не более одной компоненты, не меньшей чем 1/2. Значит, по крайней мере две компоненты, например, а,- и ау, где i<j, меньше 1/2. Но в этом случае Оц>~а.. Таким образом, три дележа (9.7) образуют Н—JW-решение. Но это не единственное Н — ЛГ-решёние. Пусть с — любое число из отрезка [0, 1/2]; легко проверить, что множество Ьз,с={(о, 1—с—а, с)|0<а<1 — с} также является Н — ЛГ-решением. Действительно, в это множество входят дележи, при которых игрок 3 получит постоянную с, а игро- ки 1 и 2 делят остаток во всевозможных пропорциях. Внутренняя устойчивость следует из того, что для любых двух дележей а и Д из этого множества имеем: если а2>р3, то а2<Р2. Однако доминиро- вание по коалиции, состоящей из единственного участника, невоз- можно. Чтобы доказать внешнюю устойчивость Л3, „ возьмем ка- кой-либо дележ РфЬз-е. Это означает, что либо р3>с, либо р3<с. Пусть Р3>с, например р3=с+е. Определим дележ а следующим образом: а1=^1 + б/2, а2=р2+е/2, а3 = с. 162
Тогда, ae£3i с и a^/? по коалиции {1, 2}. Пусть теперь р3<с. Ясно, что либо /fj^l/2, либо р2^Л/2 (ибо в противном случае их сумма была бы больше 1). Пусть Pt 1/2. Положим a=(1 — с, 0, с). Так как l-ol/2>ft, то а^р по коалиции {1, 3}. Очевидно, что ае£з1<:. Если же Р2^ 1/2, то можно показать аналогично, что yj^P, где у=(0, 1 — с, с). Итак, кроме симметричного Н — ЛГ-решения, рассматрива- емая игра имеет еще целое семейство решений, при которых игрок 3 получает фиксированное количество с из отрезка 0<с< 1/2. Эти Н— Л/-решения называются дискриминирующими; говорят, что игрок 3 при этом дискриминирован. В случае множества Lj_ 0 гово- рят, что игрок 3 полностью дискриминирован или исключен. Из соображений симметрии очевидно, что существуют также два семейства Н — Л/-решений е и „ в которых дискриминируют- ся игроки 1 и 2 соответственно. Предшествующий пример показывает, что у игры может быть чрезвычайно много Н — ^/-решений. Совершенно неясно, какое из них следует выбрать. Когда же Я — ЛЛрешение выбрано, остается непонятным, какой из него выбрать дележ. Существование Н — ЛГ-решений в общем случае до сих пор не доказано, однако получены некоторые частные результаты. Одни из них касаются существования Н — ЛГ-решений для конкретных клас- сов игр, другие — существования решений определенного типа [5]. § la ВЕКТОР ШЕПЛИ 10.1. Множественность рассмотренных ранее принципов оптима- льности С-ядра иН — M-решения в кооперативных играх, а также жесткие условия существования этих принципов стимулируют по- пытки поиска принципов оптимальности, существование и единст- венность которых были бы обеспечены в каждой кооперативной игре. К таким принципам оптимальности относится вектор Шепли. Вектор Шепли определяется аксиоматически. Определение. Носителем игры (N, v) называется такая ко- алиция Т, что »(>S)=»(S’Q7) для любой коалиции ScN. Содержательно определение утверждает, что любой игрок, не принадлежащий носителю, является «болваном», т. е. не может ничего внести ни в какую коалицию. Рассмотрим произвольную перестановку Р упорядоченного мно- жества игроков Я={1, 2, ..., п]. С этой перестановкой связана подстановка я, т. е. такая взаимно однозначная функция я: N-*N, что для ieN значение n(i)eN представляет собой элемент из N, в который переходит ieN в перестановке Р. Определение. Пусть (N, ®) — игра п лиц. Р—перестановка множества N, а я — соответствующая ей подстановка. Тогда через 6* 163
(N, nv) обозначим такую игру (N, и), что для любой коалиции ScN, S— {1'1, i2, •••» («} и({лО\), n(i2), n(i,)})=v(S). По существу игра (N, nv) отличается от игры (N, v) лишь тем, что в последней игроки поменялись ролями в соответствии с переста- новкой Р. С помощью этих определений можно изложить аксиоматику Шепли. Сначала заметим, что так как кооперативные игры п лиц, в сущности, отождествляются с вещественными (характеристичес- кими) функциями, то можно говорить о сумме двух или большего числа игр, а также о произведении игры на число. 10Л. Поставим в соответствие каждой кооперативной игре (N, v) вектор фЫ=(Ф1Ы, ..., ФлМ), компоненты которого будем интер- претировать как выигрыши, полученные игроками в результате соглашения или решения арбитра. При этом будем считать, что указанное соответствие удовлетворяет следующим аксиомам. Аксиомы Шепли. 1. Если S — любой носитель игры (N, v), то £ [»]=»(<$)• ieS 2. Для любой подстановки п и ieN Ф<«[я»]=Ф<М- 3. Если (N, и) и (N, v) — две любые кооперативные игры, то Ф«[и+®]=Ф<М+Ы»]- . Определение. Пусть <р — функция, ставящая в соответствие согласно аксиомам 1 — 3 каждой игре (N, v) вектор ф[«]. Тогда <р[®] называется вектором значений или вектором Шепли игры (N, v). Оказывается, что этих аксиом достаточно для определения един- ственным образом значения для всех игр п лиц. Теорема. Существует единственная функция <р, определенная для всех игр (N, v) и удовлетворяющая аксиомам 1 — 3. 10.3. Доказательство теоремы опирается на следующие резуль- таты. Лемма. Пусть для любой коалиции ScN игра (N, и\) определя- ется следующим образом: о, s$ т, 1, ScT. (10.1) 164
Тогда для игры (N, w,) аксиомы 1, 2 однозначно определяют вектор . , (1/л, ieS, <P/[ws]=< (10.2) ( О, ifb, где s= |S| — число игроков в S. Доказательство. Ясно, что S' — носитель как и любое множество Т, содержащее множество S'. Тогда по аксиоме 1, если Sc Т, то 1еТ Но это означает, что 9>,[ws]=0 для i£S. Далее, если п — любая подстановка, которая переводит S в себя, то nws= ws. Следователь- но, в силу аксиомы 2 для любых i, jeS имеет место равенство Так как этих величин всего s= |S|, а сумма их равна 1, то <pi[w2=l/s, если ieS. Игра с характеристической функцией ws, определяемой (10.1), называется простой игрой п лиц. Таким образом, лемма утвержда- ет, что для простой игры (N, wy) вектор Шепли определяется форму- лой (10.2). Вектор Шепли для игры (N, ws) определяется единствен- ным образом. Следствие. Если с>0, то (c/s, ieS, its. Доказательство очевидно. Таким образом, ^[cwj=c^[wi] для с>0. Теперь покажем, что если J^CgWs является характеристической функцией, то ( Ecsws )=E^(csws)=Ecs^(ws)- <10-3) \s / s s В случае cs>0 первое равенство в (10.3) постулируется аксиомой 3, второе следует из следствия. Далее, если и, v и и—v — харак- теристические функции, то согласно аксиоме 3 имеем ф[и—»]=ф[и]—ф[ю]. Отсюда следует справедливость (10.3) для лю- бых cs. Действительно, если £ csws — характеристическая функция, s 165
то *’=Zcsws = Z csws-( Z (-c5)w5), S {5|es>0} \{S|c*<0} / поэтому ФН = Ф Z csws -Ф Z (~cs>ws = L{S|c,»O} J L{S|c,<0} = Z Z (-cs)^lwsl=Zcs<P[wsl- (S|^>o) {sk,<o} s 10.4. Лемма. Пусть (N, v) — любая игра» тогда найдутся 2я — 1 вещественных чисел cs, таких, что v= % cju>s, (10.4) S=N где ws определены (10.1), а суммирование ведется по всем подмноже- ствам S множества N, исключая пустое множество. При этом представление (10.4) единственно. Доказательство. Положим . cs= £ (-1Г'»(7) (TlTcSj (10.5) (здесь t — число элементов в Т). Покажем, что эти числа cs удовлет- воряют условиям леммы. Действительно, если U — произвольная коалиция, то Z csws(U)= Z cs= Z ( Z (-1)' '®GD)= {S|ScA7} {SISaE/} {S|ScU} \{Т|Гс5} / = Z Z (-1)'" {T|T=U}L{5|TcScD} «(7). Рассмотрим теперь величину в квадратных скобках в последнем выражении. Для каждого значения 5 между i и и имеется QzJ таких множеств S с s элементами, что Тс S’с U. Следовательно, выраже- ние в скобках можно заменить следующим выражением: Zc5=a-ir'=z«-u-i)'“, JT-rf но это биномиальное разложение (1 — 1)“ '. Следовательно, для всех t<u оно равно 0, а для t=u равно 1. Поэтому для всех UcN Z csWs(U)=v(U). {S\ScH} 166
Докажем единственность представления (10.4). Любой харак- теристической функции v соответствует элемент пространства Д2”-1. Действительно, упорядочим коалиции TcN. Тогда каждой непустой коалиции Tc.N соответствует компонента вектора, равная ®(7). Эти векторы будем обозначать, как и функции, через v. Очеви- дно, что простейшим характеристическим функциям ws соответ- ствуют векторы, у которых компоненты равны либо нулю, либо единице. Докажем, что простейшие характеристические функции (точнее, соответствующие им векторы) линейно независимы. Дейст- вительно, пусть Z ^swsGD=0 Д™ 80631 TcN. Self Тогда для T={i} имеем ws({i}) = 0, если S^{i}, и w5({/})= 1, если 5'={i}. Поэтому 2{/}=0 для всех ieN. Продолжим доказательство методом индукции. Пусть 2s=0 для всех ScT, S^T. Покажем, что Аг=0. Действительно, X ^Sws(^ = X ^SlVs(^)=^T = ®’ S<=W ScT Таким образом, мы имеем 2я—1 линейно независимых вектора в R2 ~1, поэтому любой вектор, а значит и любая характеристичес- кая функция v единственным образом выражается в виде линейной комбинации (10.4) простейших характеристических функций ws. Лемма доказана. 10.5. Перейдем к доказательству теоремы п. 10.2. Лемма п. 10.4 показывает, что любая игра может быть представлена в виде линей- ной комбинации игр ws, причем представление (10.4) единственно. Согласно п. 10.3 функция (р [ю] единственным образом определяется соотношениями (10.3), (10.2). Пусть (N, v) — произвольная игра. Получим теперь выражение для вектора ср [ю]. Согласно п. 10.3, 10.4 <Р.М= X M’JWsH X cs(lM (5|5cAQ (SlieScW) но cs определены формулой (10.5). Подставляя (10.5) в это выраже- ние, получаем X алоГ X = {Sh’GS'cxy} L(r|Tc=S} = X Г х . (Т| Тс=л} L{S| 7{JiGScN} Положим 167
ъ(Т)= X (-1Г'(1/Д (10.6) {S|T(JieScW} Если гфТ и T=T'(J{i}, то yi(T')=—yt(T). Действительно, все члены в правой части (10.6) в обоих случаях одни и те же, и только /=/'4-1, следовательно, они отличаются лишь знаком. Таким образом, имеем Ф.Н= Е y,(T)[«(T)-®(T\{i})]. (Т|1еГсЛ) Далее, если iеТ, то ровно CJZ' таких коалиций Scs элементами, что TcS. В результате получаем хорошо известный определенный ин- теграл: 7/(ЗЭ=Ё(-1Г' CBZ'(l/5)= 11 «» f £(-1)'"G-rx”' dx= S*at J J S—t 0 0 1 1 = lx'-1 E(— 1)г~* С^х~1 dx= | x'-‘ (1 — x)n~'dx. J s*>t J 0 0 Таким образом, имеем (бета-функция) nl и, следовательно, фд«]= Е (ю.7) {Г|1еТ=Л} и! Формула (10.7) определяет компоненты вектора Шепли в явном виде. Это выражение удовлетворяет аксиомам 1 — 3 п. 10.2. Заметим, кроме того, что вектор <р [»] всегда является дележом. Действительно, в силу супераддитивности функции v Г1. zr.u v O-DK»-')! (г-1)!(л-г)! <?;[«]>»({’}) Е ---------J---=»({’}) ЕС-1-------:-----=»({/})• (ГЦеТсЛ} «! /-1 «! 10.6. Если отвлечься от аксиоматического определения, то век- тору Шепли, выраженному формулой (10.7), можно дать следующее содержательное истолкование. Предположим, что игроки (элемен- ты множества N) решили встретиться в определенном месте в опре- деленное время. Естественно, что из-за случайных отклонений все 168
они будут прибывать в различные моменты времени; однако пред- полагается, что все порядки прибытия игроков (т. е. их перестанов- ки) имеют одну и ту же вероятность, а именно 1/(л!). Предположим, что если игрок i, прибывая, застает на месте членов коалиции 7\{i} (и только их), то он получает выигрыш ® (7)—v (Т\ {?}); иначе говоря, его выигрышем является предельная величина, которую он вносит в коалицию. Тогда компонента вектора Шепли ф([®] представляет собой математическое ожидание выигрыша игрока i в условиях этой рандомизационной схемы. 10.7. Для простой игры (п. 9.6) формула для вектора Шепли особенно наглядна. Действительно, v(T)—»(7\{i}) всегда равно ли- бо 0, либо 1, причем это выражение равно 1, если Т—выиг- рывающая коалиция, а коалиция 7\ {г} не является выигрывающей. Следовательно, имеем Ф»Ы=Е0-1)!(и-/)!М т где суммирование распространяется на все такие выигрывающие коалиции Г=> i, для которых коалиция 7\ {/} не является выигрыва- ющей. Пример 20 [2]. (Игра с главным игроком.) В игре участвуют п игроков, один из которых называется «главным». Коалиция S вы- игрывает 1, если она либо содержит главного игрока и хотя бы одного кроме него, либо всех п—1 «неглавных». Если главный игрок имеет номер п, то характеристическая функция этой игры записыва- ется в следующем виде: {1, п}, i^n, ' *=(*..."-*> 0, в остальных случаях. Ясно, что для всякой коалиции Т=з{и} условия v(7)=l и ®(7\{и})=0 выполняются тогда и только тогда, когда 2<|7]<и—1. Поэтому Г1 0! "-2 Ф»М = Z С„_\--------=----. /-2 л! п Поскольку игра имеет (0 — 1)-редуцированную форму, Л —1 Z <?<[»]= 1-флМ=2/и. /»! Все неглавные игроки равноправны, поэтому в силу симметрии Ф<Ы=—-—, i=l, •••> п— 1. л(л-1) 169
Таким образом «монопольное» положение главного игрока обеспечивает ему в (и — 1)(п—2)/2 раз больший выигрыш, чем «рядо- вым» участникам игры. 10.8. Пример 21 [2]. {«Помещик и батраки».) Предположим, что имеются п — 1 батраков (игроки i=l, ..., п— 1) и помещик (игрок п) и что помещик, наняв к батраков, получит от урожая доход f(k) (f(k) — монотонно возрастает), а батраки сами дохода получить не могут. Это описывается следующей характеристической функцией: (f(|5|-l), neS, ю(5)=<' (О, в противном случае. Здесь для всех T=>{n}, |7]> 1, v(T)-v(T\{»})=/(/-!), где /=|7], и из (10.7) следует т г , V Г«-1 ('-ПК"-»)! n 1 V1 ГГА <M®J=L c»-i------;-----/(/-1)=- L fW- 1-2 я! я На основании условия эффективности и симметрии всех батраков (f(n-D-- £ Л0), f-1, П-1- Я-1 п г_, Уиражмяия задача 1. Два объединения производят разведку полезных ископаемых на п месторож* дениях. Фонды средств на разведку у 1-го и 2-го объединения составляют а и fl соот- ветственно. Прибыль от добычи полезных ископаемых на ьм месторождении равна ?i>0, она распределяется между объединениями пропорционально доле средств, которые они вложили в i месторождение. При этом если в i месторождение обоими не вложено никаких средств, то и прибыли, полученные обоими объединениями на i-м месторождении, также равны нулю. а) Описать указаний конфликт в виде игры двух лиц, считая выигрышем каж- дого объединения суммарную прибыль, полученную от добычи полезных ископа- емых на всех месторождениях. б) Найти ситуацию равновесия по Нэшу. Указание. Воспользоваться вогнутостью функций по х и Н2 по у. 2. В экологически значимом районе имеется п промышленных предприятий, на каждом из которых один источник загрязнения. Значение концентрации qt вредной примеси, выбрасываемой ьм предприятием, пропорционально величине выброса i=l, ..., л, этого предприятия. Потери ьго предприятия складываются из расходов на переработку отходов производства (/}(х/)) и налога за загрязнение, который пропорционален суммарной концентрации q вреддой примеси от выброса всех предприятий. Величина О не должна превышать q — значения предельно до- пустимой концентрации вредной примеси. В противном случае ье предприятие дополнительно платит штраф Sj. Описать указанный конфликт в виде бескоалиционной игры п лиц, считая проигрышем каждого предприятия суммарные затраты на природоохранные мероп- риятия. 170
Указание. Воспользоваться результатом примера 5 п. 1.4. 3. Найти множества всех ситуаций равновесия по Нэшу (в чистых стратегиях) в следующих (т х л)-биматричных играх с матрицами А = {а,у} и В = {Ду}. а) Матрицы Ан В — диагональные и положительные, т. е. т=п, и а«>0, 1 = 1, ..., /и, j=l,..., п. 6) в) Г2 0 51 Г2 2 Г Л = , В= |_2 2 3J [0 7 8 4. Показать, что в биматричной игре с матрицами ситуация (2, 2) является равновесной. Является ли она сильно равновесной? 5. В биматричной игре с матрицами Г4 1 0“| ГО 5 6“| 2 7 5 _6 0 1_ в= 7 0 2 2 6 1 найти все ситуации, оптимальные по Парето в чистых стратегиях. Есть ли в этой игре равновесные ситуации в чистых стратегиях? б. Изобразить графически в координатах (Кь К2) множество всевозможных векторов выигрышей в смешанных стратегиях в игре «семейный спор» (см. п. 1.4). Указание. Произвольные смешанные стратегии х и у игроков 1 и 2 соответст- венно могут быть записаны в виде x=(f, 1 — f), у«0|, 1— if), С, ^е[0, 1]. Записывая функц ии выигрыша Кг и К2 в смешанных стратегиях и исключая один из параметров, получаем однопараметрическое семейство отрезков, объединение которых и есть искомое множество (см. рис. 9). Криволинейная часть границы представляет собой огибающую этого семейства отрезков и является частью параболы: 5Х*+5Х£- ЮКА-18(^1+К2)+45=0. 7. В биматричной игре с матрицами найти вполне смешанную ситуацию равновесия по Нэшу. Имеет ли эта игра еще ситуации равновесия в смешанных стратегиях? Указание. Найти сначала вполне смешанную ситуацию равновесия (х, у), f3), Чъ затем такую равновесную ситуацию, для которой =0, нт. д. 8. «Игра на оригинальность» [23]. Рассматривается бескоалиционная игра п лиц 171
Г=(^> {Xi}ieN, {Hi}ieN), где XI={0, 1}, ЯДО, ..., O||l)=gl>O, Я,(1, l||O)=Af>O, i i Hi(x)=Q в остальных случаях, где || означает, что замена производится на i-м месте. i а) Интерпретировать игру в терминах рекламного дела. б) Найти вполне смешанную ситуацию равновесия. 9. В п. 10.1 гл. I было показано, что игры двух лиц с нулевой суммой можно решать методом «фиктивного разыгрывания». Рассматривая биматричную игру с матрицами “2 0 1“ 1 2 0 -0 1 2_ ~1 0 2“ 2 1 0 _0 2 1_ показать, что этот метод не может быть использован для нахождения ситуаций равновесия в биматричных играх. 10. Игра «музыкальные стулья» [10]. Имеются два игрока и три стула, помечен- ные цифрами 1, 2, 3. Стратегия игрока состоит в выборе номера стула. Оба игрока несут потери при выборе одного и того же стула. Если же их выборы различны, то тот игрок, например z, чей стул следует сразу за стулом игрока у, выигрывает вдвое больше, чем игрок у (предполагается, что стул 1 следует за стулом 3). Получаем биматричную игру Г (Л, В), Г(0, 0) (1, 2) (2, 1)П (Л, В)= (2, 1) (0, 0) (1, 2) L(l, 2) (2, 1) (0, 0)J а) Показать, что единственное вполне смешанное равновесие по Нэшу состоит в равновероятном выборе стульев каждым игроком. б) Показать, что равновесие в совместных смешанных стратегиях имеет вид [1/6, если ( 0, если 1«у. в) Показать, что выигрыши в ситуации равновесия по Нэшу не являются оп- тимальными по Парето, а равновесие в совместных смешанных стратегиях приводит к выигрышам \2)> оптимальным по Парето. 11. Равновесие в совместных смешанных стратегиях не обязывает игроков приде- рживаться чистых стратегий, реализовавшихся в результате принятой совместной смешанной стратегии (см. определение п. 6.1). Если же мы обязаны придерживаться результатов конкретной реализации совместной смешанной стратегии, то можно обобщить «равновесие в совместных смешанных стратегиях». Для всех igN обозна- чим через д (N\ {/}) сужение распределения д на множество « fj Xа именно ieMO) Д(Я\{/}) = 2 д(х||х/) для всех хе Xj. Будем говорить, что д есть слабое равновесие в совместных смешанных стратегиях, если выполнены следующие неравенства для всех ieN и 172
Е Я((х)д(х)> £ Я(х||^д(М{1}). Х6ДУ' х幑 а) Доказать, что всякое равновесие в совместных смешанных стратегиях являет- ся слабым равновесием в совместных смешанных стратегиях. б) Пусть д=(д15рп) — векторная ситуация в смешанных стратегиях в игре Г. Показать, что вероятностная мера д = f] д, на множестве 1= f] является слабым равновесием в совместных смешанных стратегиях и равновесием в совместных стратегиях тогда и только тогда, когда ситуация д=(/х15..., дл) равновесна по Нэшу. 12. а) Доказать, что в игре, сформулированной в упр. 10, множество ситуаций равновесия по Нэшу, множество ситуаций равновесия в совместных стратегиях и множество ситуаций слабо равновесных в совместных смешанных стратегиях различны и не совпадают между собой. б) Показать, что множество вектор-выигрышей, оптимальных по Парето среди выигрышей в ситуации равновесия в совместных смешанных стратегиях, покрывает отрезок [(5/3, 4/3), (4/3, 5/з)], а выигрыши, оптимальные по Парето среди слабо равновесных в совместных смешанных стратегиях, покрывают отрезок [(2, 1), (1, 2). [2 -Г Г 1 “Л Л=| j I, используя схему Нэша. 14. Рассмотрим биматричную (2 х 2)-игру с матрицей К Ъ Г(1, 1) (1, 2) I (Л, Я) = «2 L(2, 1) (-5, 0)J Это модификация игры «перекресток» (см. пример 2 п. 1.4), отличие которой заключается лишь в следующем. Водитель легкового автомобиля (игрок 1) и грузо- вого (игрок 2) по-разному оценивают результаты аварии (ситуация (а,, Д2))- Пока- зать, что анализ игры в стратегиях угроз предписывает ситуацию (а1, /?2), т. е. грузовому автомобилю «ехать», а легковому — «остановиться». 15. Пусть ядро имеет непустое пересечение со всеми гранями ц =« ({/}) множества дележей. Показать, что в этом случае оно является единственным Н— М-решением. 16. Для кооперативной игры (N> v) определим полудележ как вектор а«(а15 ..., oj, для которого «/>«({<}) и £ ai^v(N). Показать, что если L есть Я—М-решение игры (Я, v) и а — полудележ, ^принадлежащий L, то существует такой дележ fie Д что 17. Для игры (Я, v) определим fa равенством Д- max [v(5|J{/})-v(5)]. Яс=Л\{0 Показать, что если найдется i, для которого «/>Д, то дележ а не может принадлежать ни ядру, ни одному из Я — М-решений. 18. Пусть (Я, v) — простая игра в (0 — 1 >редуцированной форме (см. п. 10.6). Игрок I называется «вето»-игроком, если и(Я\ {/}/= 0. 173
а) Доказать, что для того, чтобы С-ядро в простой игре было непустым, необходимо и достаточно, чтобы в игре существовал хотя бы один «вето»-игрок. б) Пусть S — множество всех «вето»-игроков. Показать, что дележ а=(а13 ...,.ал) принадлежит С-ядру, если £ а*=1, а,->0, для ieS, и очв^> ДЛ* 19. В игре (N, v) под квазидележом будем понимать вектор а=(а15 ..., ой), такой, 470 L ai=v(N). Для каждого £>0 определим строгое е — ядро C8(v), как множество ietf квазидележей таких, что для каждой коалиции ieS а) Показать, что если 8<е', то Ct(«)cQ, (v). б) Показать, что существует наименьшее число, для которого Са(«)^0. При таком £ множество Са(и) называется минимальным е-ядром и обозначается через МС(у). в) Найти минимальное е-ядро в игре (N, v), где N={1, 2, 3}; 1>({/})=0, и({1, 2})=50, v({1, 3})=80, v({2, 3})=90, v{N}«100. г) Пусть (N> v), (N> i/) — две кооперативные игры и для некоторых £ и е* выполняется равенство Ca(v') = C</(v)^0. Показать, что в этом случае для всех 5>0, В частности, MC(v)«MC(t/)- 20. Показать, что если (N, v) — игра с постоянной суммой (см. п. 9.3), то вектор Шепли <р определяется по формуле <PiG>)=2 X {S:Sc=M feS) (*-*)!(*-!)! п\ -v(2V). 21. Игра (N, v) называется выпуклой, если для всех 5, T^N v (5|J Т)+v (5Q Т) > v (S) + v (Т). а) Доказать, что выпуклая игра имеет непустое С-ядро и вектор Шепли принад- лежит С-ядру. б) Показать, что (N, v) — выпуклая игра, если (\2 £ mA , ScN, ieS ' а ..., /ил) — неотрицательный вектор. 22. Рассмотрим простую игру (N, v) в (0 — 1)-редуцированной форме. Под «скачком» игрока i будем понимать такое множество ScN, для которого v(S)=1, a v(5 \{/})в0. Обозначим через 0, число скачков игрока i в игре. Тогда вектор /п Е Qj называется вектором Банзафа для простой 7-1 игры. а) Для простой игры четырех лиц (TV, v), в которой коалиция 5 выигрывает, если она состоит либо из двух игроков и игрока (1} е5, либо из трех игроков или четырех игроков, показать, что 01=6} 02=03=04=2и, следовательно Д (и)=(1/2, 1/6,1/6,1/6). б) Показать, что Р(у) совпадает в игре упр. (2.2 а) с вектором Шепли. 174
23. Пусть (N, v) — простая игра трех лиц, в которой коалиции (1,2), (1, 3), (1,2,3) являются единственными выигрывающими коалициями. Показать, что в этой игре 0J — 3, 02=03 = 1 и, следовательно, вектор Банзафа имеет вид Д(г)=(3/5, 1/5, 1/5), а вектор Шепли равен <p[v]=(2/3, 1/6, 1/6). 24. Рассмотрим неотрицательный вектор р=(я1э ..., Ял) и число 0>О. Пусть я О<0< £ я/. Взвешенной игрой большинства будем называть простую игру (N, v), в которой характеристическая функция v определяется по правилу 1 0, если £ я/<0, „(Д)=< ,eS 11 , если £ ieS Пусть 0=8 и р=(4, 3, 3, 2, 2,1), п=6. Вычислить вектор Шепли и вектор Банзафа для простой взвешенной игры большинства.
ГЛАВА IV ПОЗИЦИОННЫЕ ИГРЫ § 1. МНОГОШАГОВЫЕ ИГРЫ С ПОЛНОЙ ИНФОРМАЦИЕЙ 1.1. В предыдущих главах нами рассматривалась игра в нор- мальной форме. К такой форме в принципе может быть сведен динамический (т. е. протекающий в течение некоторого времени, а не мгновенно) конфликтно-управляемый процесс формальным введением понятия чистой стратегии. В тех немногочисленных слу- чаях, когда мощность пространства стратегий невелика и имеется возможность численного нахождения решений, такой подход явля- ется вполне допустимым. Однако в большинстве задач поиска оптимального поведения участников конфликтно-управляемого процесса переход к нормальной форме, т. е. сведение задачи к одно- кратному выбору чистых стратегий как элементов пространств больших размерностей или функциональных пространств, не приво- дит к эффективным способам нахождения решений, хотя и позволя- ет наглядно иллюстрировать те или иные принципы оптималь- ности. В ряде случаев общие теоремы существования решения для игр в нормальной форме не позволяют находить или даже конк- ретизировать оптимальное поведение в играх, нормализацией кото- рых они являются. Как будет показано ниже, в «шахматах» суще- ствует решение в классе чистых стратегий. Однако этот результат невозможно получить прямым исследованием матричной игры. Еще более отчетливо это обстоятельство проявляется при исследо- вании дифференциальных игр преследования, для которых в ряде случаев удается находить решения в явной форме, однако нормаль- ная форма дифференциальной игры является настолько общей, что получение конкретных результатов оказывается практически невоз- можным. 1.2. Математические модели конфликтов, учитывающие динами- ку, исследуются в теории позиционных игр. Наиболее простым клас- сом позиционных игр является класс конечношаговых игр с полной информацией. Для определения конечношаговой игры п лиц с пол- ной информацией потребуются элементарные сведения из теории графов. Пусть X — некоторое конечное множество. Правило /, ставящее в соответствие каждому элементу хеХэлемент/(х)еХ, называется однозначным отображением X в X или функцией, определенной на 176
X и принимающей значения в X. Многозначное отображение F мно- жества X в X — это правило, которое каждому элементу xgX ставит в соответствие некоторое подмножество FscX (при этом не исключается возможность Fx=0). В дальнейшем для простоты будем употреблять термин «отображение», понимая под ним «мно- гозначное отображение». Пусть F — отображение X в X, а А с X. Под образом множества А будем понимать множество FA= U Fx. хеА По определению полагаем F(0)=0. Можно убедиться в том, что если AitzX, i— 1, ..., п, то (п \ п / п \ п и Л = U FAh F 0 л с П FAt. 1-1 / i=l \i-l / 1=1 Определим отображения F2, F3, ..., /*, ..., следующим образом: F*=F(FX), FX=F(FX), ..., Fx=F(Fk~'), ... (1.1) Отображение F множества X в X называется транзитивным замыка- нием отображения F, если A={x}U^U^2U-U^U- (I-2) Отображение F~k, обратное отображению F, определяется как ^71 = {х|уеЛ}, т. е. это множество тех точек х, образ которых содержит точку у. Аналогично отображению Fk определяется отображение (F~k)k, т. е. (F-'^F-^F-1),), . (1.3) (F-^F-'ttF-1)?), ..., (F-^F-'UF-y-1). Если ВсХ, то полагаем К-1(5) = {х|ЛП^0}. (1.4) Пример 1. (Шахматы.) Каждая позиция на доске определяется как количеством и составом фигур каждого игрока, так и их рас- положением в данный момент и указанием того, кто из игроков Должен в этот момент играть. Пусть заданы: X — множество пози- ций, F„ хеХ — множество тех позиций, которые могут реализо- ваться непосредственно после позиции х. Если в позиции х число белых и черных фигур равно нулю, то Fx=0. Тогда Fk, определя- 177
емое (1.1), есть множество позиций, которое может быть получено из х за к ходов; Fx — множество всех позиций, которые могут быть получены из х; Г-1 (А) (Ас.Х) — множество тех позиций, из кото- рых за один ход возможен переход в позиции из множества А (см. (1.2) и (1.4)). Изображая позиции точками и соединяя стрелкой две позиции х и у, yeFx, теоретически можно построить граф игры, исходящий из начальной позиции. Однако из-за очень большого числа позиций нарисовать такой граф невозможно. Использование многозначных отображений над конечными мно- жествами позволяет представить структуру многих многошаговых игр: шахмат, шашек, игры «го» и др. Определение. Пара (X, F) называется графом, если X — неко- торое конечное множество, a F — отображение X в X. Граф (X, F) будем обозначать символом G. В дальнейшем элементы множества X будем изображать точками на плоскости, а пары точек х и у, для которых yeF„ соединять непрерывной линией со стрелкой, направленной от х к у. Тогда каждый элемент множества X называется вершиной или узлом графа, а пара элемен- тов (х, у), в которой yeFx — дугой графа. Для дуги р=(х, у) вершины х и у называются граничными вершинами дуги, причем х — начало, ay — конец дуги. Две дуги р и q называются смеж- ными, если они различны и имеют общую граничную точку. Множество дуг в графе будем обозначать Р. Задание множества дуг в графе G=(X, F) определяет отображение F и, наоборот, отображение F определяет множество Р. Поэтому граф G можно записывать как в виде G=(X, F), так и в виде G=(X, Р). Путем в графе G=(X, F) называется такая последовательность Р=(Р1, р2, ...» Рк, —) дуг, что конец каждой предыдущей дуги совпадает с началом следующей. Длина пути р=(р2, ..., Рк) есть число 1(р)=к дуг последовательности; в случае бесконечного пути р полагаем Z(p)=оо. Ребром графа G=(X, Р) называется множество из двух элемен- тов х, уеХ, для которых или (х, у)еР, или (у, х)еР. В отличие от дуги для ребра ориентация роли не играет. Ребра будем обозначать буквами р, q, а множество ребер — Р. Под цепью будем понимать последовательность ребер (рг, р2, ...), в которой у каждого ребра Рк одна из граничных вершин является также граничной для р*_ь а другая — граничной для pk+i- Цикл — это конечная цепь, начинающаяся в некоторой вершине и оканчивающаяся в той же вершине. Граф называется связным, если любые две его вершины можно соединить цепью. Дерево или древовидный граф, по определению, есть конечный 178
связный граф без циклов, имеющий не менее двух вершин. Во всяком древовидном графе существует единственная вершина х0, такая, что FXo=X. Вершина х0 называется начальной вершиной графа G. Пример 2. На рис. 17 изображено дерево или древовидный граф с началом х0. Точками отмечены узлы хеХ или вершины графа. Дуги графа изображены отрезками со стрелкой, выделяющей нача- ло и конец дуги. Пример 3. Шашки или шахматы, вообще говоря, не могут быть изображены с помощью древовидного графа, если под вершиной графа понимать расположение фигур на доске в данный момент Ж указание хода, поскольку одно и то же расположение фигур может быть получено различными путями. В то же время, если под верши- ной графа, изображающего структуру шашек или шахмат, пони- жать расположение фигур на доске в данный момент, указание хода ж всю предысторию игры (все последовательные расположения фигур на предыдущих ходах), каждая вершина будет достигаться из начальной единственным способом (т. е. существует единственная Цепь, ведущая из начальной вершины в любую заданную), поэтому соответствующий граф игры не содержит циклов и является дере- вом. 1.3. Пусть zeX. Подграфом Gz древовидного графа G=(X, F) 179
называется граф вида (Xz, Fz), где XZ=FZ, a Fzx=Fxf>\X1. На рис. 17 штриховой линией обведем подграф, берущий начало из вершины z. В древовидном графе для всех xgXz множество Fx и множество Fzx совпадают, т. е. отображение F. является сужением отображения F на множество Хг. Поэтому для подграфов древовидного графа будем использовать обозначение GZ=(XZ, F). 1.4. Перейдем теперь к определению многошаговой игры с полной информацией на древовидном конечном графе. Пусть G=(X, F) — древовидный граф. Рассмотрим разбиение я+1 множества вершин Хна п+1 множество Х19 ..., Х„, X„+i, (J Xt=X, XtQX/=0, k^l, где Fx=0 для хеХв+1. Множество Xh‘ i=l........ п называется множеством очередности i-го игрока, а множество X„+i — множеством окончательных позиций. На множестве окон- чательных позиций Хв+1 определены п вещественных функций Ях(х), ..., Нп(х), хеХв+1. Функция Ht{x), z=l. п, называется выигрышем f-ro игрока. Игра происходит следующим образом. Задано множество N иг- роков, перенумерованных натуральными числами 1, ..., i, ..., п (в дальнейшем А={1, 2,..., п}). Пусть xoeXit, тогда в вершине (пози- ции) х0 «ходит» игрок it и выбирает вершину x1gFXi>. Если х^Х^, то в вершине х. «ходит» игрок i2 и выбирает следующую вершину (позицию) х2е FXi, и т. д. Таким образом, если на к-м шаге вершина (позиция) xic-t еХ^, то в ней «ходит» игрок 4 и выбирает следующую вершину (позицию) из множества F^_v Игра прекращается, как только достигается окончательная вершина (позиция) х/еХя+], т. е. такая, для которой FXI=0. В результате последовательного выбора позиций однозначно реализуется некоторая последовательность х0, ..., х*, ..., хь опреде- ляющая путь в древовидном графе G, исходящий из начальной позиции х0 и достигающий одной из окончательных позиций игры. Такой путь в дальнейшем будем называть партией. Из-за древовид- ности графа G каждая партия однозначно определяет окончатель- ную позицию х/, в которую она приводит, и, наоборот, окончатель- ная позиция X/ однозначно определяет партию. В позиции х{ каждый из игроков I, i= 1,..., п, получает выигрыш #,(х/). Будем предполагать, что игрок i при совершении выбора в пози- 180
ции хеХ, знает эту позицию х, а следовательно, из-за древовид- ности графа G может восстановить и все предыдущие позиции. В таком случае говорят, что игроки имеют полную информацию. Примером игр с полной информацией служат шахматы и шашки, поскольку в них игроки могут записывать ходы, и поэтому можно считать, что они знают предысторию игры при совершении каждого очередного хода. Определение. Однозначное отображение ult которое каждой вершине (позиции) xeXt ставит в соответствие некоторую вершину (позицию) yeFx, называется стратегией игрока i. Множество всевозможных стратегий игрока i будем обозначать через Ut. Таким образом, стратегия i-ro игрока предписывает ему в любой позиции х из множества его очередности X, однозначный выбор следующей позиции. Упорядоченный набор u=(ux.....uh ..., u„), где ute Ut, называется п ситуацией в игре, а декартово произведение С7=]Д17( — множе- ством ситуаций. Каждая ситуация u=(u19 ..., и,-, ..., ил) однозначно определяет партию в игре, а следовательно, и выигрыши игроков. Действительно, пусть xoeXti. Тогда в ситуации m=(mx...., и^ следующая позиция хх определяется однозначно по правилу =xv Пусть теперь х^еХ^. Тогда х2 определяется однозначно по правилу U/3(x1)=x2. Если теперь на k-м шаге реализовалась позиция хк^еХ1к, то хк определяется однозначно по правилу %=Uik(xk_i), и т. д. Пусть ситуации и=(и1г..., w(, ..., ц,) в указанном смысле соответ- ствует партия х0, хх, ..., X/. Тогда можно ввести понятие функции выигрыша Kt игрока i, положив ее значение в каждой ситуации К равным значению выигрыша Ht в окончательной позиции партии х0,..., X/, соответствующей ситуации и=(ик, ..., и„), т. е. ...«<...и„)=Я,(х/), i= 1, п. п Функции Кь i= 1,..., п, определены на множестве ситуаций U= J"[ U\. ,“l Таким образом, построив множества стратегий игроков Ut и опре- делив на декартовом произведении функции выигрыша К,, i=l.... 181
п, получаем некоторую игру в нормальной форме Г=(М {и(}1е„, {K}ieN), где #={1, ..., i, и} — множество игроков, Ut — множество стра- тегий игрока i, Ki — функция выигрыша игрока i, i= 1, п. 13. Для дальнейшего исследования игры Г необходимо ввести в рассмотрение понятие подыгры, т. е. игры на подграфе графа G основной игры (ср. с. п. 1.1 гл. I). Пусть zeX. Рассмотрим подграф GZ=(XZ, F), с которым свяжем подагру Г2 следующим образом. Множества очередности игроков в подагре Г2 определяются по правилу i=l, ..., п, множество окончательных позиций Yx„+l=X„+l^\X1, выигрыш игро- ка i Щ(х) в подагре полагается равным xeYl„+i, i=l, ..., п. В соответствии с этим стратегия и* i-ro игрока в подагре Г2 опреде- лена как сужение стратегии и, i-ro игрока в игре Г на множество Yj, т. е. uzf(x)=Ui(x), xeYzi=Xi(}Xz, i=l, ..., и. Множество всех стратегий i-ro игрока в подагре обозначается через U*. В результате с каждым подграфом Gz мы связываем подагру в нормальной форме I\=(N, {Щ}, {XT}),. где функции выигрыша Kj, i= 1, ..., п, определены на декартовом п произведении U*. i-l § 2. СИТУАЦИЯ АБСОЛЮТНОГО РАВНОВЕСИЯ В гл. III было введено понятие равновесия по Нэшу для игры п лиц в нормальной форме. Оказывается, что для многошаговых игр можно усилить понятие равновесия, введя понятие абсолютного равновесия. 2.1. Определение. Ситуация равновесия по Нэшу u*=(uf,..., и?) называется ситуацией абсолютного равновесия по Нэшу в игре Г, если для любого zeX ситуация («*)*=((м?)х, ...» (н?)*), где (ц*)* — сужение стратегии и? на подыгру Гг, является ситуацией равнове- сия по Нэшу в подыгре Гг. 182
Имеет место следующая основная теорема. Теорема. В любой многошаговой игре с полной информацией на конечном древовидном графе существует ситуация абсолютного равновесия по Нэшу. Прежде чем перейти к ее доказательству, введем понятие длины игры. Под длиной игры Г будем понимать длину наибольшего пути в графе G=(X, F). Доказательство проведем индукцией по длине игры. Если длина игры Г равна 1, то может ходить лишь один из игроков, который, выбирая следующую вершину из условия максимизации своего выигрыша, будет действовать согласно стратегии, образу- ющей абсолютное равновесие по Нэшу. Пусть теперь игра Г имеет длину к и xoeXti (т. е. в начальной позиции х0 ходит игрок i\). Рассмотрим семейство подагр Г„ zeFXa, длина каждой из которых не превосходит к—1. Предположим, что теорема справедлива для всех игр, длина которых не превосходит к— 1, и докажем ее для игры длины к. Поскольку подыгры Г„ zeFXi), имеют длину не более к— 1, по предположению индукции для них теорема справедлива и тем самым существует ситуация абсолют- ного равновесия по Нэшу. Обозначим для каждой подыгры Г„ zgFXi>, эту ситуацию через (и*)х=К«Т)Х..(2.1) Используя ситуации абсолютного равновесия в подаграх Гх, построим ситуацию абсолютного равновесия в игре Г. Пусть (x)=(u(*(x))z, для xeXif^Xt, zeFXo, i=l, ..., л, u(*(x0)=z*, где z* находится из условия ^i’[(M*f]=max^[(M*)2]. (2.2) Функция и* определена на множестве Xh i=l,..., п, очередности i-ro игрока, а при каждом фиксированном хеХ, значение u*(x)eFx. Таким образом, и*, i= 1,..., п, является стратегией i-ro игрока в игре Г, т. е. u?eUt. По построению, сужение (uf)z стратегии и* на множество XfP\Xz является стратегией, входящей в абсолютное равновесие по Нэшу игры Гг, zeF^. Следовательно, для завершения Доказательства теоремы достаточно показать, что стратегии и*, i= 1, ..., п, построенные по формулам (2.2), образуют ситуацию равновесия по Нэшу в игре Г. Пусть По построению стратегии Ь 183
и* после выбора игроком it позиции z* на первом шаге игра Г переходит в подагру Г2.. Поэтому £,(«*)=ХГ {(«*/} {(п*||и/} = Ki(и*IIUj), UteUi, f=l, п, iVi15 (2.3) так как (м*)2 — ситуация абсолютного равновесия в подагре Гг*. Пусть ufl е С7(1 — произвольная стратегия игрока it в игре Г. Обозна- чим г0 = и(1(х0). Тогда Kit (и*)=К? {(«*)**} =шах Д {(и*)2} > > Д {(ц*)2»} > Д {(м* II и,)2»} =Д (и*||и,.). (2.4) Утверждение теоремы следует теперь из (2.3), (2.4). 2.2. Пример 4. Пусть игра Г происходит на графе, изображенном на рис. 18, и пусть множество N состоит из двух игроков: N={\, 2}. На рис. 18 определим множества очередности. Изобразим вершины множества Xt в виде кружков, а вершины множества Х2 — в виде квадратиков. Выигрыши игроков записаны в окончательных пози- Рис. 18 184
днях. Перенумеруем двойными индексами позиции, входящие в множества Xt и Хг, а дуги, выходящие из каждой вершины,— одним индексом. Выбор в вершине х эквивалентен выбору следу- ющей вершины х' е Fx, поэтому будем предполагать, что стратегии указывают в каждой вершине номер дуги, по которой следует двигаться дальше. Например, стратегия их=(2, 1, 2, 3, 1, 2, 1, 1) игрока 1 предписывает ему выбор дуги 2 в вершине 1, дуги 1 — в вершине 2, дуги 2 — в вершине 3, дуги 3 — в вершине 4 и т. д. Так как множество очередности первого игрока состоит из восьми вершин, то его стратегия представляет собой восьмимерный вектор. Аналогично, любая стратегия игрока 2 представляет собой семи- мерный вектор. Всего у первого игрока 864 стратегии, а у второго игрока — 576 стратегий. Таким образом, соответствующая нор- мальная форма оказывается биматричной игрой с матрицами раз- мера 864 x 576. Естественно, что решение таких биматричных игр методами, предложенными в гл. Ш, не только затруднительно, но и невозможно. Вместе с тем рассматриваемая игра достаточно проста и ее можно решить, используя попятную процедуру постро- ения абсолютного равновесия по Нэшу, предложенную при до- казательстве теоремы 1 п. 2.1. Действительно, обозначим через ®х (х), v2 (х) выигрыши в подаг- ре Гх в некоторой фиксированной ситуации абсолютного равнове- сия. Сначала решаем подагры Г1.«, Гм, Г2.7. Как легко убедиться, в.(1.7)=6, ®2(1.6)=2, М1.7)=2, ®2(1.7)=4, ®х(2.7)=1, ®2(2.7)=8. Далее решаем подагры Г25, ГХ6, Г^. В подагре Г2 5 два равновесия по Нэшу, поскольку игроку 2 безразлично, какую альтернативу выбрать. Вместе с тем его выбор оказывается существенным для игрока 1, поскольку при выборе игроком 2 левой дуги первый игрок выигрывает +1, а при выборе игроком 2 второй дуги +6. Отметим это обстоятельство и предположим, что игрок 2 «благожелателен» и выбирает в позиции (2.5) правую дугу. Тогда ®х(2.5)=юх(1.6)=6, ®2(2.5)=ю2(1.6)=2, ®х(2.6)=®х(1.7)=2, ®,(2.6)=1>2(1.7)=4, »х(1.8)=2, ю2(1.8)=3. Далее решаем игры Г13, Гм, Г23, Гм, Г2Ч. В подагре Г13 два равновесия по Нэшу, поскольку игроку 1 безраз- лично, какую альтернативу выбрать. Вместе с тем его выбор оказы- вается существенным для игрока 2, так как при выборе игроком 1 левой альтернативы он выигрывает 1, а при выборе правой — 10. Предположим, что игрок 1 «благожелателен» и выбирает в позиции (1.3) правую альтернативу. Тогда ®х(1.3)=5, ®2(1.3)=10, ®х (1.4)=», (2.5)=6, »2 (1.4)=»2 (2.5)=2, »х (1.5)=®. (2.6)=2, •2 (1.5)=®2 (2.6)=4, »х(2.3)=0, »2(2.3)=6, ®х(2.4)=3, ®,(2.4)=5. Да- лее решаем игры Г2Л, Гм, Г^: юх(2.1)=»х(1.3)=5, »2 (2.1)=®2 (1.3)=10, ®х(1.2)=юх(2.4)=3, »2 (1,2)=»2 (2.4)=5, 185
юх(2.2)=—5, ю2(2.2)=6. Теперь решаем игру Г=Ги. Здесь «1(1.1)=ю1(2.1) = 5, ю2(1.1)=ю2(2.1)=10. В результате мы получаем ситуацию абсолютного равновесия по Нэшу («?, uj), где «Т=(1,2,2,2,2,3,2,1), «! = (1,3,2,2,2,13). (2.5) В ситуации (и?, и*) игра развивается по пути (1.1), (2.1), (1.3). В процессе построения было замечено, что стратегии u*, i=l, 2, «доброжелательны» в том смысле, что игрок i при совершении своего хода, будучи в равной степени заинтересован в выборе последующих альтернатив, выбирает ту из них, которая более благоприятна для игрока 3 — i. В игре Г существуют ситуации абсолютного равновесия, в кото- рых выигрыши игроков будут другими. Для построения таких равновесий достаточно снять условие «доброжелательности» иг- роков и заменить его обратным условием «недоброжелательности». Обозначим через ®х (х), у2 (х) выигрыши игроков в подыгре Гх при использовании игроками «недоброжелательного» равновесия. Тог- да имеем: (1.6)=®. (1.0=6, ®2(1.0=®2(1.6)=2, •i(1.7)=£i (1-7)=2, ®2(1.7)=ю2(1.7)=4, ч(2.7)----2, ю2(2.7)=®2(2.7)=8. Как уже отмечалось, в подыгре Г25 два равнове- сия по Нэшу. В отличие от предыдущего случая предположим, что игрок 2 «недоброжелателен» и выбирает ту из вершин, в которой при его максимальном выигрыше выигрыш игрока 1 минимален. Тогда ®х (2.5)=1, ®z_(2.5)=2, ®1(2.6)=®хХ1.7)=2, ®2(2.6)=»2(1.7)=4, ®х (1.8)=v2 (1.8)=2, ®2 (1.8)=®2 (1.8)=3. Далее ищем решение игр Г1.3, Гм, Г1.5, Ггз, Гц. В подыгре Г],3 два равновесия по Нэшу. Как и в предыдущем случае, выберем «недоброжелательныЬ» действия игрока 1. Тогда имеем: ®х(1.3)=®х(1.3)=5, ®2(1.3) = 1, юх(1.4)=2, ю2(1.4)=3, юх(1.5)=юх(2.6)=юх(1.5)=2, ®2(1.5)=®2(2.6)=®2(2.0=4, ®х(2.3)=»х(2.3)=0, ®2(2.3)=ю2(2.3)=6, Гх(2.4)=®х(2.4)=3, ®2(2.4)=®2(2.4)=5. Далее решаем игры Г2Л, Г12, Гг2. Имеем: юх(2.1)=юх(1.5)=2, _ ®2(2.1)=®2(1.5)_=4, (1.2)=^ (2.4) = 3, v2 (1.2)=v2 (2.4)=5, v2 (2.2)=®2 (2.2) =J>, v2 (2.2) (2.2) =_— 5. Теперь решаем игру Г=Гц. Здесь ®х(1.1)=®х(1.2)=3, ®2(1.1)=®2(1.2)=5. Таким образом, получена новая ситуация равновесия по Нэшу «Т()=(2,2,1,1,2,3,2,1), й?()=(3,3,2,2,1,1,3). (2.6) Выигрыши обоих игроков в ситуации (2.6) меньше таковых в ситу- ации (2.5). Ситуация (2.6), так же как и ситуация (2.5), является ситуацией абсолютного равновесия. ~ 23. Очевидно, что кроме «доброжелательных» и «недоброжела- тельных» ситуаций абсолютного равновесия по Нэшу существует 186
целое семейство промежуточных ситуаций абсолютного равнове- сна. Интересным является вопрос о том, когда можно утверждать отсутствие двух различных ситуаций абсолютного равновесия, от- личающихся выигрышами игроков. Теорема. Пусть выигрыши игроков i=l, ..., п, в игре Г таковы, что если существует такое i0 и такие х, у, что Hit(x)=Hii(y), то Hi(x)=Hi(y) для всех ieN. Тогда в игре Г выигры- ши игроков во всех ситуациях абсолютного равновесия совпадают. Доказательство. Рассмотрим семейство подыгр Гх игры Г и доказательство проведем индукцией по их длине 1(х). Пусть Z(x)= 1 и в единственной нетерминальной позиции х ходит игрок fx. Тогда в ситуации равновесия он осуществляет выбор из условия Я1(х)=тахЯ,1(х'). Если точка х единственная, то единствен и вектор выигрышей в ситуации равновесия, равный в данном случае Я(х)={Ях(х), ..., Яя(х)}. Если существует такая точка х=£х, что Н^(х)=Нч(х), то имеется еще одна ситуация равновесия с выигрышами Н(х)={Н1(х), ..., Hti(x)... Я,(х)}. Однако из условия теоремы следует, что если Я/1(х)=Я/1(х), то Я/(х)=Я,(х) для всех ieN. Пусть »(х)={®,(х)} —вектор выигрышей в ситуациях равнове- сия в одношаговой подыгре Гх, который, как уже показано, опреде- ляется единственным образом. Покажем, что если для некоторого i0 выполнено равенство v/o(x')=vio(x"), (У, х" таковы, что длины подыгр Гу, Гу равны единице), то vi(x')=vi(x") для всех ieN. Действительно, пусть х'еХ/1, x"eX(j; тогда (хЭ=Я(1 (х')=шах Я(, (у), уеГ* vti{x!r)=Hii (х')=тахЯ,(у) и г;(х')=Я((х'), г;(х")=Я,(х") для всех ieN. Из равенства следует, что Я/о(х')=Я(о(х")- Но тогда по условию теоремы Я((Р)=Я(х") для всех ieN. Отсюда t>i(x")=®i(x") для всех ieN. Предположим теперь, что во всех подыграх Гх с длиной Z(x)<fc — 1 вектор выигрышей в ситуациях равновесия определяется 187
единственным образом и если для каких-нибудь двух подыгр Гу, Гх- с длиной, не превосходящей к= 1, v,o(x')=rio(x") для некоторого i0, то v<(x')=vi(x") для всех ieN. Пусть игра ГХо имеет длину к и в начальной позиции х0 ходит игрок zx. По предположению индукции для всех zeFX) в игре Г2 вы- игрыши в ситуациях равновесия по Нэшу определяются единствен- ным образом. Пусть вектор выигрышей в ситуациях равновесия по Нэшу в игре Гх равен {«;(?)}. Тогда, как это следует из (2.2), игрок ix в вершине х0 выбирает следующую вершину zeFXo из условия «ii^)=max»il(z). (2.8) Если точка z, определяемая (2.8), единственна, то вектор с ком- понентами Vi(x0)=Vi(z), i=l, ..., п, и является единственным век- тором выигрышей в ситуациях равновесия по Нэшу в игре ГХо. Если же существуют две вершины z, z, для которых »ii(z)=»il(z), то по предположению индукции, поскольку длины подыгр Г; и Гг не превосходят к— 1 из равенства vii(z)=vix(z), следует равенство Vi(z)=vt(z) для всех ieN. Таким образом, и в этом случае выигрыши в ситуациях равновесия ю<(х0), ieN, определяются единственным образом. § 3. ОСНОВНЫЕ ФУНКЦИОНАЛЬНЫЕ УРАВНЕНИЯ 3.1. Рассмотрим многошаговые антагонистические игры с полной информацией. Если в условиях п. 1.4 множество игроков состоит из двух элементов iV={l, 2} и Н2(х)= —Ht(x) для всех хеХ3 (Х3 — множество окончательных позиций в игре Г), то Г=<м иь К.У оказывается антагонистической многошаговой игрой с полной ин- формацией. Очевидно, что этим же свойством обладают и все подыгры Гх-игры Г. Так как из условия Н2(х)— — Ях(х) немедленно следует, что ЛГ2(мх, «2)=““2) для всех 1^6U2, u2eU2, то в ситуации равновесия по Нэшу (и\, uj) выполняются неравенства Xi(«i, Иг)<^1(«ь «г)<^1(«ь «2) ДЛЯ всех uie Ui> и2е ^2- Пару (ц*, и*2) в этом случае будем называть ситуацией равновесия или седловой 188
точкой, а стратегии, образующие ситуацию равновесия, оптималь- ными. Значение функции выигрыша в ситуации равновесия обозна- чим буквой v и назовем значением игры Г. 3.2. Из теоремы п. 2.1 следует, что в антагонистической много- шаговой игре с полной информацией на конечном древовидном графе существует ситуация абсолютного равновесия, т. е. такая ситуация (и*, «г), сужение которой на любую подыгру Гг игры Г образует в Г2 ситуацию равновесия. Для любой подыгры Г, мож- но также определить число v(y), представляющее значение функции выигрыша в ситуации равновесия этой подыгры и называемое значением подыгры Гг Как было показано в п. 3.2 гл. I, значение антагонистической игры (т. е. значение функции выигрыша игрока 1 в ситуации равновесия) определяется единственным образом, поэтому функция v(y) определена для всех уеХ2, уеХ2 и является однозначной функцией. 3.3. Выведем функциональные уравнения для вычисления функ- ции v(y). Из определения ®(у) следует, что r(y)=K{((«7, («;/)= -К’2 ((«у, («У), где ((м*У, (и^У) — ситуация равновесия в подыгре Гу, являющаяся сужением ситуации абсолютного равновесия (uj, u£). Пусть уеХ2 и zeFy. Тогда, как это следует из (2.2), имеем »(y)=max Ki ((и!)*, (игУ)= -max v(z). (3.1) zeFy zeFy Для yeX2 аналогично получаем ю(у)= -К? ((«X («Х)= -max К\ ((«X («Х= zeFy = —max (—»(z))=min v(z). (3.2) zsFy zsFy Из (3.1) и (3.2) окончательно имеем ю(у)=тах v(z), уеХ2; (3.3) zeFy и (у)=min v(z), уеХ2. (3.4) zeFy Уравнения (3.3), (3.4) решаются при граничном условии •(у)|,.г,=Я10’). (3.5) Система уравнений (3.3), (3.4) с граничным условием (3.5) позво- 189
ляет осуществить попятную рекуррентную процедуру нахождения значения игры и оптимальных стратегий игроков. Действительно, пусть значения всех подагр Гх длиной l(z)^k— 1 известны и равны v(z), пусть Г, — некоторая подыгра длины 1(у)=к. Тогда если yeXit то ю(у) определяется по формуле (3.3), если же уеХ2, то ®(у) находится по формуле (3.4). При этом значения функции ®(z) в формулах (3.3), (3.4) известны, поскольку соответствующие подаг- ры имеют длину не более чем к— 1. Эти же формулы указывают способ построения оптимальных стратегий игроков. Действитель- но, если уеХ2, то игрок 7 (максимизирующий) должен выбрать в точке у вершину zeFy, для которой значение следующей подагры максимально. Если же у еХ2,то игрок 2 (минимизирующий) должен выбрать позицию zeFy, для которой значение следующей подагры минимально. В случае, когда выборы игроков в антагонистической многоша- говой игре чередуются (поочередная игра), уравнения (3.3), (3.4) могут быть записаны в виде одного уравнения. Действительно, рассмотрим подагру Гх и пусть, для определенности, хеХ2. Тогда в следующей позиции ходит игрок 2 или эта позиция является (игра поочередная) окончательной, т. е. Fx с Х2 (J Х3. Поэтому можно записать ю(х)=тах v(y), xeXi, (3.6) yeFx v(y)=min v(z), yeFxcX2\JX3. (3.7) zeFy Подставляя (3.7) в (3.6), получаем v(x) =max [min v (z)], x eX2. (3.8) ycFx zeFy Если xeX2, то аналогично имеем v (x)=min [max v (z)]. (3.9) yeFx zeFy Уравнения (3.8), (3.9) эквивалентны и должны рассматриваться с начальным условием v (х) |хех2=ЯХ (х). 3.4. Теорема п. 2.1, рассматриваемая применительно к антагони- стическим поочередным многошаговым играм, позволяет утверж- дать существование ситуации равновесия в «шахматах», «шашках», в классе чистых стратегий, а уравнения (3.8), (3.9) показывают путь для нахождения значения игры. Вместе с тем очевидно, что никогда в обозримом будущем решение указанных функциональных уравне- ний для нахождения значения игры и оптимальных стратегий не будет реализовано на ЭВМ и мы так и не узнаем, может ли 190
какой-либо игрок «белый» или «черный» гарантировать победу в любой партии или всегда возможна «ничья»? Однако в шахматах и шашках делаются небезуспешные попытки построения прибли- женно оптимальных решений путем создания программ, думающих на несколько шагов вперед, и использования всевозможных (полу- ченных, как правило, эмпирическим путем) функций оценки текущих позиций. Такой подход возможен и при исследовании общих ан- тагонистических многошаговых игр с полной информацией. После- довательное итерирование оценочных функций на несколько шагов вперед может привести к желательным результатам. § 4. СТРАТЕГИИ НАКАЗАНИЯ 4.1. В п. 2.1 доказано существование ситуации абсолютного равновесия (по Нэшу) в многошаговых играх с полной информаци- ей на конечном древовидном графе. В то же время при исследова- нии конкретных игр этого класса можно обнаружить целое семейст- во ситуаций равновесия, сужения которых необязательно являются ситуациями равновесия во всех подаграх исходной игры. К числу таких ситуаций равновесия относятся равновесия в стратегиях нака- зания. Проиллюстрируем это понятие на примере. Пример 5. Пусть игра Г происходит на графе, изображенном на рис. 19. Множество #={1, 2} состоит из двух игроков. Как и в при- мере п. 2.2, на рис. 19 кружками изображены вершины, состав- ляющие множество JVj, квадратиками — множество Х2. Вершины графа перенумерованы двойными индексами, дуги — одинарными. Нетрудно убедиться в том, что ситуация mJ = (1, 1, 2, 2, 2), iZ = (l, 1) является абсолютно равновесной в игре Г. При этом выигрыши игроков равны 8 и 2 единиц соответственно. Рассмотрим теперь ситуацию й1 = (2, 1, 2, 1, 2), м2 = (2 игроков равны соответственно 10 и 1, тем самым игрок 1 получает больше, чем в ситуации (иь и‘2). Ситуация (йр м2) является равно- весной в игре Г, но не является абсолютно равновесной. Действи- тельно, в подагре Г14 сужение стратегии й1 диктует игроку 1 вы- бор левой дуги, что не является для него оптимальным в позиции 1.4. Такое действие игрока 1 в по- зиции 1.4 можно интерпретиро- вать как угрозу «наказания» игро- ка 2, если он отклонится от жела- тельного для игрока 1 выбора ду- ги 2 в позиции 2.2, лишив тем , 2). В этой ситуации выигрыши (?) (W) (?) (S) (?) Рис. 19 191
самым игрока 1 максимального выигрыша 10 единиц. Однако по существу такую угрозу «наказания» едва ли следует считать дейст- венной, поскольку наказывающий (игрок 7) при этом сам может потерять в выигрыше пять единиц (действуя не оптимально в Г\ 4). 4.2. Дадим строгое определение стратегий наказания. Для про- стоты ограничимся случаем неантагонистической игры двух лиц. Пусть задана неантагонистическая многошаговая игра двух лиц Г = <£7Х, U2, Кк, К2У. С игрой Г свяжем две антагонистические игры Г\ и Г2 следующим образом. Игра Гх — это антагонистическая игра, построенная на основе игры Г, в которой игрок 2 играет против игрока 1, т. е. К2 = — Кк. Игра Г2 — это антагонистическая игра, построенная на основе игры Г, в которой игрок 1 играет против игрока 2, т. е. Kt = —K2. Графы игр Гр Г,, Г и множества стратегий в них совпадают. Обозначим через (ujb и») И («*2, «22) ситуации абсолют- ного равновесия в играх Гх и Г2 соответственно. Пусть Г1х, Г2х — подыгры игр Гь Г2; юх(х), ю2(х) — значения этих подыгр. Тогда ситуации {(«*1/, (и а)*} и {(и^)*, («и)*} являются равновесными в играх Г1х, Гг* соответственно и ю1(х)=ЛГ*((и}1)*, (и21)х), v2(x) = Kx2((u^x, (м^)*). Рассмотрим произвольную пару (и1, и2) стратегий в игре Г. Разумеется, эта пара стратегий является таковой и в играх Г15 Г2. Пусть Z=(x0=z0, zp.... zz) — путь, реализуемый в ситуации (uit и2). Определение. Стратегия йх(-) называется стратегией нака- зания игрока 1, если-. «1 (3t)=Zk+i Для zkeZQX1} (4.1) «1 (У)=«и О’) ДОЯ у е Хх, у ф Z. Стратегия й2(-) называется стратегией наказания игрока 2, если: «2 (zk)=zk+1 для zk е ZQZ2, (4.2) «2 О)=«21 (У) Для у е Х2, у ф Z. 4.3. Из определения стратегий наказания сразу получаем следу- ющие свойства: 1°. КАй^-У), u2(-))=H1(zi), ^2(йх( ), й2( ))=Я2(г/). 2°. Пусть один из игроков, например игрок 7, использует страте- гию мх (•), для которой позиция zkeZQXk является первой в пути Z, где ых(-) диктует выбор следующей позиции z'k+1, отличной от выбора, диктуемого стратегией т. е. zk+i^zk+1. Тогда из 192
определения наказывающей стратегии й2 (•) следует, что ^i(«i(),22())<«i(2fc). (43) Аналогично, если игрок 2 использует стратегию м2(-) для которой позиция z*eZQX2 является первой в пути Z, где и2(-) диктует выбор следующей позиции z*+1, отличной от диктуемой стратегией й2(')> т- е- z*+i^zk+1, то из определения наказывающей стратегии й1(') следует, что K2(ut(-),u2())^V2(Zlc). (4.4) Отсюда, в частности, получаем следующую теорему. Теорема. Пусть (мх (•)> й2()) — ситуация в стратегиях нака- зания. Для равновесности ситуации (йх (‘ )> й2()) достаточно, что- бы для всех k=0, 1,..., /— 1 выполнялись неравенства ^(Si(-),22(-))>«i(^, (4.5) ^2(Si(-),22(-))>«2(^ где z0, zlt .... zt — путь, реализовавшийся в ситуации (йх (•), й2 (•)). 4.4. Пусть u*i(’) и «и(-)— оптимальные стратегии игроков 1 и 2 во вспомогательных антагонистических играх Г\ и Г2 соответ- ственно и Z={z0, zit .... z/}—путь, соответствующий ситуации («п (•), «а (•)).^Предположим, что стратегии наказания йх (•) и й2 (•) таковы, что «х (?*)=«;! (zfc) для zfceZQXx и u2(z*)=«m(z*) Для z*eZQy2. Тогда ситуация («х(-), «2(‘)) образует ситуацию равно- весия по Нэшу в стратегиях наказания. Для доказательства этого утверждения достаточно показать, что к, («;,(•), “22('))=^i(“i(')> й2(-))>«1(^*)» (4.6) ^2(«;i(), ^(-))=^2(«i(-), 22())>«2ад Jt=O, 1,... Z-1, и воспользоваться теоремой п. 4.3. Неравенства (4.6) следуют из оптимальности стратегий «п(-) и «а(') в играх Гх и Г2 соответст- венно, обоснование предлагаем в качестве упражнения. Таким об- " разом, получена следующая теорема. Теорема. В игре Г всегда существует ситуация равновесия в стратегиях наказания, при этом выигрыши в этой ситуации равны ^ч(ып(‘)> «22(‘))« гДе «и(’) и и2г(’) — оптимальные стратегии иг- у роков 1 и 2 во вспомогательных антагонистических играх Гх и Г2 соответственно. Ш 7 Теория игр 193
Смысл стратегий наказания заключается в том, что игрок заста- вляет партнера придерживаться определенного пути в игре (опреде- ленных выборов), используя постоянную угрозу переключения на стратегию, оптимальную в антагонистической игре против партне- ра. Множество ситуаций равновесия в классе стратегий наказания достаточно представительно, однако эти стратегии не следует счи- тать очень «хорошими», поскольку, наказывая партнера, игрок может еще сильнее наказать самого себя. § 5. ИЕРАРХИЧЕСКИЕ ИГРЫ Важнейшим подклассом неантагонистических многошаговых игр являются иерархические игры. Иерархические игры моделируют конфликтно управляемые системы с иерархической структурой. Та- кая структура определяется последовательностью уровней управле- ния, следующих друг за другом в порядке определенного приорите- та. В математической постановке иерархические игры классифици- руются по числу уровней и характеру вертикальных связей. Про- стейшей из них является двухуровневая система, схема которой изображена на рис. 20. 5.1. Двухуровневая конфликтно управляемая система функци- онирует следующим образом. Управляющий (координирующий) центр Ао, находящийся в первом уровне иерархии, выбирает вектор u=(ut,.... ц,) из заданного множества управлений U, где и, — управ- ляющее воздействие центра на подчиненные ему подразделения Ви i=l, 2, ..., п, находящиеся на втором уровне иерархии. В свою очередь, Д, i= 1, ..., п, выбирают управления v,e ^(ц), где Vt(uD — множество управлений подразделения Д, предопределенное управ- лением и центра Ао. Таким образом, управляющий центр имеет право первого хода и может ограничивать возможности подчинен- ных ему подразделений, направляя их действия в нужное русло. Цель центра Ао заключается в 'максимизации по и функционала Хо (и, v19..., v„), а подразделения Д, i= 1,..., п, обладая собственными целями, стремятся максимизировать по v, функционалы КДуц,г,). 5.2. Формализуем эту задачу как беско- уу\ алиционную игру Г(и+1)-го лица (админи- // \ стративного центра Ао и производственных у/ / \ подразделений Др ..., В„) в нормальной п * • • • g форме. °' 2 п Пусть игрок Ао выбирает вектор ueU, где Рис. 20 17={м = (и1, ...» и„):и,>0, и,еЯ', i=l, п, 194
'Eui^b},b>0 — множество стратегий игрока Ао в игре Г. Вектор и, будем ин- терпретировать как набор ресурсов / наименований, выделяемых центром Ао для i-ro производственного подразделения. Пусть в исходной задаче п. 5.1 каждый из игроков Д, зная выбор Ао, выбирает вектор г,е где K/(«i)={»/e.R’":»i4i^ui+ai, ю,>0}. (5.1) Вектор V/ интерпретируется как производственная программа i-ro производственного подразделения по различным видам продукции; А{ — производственная или технологическая матрица i-ro произ- водственного подразделения (Л, >0); а,- — вектор наличных ресурсов i-ro производственного подразделения (а,>0). Под стратегиями игрока Д в игре Г будем понимать множество функций «,(•), ставящих в соответствие каждому элементу 14: Ut,...»uj е U вектор vt (Q е Vt (uj). Множество таких функций будем обозначать через Vit i=l, ..., п. Определим функции выигрышей игроков в игре Г. Для игрока Ао функция выигрыша имеет вид Д»(«. •••>«»( ))=£ <*•>(«& «-I где <4>0, atGRm — фиксированный вектор, i= 1,..., п; atv^ui) — ска- лярное произведение векторов at и vt (uj). Функцию выигрыша игрока Д полагаем равной Д(«. ®1( ), .... Ю»( ))=С1 где с/>0, CieRm — фиксированный вектор, i=l....п. Таким образом, игра Г имеет вид Г=(U, .... Vn, Ко, Klt.... IQ. 5.3. Построим ситуацию равновесия по Нэшу в игре Г. Пусть vi(ui)e ^(ut) — решение задачи параметрического линей- ного программирования (параметром является вектор и() шах clvl=cl v*(ut), i=l, ..., п, (5.2) «(еК((“Й 195 7*
a «* 6 С7 — решение задачи max Ко («.«JO, (5.3) Для простоты предполагаем, что максимумы в (5.2) и (5.3) достигаются. Заметим, что (5.3) — задача нелинейного програм- мирования с существенно разрывной целевой функцией (максимиза- ция ведется по u, a v* (ui), вообще говоря, — разрывные функции параметра и,). Покажем, что точка (u*, vj(-), ..., »,(•)) является ситуацией равновесия в игре Г. Действительно, К0(и*. «К), ..., «*())>ЛГ0(«, г!(.).«:(.)), ueU. Далее, при всех 1=1, ..., п справедливо неравенство *,(«*, ().................ю»())=с/ vi«,(«?)= =^(«*. «ко, ...» «;_>(•), «л-), <.(•), .... •:(•» для любой vt(-)e Vt. Таким образом, никому из игроков Ао, Blt .... Ви невыгодно в одностороннем порядке отклоняться от ситуации (u*, fJC), ..., Vu(-))> т- е- она является равновесной. Заметим, что эта ситуация также устойчива против отклонения от нее любой ко- алиции S<^{B1,..., В„], поскольку выигрыш Kt i-ro игрока не зависит от стратегий «>(•), _/е{1,..., n},j&. § 6. ИЕРАРХИЧЕСКИЕ ИГРЫ (КООПЕРАТИВНЫЙ ВАРИАНТ) В этом параграфе рассматривается кооперативный вариант ряда простейших иерархических игр (в том числе игры, определенной в п. 5.1, 5.2). Строятся характеристические функции и исследуются условия существования непустого С-ядра. 6.1. Исходя из содержательного смысла задачи п. 5.1, 5.2 и с ис- пользованием стратегией, образующих равновесие по Нэшу, для каждой коалиции ScN={A0, Bv .... Вп} определим ее гарантирован- ный доход v (S) следующим образом: ' 0, если 5={Л0}; (6.1) Е c, v;*(0), если (6.2) v(S) = l l-BteS max £ (а<+с<) «*(«*)» если AoeS, (6.3) {ueU: £ uj=b} iiB/eS ' i-.BeS i 196
где v* (ut), i= 1,n — решение задачи параметрического линейного программирования (5.2). Равенство (6.1) имеет место, поскольку коалиция {2?р ..., В„} может добиться получения нулевого выигрыша игроком Ао, выби- рая все t;,=0, i=l, ..., л; равенство (6.2) справедливо, так как игрок Ао всегда может гарантировать для 5 выигрыш не более чем (6.2), направляя каждому BteS нулевой ресурс; равенство (6.3) имеет место, поскольку коалиция S, содержащая в своем составе Ло, всегда может обеспечить распределение всего ресурса только между своими членами. Пусть S — произвольная коалиция, содержащая Ао. Обозначим через u=(ui, ..., и3„) вектор, доставляющий максимум в задаче нелинейного программирования (6.3) (для i.B^S выполнено усло- вие 0). Тогда для любой коалиции S<=S, S=£A0, AoeS справед- ливо следующее выражение: Ъ % (а*+с»)«/(«’)= i:BjGS iiBjGS = Z (а*+с«)«*(«/)+ Z (а<4-С/)®/’(0). i:BteS l:BteS\S Пусть S, RcN, S('\R=0 и AoeS-£Ao. Тогда A0$R. Принимая во внимание условия а,>0, »,>0, /=1, ..., п, имеем »(s|jj?)= z (а<+с<)ю‘(м?ил)> Z (ai+c<)»i(«D= iiBjGSljR = z (®»+a)»*(«0+ Z (a<+ci)®’(0)= i.BjGS i’.BjGR =v(S)+v(R)±- £ atv*(0)>®(S)+v(R), i.BjGR где Z aiv*(0)^0 — прибыль центра Ao от «нефинансируемых» i’.BjCR iii in предприятий. В случаях или S=AQfR неравенство «(5U.R) >«(£)+» (Л) очевидно. Таким образом, функция v (S), определяемая (6.1) — (6.3), супер- аддитивна и можно рассмотреть кооперативную игру ({Ло, Blt .... Вя}, ю) в форме характеристической функции ю. 62. Рассмотрим (и 4- 1)-мерный вектор (Zfl'v/ (“')> ci »i (“<)> •••’ (&))» (6-4) 197
где u = uN. Вектор £ является дележом, поскольку выполнены следу- ющие сотношення: 1) Z&=Z(ei+Cf)®’(«i)=®GV); к-0 >-1 п 2) to = Z a,i «I («<) > 0=» (^о)> i-1 ^=с/ю,’(й,)>с,®?(0)=ю(В(), i=l, п. Напомним условие принадлежности дележа С-ядру. Согласно теореме п. 10.1 гл. Ш необходимым и достаточным условием принадлежности дележа (£0, .......£„) С-ядру является выполнение неравенства (6.5) feS для всех коалиций 5с{Л0, Bv .... В„}. Выведем условие, при котором дележ 5' принадлежит С-ядру. Если 5={Л0}, либо Sc{Bv ..., В„}, то условие (6.5) выполнено, поскольку <0= Z a‘Vi («<)>0 = «({Ло}), Z&= z £ cfv*(0)=v(S). ieS i:BteS i:BteS Если AoeS^Ao, то условие (6.5) можно записать в виде i»l i.BjGS = £ aiVi(u^+ £ £<<№)+ £ а/<№)> X (а(+с()«;(ыО- i:B{eS i:BteS 1:В^З i-.BjeS Следовательно, дележ (6.4) принадлежит С-ядру, если для всех S:AoeS выполнено неравенство ^«‘(й,)^ £ («<+£<) I®’(«О-*№)]• i:BtfS t-.BieS Заметим, что в данном случае мы определили характеристичес- кую функцию игры, используя выигрыш в ситуации равновесия по 198
Нэшу, и величина v(7V)=max £ (ai+c^v* (и^), вообще говоря, мень- “ /-I ше максимального суммарного выигрыша всех игроков, равного “я “ max max £(а*+с*)®* ueU vkeVk(u^ Lt-1 (в этом отличие от принятого в гл. Ш определения характеристичес- кой функции). 6.3. Характеристическую функцию игры можно построить и обычным способом, а именно: для каждой коалиции S' определить ее как значение антагонистической игры между этой коалицией и коалицией остальных игроков N\S. Построим теперь характери- стическую функцию именно таким образом. При этом несколько обобщим предыдущую задачу, введя в рассмотрение произвольные функции выигрышей участников игры. Как и ранее, будем предполагать, что центр Ао распределяет ресурсы между подразделениями Bit.... В„, которые используют эти ресурсы для производства продукции. Выигрыши управляющего центра Ао и «производственных» подразделений Blt..., В„ зависят от продукции, производимой Вк, В„. Вектор ресурсов, имеющийся в распоряжении центра Ао, обозначим через Ь. Центр (игрок) Ао выбирает систему п векторов u=(ut,..., uj из множества U={u=(u1, .... u„):ujt>0, UkGll, fc=l, n}. jt-i Здесь uk интерпретируется как вектор ресурса, выделяемый центром Ао производственному подразделению Вк. Возможности предпри- ятия (игрока) Вк определяются ресурсом иь получаемым от Ло, т. е. предприятие Вк выбирает свою производственную программу хк из множества Вк(щ)с.1С неотрицательных векторов. Будем предпола- гать, что множества 24(«*) при всех ик содержат нулевой вектор н монотонно возрастают по включению, т. е. из ик>ик следует Вк(и'к) => Вк(ик), кроме того, выполнено условие Вк (0)=0 (невозмож- ность производства при отсутствии ресурсов). Пусть х=(х1# ...» х^. Выигрыш игрока Ао определяется с помо- щью неотрицательной функции /0 (х) > 0, а выигрыши игроков Вк по- лагаем равными 4(xjt)>0, fc=l, ..., п (выигрыш игрока Вк зависит 199 Л X
лишь от производственной программы). Для простоты будем счи- тать, что выигрыш центра Ао удовлетворяет условию lo(x)= i 1(хк), к-1 где слагаемое 1(хк) интерпретируется как выигрыш игрока Ао, полу- чаемый от игрока Вк. Предположим также, что 7(х*)>0 для всех xkeBk(uJ и 4(0)=0, 7(0)=0, к=1, ..., п. Подобно тому как это сделано в § 5, представим иерархическую игру п. 6.3 в виде бескоалиционной игры (л+1) лица в нормальной форме, где стратегиями игрока Ао будут векторы ке 17, а стратеги- ями игроков Вк — функции из соответствующих множеств. Постро- им характеристическую функцию v(-) этой игры, следуя п. 9.2 гл. III. Для каждого подмножества S игроков v(S) будет равно значению (оно существует в условиях п. 6.3) антагонистической игры между коалициями S и N\S, в которой выигрыш коалиции S определяется как сумма выигрышей, принадлежащих множеству S' игроков. Пусть N={A0, Bt,.... Вя}. Тогда v(N)= sup sup £ [Z(x*)+4(x*)]b {ueU:£i«t=i} xkeBk(uk) *-l fc=l.. л Заметим, что для всех Sc{Bt, В„}, ®(5)=0, поскольку игрок Ао всегда может распределить весь ресурс b среди членов коалиции N\S, в которую он входит, лишив, таким образом, коалицию S ресурсов (т. е. Ао всегда может положить ик=0 для k:BkeS, что приводит к 24(0)=0 для всех BkeS). Рассуждая аналогично, имеем ю(Ло)=0, поскольку игроки Blt.... В„ всегда могут сделать выигрыш центра Ао равным нулю, полагая хк=0 для к= 1,..., п (не производя продукции). В том случае, когда коалиция S содержит центр Ао, очевидно, что Ао будет распределять весь ресурс среди членов коалиции. Это соображение приводит к следующей формуле: v(S)= sup sup j £ [/(**)+4 (**)]> {uel/: £ u*=Z>} xteBjt(4k) J kBkeS k:BkeS для S:AoeS. Можно показать, что при таком определении характеристичес- 200
кой функции С-ядро множества дележей а=(а0, а1? a„):ai^0, z = 0, 1, ., п, £ а, = «(Л) z = 0 всегда непусто. 6.4. Иерархические системы с подразделениями двойного подчи- нения называются ромбовидными (рис. 21). Управление подраз- деления двойного подчинения С зависит от управления В2 и от управления В2. Можно представить ситуацию, в которой центр Вг представляет интересы отрасли, а В2 — региональные интересы, включающие вопросы охраны окружающей среды. Простая ром- бовидная система управления является примером иерархической системы с тремя уровнями принятия решений. На высшем уровне находится административный центр, располагающий материальны- ми и трудовыми ресурсами. Он воздействует на деятельность двух подчиненных ему центров, принадлежащих следующему уровню. От решений, принимаемых этими центрами, зависит объем произ- водства предприятия, находящегося на последнем уровне иерар- хической системы. Будем рассматривать этот процесс принятия решений, как неко- торую игру четырех лиц. Обозначим ее через Г. Переходя к игровой постановке, условимся считать, что на 1-м шаге ходит игрок Ао и выбирает элемент (стратегию) и=(и1, и2) из некоторого множест- ва U, где U — множество стратегий игрока Ао. Элемент ueU ограничивает возможности выборов игроков Вх и В2 на следующем шаге. Другими словами, множество выборов игрока В2 оказывается функцией параметра и2 (обозначим его через Вг (мг)), и, аналогично, множество выборов игрока В2 оказывается функцией параметра и2 (обозначим его через В2 (м2)). Через со2 еВг (uj и а>2 еВ2 (w2) обозна- чим элементы множества выборов игроков Bt и В2 соответственно. Параметры (о2 и со2, выбираемые игроками В2 и В2, задают ограни- чения на множество выборов игрока С на 3-м шаге игры, т. е. это множество оказывается функцией параметров и со2. Обозначим его через С (а^, со2), а элементы этого множества (производствен- ные программы) — через ®. Пусть выигрыши всех игроков Ао, В2, В2, С зависят только от производственной про- граммы v, выбираемой игроком С, и равны соответственно 12(у), /2(®), /3(«), /4(®), где Такую иерархическую игру можно предста- вить как бескоалиционную игру четырех лиц в нормальной форме, если считать стратеги- ями игрока Ао элементы u=(ut, u2)eU, а стра- тегиями игроков Blt В2я С — функции (uj, <o2(u2) и v(co1, а>2) со значениями в множествах Рис. 21 201
Вх(мх), В2(и2), Cta^, со2) соответственно (обозначим множества таких функций через В1; В2, С), которые каждому возможному выбору игрока (или игроков), находящегося на более высоком уровне, ставят в соответствие выбор данного игрока. Полагая АГ,(u, сох(), со2(), и ())=/,(<, (со х(их), со2(ц2)), J=L4, получим нормальную форму игры Г Г=(С7, Вх, В2, С, К2, К2, К3, KJ. 6.5. Будем искать ситуацию равновесия по Нэшу в игре Г. Для этого выполним вспомогательные построения. Для каждой фиксированной пары (сох, со2), (сох, со2) е (J Вх (их) х В2 (м2) обозначим через v* (сох, со2) решение параме- «еО трической экстремальной задачи max l4(y)=l4(y* (со^ w2)). (6.6) veCCooj.o),) (Считаем, что максимум в (6.6) достигается.) Решение »*(.)=»* (сох, со2) задачи (6.6) оказывается функцией параметров со,, со2 и v* (-)е С. Рассмотрим вспомогательную параметрическую (с параметрами мх, и2) неантагонистическую игру F(hx, м2)={Вх (“i)» BiQjJzX /2. ^з} двух лиц В2 и В2, где 12=/2 (v* (со2, со2)), /3=l3 (у* (со^ со,)). Стратеги- ями игрока В2 в Г'(кх, и2) являются элементы сохеВх (и3), стратеги- ями В2 — элементы со2 е В2 (м2). Предположим, что в игре F(ut, u2) существует ситуация равновесия по Нэшу, которую обозначим (со? (u<), со? (и2У). Отметим, что со? (•) является функцией параметра Ut и co*()eBf, i=l, 2. Пусть, далее, u*=(uf, и}) — решение следующей экстремальной задачи: max /х (v* (cof (ux), со? (и2))). (6.7) ueU Лемма. Совокупность (и*, со? (•), со? (•), v* (•)) является ситуаци- ей равновесия по Нэшу в игре Г. Доказательство. Согласно определению и* из (6.7) следует соотношение ^(и*, со?(•), со?(.), ®*(-))=тах/х(®*(ш?(«х), со?(ц2)))> ugU С0?(ц2))) = ^1(ц, СО? (.), С0?(), v*(.)) для всех ueU. Поскольку со?(и?), со? (и?) образуют ситуацию равно- весия по Нэшу во вспомогательной игре Г'(ы’, и2), для любой функции сох () е Вх, сох (и?) = сох е Вх (и?) выполняются соотношения Я2(и*. со?(•), со?О, г*(.))=/2(г*(со?(и?), со?(и?))> 202
>1г (v* (й>1; СО? («?))) = К2 (и*, (.), СО? (.), «* О). Аналогичное неравенство справедливо и для игрока В2. По определению функции v* из (6.6) имеем: К^и*, СЭ?(), сэ?(), г*(.))=/4(г*(со?(«Г), СО?(и?))) = = ш cdf(\ СО?(), »(.)) для любой функции ®( )бС, v(co?(u?), со? (и?))=06 С (со? (и?), Лемма доказана. 6.6 Применяя максиминный подход, для каждой коалиции £с{Л0, Bt, В2, С) определим v'(S) как наибольший гарантирован- ный выигрыш S в антагонистической игре между коалицией S, выступающей в качестве максимизирующего игрока, и коалицией S'=\A0, Blt В2 C}\*S'. Предположим, что существует такое 1>О6С(сох, со2) для всех со2, со2, что 4(vo)=0, i= 1, 2, 3, 4. Будем различать два вида коалиций: \)S.C$S,2)S.CeS. В первом случае Sc {А0, В2, В2} и игрок С, являющийся членом коалиции iV\S, может выбрать стратегию vo:lt(vo)=0, i=l, 2, 3, 4, поэтому v'(S)=0. Во втором случае определим характеристическую функцию v' (S) следующими равенствами: a)S={C} v'(S)=min min min max /4(v) ueU (OiGBifui) o)2gB2(k2) •eC(®1,wJ) (здесь и далее предполагаем, что все max и min достигаются); 6)S={^0, С} t/(S)=max min min max (4 (0)+/4.(0)); MG U а^бВДМ}) О)2бВ2(м2) VGCCcDj, C02) b)S={SvC} i/(S)=min max min max (Z2 (v) 4-(v)); UE U (DiEbitUi) O)2gB2(u2) VEC(a}1,Q)2) r) S={B2, C} v'(S)=min max min max (Z3 (v)+Z4 (»)); ueU <d2gB2(h2) <u1gB1(u1) vEC(tolto)2) д) S={Bt, B2, C} 4 «'(«S^min max max max ^/,(r); ueU O)1gB1(u1) 0>2eB2(u2) VEC(a}it<Oj) e) S=Mo, Blt C} 203
v'(5)=max max min max £ lt(v); ugU cojEB](mJ w2eB2(u2) veC^jjWj) i = 1,2,4 ж) S={A0, B2, C} v'(S)=max. max min max У Z,(v); ueU ш2еВ2(к2) о^еВД^) vEC^pfljj) /=1,3,4 3) S={/l0, Bv В2, c} 4 v'(iS)=max max max max У/,(«). ueU o)ieBi(ui) w2eB2(u2) /в1 При таком определении характеристическая функция обладает свойством супераддитивности, т. е. для любых S, Я<= {Ао, Blt В2, С}, для которых 57ЛЛ=0, имеет место неравенство § 7. МНОГОШАГОВЫЕ ИГРЫ С НЕПОЛНОЙ ИНФОРМАЦИЕЙ 7.1. В § 1 — 4 рассматривались многошаговые игры с полной информацией, определенные на конечном древовидном графе G=(X, F), в которых каждый из игроков в момент совершения своего хода точно знал, в какой позиции или в какой вершине дерева он находится. Именно поэтому удалось ввести понятие стратегии игрока i как однозначной функции ut(x), определенной на множестве очередности X со значениями в множестве Fx. Однако если попы- таться исследовать многошаговую игру, в которой игроки при совершении своих выборов не знают точно позиции, в которой они совершают ход, или могут лишь предполагать, что эта позиция принадлежит некоторому подмножеству А множества очередности Xh то реализация стратегии игрока как функции от позиции хеХ( окажется невозможной. Таким образом, желание усложнить инфор- мационную структуру игры неизбежно приводит к изменению поня- тия стратегии. Для точных формулировок необходимо в первую очередь формализовать понятие информации в игре. Важную роль здесь играет понятие информационного множества. Проиллюст- рируем это на нескольких простейших, ставших классическими в учебной литературе по теории игр примерах [9]. Пример 6. (Игра антагонистическая). Делая 1-й ход, игрок 1 вы- бирает число из множества {1, 2}. Второй ход делает игрок 2. Зная выбор игрока 1, он выбирает число из множества {1, 2}. Третий ход опять делает игрок 1. Зная выбор игрока 2 и помня свой выбор, он выбирает число из множества {1, 2}. На этом игра прекращается, и игрок 1 получает выигрыш Н (игрок 2 — выигрыш (—Н), т. е. 204
5 -3 -2 2 -5 4 / 1 игра антагонистическая), где функция Н определяется следующим образом: Я(1,1,1)=-3, Я(2,1,1)=4, Я(1,1,2)= —2, Я(2,1,2)=1, Я(1,2,1)=2, Я(2,2,1) = 1, (7.1) Я(1,2,2)=—5, Я(2,2,2) = 5. Граф G=(X, F) игры изображен на рис. 22. Кружками на графе изображены позиции, в которых ходит игрок 1, а квадратиками — позиции, в которых ходит игрок 2. Если множество обозначить через X, множество Х2 — через Y и элементы этих множеств соот- ветственно — через хеХ, ye Y, то стратегия игрока 1 и, (•) задается пятимерным вектором ut (•)= {ut (х^, ut (x2), (x3), (x4), (x5)}, предписывающим выбор одного из двух чисел {1, 2} в каждой позиции множества X. Аналогично стратегия и2(-) игрока 2 пред- ставляет собой двумерный вектор и2()={мг(у1), и2(у2)}, предписы- вающий выбор одного из двух чисел {1, 2} в каждой из позиций множества Y. Таким образом, у игрока 1 в этой игре 32 стратегии, а у игрока 2 — 4 стратегии. Соответствующая нормальная форма игры имеет матрицу размера 32 х 4, которая, однако (это следует из теоремы п. 2.1), имеет ситуацию равновесия в чистых стратегиях. Можно убедиться, что значение рассматриваемой игры равно 4. Игрок 1 имеет четыре оптимальные чистые стратегии: (2, 1, 1, 1, 2), (2, 1, 2, 1, 2), (2, 2, 1, 1, 2), (2, 2, 2, 1, 2), у игрока 2 —две оптимальные стратегии: (1, 1), (2, 1). Пример 7. Несколько изменим информационные условия приме- ра 6. Игра антагонистическая. Делая первый ход, игрок 1 выбирает число из множества {1, 2}. Второй ход делает игрок 2. Зная выбор игрока 1, он выбирает число из множества {1, 2}. Третий ход делает игрок 1. Не зная выбора игрока 2 и забыв свой выбор, он выбирает 205
число из множества {1, 2}. На этом игра прекращается и выигрыш определяется по формуле (7.1), так же как и в игре примера 6. Граф G=(X,F) игры не изменяется, однако, находясь в узлах х2, х3, х4, х5 (на 3-м ходе игры), игрок 1 не может определить, в каком из этих узлов он на самом деле находится, но, зная очередность хода (3-й ход), он может быть уверен, что не находится в узле xt. На графе G мы обведем узлы х2, х3, х4, х5 пунктирной линией (рис. 23). В результате узел х2 оказался обведенным кружком, что можно интерпретировать как точное знание игроком 1 этого узла, когда он в нем находился. Узлы у1, у2 обведены квадратиками, что также означает, что игрок 2, находясь в одном из них, при совершении своего хода может отличить его от другого. Объединяя узлы х2, х3, х4, xs в одно множество, мы иллюстрируем факт их неразличимо- сти для игрока 1. Множества, на которые разбиты узлы, будем называть инфор- мационными множествами. Перейдем теперь к описанию стратегий. Состояние информации игрока 2 не изменилось, поэтому множество его стратегий то же, что и в примере 6, т. е. оно состоит из четырех векторов (1, 1), (1, 2), (2, 1), (2, 2). Информационное состояние игрока 1 изменилось. На 3-м шаге игры он знает лишь номер этого шага, но не знает позиции, в которой находится. Следовательно, он не может ре- ализовать выбор следующей вершины (или выбор числа из множе- ства {1, 2}) в зависимости от позиции, в которой находится на третьем шаге. Поэтому на 3-м шаге ему остается независимо от в действительности реализовавшейся позиции выбирать одно из двух чисел {1, 2}. Поэтому его стратегия представляет собой пару чисел (i.j), ie{l, 2), je{l, 2), где число i выбирается в позиции xt, а число j на 3-м шаге одинаково во всех позициях х2, х3, х4, х5. Таким образом, выбор числа j оказывается функцией множества 206
и может быть записан как и {х2, х3, х4, х5} = j. В данной игре у обоих игроков по четыре стратегии и матрица игры имеет вид (1-1) (1-2) -3 — 2 1 5 (2.1) (2.2) 2 21 -5 -5 4 1 1 5 В этой игре нет ситуации равновесия в чистых стратегиях. Значе- ние игры равно 19/7, оптимальная смешанная стратегия игрока 1 есть вектор (0, 0, 4/7, 3/7), а оптимальная смешанная стратегия игрока 2 равна (4/7, 3/7, 0, 0). По сравнению с примером 6 гаран- тированный выигрыш игрока 1 уменьшается. Это вызвано ухудше- нием его информационного состояния. Интересно заметить, что матрица игры примера 7 имеет размер 4 х 4, в то время как матрица игры примера 6 имеет размер 32 х 4. Таким образом, уменьшение доступной информации уменьшает размер матрицы выигрышей, следовательно, и облегчает решение самой игры, что противоречит распространенному мнению о том, что уменьшение информации приводит к усложнению принятия решений. Изменяя информационные условия, можно получить другие ва- рианты игры, описанной в примере 6. Пример 8. Делая первый ход, игрок 1 выбирает число из множе- ства {1,2}. Второй ход делает игрок 2, который, не зная выбора игрока 1, выбирает число из множества {1, 2}. Далее, совершая 3-й ход, игрок 1 выбирает число из множества {1,2}, зная выбор игрока 2 и помня свой выбор на первом шаге. Выигрыш определяется так же, как и в примере 6 (рис. 24). Поскольку при совершении третьего хода игрок знает позицию, в которой он находится, позиции третье- го уровня обведены кружками, два узла, в которых ходит игрок 2, 207
-з -2 2 -54 1 1 5 Рис. 25 мы обвели штриховой линией, включив их в одно информационное множество. Пример 9. Делая первый ход, игрок 1 выбирает число из множе- ства {1, 2). Второй ход делает игрок 2, не зная выбора игрока 1. Далее, совершая третий ход, игрок 1 выбирает число из множества {1, 2}, не зная выбора игрока 2 и не помня свой выбор на 1-м шаге. Выигрыш определяется так же, как в игре из примера 6 (рис. 25). Здесь стратегия игрока 1 состоит из пары чисел (i, j), где i-выбор на 1-м шаге, а/ — на 3-м шаге игры. Стратегия игрока 2 есть выбор числа j на 2-м шаге игры. Таким образом, у игрока 1 — четыре стратегии, а у игрока 2 — две стратегии. Игра в нормальной форме имеет матрицу размера 4x2: -2 2“| -5 4 1 1 5 Значение игры равно 19/7, оптимальная смешанная стратегия игрока 1 (0, 0, 4/7, 3/7), оптимальная стратегия игрока 2 (4/7, 3/7). В этой игре значение оказалось таким же, как и в игре из примера 7, т. е. оказалось, что ухудшение информационных условий игрока 2 не улучшило состояние игрока 1. Это обстоятельство в данном случае носит случайный характер и вызвано спецификой функции выигрыша. Пример 10. В предыдущем примере игроки не различают пози- ции, находящиеся на одном уровне дерева игры, однако они все- таки знают, какой ход совершают. Можно построить игру, в кото- рой игроки проявляют большее незнание. Рассмотрим антагонистическую игру двух лиц, в которой игрок 1 — один человек, а игрок 2 — команда из двух человек Л и В. Все трое изолированы друг от друга (находятся в изолированных поме- 208
щениях) и не могут общаться между собой. В начале игры посред- ник входит в помещение, где находится игрок 1, и предлагает ему выбрать число из множества {1, 2}. Если игрок 1 выбирает 1, то посредник заходит сначала в помещение, где находится А, и пред- лагает ему выбрать число из множества {1, 2}, затем заходит к |? и предлагает ему сделать выбор из множества {1, 2}. Если же игрок 1 выбирает 2, то посредник предлагает игроку В сделать выбор первому. После того как три числа выбраны, игрок 1 выиг- рывает величину К(х, у, z), где х, у, z — выборы игрока 1 и членов команды 2 А и В соответственно. Функция К(х, у, z) определяется следующим образом: ЛГ(1,1,1)=1, tf(l,2,l)=7, К (2,1,1)=5, К (2,2,1)=6, tf(l,l,2)=3, ^(1,2,2)=9, К (2,1,2)= 1, К (2,2,2)=7. Из правил игры следует, что, когда одному из членов команды А и В предлагается сделать выбор, он не знает, совершает ли он выбор на 2-м или 3-м шаге игры. Структура игры изображена на рис. 26. Таким образом информационные множества игрока 2 соде- ржат вершины разного уровня, что соответствует незнанию номера хода в игре. Здесь игрок 1 имеет две стратегии. Игрок 2 имеет четыре стратегии, они состоят из всевозможных комбинаций выбо- ров членов команды А, В, т. е. его стратегии суть пары (1,1), (1,2), Для того чтобы понять, как определяются элементы матрицы выигрышей, рассмотрим ситуацию {2, (2,1)}. Так как игрок 1 вы- брал 2, то посредник идет в комнату к В, который согласно страте- гии (2.1) выбирает 1. Далее он идет к А, который выбирает 2. Таким образом, выигрыш в ситуации {2, (2,1)} равен К (2, 1, 2) = 1. Матри- Рис. 26 209
ца выигрышей для игры в нормальной форме имеет вид 9 7 (1,1) (1,2) (2,1) (2,2) 1 Г 1 3 7 9‘ 2 5 6 1 7 3 6 7 1 Значение игры равно 17/5, и оптимальные смешанные стратегии игроков 7 и 2 соответственно равны (2/5, 3/5), (3/5, 0,2/5,0). Заметим, что в многошаговых играх с полной информацией (см. теорему п. 2.1) существует ситуация равновесия по Нэшу в классе чистых стратегии, а в случае антагонистических многошаговых игр — просто ситуация равновесия в чистых стратегиях. Вместе с тем во всех играх с неполной информацией, рассмотренных в при- мерах 7 — 10, ситуации равновесия в чистых стратегиях не суще- ствует. 7.2. Дадим теперь формальное определение многошаговой пози- ционной игры. Определение. Многошаговая позиционная игра п лиц Г опреде- ляется'. 1) Заданием древовидного графа G=(X, F) с начальной вершиной х0, называемой начальной позицией игры. 2) Разбиением множества всех вершин Xна п+1 множество У., Х2, .... Х„, Хв+1, где множество Xt называется множеством очеред- ности i-го игрока i= 1, ..., п, а множество Хп+1 = {х\Fx= 0} — мно- жеством окончательных позиций. 3) Заданием вектор-функции K(x)=(Kt (х), ...,К„(х)) на множест- ве окончательных позиций хеХв+1; функция К((х) называется выиг- рышем i-го игрока. 4) Подразбиением каждого множества Xb i=l,..., п, на непересе- кающиеся подмножества Х{, называемые информационными множе- ствами i-го игрока. При этом для любых позиций одного и того же информационного множества множество следующих за ними вершин должно содержать одно и то же число вершин, т. е. для любых х, у еХ^: |F,| = |7^| (|JFX| — число элементов множества Fx), и никакая вершина информационного множества не должна следовать за неко- торой другой вершиной этого же множества, т. ех если xeXJh то не существует другой вершины уеХ{ такой, что yeFx (см. п. 1.2). Определение многошаговой игры с полной информацией (см. п. 1.4) отличается от приведенного здесь лишь условием 4, где вводят- ся дополнительные разбиения множеств очередности игроков Xt на информационные множества. Как видно из примеров, содержатель- ный смысл такого разбиения заключается в том, что при соверше- нии своего хода в позиции xeXt игрок i в условиях неполной 210
информации не знает самой позиции х, а знает лишь, что эта позиция находится в некотором множестве У,(х е На ин- формационные множества игрока условие 4 накладывает опреде- ленные ограничения. Требование |ГХ| = |Г,,| для любых двух вершин одного информационного множества вводится для того, чтобы вершины х, yeXi были неразличимы. Действительно, при |.FX|#|.FJ,| игрок i мог бы различить между собой вершины х, уеХ\ по числу выходящих из них дуг. Если бы в одном информационном множест- ве существовали две такие вершины х, у, что yeFx, то это означало бы, что партия игры может пересекать дважды одно информацион- ное множество, а это, в свою очередь, равносильно тому, что игрок i не помнит номера своего хода в данной партии, что трудно представимо в реальной игре. § 8. СТРАТЕГИЯ ПОВЕДЕНИЯ Продолжим исследование многошаговой игры с неполной ин- формацией и покажем, что в случае полной памяти у всех игроков она имеет ситуацию равновесия в стратегиях поведения. 8.1. Для дальнейшего исследования необходимо ввести ряд до- полнительных понятий. Определение. Альтернативами в вершине хеХ называются дуги, инцидентные с х, т. е. {(х, y):yeFx}. Если |ГХ|=Л:, то в вершине х имеется к альтернатив. Будем считать, что если в вершине х имеется к альтернатив, то они нумеруются целыми числами 1, ..., к, причем вершина х обходится по часовой стрелке. В вершине х0 первая альтернатива может быть указана произвольно. Если некоторая вершина х#х0 обходится по часовой стрелке, то первой альтернативой в х считается та, которая следует за единственной дугой (F~l, х), входящей в х (рис. 27). Будем считать, что в игре Г все альтернативы перенумерованы указанным способом. Пусть Ак— множество всех вершин хеХ, имеющих ровно к альтернатив, т. е. Ак={х: |Л| = к}. Пусть = {Х{: XJ^ clj — множество всех информа- ционных множеств игрока i. Под чи- стой стратегией игрока i будем пони- мать функцию и„ отображающую It в множество положительных чисел, так что Ui(X§t^k, если Х{аАк. Будем говорить, что стратегия и, выбирает 211
альтернативу / в позиции хеХ{, если м/(А'{)=/, где / — номер аль- тернативы. Так же как это было сделано в п. 1.4, можно показать, что каждой ситуации u()=(u1Q, ..., ц,(.)) единственным образом соот- ветствует партия (о, следовательно, и выигрыш в окончательной позиции этой партии. Пусть хеХп+1 — некоторая окончательная позиция и to — един- ственный путь (F — дерево), ведущий из х0 в х. Условие принадлеж- ности позиции у пути со будем записывать в виде у е со или у <х. Определение. Позиция хеХ называется возможной для «,(), если существует ситуация «(•), содержащая «<(•), такая, что в си- туации «() реализуется путь <о, который содержит позицию х, т. е. хе (о. Информационное множество Х{ называется существенным для «, (•), если некоторая позиция хеХ{ возможна для «/(). Множество позиций, возможных для u, Q, обозначим через Poss щ(-), а семейство информационных множеств, существенных для «<(•),— через Rel иД). Лемма. Позиция хеХвозможна для ut() тогда и только тогда, когда ut() выбирает альтернативы, лежащие на отрезке партии сох от х0 до х во всех своих информационных множествах, пересека- ющих (0х. Доказательство. Пусть хе Poss «,(). Тогда существует ситу- ация м(-), содержащая и,( ), такая, что партия со, реализовавшаяся в этой ситуации, проходит через х: а это и означает, что на своих информационных множествах, пересекающих отрезок партии сох, стратегия и{(-) выбирает альтернативы (дуги), принадлежащие сох. Пусть теперь «, () выбирает все альтернативы игрока i в а>х. Для того чтобы доказать возможность х для м((-), необходимо постро- ить ситуацию »(•), содержащую и,( ), в которой партия проходила бы через х. Для игрока k^i построим стратегию «*(•), которая на информационных множествах Х{, пересекающих отрезок пути а>„ выбирает альтернативы (дуги), лежащие на этом пути, а в оста- льном произвольна. Поскольку каждое информационное множество пересекает путь со лишь однажды, это всегда можно сделать. В по- лученной ситуации и() партия со обязательно пройдет через х. Следовательно, мы показали, что xePossu, ( ). 212
8.2. Смешанные стратегии в многошаговой игре с неполной информацией Г определяются так же, как и в п. 4.2 гл. I для конечных игр. Определение. Смешанной стратегией д, игрока i называется вероятностное распределение на множестве чистых стратегий иг- рока i, которое каждой его чистой стратегии щ(-) ставит в соот- ветствие вероятность qU(() (в дальнейшем для простоты будем писать просто qu). Ситуация д=(дх, ..., рп) в смешанных стратегиях определяет распределение вероятностей на всех партиях аз (следовательно, и на окончательных позициях Хя+1) по формуле и где P«(to)=l, если партия оз реализуется в ситуации м(-), и Ри(со)=О в противном случае. Лемма. Обозначим через Рц(х) вероятность реализации позиции х в ситуации р. Тогда имеет место формула М*)= Z _9«.-4«и=П Z Ъ,- (8.1) (tt(-):xePossMf(), I—1,л} {м/:хеРо88м/} Доказательство этого утверждения непосредственно следует из леммы п. 8.1. Математическое ожидание выигрыша Et(p) игрока i в ситуации р равно Е((д)= £ Я(х)Ря(х), (8.2) *eZ„+i где РДх) вычисляется по формуле (8.1). Определение. Позиция хеХназывается возможной для ph если существует ситуация р в смешанных стратегиях, содержащая ph такая, что Ря(х)>0. Информационное множество Х\ игрока i назы- вается существенным для рь если некоторое хеХ-f является воз- можным для pt. Множество возможных для pf позиций обозначим через Роввд,, а множество существенных для р, информационных множеств — че- рез Rel pi. 8.3. Исследуя многошаговые игры с полной информацией 213
(см. 3.3), мы показали, что выбор стратегии может осуществляться на каждом шаге в соответствующей позиции игры, а при решении конкретных задач необязательно (да и практически невозможно) определять заранее стратегию, т. е. полный набор рекомендуемого поведения во всех позициях (информационных множествах), по- скольку такое правило (см. пример п. 2.2) «страдает сильной избы- точностью». Можно ли сделать аналогичное упрощение в играх с неполной информацией, т. е. строить стратегию не как заранее фиксированное правило выбора во всех информационных множест- вах, а формировать ее по мере попадания в соответствующее ин- формационное множество? Оказывается, что в общем случае этого сделать нельзя. Однако существует класс игр с неполной инфор- мацией, где такое упрощение возможно. Введем понятие стратегии поведения. Определение. Под стратегией поведения р( игрока i будем понимать правило, которое каждому информационному множеству Х\^Ак игрока i ставит в соответствие систему из к чисел Ь(Х{, v)>0, v=l,..., к, таких что 2>(Л v)=l, V где Л*={х:|Л|=£}. Числа b(XJit v) могут интерпретироваться как вероятности выбо- ра альтернативы v в информационном множестве Х^с.Ак, каждая позиция которого содержит ровно к альтернатив. Любой набор Р=(Рк.....Р„) стратегий поведения для п игроков определяет вероятностное распределение на партиях игры и окон- чательных позициях следующим образом: Рд(®)= П b(Xtv). (8.3) »в<в Здесь произведение берется по всем XJt и v таким, что и выбор в точке Х{ Qco альтернативы с номером v приводит в пози- цию, принадлежащую пути ш. В дальнейшем под понятием «путь» удобно подразумевать не только набор составляющих его позиций, но и набор соответству- ющих альтернатив (дуг). Ожидаемый выигрыш Et(P) в ситуации Р=(Рк....рл) в стратеги- ях поведения определяется как математическое ожидание Е,(Р)= £ ВДРДюД f=l............п, xeXn+i где сох — партия, завершающаяся позицией хеУл+1. 214
8.4. Каждой смешанной стратегии можно сопоставить некото- рую стратегию поведения pt. Определение. Стратегией поведения ph соответствующей сме- шанной стратегии pt= {qu^ игрока i, называется стратегия поведе- ния, определенная следующим образом. Если A^eRel ph то b(X^, v)={x^>RebW(X>)-v} (8 4) {u^T'eRelu,} Если A^Rel/x,, то на множестве Х\ стратегию Р, можно опреде- лить произвольным, отличным от (8.4) образом. (В случае У-^Rel знаменатель в выражении (8.4) обращается в нуль.) Для определен- ности будем полагать b(Xi„v)= X 9иг (8.5) Приведем без доказательства следующий результат. Лемма. Пусть Д, — стратегия поведения игрока i, а щ={ци} — смешанная стратегия, определяемая формулой $И/=П*(Л «дж V, Тогда Pt — стратегия поведения, соответствующая щ. 83. Определение. Игра Г называется игрой с полной памятью для i-го игрока, если для любых щ(), Х{, х из условий A^eRel щи хе XJi следует, что х с Poss щ. Из определения следует, что в игре с полной памятью для i-го игрока любая позиция из существенного для и,(-) информационного множества является возможной для и((). Термин «полная память» подчеркивает то обстоятельство, что, очутившись в любом своем информационном множестве, i-й игрок может точно восстановить, какие альтернативы (т. е. номера) он выбирал во всех своих пре- дыдущих ходах (в силу однозначного соответствия). Игра с полной памятью для всех игроков превращается в игру с полной инфор- мацией, если все ее информационные множества содержат по одной вершине. 8.6. Лемма. Пусть Г — игра с полной памятью для всех игроков; <о — некоторая партия в Г. Пусть хеХ] — последняя позиция в пу- ти <о, в которой ходит игрок i, и пусть он выбирает в х дугу veto. 215
Положим Tt(со)={м,: X',g Rel м„ u((Xf)=v}. Если в co нет позиций из Xh то через Tt(aj) обозначим множество всех чистых стратегий игрока i. Тогда партия со реализуется в тех и только тех ситуациях u(-) = (u1Q, •••, “»(•))» &ЛЯ которых щеТ^со). Доказательство. Достаточность. Достаточно доказать, что если U/G Tt (со), то стратегия щ выбирает все дуги (альтернативы) игрока i, входящие в партию со (если, конечно, игрок i вообще имеет ход в со). Однако если ще Tt(co), то A^eRel иь и так как игра Г имеет полную память, то хе Poss щ (хесо). Значит, согласно лемме п. 8.1, стратегия и, выбирает все альтернативы игрока i, входящие в пар- тию со. Необходимость. Предположим, что партия со реализуется в ситуации «(•), у которой ui^Ti(co) для некоторого i. Поскольку A^GRelw,, это означает, что Ut(Xty^v. Но тогда путь со не реализует- ся. Полученное противоречие завершает доказательство леммы. 8.7. Лемма. Пусть Г — игра с полной памятью для всех игроков. Пусть v — альтернатива (дуга) в партии со, инцидентная хеХУ, где хесо, и следующая позиция игрока i (если она существует) в пути со есть уеХ*. Рассмотрим множества S и Т, где S'={«i:^GRel и(, щ(Х$=у}, T={«,:Ar?6Rd и,}. Тогда S=T. Доказательство. Путь uteS. Тогда l^eRel иь и так как Г име- ет полную память, то xePoss щ. Следовательно, по лемме п. 8.1 стратегия щ выбирает все дуги, инцидентные к позициям игрока i на пути от х0 до х и Ui(XJi)=v. Таким образом щ выбирает все дуги, инцидентные к позициям игрока i на пути от х0 до у, т. е. jgPoss щ, y*eRel щ и ще Т. Пусть ще Т. Тогда Х*е Rel щ, и так как Г имеет полную память, то yePoss щ. Однако это означает, что xgPossu, и щ(Х{)=г, т. е. щеЗ. Лемма доказана. 8.8. Теорема. Пусть 0 — ситуация в стратегиях поведения, соответствующая ситуации в смешанных стратегиях д в игре Г (в которой все позиции имеют по крайней мере две альтернативы). 216
Тогда для того чтобы ад)=£((д),/=1, ...,й, необходимо и достаточно, чтобы Г была игрой с полной памятью для всех игроков. Доказательство. Достаточность. Пусть Г — игра с полной памятью для всех игроков. Фиксируем произвольное р. Достаточно показать, что Рд(со)=Рд(со) для всех партий со. Если в со существует позиция игрока г, принадлежащая несущественному для д, инфор- мационному множеству, то найдется Jf-JcRel^,, yjQco^0, такое, что для стратегии поведения ph соответствующей pt, выполняется равенство b(XJb v)=0, где veto. Отсюда имеем РДсо)=0. Справед- ливость соотношения Рд(со)=0 в этом случае очевидна. Будем теперь считать, что все информационные множества i-ro игрока, через которые проходит партия со, существенны для Pt, i=l, 2, ..., п. Пусть игрок i в партии со ходит по порядку в пози- циях, принадлежащих множествам X],..., X’, и выбирает в множест- ве XJt альтернативу vJt j= 1, ..., s. Тогда согласно формуле (8.4) и лемме п. 8.7 имеем s п*(*и>- Z ?«,• >1 «;бГ((<в) Действительно, поскольку в партии со игрок i свой 1-й ход делает из множества X], оно является существенным для всех «<(•)> поэтому знаменатель в формуле (8.4) для b(Xlt, vt) равен единице. Далее в силу леммы п. 8.7 в формулах (8.4) числитель b(XJb vj) равен знаменателю Ь(Х^+1, vj+i),j=l, ..., s. Согласно формуле (8.3) окон- чательно получим РДю)=П £ Чщ, (-1 KjeT((<B) где Ti(co) определено в лемме п. 8.6. В то же время на основании леммы п. 8.6 ^(®)=Е?«,-^Л(®)= Z ?И1...^, «О м:и/еТ/(ш) ....................................п т. е. Рд(со)=Рд(со), и достаточность доказана. Необходимость. Пусть Г не является игрой с полной памятью для всех игроков. Тогда существуют игрок i, стратегия иь инфор- 217
мационное множество A^eRel и, и две позиции х, такие, что xg Poss uit уфPoss и\. Пусть и'— стратегия игрока i9 для которой у6Poss u'h и со — соответствующая партия, проходящая через у в ситуации и'. Обозначим через д, смешанную стратегию игрока i, которая предписывает с вероятностью 1/2 выбирать стратегию Ui либо и\. Тогда Ри •ift.(co)=l/2 (здесь u'\\Hi — ситуация, в которой чистая стратегия и' заменена на смешанную д,). Из условия у ф Poss Ui следует, что путь со, реализующийся в ситуации и'||и„ не проходит через у. Это означает, что существует Xf такое, что X*Qco=X*Qoi^0 и ui(X^)^ui(Xlf). Отсюда, в частности, следу- ет A^eRel ut, XfeRel wf. Пусть Д — стратегия поведения, соответст- вующая д;. Тогда Ь(Х*, m'C-V?)) = 1/2. Не ограничивая общности, можно считать, что ui(XJi)^ut(XJf'). Тогда Ь(Х{, и'(Х{))= 1/2. Обозна- чим через Р ситуацию в стратегиях поведения, соответствующую ситуации в смешанных стратегиях м'||д,-. Тогда Рд(со)<1/4, в то время как =1/2. Теорема доказана. Из теоремы п. 8.8, в частности, следует, что для нахождения ситуации равновесия в играх с полной памятью достаточно ограни- читься классом стратегий поведения. § 9. ФУНКЦИОНАЛЬНЫЕ УРАВНЕНИЯ ДЛЯ ОДНОВРЕМЕННЫХ МНОГОШАГОВЫХ ИГР Теорема о стратегиях поведения, доказанная в предыдущем параграфе, в общем случае не дает возможности непосредственно решать многошаговые игры с полной памятью, однако при простой структуре информационных множеств она обосновывает вывод фу- нкциональных уравнений для значения игры и основанные на этих уравнениях методы нахождения оптимальных стратегий. Наиболее простыми играми с полной памятью, не считая игр с полной информацией, являются так называемые одновременные многошаго- Рис. 28 218
вые игры. Выведем функциональное уравнение для значения таких игр и рассмотрим несколько широко известных [5,11] примеров, где эти уравнения поддаются решению. 9.1. Содержательно одновременная многошаговая игра пред- ставляет собой антагонистическую многошаговую игру, в которой на каждом шаге игры игроки 1 и 2 выбирают свои действия одно- временно, т. е. не имея информации о выборе противником позиции в этот момент. После того как выборы сделаны, они становятся известными обоим игрокам, и игроки вновь совершают одновре- менный выбор и т. д. Условно такую игру будем изображать с помощью графа, име- ющего одно из двух представлений (рис. 28, а, б). Граф изображает поочередную игру с четным числом ходов, в которой информацион- ные множества игрока, совершающего первый ход, являются одно- элементными, а информационные множества другого игрока двух- элементными. В такой игре Г оба игрока обладают полной памя- тью, поэтому в ней согласно теореме п. 8.8 при отыскании ситуации равновесия можно ограничиться классом стратегий поведения. Пусть, для определенности, в Г первым ходит игрок 1. С каж- дым хеХ\ связывается подыгра Гх с той же информационной структурой, что и игра Г. Нормальная форма любой антагонисти- ческой конечно-шаговой игры с неполной информацией представля- ет собой матричную игру, т. е. антагонистическую игру с конечным числом стратегий, поэтому во всех подыграх Гх, хеХг (включая игру Г=ГХо) существует ситуация равновесия в классе смешанных стратегий. Согласно теореме п. 8.8 такая ситуация равновесия суще- ствует и в классе стратегий поведения и значения игры (т. е. значения функции выигрыша в ситуации равновесия в классе сме- шанных стратегий и в классе стратегий поведения) равны между собой. Обозначим значение игры Г» через г(х), xeXt и составим функциональные уравнения для v (х). Для каждого xgXl следующая позиция х', в которой ходит игрок 1 (если таковая вообще существует), принадлежит множеству Fx. Позиция х' реализуется в результате двух последовательных выборов: игроком 1 — дуги, инцидентной к вершине х, и игроком 2 — дуги в позициях yeFx, образующих информационные множест- ва игрока 2. Поэтому можно считать, что позиция х' получается в результате отображения Тх, зависящего от выборов а, Р игроков 1 и 2, т. е. х'=Тх(а, р). Так как число различных альтернатив а и Р конечно, то можно рассмотреть для каждого хеХ± матричную игру с матрицей выиг- 219
рышей Ax={v[Tx(a, £)]}. Пусть flf(x)={b*}(x, а)}, Р„(х) = = {Ь*п(х, Д)} —оптимальные смешанные стратегии в игре с мат- рицей Ах. Тогда имеет место следующая теорема о структуре оп- тимальных стратегии в игре Гх. Теорема. В игре Г оптимальная стратегия поведения игрока 1 в точке х (каждое информационное множество игрока 1 в игре Г состоит из одной позиции хеХх) предписывает каждой альтер- нативе а вероятность в соответствии со смешанной оптимальной стратегией игрока 1 в матричной игре Ах, т. е. bt(x, a.)—bf(x, а). Оптимальная стратегия поведения {b2 (XJ2, fl} игрока 2 в игре Г предписывает каждой альтернативе Р вероятность в соответст- вии с оптимальной смешанной стратегией игрока 2 в игре с матрицей Ах, т. е. Ь2(Х{, Р)=Ь*П(х> Р), где x=F~', если уеХ{. Значение игры удовлетворяет следующему функциональному ура- внению: v(x) = Val{v[T,(a, Д)]}, хеХ2, (9.1) * с граничным условием v(x)^x=H(x). (9.2) (Здесь Vai А — значение игры с матрицей А). Доказательство проводится по индукции и вполне аналогично доказательству теоремы п. 2.1. 9.2. Пример 11. (Игра инспектирования). Игрок Е (нарушитель) хочет совершить некоторое запрещенное действие. Имеется N пери- одов времени, в которые это действие может быть осуществлено. Игрок Р (инспектор), желающий предотвратить это действие, мо- жет провести только одну инспекцию в любой из этих периодов времени. Выигрыш игрока Е равен 1, если запрещенное действие произошло и осталось необнаруженным, и равен (— 1), если наруши- тель пойман (это будет в том случае, когда для совершения дейст- вия он выбирает тот же самый период времени, что и инспектор для проверки); выигрыш равен нулю, если нарушитель не действует вовсе. Обозначим такую V-шаговую игру через Гм. В первом периоде (на 1-м шаге) каждый игрок имеет две альтер- нативы. Игрок Е может предпринимать действие или не предприни- мать его; игрок Р может инспектировать или не инспектировать. Если игрок Е действует и игрок Р инспектирует, то игра заканчива- 220
ется и выигрыш равен —1. Если игрок Е действует, а игрок Р не инспектирует, то игра заканчивается и выигрыш равен 1. Если игрок Е не действует, а игрок Р инспектирует, то игрок Е может пред- принять действие в следующий период времени (в предположении, что ЛГ>1) и выигрыш также равен 1. Если игрок Е не действует и игрок Р не инспектирует, то переходят к следующему шагу игры, который отличается от предыдущего только тем, что до конца игры остается меньшее число периодов времени, т. е. попадают в подыг- ру rN_P Следовательно, матрица для 1-го шага игры выглядит следующим образом: Уравнение (9.1) в этом случае принимает вид «N=Val ! 1 гМ-1_ (9.4) Здесь ®(х) одинаково для всех позиций игры одного уровня и поэто- му зависит только от числа периодов до конца игры. Поэтому вместо ®(х) записано vN. Далее будет показано, что ®N_X<1, следо- вательно, матрица в (9.4) не имеет седловой точки, т. е. игра i с матрицей (9.4) является вполне смешанной. Отсюда получаем (см. п. 9.1 гл. I) рекуррентное уравнение которое вместе с начальным условием ®i=Val( J *)=0 (9.6) определяет vN. Преобразуем уравнение (9.5) с помощью подстанов- 1 1 ки tN=----. Получим новое рекуррентное уравнение tN=tN-i—, •i»-l 2 tt = — 1. Это уравнение имеет очевидное решение tN= — (У+1)/2, откуда имеем N-1 (9.7) I Теперь можно вычислить оптимальные стратегии поведения на г каждом шаге игры. Действительно, матрица игры (9.4) принимает | Г-1 1 1 к вид! , оптимальные стратегии поведения таковы: 221
7>f=(—, —\ \ V^+l N+l/ \N+1 N+lJ Пример 12. (Теоретико-игровые особенности оптимального рас- хода ресурса). Пусть первоначально игроки 7 и 2 имеют соответст- венно г и R— г единиц некоторого ресурса, а также по две чистые стратегии. Допустим, что если игроки выберут одинаковые по номеру чистые стратегии, то ресурс игрока 2 уменьшится на еди- ницу. Если же игроки выберут разные по номеру чистые стратегии, то на единицу уменьшится ресурс игрока 1. Игра заканчивается после того, как ресурс одного из игроков станет равным нулю. При этом игрок 7 получает выигрыш, равный 1, если ресурс игрока 2 станет равным нулю, и выигрыш —1, если станет равным нулю его собственные ресурс. Обозначим через Г*,/ многошаговую игру, в которой игрок 7 имеет k(k=l, 2, ..., г) единиц, а игрок 2—7(7=1, ..., R—r) единиц ресурса. Тогда Уа1Гм=Vai VairVb ValG-м Vair*_M- Vair*,/_i где Vall\o=l, Vair0,/= — 1. Рассмотрим 1-й от конца шаг, т. е. когда у обоих игроков осталось по одной единице ресурсов. Очевидно, что на этом шаге т- Г 1 -П разыгрывается следующая матричная игра: Гм = . Игра Г],] является симметричной, ее значение, которое мы обозна- чим через »],!, равно нулю, а оптимальные стратегии игроков со- впадают и равны (1/2, 1/2). На 2-м от конца шаге, т. е. когда у игроков осталось три единицы ресурсов, разыгрывается одна из двух матричных игр Г1>2 или Гу. При этом »u=Vairu=Val -1 ®i,iJ 1 2’ »2,i=Vair2,i=Val 1 «1,1 _®1,1 1_ 2 1 2 На 3-м от конца шаге (т. е. когда у игроков имеется в общей сложности четыре единицы ресурса) разыгрывается одна из следу- 222
ющих трех игр: Г1>3, Г2>2, Г3>1. При этом ®it3=Vair1>3=Val «и _-1 -П «uJ «1,2-1= з 2 4’ «2,1 v2,2=Vair2.2=Vai L«u «1,2 _«2,1+«U_q «2,1J 2 «3,i=Vair3>1=Val 1 ”2,1 _»2,1 + 1_3 _«2,1 l-T”2”-*' Продолжая аналогичные вычисления далее до V-ro шага от конца, получим следующее выражение для значения исходной игры: «г.Х .r=Vairr,x_r=Val «г.Я-г-1 .«г—1,Я—г «Г-1.Я-Г- «г.Я-г-1_ В силу симметричности матрицы выигрышей игры Гг,х_г имеем 1 / ч vr,R-r—~ (®r,X-r-l+«r-l,X-r), оптимальные стратегии поведения игроков на каждом шаге со- впадают и равны (1 /2, 1/2). Пример 13. В шуточной игре играют две команды: игрок 7 (mt женщин и т2 кошек); игрок 2 (п2 мышей и п2 мужчин). На каждом шаге каждый из игроков выбирает своего представителя. Один из двух выбранных представителей «устраняется» согласно следу- ющим правилам: женщина «устраняет» мужчину; мужчина «устра- няет» кошку; кошка «устраняет» мышь; мышь «устраняет» жен- щину. Игра продолжается до тех пор, пока в одной из групп не останутся игроки только одного типа. Когда группа не имеет больше выбора, другая группа, очевидно, выигрывает. Обозначим значение исходной игры «(шр т2, nv п2). Будем полагать v(ml, т2, лр 0)=«(т1, т2, 0, п2)=1, если mt, т2>0, & v(mt, 0, nt, л2)=®(0, т2, п2, п2)= — 1, если лр п2>0. Введем следующие обозначения: v(ml — l)=t>(m1 — 1, т2, п., п2), v(m2—l)=v(ml, т2— 1, п2, л,), ®(лх —l)=v(m1, т2, nt — 1, л2), »=(л2—1)=®(/л1, т2, nt, п2 — 1). Согласно теореме п. 9.1 справед- ливо соотношение 223
v(mlt m2, nit n2)=Val — 1) v(n2— 1) «(«i-1) v(m2— 1) Можно показать, что рассматриваемая игра является вполне сме- шанной. Согласно теореме п. 9.1 гл. I имеем V (mv т2, nt, п^= vim^ — 1) v(/n2 — 1)—г (л j — 1) v(n2 — 1) v — 1)+v (т2 — 1)—V (л! — 1)—V (л2 — 1) Учитывая граничные условия (9.8), отсюда получаем v(mi9 1, 1, 1)= «(mj-O+l —«(ш* —1)4-3 и v(l, 1, 1, 1)=0. Но эти уравнения совпадают с уравнениями (9.5), (9.6), следовательно, v(m, 1, 1, l)=(m—l)/(m+1) и оптимальные стратегии в этом случае также совпадают с приведенными в приме- ре 11. Упражнения задача 1. Найти все ситуации абсолютного равновесия по Нэшу в примере 4 п. 2.2. 2. Доказать, что в неантагонистической конечно-шаговой игре двух лиц с полной информацией выигрыши во всех «благожелательных» (неблагожелательных) ситу- ациях равновесия по Нэшу равны между собой. 3. Пусть vt(x), v2(x), ..., vn(x) — значения функций выигрыша игроков 1, 2, ..., л в подагре Гх в ситуации абсолютного равновесия в игре Г. а) Показать, что функции »Дх), /=1, 2,..., л, удовлетворяют следующей системе функциональных уравнений: vj(x) = max »/(хЭ, xeXj, i=l, 2,..., л, (10.1) УбГх при граничном условии v/(x)|xe^+1=^(x). (10.2) б) Привести пример игры, в которой выигрыши игроков в ситуации равновесия в стратегиях наказания не удовлетворяют системе функциональных уравнений (10.1) при граничном условии (10.2). 4. Построить пример неантагонистической многошаговой игры двух лиц, в кото- рой в ситуации равновесия в «стратегиях наказания» наказывающий игрок при наказании противника за отклонение от выбранного пути еще сильнее наказывает самого себя. 5. Построить Парето-оптимальные множества в игре из примера 4 п. 2.2. б. Построить пример многошаговой неантагонистической игры, в которой ни одна из ситуаций равновесия по Нэшу не приводит к Парето-оптимальному реше- нию. 7. Построить отображение Т, которое каждой подагре Гг игры Г ставит в соот- ветствие некоторое подмножество ситуаций Uz в этой подагре. Пусть Т(Г) = UXq. 224
Будем говорить, что отображение Т динамически устойчиво, если из u( )eL7Xo следует, что где и* (•)=(«!*(•), и^()) — сужение ситуации м() на подыгру rzjt, ф0 = {х0, zn ..., zjJ — партия, реализовавшаяся в ситуации м()е17Хо. Показать, что если отображения Т каждой подыгре rzjt ставит в соответствие множество Парето-оптимальных ситуаций Ufx> то оно динамически устойчиво. 8. Отображение Т, определенное в упр. 7, называется сильнодинамически устой- чивым, если для любой ситуации и (•) е UXq, любого z*e {zj=ш, где {zj =ш — партия в ситуации «(.), ситуации uk()eUZk существует ситуация w()et/Xo, для которой ситуация и (•) является ее сужением на позициях подыгры Vzk и позиция z^ возможна в ситуации й('). Показать, что если отображение Т каждой подыгре Гг* ставит в соответствие множество ситуаций равновесия по Нэшу, то оно сильнодинамически устойчиво. 9. Построить пример, когда отображение Г, ставящее в соответствие каждой подыгре Г2 множество Парето-оптимальных ситуаций равновесия, сильнодинамичес- ки устойчивым не является. 10. Для каждой подыгры rz введем в рассмотрение величины v({/}, z), /= 1,..., л, представляющие собой гарантированный выигрыш Pro игрока в подыгре Гг, т. е. v({/}, z)— значение антагонистической игры, построенной на графе подыгры Tz между игроком i и игроками N\i, действующими как один игрок. При этом множество стратегий коалиции игроков N\i есть декартово произведение множества стратегий каждого из игроков fee {N\i}, функция выигрыша игрока i в ситуации (uit и^) определяется как иД^а функция выигрыша коалиции N\i полагается равной — Н](щ, и^. Построить функции v ({/}, z) для всех подыгр Tz из примера 4 п. 2.2. 11. Показать, что если в некоторой многошаговой неантагонистической игре Г с неотрицательными выигрышами (Я»>0, / = 1, ..., л) v({/}, z)=0 для всех /=1, ... п ..., л и ze (J то любая партия может быть реализована в некоторой ситуации 1 равновесия в стратегиях наказания. 12. Формализовать fc-уровневую древовидную систему управления в виде иерар- хической игры, в которой управляющий центр, находящийся на i-m уровне (i = 1, ..., к— 1), распределяет ресурсы между подчиненными ему управляющими центрами следующего уровня при i<k— 1 и между подчиненными ему производственными подразделениями при i—к— 1. Выигрыш каждого производственного подразделения зависит только от своего производства, а выигрыш управляющих центров — от подчиненных им производственных подразделений. 13. Найти ситуацию равновесия по Нэшу в построенной в упр. 12 fc-уровневой иерархической древовидной игре. 14. Показать, что вектор выигрышей a = {v(7V), 0, ..., 0} принадлежит С-ядру двухуровневой иерархической древовидной игры с характеристической функцией v(5). Показать, что ситуация равновесия, построенная в двухуровневой древовидной иерархической игре, является также ситуацией сильного равновесия. 15. В ромбовидной иерархической игре построить характеристическую функцию, используя ситуацию равновесия по Нэшу. 16. Описать множество всех ситуаций равновесия по Нэшу в двухуровневой 8 Теория игр 225
древовидной иерархической игре. Учесть возможность «наказания» центра Ао игро- ками ..., Вп (например, прекращение выпуска продукции при распределении ресурсов, не отвечающих интересам игрока г). 17. Построить матрицу выигрышей игроков в игре примера 6 п. 7.1. Найти оптимальные чистые стратегии и значение получившейся матричной игры. 18. Привести к матричной форме и решить игру из примера 8 п. 7.1. 19. Рассмотрим следующую антагонистическую многошаговую игру с задерж- кой информации о местоположении одного из игроков. Имеются два игрока: мишень Е и стрелок Р. Мишень может двигаться только по точкам осн Ох с координатами О, 1,2,..., причем если игрок Е находится в точке х, то в следующий момент времени он может переместиться только в точки х + 1, х— 1 или остаться на месте. Стрелок Р имеет j патронов, у=0, 1, ..., и может производить не более одного выстрела в каждый момент времени. Считается, что стрелок попадает в ту точку, в которую целится. В каждый момент времени игрок Р знает только точное местоположение игрока Е на предыдущем шаге, т. е. если Е находился на предыдущем шаге в точке х, то игроку Р необходимо целиться в точки г + 1, г* и х— 1. Игрок Е знает количество патронов, которые имеет игрок Р в каждый момент времени, но не знает, куда целится игрок Р. Выигрыш стрелка Р равен числу попаданий в мишень. Таким образом, цель стрелка Р — максимизировать количество попаданий в мишень Е до того, как она достигнет «бункера». Цель мишени противоположна. Здесь под «бун- кером» понимается точка О, в которой мишень недостижима для стрелка Р, Обозначим символом описанную выше игру при условии, что мишень Е в начальный момент времени находилась в точке с координатой х, а стрелок Р имел j патронов. Символом v(i, J) обозначим значение игры Г1? (если оно существует). Нетрудно заметить, что v(x, 0)=0, х=1, 2,..., v«(l,y)e0, у=1, 2,.... На каждом шаге игры Г/j, х=2, 3, ..., j=l, 2, ..., стрелок имеет четыре стратегии (на самом деле больше, но они неразумны), а игрок Е — три стратегии. Стратегии стрелка Р таковы: выстрелить в точку х—1, выстрелить в точку i, выстрелить в точку i+1, не стрелять на данном шаге. Стратегии мишени: передвинуться в точку х— 1, оставаться в точке х, передвинуться в точку г+1. Следовательно, на каждом шаге игры разыгрывается матричная игра с матрицей выигрышей l+v(x-l, у-1) v(i, j—1) »(x + l,y-l) v(i— 1, J— 1) l+v(x, j— 1) «(г+l, j—1) v(x —1, у—1) i>(x,y-l) l+v(x + l, у—1) »G-1, J) Символами (г, у), x2 (г, у), x3 (x, у), x4 (г, J) обозначим вероятности, с которыми стрелок Р использует свои 1, 2, 3 и 4-ю стратегии, а символами у1(г> j), y2(i, j), y3(i,j) — вероятности, с которыми мишень Е использует свою 1, 2, и 3-ю стратегии (стратегии поведения игроков Р и Е соответственно есть функции информационных множеств а) Показать, что значение игры v(i, J) и оптимальные стратегии поведения стрелка P(xAi,j), x2(i,j\ x3(i,j)9 и мишени E(yr y2(i,j), y3(i»J)) связаны между собой следующими соотношениями: (1+»(/-!,у-1))хх +®(г-1, j-1) x2+v(x-l,y-l) х3+«(г-1,у) x4>v(x,y), »(г,у-1) хх+(1 + v(x, j-1)) х2+»(г,у-1) x3+v(x, j) x4>v(x,y), v(x + l,y-l)xx+»(x + l,y-l) x2+(l+i>(x+l,y-l)) x3+v(x + l,y) x4>v(x,y), xx+x2+x3+x4 = l, xx>0, x2>0, x3>0, x4>0; (1 +v(x-1, у-1)) y± +»(г,у-1) y2+V(х+1,у-1) y3 (i, j), 226
• (i~ 1. j -1) У1 + (1 + » ft j -1)) У 2 + » O’ +1 > j~ 1) Уз < « («.J), « (i-1, j-1) +» (i, j-1) y2+(1 + v (i +1, j-1)) < v («, j), • (j~ L J) Уi + « ft J) У2 +* ('+1 > J) Уз (<• J)> У1 +3’2+Уэ-1,У1>0,у2>0,Уз>0. Указание. Трудность решения этой игры состоит в том, что для определения v(i, J) необходимо знать »(1+1, j), для определения »(f+l, j) необходимо знать v(i+2, j) и т. д. В приводимых ниже упражнениях дано решение игры и приво- дятся некоторые его свойства. б) Пусть tp(i, j), 1=1, 2, ...,7=0, 1, ...,— двойная последовательность, определя- емая соотношениями q>(i, 0)=0, 1-1, 2, ...; ф(1,7)=0,7=1, 2, ..., <? ft 7) =min {(1+ф 1)4-<р (1, у-1)+ф (1 +1, j-1))/3, (1+Ч> (1—1,7‘—1)+$>(!, 7’—1))/2). 1) Доказать, что v(i, j), и если v(i, _/)=(!+«(1—1, j— 1)4-» (1, 7'—1)+ +v(i+l,7-l))/3, то xi (‘. J)=» (f. j)~v 1), x2 (i, j) =» (i, J)-v (i, J-1), *э ft (i. Q+IJ-1), x4. ft 7)=0, у i (i. J)=у2 ft Л=Уз (!. 2) Доказать, что »(1,7)=9(1,7), несли v(i,7)=(l+«(/—1,7—l)4-«(/,7—1))2, to Xi(i, /-I), x2(l,7)»»(i, 7)—®(f,7‘—1), x3 (1,7)=x4 (!,;)=0, Ji ftj)=?2 ft7)=“1/2; Уз (i>j)-0- в) Доказать, что при любом 7=0,1, 2,... справедливы следующие соотношения: 1) «“J+1.J+2, ...; 2) .ft»<«(/4-l,A i-1, 2,...; 3) v(i,y)<«fty+l), 1=2, 3,...; 4) «ft 7) 4-® (14-2,7X2» (14-1,7), 1=1, 2,... . г) Доказать, что: 1) lim v(i,при любом фиксированном 7*=0,1, 2,...; /-► + 00 2) lim 1 при любом фиксированном i=l, 2, .... /->-00 20. Рассмотрим обобщение игры о стрелке и мишени, когда мишень £*, занимая положение i9 может из него передвинуться максимум на k единиц вправо или влево, т. е. перейти в каждую из следующих точек i—kt /—^+1, ..., i, f+1, ..., /+£. Остальные цели и возможности стрелка Р и мишени Е остаются прежними с учетом нового определения стратегии игрока Е. Символом G(i, J) обозначим игру при условии, что мишень в начальный момент времени занимает i-ю точку, а стрелок имеет J патронов. Символом v (i, j) обозначим значение игры Из определения G(i,j) имеем 0)=0 i»l, 2, ..., 2,..., 2, ... . На каждом шаге игры G(i, /), /=^+-1, ...,/= 1, ... стрелок Р имеет 2^+2 чистые стратегии, а мишень £(2Аг-Ь1) — чистую стратегию. Чистыми стратегиями игрока Р являются: стрельба в точку i—k, стрельба в точку i—k4-1,стрельба в точку i + k, 8* 227
отказ от выстрелов на данном шаге. Стратегиями Е являются: перемещение в точку i—k9 перемещение в точку z—fc+1, перемещение в точку i+k. Таким образом, на каждом шаге игры разыгрывается игра с матрицей {amn(z, j)} размера (2fc+2) х (2fc+1), где l+v(i+n—к— 1, j— 1), если т=и = 1, ..., 2fc+l, j)=\v(i+n—k—\9 J—1), если т^п; т, л = 1, ..., 2ЛгЧ-1, v(i+n—к—1, у), если /и=2£+2, л = 1, ..., 2£+1. а) Показать, что игра G (i, j) имеет значение, равное v (z, j), в том и только в том случае, если существуют (хр х2,..., х2*+2), <У1> У 2» • У2к+1) такие, что: 2к+2 £ Omnti.j) n=l......2*4-1, m+1 2fc+2 £ xm=l, хж>0, m=l,.... 2k+2, 2fc+l £ M = l. •••> 2fc+l, Л«1 2*+l £ >’л=1»>’я>0, B-l,2fc+l. n»l Указание. Обозначим символами x^z, j), x2(i, j), ...» Х2*+2р, j) оптимальные стратегии поведения (если они существуют), с которыми стрелок Р использует свои 1-ю, 2-ю, ..., (2£+2)-ю стратегии в информационном состоянии (/, j), а символами уi(i, j), y2(i, j)9 ..., y2k+i(j> j) — оптимальные стратегии поведения, с которыми мишень Е использует свою 1-ю, 2-ю, ..., (2£+1)-ю стратегии в информационном состоянии (/, 7). В приводимых ниже упражнениях приведено решение игры G(i, J) и его свойства. б) Символом <p(i, j)9 j=^9 1, z = l, 2, ..., обозначим следующую двойную последовательность: Ф(/, 0)=0, i=l, 2, ...; ф(1»Т)=О, i=l, 2,..., £;/’=!, 2,...; Ф(«,»= min [(!+ l,j-l))/(Jt+2)J, (10.3) r-/.....*+i \ ,.1 / i=k+l, к+2......J=l,2,.... Доказать, что 1) »G\j)s^(ij); 2) при laAr+l, ...;j=l, 2, .., имеем xm(i, j)—v(i+m—k— 1, j— 1) при m=l,..., fc+r*, иначе хт(4т) = 0, уя(/,т)= l/(A:+r*) при л = 1,..., fc+r*, иначе уя=0. Здесь г=г* — точка, в которой достигается минимум в (10.3). в) Доказать, что при 7=0, 1, ...: 1) 1 = 1, 2,...; 2) ti(z,7)=j7(2A:+l), z=^7+l, 47+2, ...; 228
3) v(i, j)^v(i+l,y), i=l, 2, 4) vli, 1), /=fc+l fc+2, ...; 5) /=1, 2, .... г) Игра G(i, oo). Доказать, что limv(z, ;)=w(z) при каждом /=1, 2, ..., где w (i) — решение линейного разностного уравнения к kw(i)— £ v(Z—р)-1, /«£+!, fc+2, ... с начальными условиями: w(l)=w(2) = ...«w(Jt)=0.
ГЛАВА V ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ § 1. АНТАГОНИСТИЧЕСКИЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ С ПРЕДПИСАННОЙ ПРОДОЛЖИТЕЛЬНОСТЬЮ Дифференциальные игры являются обобщением многошаговых игр на случай, когда число шагов в игре становится бесконечным (континуум), и игроки 1 ц 2 (будем обозначать их буквами Е и Р) соответственно имеют возможность принимать решения непрерыв- но. В такой постановке траектории движения игроков представляют собой решения систем дифференциальных уравнений, правые части которых зависят от параметров, которые находятся под контролем игроков. 1.1. Пусть хеА", yeRn, ueUclt, veVclt, f(x, и), g(y, v) — вектор-функции размерности п, заданные на Я" х U и it х V соот- ветственно. Рассмотрим две системы обыкновенных дифференци- альных уравнений X=f(x, и); (1.1) y=g(y>v) (1.2) с начальными условиями х0, у0. Игрок Р(Е) начинает движение из фазового состояния х0(у0) и перемещается в фазовом пространстве it согласно (1.1) или (1.2), выбирая в каждый момент времени значение параметра ueU(yeV) в соответствии со своими целями и информацией, доступной в каждом текущем состоянии. Наиболее просто поддается описанию случай полной инфор- мации. В дифференциальной игре это означает, что игрокам в каж- дый момент времени t при выборе параметров ие U, ve V известно время t и фазовые состояния свое и противника. Иногда требуют знание одним из игроков, например игроком Р, в каждый текущий момент t значения параметра v е V, выбранного игроком Е в этот же момент. В таком случае говорят, что игрок Е дискриминирован, а сама игра называется игрой с дискриминацией игрока Е. Параметры иеU, veV называются управлениями игроков 230
РяЕсоответственно. Функции х(/), у(/), удовлетворяющие уравне- ниям (1.1), (1.2) и начальным условиям, называются траекториями движения игроков Р, Е. 1.2. Цели в дифференциальной игре определяются с помощью выигрыша, который может различным образом зависеть от ре- ализовавшихся траекторий x(t), y(t). Например, предполагается, что процесс игры продолжается некоторое заранее предписанное время Т. Пусть х(Т), у (Т) — фазовые состояния игроков Р и Ев мо- мент окончания игры Т. Тогда выигрыш игрока Е полагается равным Н(х(Т), у (7)), где Н(х, у) — некоторая функция, заданная на Л" х Л". В частном случае, когда Н(х(Т), у(Т»=р(х(Т), у(Т», (1.3) __ где р(х(Т), у(Т))= '^(xi(T)—yi(T))2—евклидово расстояние между точками х(Т), у(Т), игра описывает процесс преследования, в котором целью игрока Е является уклонение от игрока Р к момен- ту окончания игры на максимальное расстояние. Во всех случаях будем предполагать дифференциальную игру антагонистической. В случае выполнения условия (1.3) это означает, что цель игрока Р — максимальное сближение с игроком Е к моменту окончания игры Т. При таком определении выигрыш зависит лишь от конечных состояний процесса и каждому игроку не засчитываются резуль- таты, достигнутые им в процессе игры до момента Т. Поэтому логичной является и такая постановка задачи, в которой выигрыш игрока Е определяется как минимальное расстояние между игро- ками в процессе игры: min p(x(t), y(t)). QWT Существуют игры, в которых ограничение на продолжитель- ность игры не является существенным и игра продолжается до достижения игроками определенного результата. Пусть в Л2" задана m-мерная поверхность F, которую будем называть терминальной. Положим tn= {mint:(x(t),y(t))eF}, (1.4) т. е. t„ — первый момент попадания точки (x(t),y(t)) на F. Если при всех точка (x(t), y(t))$F, то tn полагаем равным +оо. Для реализовавшихся траекторий х (г), у (0 выигрыш игрока Е полагаем равным t„ (выигрыш игрока Р равен — tn). В частности, если F пред- ставляет собой сферу радиуса />0, заданную уравнением 231
V i=l то имеет место задача преследования, в которой целью игрока Р является скорейшее сближение с игроком Е на расстояние />0. Если /=0, то под встречей понимается совпадение фазовых коор- динат игроков Р и Е, при этом игрок Е стремится оттянуть момент встречи. Игры преследования этого типа будем называть играми преследования на быстродействие. В теории дифференциальных игр рассматриваются также задачи определения множества начальных состояний игроков, из которых игрок Р может обеспечить встречу с игроком Е на расстоянии /, и определения множества начальных состояний игроков, из которых игрок Е может гарантировать, что встреча с игроком Р на расстоя- нии / за конечное время не произойдет. Первое множество называет- ся областью встречи или захвата и обозначается (С, Z), второе — областью убегания и обозначается (Е, Z). Очевидно, что эти об- ласти не пересекаются, однако важным является вопрос, покрывает ли объединение замыканий областей встречи и убегания все фазовое пространство? Ответ на этот вопрос будет дан ниже, а пока заме- тим, что для адекватного описания такого процесса достаточно определить выигрыш следующим образом. Если существует tn<co (см. (1.4)), то выигрыш игрока Е полагаем равным —1. Если же /я=оо, то выигрыш равен +1 (выигрыш игрока Р равен выигрышу игрока Е с обратным знаком, так как игра антагонистическая). Игры преследования с таким выигрышем называются играми пре- следования качества. 13. Фазовые ограничения. Если дополнительно потребовать, что- бы в процессе игры фазовая точка (х, у) не покидала некоторого множества Fc. Л2", то получим дифференциальную игру с фазовыми ограничениями. Частным случаем такой игры является игра с «лини- ей жизни». Она является антагонистической игрой качества, в кото- рой выигрыш игрока Е полагается равным +1, если ему удается достичь границы множества F («линии жизни») до встречи с игро- ком Р. Таким образом, целью игрока Е является достижение гра- ницы множества F до встречи с игроком Р (сближение с игроком Р на расстояние I, />0), цель же игрока Р — сближение с игроком Е на расстояние I, пока последний еще находится в множестве F. Предполагается, что в процессе игры игрок Р не может покинуть множества F. 1.4. Пример 1. (Простое движение). Игра происходит на плоско- сти. Движение игроков РиЕ описывается системой дифференциаль- ных уравнений Xl=ul, Х2 = и2, Ui + u2^«2, 232
>1 = ю1, y2 = v2> ®1+®2<Д2, xJO)=x?, x2(O)=x?,yt(O)=y?, у2(О)=Л a>/J. (1-5) С физической точки зрения уравнения (1.5) означают, что игроки Р и Е перемещаются в плоскости с ограниченными скоростями, при этом максимальные скорости а и /? постоянны по величине и мак- симальная скорость игрока Е не превосходит скорость игрока Р. * Выбирая в каждый момент времени управление u=(u1, и2), стес- ненное ограничением и2 + и2^.(Г (множество U), игрок Р может изменять направление движения (направление вектора скорости). Аналогично, игрок Е, выбирая в каждый момент времени управле- ние v=(v1, v2), стесненное ограничением /г (множество V), может также в каждый момент времени изменить направление движения. Очевидно, что если а>Р, то множество захвата (С, Z) совпадает со всем пространством, т. е. игрок Р всегда может гарантировать для любого / /-встречу с игроком Е за конечное время. Для этого достаточно выбрать движение с максимальной скоростью айв каждый момент времени t направлять вектор скорости на преследуемую точку у (t), т. е. осуществлять преследо- вание по погонной линии. Если а<р, то множество убегания (Е, Z) совпадает со всем пространством игры за вычетом точек (х, у), для которых р(х, у)^1. Действительно, если в начальный момент р(х0, у0)>1, то игрок Е всегда может гарантировать избежание захвата, удаляясь от игрока Р вдоль прямой, соединяющей начальные точки х0, У О’ с максимальной скоростью р. Здесь проявляется характерное свойство, которое будет встре- чаться и в дальнейшем. Для формирования управления, гарантиру- ющего игроку Е избежание захвата, достаточно знать лишь началь- ные состояния х0, у0, в то время как игроку Р в случае а>Р для формирования управления, гарантирующего встречу с игроком Е, необходимо иметь информацию о своем состоянии и состоянии противника в каждый текущий момент времени. Пример 2. Игроки Р и Е представляют собой материальные точки с единичными массами, которые перемещаются на плоскости под действием ограниченных по модулю сил и силы трения. Уравне- ния движения игроков имеют вид *i=x3, х2-х4, х3 =шу-кРх3, x4=au2—kPx4, uj+u2^<x2, У1=Уз> У2=У4'Уз=Pv1-kBy3, (1.6) У4 = ^2-кЕУ4> где (хр х2), (ylt у2) — геометрические координаты, (х3, х4), (у3, у4) — импульсы точек РяЕ соответственно, кР и кЕ — коэффициен- ты трения, а и р — максимальные силы, которые могут быть при- ложены к материальным точка Р и Е. Движение начинается из 233
состояний х,(0)=х?, у,(0)=у“, 1=1, 2, 3, 4. Здесь под состоянием понимается не геометрическое местоположение игроков Р и Е, а их фазовое состояние в пространстве координат и импульсов. Множе- ства U, V представляют собой круги С7={м=(и1, u2):Ui+uj^ci2}, V={v = (yls v2):v2+v2^p2}. Это означает, что игроки Р и Ев каж- дый момент времени могут выбирать направления прилагаемых сил, однако максимальные значения этих сил ограничены констан- тами а и р. В такой постановке, как это будет показано в даль- нейшем, условия а>р (превосходство в силе) недостаточно для завершения преследования игроком Р из любого начального состо- яния. 1.5. Пока не указан способ выбора управлений ие U, veV игро- ками Р и Е в процессе игры в зависимости от поступающей инфор- мации. Иначе говоря, не дано определение понятия стратегии в диф- ференциальной игре. Существует несколько разных подходов к определению этого понятия. Остановимся на тех интуитивно очевидных теоретико- игровых качествах, которыми оно должно обладать. Как уже от- мечалось в гл. IV, стратегия должна характеризовать поведение игрока во всех информационных состояниях, в которых он может оказаться в процессе игры. В дальнейшем будем определять инфор- мационное состояние каждого игрока фазовыми векторами х(/), y(t) в текущий момент t и временем t—t0, прошедшим с момента начала игры. Тогда естественно было бы рассматривать стратегию игрока Р(Е) как функцию и(х, у, i) (у(х, у, z)) со значениями в множестве управлений U(V). Именно таким образом определяет- ся стратегия в [1]. Стратегии этого типа будем называть синтезиру- ющими. Однако этот способ определения стратегии обладает рядом существенных недостатков. Действительно, пусть игрокиРъЕ вы- брали стратегии и(х, у, /), v(x, у, t) соответственно. Тогда для определения траектории движения игроков, следовательно, и выиг- рыша (который зависит от траекторий) подставим функции и(х, у, t), v (x, у, t) в уравнения (1.1), (1.2) вместо управляющих параметров и, v и попытаемся их проинтегрировать при начальных условиях х0, у0 на отрезке времени [0, 7]. Получим следующую систему обык- новенных дифференциальных уравнений: х=/(х, и(х, у, t)), y=g(y, v(x, у, 0). (1.7) Для существования и единственности решения системы (1.7) необходимо наложить определенные условия на функции f(x, и), g(y, v) и стратегии и(х, у, t), v(x, у, t). Первая группа условий не ограничивает стратегических возможностей игроков, относится к постановочной части задачи и оправдывается физической приро- дой рассматриваемого процесса. По-иному обстоит дело с ограни- чениями на класс функций (стратегий) и(х,у, t), ®(х, у, f). Ограниче- ния возможностей игроков не согласуются с принятым в теории игр 234
представлением о свободе выбора поведения и приводят в ряде случаев к существенному «оскудению» множеств стратегий. Напри- мер, если ограничиться лишь непрерывными функциями и(х, у, t), v (х, у, t), то встречаются задачи, в которых не существует решения в классе непрерывных функций. Допущение же более широкого класса стратегий приводит к невозможности обеспечить сущест- вование единственного решения системы (1.7) на отрезке [/0, 7]. Иногда для преодоления этой трудности рассматривают множества таких стратегий и (х, у, t), v (х, у, t), при которых система (1.7) имеет единственное решение, продолжимое на отрезок [/0, Т]. Однако такой подход (помимо неконструктивности определения множества стратегий) не является достаточно обоснованным, поскольку мно- жество всех пар стратегий и(х, у, t), v(x, у, t), при которых система (1.7) имеет единственное решение, оказывается непрямоугольным. 1.6. В качестве стратегий в дифференциальной игре будем рас- сматривать кусочно-программные стратегии. Кусочно-программная стратегия и(-) игрока Р состоит из пары {ст, а}, где а — некоторое разбиение 0=4<4<—<4<— полуоси времени [0, оо) точками 4> не имеющими конечных точек сгущения; а — отображение, ставящее в соответствие каждой точке 4 и фазо- вым состояниям х(/*), у (4), некоторое измеримое программное управление и (/) 6 U при te (4, 4+i) (измеримую функцию и (t), прини- мающую значения из множества U). Аналогично, кусочно-про- граммная стратегия «(•) игрока Е состоит из пары {т, Ь}, где т — некоторое разбиение 0=4<А<—<4<— полуоси времени $ [0, оо) точками 4. не имеющими конечных точек сгущения; b — ото- бражение, ставящее в соответствие каждой точке 4 и позициям х (fo, y(tk) некоторое измеримое программное управление v(t)e V на от- резке [4,4+1) (измеримую функцию v (/), принимающую значения из множества V). Используя кусочно-программную стратегию, игрок реагирует на изменение информации не непрерывно во времени, а через интервал [/*, tk+v), длину которого он определяет сам. Обозначим множество всех кусочно-программных стратегий иг- рока Р через Р, а множество всех возможных кусочно-программных стратегий игрока Е — через Е. Пусть и (/), v (/) — пара измеримых программных управлений игроков Р и Е (измеримых функций со значениями в множествах управлений U, V). Рассмотрим систему обыкновенных дифференци- ! альных уравнений ; х=/(х, u(/)), y=g(y, ю(0), />0. (1.8) На правые части систем (1.8) наложим следующие ограничения. Вектор-функции f(x, и), g(y, v) непрерывны по всем аргументам < и равномерно ограничены, т. е. f(x, у) непрерывна на множестве ( Л"хС7, a g(y, v) непрерывна на множестве RnxV и |[/"(х, м)|| <а, 235
Hg (у, ®IK/? (здесь ||z|| — норма вектора в Л"). Кроме того, вектор- функции f(x, и) и g(y, ®) удовлетворяют условию Липшица по хну соответственно независимо от и, v, т. е. Il/Xx, u)-f(x2, lOKaJXi-Xjll, ие и, 11*01» »)-я(У2. «)11<£1101 — У1И» «еК Из теорем существования и единственности Каратеодори следует, что при выполнении указанных условии для любых начальных состояний х0, у0, любых измеримых программных управлении u(t), v(t), заданных на отрезке [Гр TJ, О^Т.<Т2, существуют единст- венные абсолютно непрерывные вектор-функции х(/), y(t), которые удовлетворяют почти всюду (т. е. всюду, за исключением множест- ва меры нуль) в промежутке [^TJ системе дифференциальных уравнений x(0=/(x(0, u(0), y(t)=g(y(t), «(0) (1.9) и начальному условию х(Т1)=х0, у(Г1)=у0 (см. [68, 36]). 1.7. Пусть (х0, у0) — пара начальных условий для уравнений (1.8). Система 5={х0, у0; и(), »(•)}, где и()еР, ®(.)еЕ, называется ситуацией в дифференциальной игре. Каждой ситуации 5 единствен- ным образом соответствует пара траекторий х(/), y(f) таких, что х(0)=хо, у(0)=уо, и при почти всех /б[0, 7], Т>0 выполнены соотношения (1.9). Действительно, пусть и (•)={<?, a}, v()={r, b}. Пусть 0=/о<4<...<4<— —разбиение полуоси [0, оо), являющееся объ- единением разбиений 8, г. решение системы (1.9) строится следу- ющим образом. На каждом отрезке [4, tk+i), к=0, 1, ..., образы отображений а, Ь представляют собой измеримые программные управления и ft), v(t), поэтому на отрезке [Zo, fx) система уравнений (1.9) при х(0)=хо, у (0)=j0 имеет единственное решение. На отрезке [4, t2), взяв в качестве начальных условий х(4)= lim x(t), у(4)= lim y(t), строим решение (1.9), вторично используя измери- мость управлений u(t), v(t) как образов отображений а и Ь на отрезках [4, 4+]), fc=l, 2......... Полагая х(/2)= lim x(t), y(t^= lim y(t), продолжаем этот процесс, в результате чего нахо- дим единственное решение x(t), y(t) такое, что х(0)=хо, у(0)=уо. Любую траекторию х(/)(у(/)), соответствующую некоторой ситу- ации {х0, у0; и( ), »(•)}, будем называть траекторией игрока Р (игро- ка Е). 1.8. Функция выигрыша. Как уже было показано, каждая ситу- ация 5=(х0, у0; и(.), «(.)} в кусочно-программных стратегиях одно- значно определяет траектории x(t), y(t) игроков Р и Е. Степень 236
предпочтительности этих траекторий будем оценивать функцией выигрыша К, которая каждой ситуации ставит в соответствие неко- торое вещественное число — выигрыш игрока Е. Выигрыш игрока Р равен (—К) (это означает, что игра антагонистическая, поскольку сумма выигрышей игроков Р и Е в каждой ситуации равна нулю). Будем рассматривать игры с функцией выигрыша четырех видов. Терминальный выигрыш. Заданы некоторое число Т>0 и непре- рывная по (х, у) функция Н(х, у). Выигрыш в каждой ситуации <S'={x0, у0; м(-), v( )} определяется следующим образом: К(х0, Jo; «(•), г(-))=Я(х(7), У(Т», где x(T)=x(z)|t_r, y(T)=y(t)\t.T (здесь x(z), у(t) — траектории иг- роков Р и Е, соответствующие ситуации 5). В случае, когда функция Н(х, у) представляет собой евклидово расстояние между точками хи у, имеет место задача преследования. Минимальный результат. Пусть Н(х, у) — вещественная непре- рывная функция. В ситуации <У={х0, у0', и(), »(•)} выигрыш игрока £ полагается равным min H(x(t), y(t)), где Т>0 — заданное число. Если Н(х, у)=р(х, у), то игра описывает процесс преследования. Интегральный выигрыш. В Л" х Л” заданы некоторое многооб- разие F размерности т и непрерывная функция Н(х, у). Пусть в ситуации 5={х0, у0; «(.), «()}, t„— первый момент попадания траектории (x(z), y(t)) на F. Тогда К(х0, у0- «(•), «(•))=} Я(х(0, j(z)) dt о (если 4=оо, то К А оо), где x(Z), y(t) — траектории игроков Р и Е, соответствующие ситуации 5. В случае Я=1, K—t„ имеет место задача преследования* на быстродействие. Качественный выигрыш. Функция выигрыша К может принимать только одно из следующих трех значений: +1,0, — 1 в зависимости от расположения (x(z„), y(t„)) вЛ'хЛ". В /х^" заданы два много- образия F и L размерности и тг соответственно. Пусть в ситу- ации £={х0, у0; м(-), »(•)}/„— первый момент попадания траек- тории (x(Z), j(Z)) на F. Тогда + 1, если (x(Z„), у(4))е£, К(х0, у0; и(), »(•))=< 0, если Z„ = oo, .-1, если (х(/„), y(tn))$L. 1.9. Определив множества стратегий игроков Р и Е и функцию выигрыша, можно определить дифференциальную игру как игру 237
в нормальной форме. В. п. 1.1 гл. I под нормальной формой Г мы понимали тройку Г=<Х, Y, К), где ХхУ — пространство пар всевозможных стратегий в игре Г и К — функция выигрыша, опре- деленная на X х Y. В рассматриваемом случае функция выигрыша определена не только на множестве пар всевозможных стратегий в игре, но и на множестве всех пар начальных позиций х0, у0. Поэтому каждой паре (х0, уо)б/?"хЛ" соответствует своя игра в нормальной форме, т. е. фактически определяется некоторое семейство игр в нормальной форме, зависящее от параметров (х0, y0)ei^ хЛ". Определение. Под нормальной формой дифференциальной игры Г(х0, у0), заданной на пространстве пар стратегий РхЕ, будем понимать систему Г(х0, уо)=<*о. У о’ Р» Е, к<х0, Уф «(•), «())>, где К(х0, уф, «(•), «()) — функция выигрыша, определенная любым из четырех описанных выше способов. Если функция выигрыша К в игре Г терминальная, то со- ответствующая игра Г называется игрой с терминальным вы- игрышем. Если функция К определяется вторым способом, то имеем игру на достижение минимального результата. Если функция К в игре Г является интегральной, то соответствующая игра Г называется игрой с интегральным выигрышем. Когда функция выигрыша в игре Г качественная, соответствующая игра Г на- зывается игрой качества. 1.10. Естественно, что в классе кусочно-программных стратегий (ввиду некомпактности множества) оптимальных стратегий может не существовать. Однако удается показать, что в достаточно боль- шом числе случаев для любого е>0 существуют ситуации а-равно- весия. Напомним определение ситуации е-равновесия (см. п. 2.3 гл. П). Определение Пусть задано некоторое а>0. Ситуация S,= ={х0, уф «,(•), »,(•)} называется ситуацией е-равновесия в игре Г (х0, у0), если для всех u()eP u v()eE имеет место неравенство К(х0, уф и(), vt())+^K(x0, уф «.(•), «.(•))> (1.10) >К(х0, уф «,(•), »(•))-6. Стратегии «,(•), «,(•), определенные в (1.10), называются е-оп- тимальными стратегиями игроков Р и Е. Следующая лемма является перефразировкой теоремы п. 2.5 гл. П для дифференциальных игр. Лемма. Пусть в игре Г(х0, у0) для каждого е>0 существует ситуация е-равновесия. Тогда существует предел 238
lim K(xQ, y0; «,(•), «,(.)). 8—»0 Определение. Функция V(x, у), определенная в каждой точке (х, у) некоторого множества Dc^xR" по правилу lim К(х, у, «,(•), «.())= V(x, у), (1.11) 8-*0 называется функцией значения игры Г (х, у) на множестве начальных условий (х, у) e D. Существование при любом е>0 ситуации е-равновесия в игре Г (х0, у0) эквивалентно (см. п. 2.5, гл. П) выполнению равенства sup inf Я(х0,у0; u(), »(•))= inf sup K(x0, j0; u(), »(•)). »()eB u()eP u()eP«()eE Если в игре Г (х0, у0) для любого е>0 существуют е-оптималь- ные стратегии игроков Р и Е, то будем говорить, что игра Г (х0, у0) имеет решение. Определение. Пусть и* (•); (•) — пара таких стратегий, что К(х0, у0', н(), »*())>К(х0, у0- «*(•), «•(•))> ' >J^(x0,y0; «*(•),«(•)) (1.12) для всех м(-)еР и ®(-)еЕ. Тогда ситуация 5*=(х0, у»; «*(•), «*(•)) называется ситуацией равновесия в игре Г (х0, у0). Стратегии и* (•)еР и ®* ( )сЕ из (1.12) называются оптимальными стратегиями игроков Р и Е. Существование ситуации равновесия в игре Г (х0> у0) эквивалент- но (см. п. 3.4 гл. I) выполнению равенства max inf К(х0, у0', м(), »(•))= »()еЕи()еР = min вир£(хо, у o', «(•), »())• «(•)еЕм()еР Очевидно, что если существует ситуация равновесия, то для любого е>0 она является и ситуацией е-равновесия, т. е. функция К(х, у) в данном случае просто совпадает с К (х, у; и* (•), v* (•)) (см. п. 2.3 гл. П). 1.11. Рассмотрим синтезирующие стратегии. Определение. Пара (и* (х, у, t), v* (х, у, ()) называется ситуаци- ей равновесия в дифференциальной игре в синтезирующих стратеги- ях, если имеет место неравенство К(х0, у0; и(х, у, f), ®*(х, у, 1))^К(х0, у0; и*(х, у, t), v*(x, у, t))>K(x0, Уо', и*(х, у, f), v(x, у, 0) (1.13) для всех ситуаций (и (х, у, f), ю* (х, у, t)) и (и* (х, у, t), v (х, у, г)), для которых существует едшктвенное, продолжимое на [0, оо) решение 239
системы (1.7) из начальных состояний х0, у0. Стратегии и*(х, у, I), v* (х, у, I) называются оптимальными стратегиями игроков Р и Е. Установим различие понятий ситуации равновесия в кусочно- программных и синтезирующих стратегиях. Заметим, что опреде- лить ситуацию равновесия в обычном смысле в классе функций и (х, у, f), ю(х, у, f) невозможно из-за непрямоугольности пространства ситуаций, т. е. в синтезирующих стратегиях невозможно потребо- вать выполнения неравенства (1.13) для всех стратегий и (х, у, t), v (х, у, I), поскольку некоторые пары (u*, v), (и, v*) могут не быть допустимыми (система уравнений (1.7) в соответствующей ситуации может не иметь решения вообще или не иметь единственного реше- ния). В дальнейшем, если специально не будет оговорено, во всех случаях будем рассматривать классы кусочно-программных страте- гий. Прежде чем перейти к доказательству существования ситуации е-равновесия в дифференциальной игре, рассмотрим один вспомога- тельный класс многошаговых игр с полной информацией. § 2. МНОГОШАГОВЫЕ ИГРЫ С ПОЛНОЙ ИНФОРМАЦИЕЙ И БЕСКОНЕЧНЫМ ЧИСЛОМ АЛЬТЕРНАТИВ 2.1. Рассмотрим класс многошаговых игр с полной информаци- ей, представляющих собой обобщение игр с полной информацией из § 1 гл. IV. Игра происходит в n-мерном евклидовом пространстве R?. Будем обозначать через хе Я"местоположение (позицию) игрока 1, а через yeR* — местоположение игрока 2. Пусть для каждых хеЯ”, yeRn определены множества Ux, Vy соответственно, которые будем предполагать компактными множествами евклидового про- странства Я". Игра начинается из позиции х0, у». На 1-м шаге игроки 1 и 2 выбирают точки хт е Ux<) и ук е УУо. При этом выбор игрока 2 сообщается игроку 1 до выбора им точки хх е UXti. В точках хх, ук игроки 1 и 2 выбирают точки х2ё UXl и у2е Vyi, и выбор игрока 2 сообщается игроку 1 перед выбором им точки х2 е UXt и т. д. На к-м шаге в позициях х*_ь yfc-i игроки выбирают хке UXk_v уке Vyk_v и выбор игрока 2 сообщается игроку 1 перед выбором им точки Xk^UXk_v Процесс заканчивается на N-м шаге выбором x^eU^, yNe УУк t и переходом в состояние xN, yN. Семейства множеств Ux, Vy, xeRn, yeRn предполагаются непре- рывными в метрике Хаусдорфа по х, у. Это означает, что для любого 8>0 найдется такое д>0, что при |х—х0|<<5 ([у—^0|<5) 240
(Ux^ux, (Ux).^ux- (ГД=ГЛ (Г,).= ГЛ. Здесь U,(V,) — е-окрестность множества U(V). Следующий результат хорошо известен в анализе (см. [12]). Лемма. Пусть f(x?, У) — непрерывная функция на декартовом произведении Ux* Vy. Тогда если семейства {17*}» {^} — непрерывны по Хаусдорфу по х, у, то функционалы К (х, y)=max min /(х',у'), feVy УеСГ* Г2(х, y)=min min Дх', у') iieUxyeVy непрерывюяпо х, у. Пусть х=(х0, .... хя) и у=(у0, .... Ун) — траектории игроков 1 и 2 соответственно, реализовавшиеся в процессе игры. Выигры- шем игрока 2 является величина max Дхь y^=F(x, у), (2.1) где Дх, у) — непрерывная функция от х, у. Выигрыш игрока 1 равен (—F) (игра антагонистическая). Будем предполагать, что данная игра с полной информацией, т. е. в каждый момент времени (на каждом шаге) игрокам известны позиции хь ук и момент времени fc+1, а игроку 1, кроме того, известен выбор yk+i игрока 2 в этот момент. Стратегиями игрока 1 являются всевозможные функции и(х, у, I) такие, что u(xk-i, Ук, k)eUXk_v Стратегиями игрока 2 — всевозможные функции ю(х, у, I) такие, что ®(х*_ь Ук-i, Л:)еКп_г Эти стратегии будем называть чистыми стратегиями (в отличие от смешанных). Пусть игроки 1 и 2 применяют чистые стратегии и(х, у, t), v (х, у, t). В ситуации («(•), ® ()) игра происходит следующим образом. На 1-м шаге игрок 2 из состояния у0 переходит в состояние = v (х0, у0 1) и игрок 1 —из состояния х0 в состояние xt=u(x0, ух 1)=и(х0, ®(х0, у0, 1), 1) (поскольку игрок 1 знает выбор игрока 2). На 2-м шаге игроки переходят в состояния y2—v(xi> у15 2), х2=м(х1, уг, 2)=u(x1( v (xit ylt 2), 2) и т. д. На к-м шаге игроки 1 и 2 переходят из состояний хк-х, Ук-\ Ъ состояния yk=v(xk-x, Ук-ъ к), хк=и(хЛ_ь ук, к)—и(хк-ъ v(xk-i, Ук-х, к), к). Таким образом, каждой ситуации (и(), »(.)) однозначно соответствуют траектории игроков 1 и 2: х=(х0,... хя) иу=(у0,.... yN), следовательно, и выигрыш К(и(-), v(-)=F(x, у), определяемый по формуле (2.1). Рассматриваемая игра зависит от двух параметров: начальных 9 Теория игр
позиций (Хр, J'q) и продолжительности N, поэтому будем обозначать ее через Г (х0, у», N). Для дальнейшего исследования каждую игру Г(х0, у0, N) удобно отнести к семейству игр Г (х, у, Т), зависящих от параметров х, у, Т. 2.2. Справедлив следующий результат, являющийся обобщением теоремы п. 2.1 гл. IV для конечных игр с полной информацией. Теорема. В игре Г(х0, у0, N) существует ситуация равновесия в чистых стратегиях и значение игры К(х0, у0, N) удовлетворяет рекуррентному соотношению V(x0, уо> k)=max. {/"(х0, у0), max min Г(х, у, k-1)}, (2.2) xeUXt к=\, ..., N; V(x, у, 0)=/(х, у). Доказательство проведем методом индукции по числу шагов игры. Пусть N= 1. Определим стратегии и* (•), »* (•) игроков в игре Г (xq> Уо, 1) следующим образом: min f(x, y)=f(u* (х0, у, 1), у), уе ГЛ; xet\> если max min f(x, y)=f(u* (x0, у*, 1), у*), то v* (х0, у0,1)=у. Тогда УеГУо xeUx0 К(и*( ), »*(•))=max{/'(x0, j0), max min f(x, у)} и для любых стратегий u(), ®( ) игроков в игре Г (х0, j0,1) справед- ливы соотношения Ш «(•))< *(п*(.), ®*(.))<^(и(), «*())• Тем самым утверждение теоремы справедливо при N= 1. Предположим теперь, что утверждение теоремы справедливо при N^n и докажем ее для N=n+1, т. е. для игры Г(х0, у0, n+1). Рассмотрим семейство игр Г(х, у, и), xeUXa, yeVyt. Обозначим через «JyG), ®^(-) ситуацию равновесия в игре Г(х, у, п). Тогда К(йху(), й”Д))= У(х, у, п), где V(x, у, п) определено соотношениями (2.2). Используя непрерывность функции f(x, у) и лемму п. 2.1, нетрудно доказать непрерывность функции V(x, у, и) по х, у. Определим стратегии й"+1(), ®"+1(-) игроков в игре Г(х0, у0, п+1) следующим образом: min V(x, у, п)=У(йя+'(х0. у, 1), у, п), уе если max min V(x, у, п)= V(un+l (х0, у, 1), у, п), то ®"+1 (х0, у0,1)=у, УеУУо xeUxt для х^=х0, у^у0 функции ®"+1(х, у, 1) и й"+1(х, у, 1) определим произвольно: z 242
й"+1(-, *)=u^(-, k-V), к=2, ..., n+1, vn+\,k)=v”Xiyt(., k-l),k=2, ..., n+1. Здесь Xj g UXo, yr 6 Vyi) — позиции, которые реализовались после 1-го шага в игре Г (х0, у0, п+1). По построению, •K(m"+1 (•), ю"+1(.))=тах{/‘(х0, j0), max min V(x, у, и)}. (2.3) vy„ xeU*a Фиксируем произвольную стратегию и( ) игрока 1 в игре Г (х0, у0, п +1). Пусть м(х0, у, 1)=хп где у=v”+1 (х0, у0, 1), и и^() — сужение стратегии и() на игру Г (х, у, п), xg UXa, уе Справедливы следующие соотношения: К(ц+1 (), й’+‘ OXmax^Cxo, у0), V(xlt у, п)} = =тах{/’(х0, у о), K(unxj(J, (•))}< <max{f(x0, Уо), K(u”Xlf(.), ^())}=*(«(•), Г+*(.)). (2.4) Аналогично доказывается неравенство К(и+' (•), Г+1 ())>^(й’+1 (•), «(•)) (2.5) для любой стратегии »(•) игрока 2 в игре Г(х0, у0, п+1). Из соотношений (2.3) — (2.5) следует справедливость утверждения те- оремы для N=n+1. Тем самым доказательство теоремы по индук- ции закончено. _ Рассмотрим теперь игру Г(х0, у0, N), которая отличается от игры Г(х0, у0, N) тем, что в ней сообщает свой выбор игрок 1. Таким образом, в игре Г (х0, у0 N) на каждом шаге к игрок 2 кроме состояний xjt-i, Ук-i н шага к знает состояние xkeUXk_v выбранное игроком 1. Игрок 1 на каждом шаге к знает лишь хк_х, ук-\. Аналогично, теореме п. 2.5 можно показать, что в игре г (х0, Уо-Л) существует ситуация равновесия в чистых стратегиях и значение игры V (х0, у0, N) удовлетворяет рекуррентному уравнению ~V (х0, у0» fc)=max{/(x0, у0), min max V (х, у, к-1)}, к= 1, V (х, у, 0) =/(х, у). (2.6) 23. Рассмотрим игры Г' (х0, у0, N) и Г' (х0, у0, N), которые отличаются от игр Г(х0, у0, N) и Г (х0, у0, N) соответственно лишь видом функции выигрыша. Предположим, что в этих играх выиг- рыш игрока 2 равен расстоянию между ним и игроком 1 на послед- 243 9*
нем шаге игры, т. е. р (xN, yN). Тогда утверждение теоремы п. 2.2 и ее следствие сохраняют силу и вместо рекуррентных уравнений (2.2), (2.6) справедливы уравнения У(х, у, fc)=max min V (х', у’, k — 1), УеУу Уеих к=1, ..., N, V (х, у, 0)=р (х, у); (2.7) V'(x, у, £)=min max К'(х', У, к— 1), iieUx УеУу к=\, ..., N, У'(х, у, 0)=р(х, у) (2.8) Пример 3. Рассмотрим дискретную игру преследования, в кото- рой множества Ux представляют собой круги радиуса а с центром в точке х, а множества — круги радиуса Р с центром в точке у(а>Р). Это соответствует игре, в которой игрок 2 (убегающий) перемещается на плоскости со скоростью, не превосходящей р, а игрок 1 (преследователь) — со скоростью, не превосходящей а. Скорость преследователя превосходит скорость убегающего, и иг- рок 1 ходит вторым. Игра такого типа называется дискретной игрой «простое преследование» с дискриминацией убегающего игрока. Игра продолжается N шагов, и выигрыш игрока 2 равен расстоя- нию между игроками на последнем шаге. Найдем значение игры и оптимальные стратегии игроков, ис- пользуя функциональное уравнение (2.7). Имеем V(x, у, l)=max min р(х', У). (2.9) УвУу *вих Так как Ux и Vy — круги с центрами в х и у и радиусами а и Р, то, если Ux=>Vy, имеем V(x, у, 1)=0, если же ихфУу, то V(x, у, 1)= р(х, у)+Р—а=р(х, у)—(а—р) (см. пример 8 п. 2.6 гл. П). Таким образом, (О, еСЛИ Ux^V» т- е- р(х' >O-(a-0)<0, Х,У‘ (р(х, у)-(а-Д), если Ux^Vy, или, что то же самое, V(x, у, l)=max[0, р(х, y)-(a-j8)]. (2.10) Докажем, применив индукцию по числу шагов к, что имеет место следующая формула: И(х, у, fc)=max[0, р(х, у)—к(а—Р)], к^2. (2.11) Пусть (2.11) выполнено при к=т— 1. Покажем, что формула спра- ведлива для к=т. Воспользовавшись уравнением (2.7) и соотноше- 244
ниями (2.9), (2.10), получим V(x, у, m)=tnax min V(x', у', т—1) = УеУу УеОх =max min {max[0, p(xf, у') — (m — 1) (a—P)]} = УеУу =max[0, max min {p(xz, yr)}—(m— 1) (a—fi)]= УеУу УеСх =max[0, max{0, p(x, y)—(a—fi)} — (m — l)(a —fi)] — =max[0, p(x, y)—m(a—p)], что и требовалось доказать. Если V(x0, у0, т)=р(х0, у0)-т(а-р), т. е. р(х0,у0)- —т(а—Д)>0, то оптимальная стратегия игрока 2 диктует ему выбирать на к-ы. шаге игры точку ук пересечения линии центров х^-(, yjt-i с границей Ип_(, наиболее удаленную от х*_1. Здесь х*_1, ук-.1—позиции игроков после (£— 1)-го шага, к=1, N. Опти- мальная стратегия игрока 1 диктует ему на к-м шаге игры выбирать точку из множества UXk_v наиболее близкую к точке ук. Если оба игрока действуют оптимально, то последовательность выбранных точек х0, xlt.... xN, у0, ylt.... yN лежит на прямой, проходящей через х0, у0. Если V(x0, у0, т)=0, то оптимальная стратегия игрока 2 произвольна, а игрока 1 — та же. При этом после некоторого шага к выполняется равенство max min />(х, у)=0, поэтому, начи- У*Уук xeUXk ная с (£+1)-го шага, выбор игрока 1 повторяет выбор игрока 2. § 3. СУЩЕСТВОВАНИЕ СИТУАЦИЙ а-РАВНОВЕСИЯ В ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ С ПРЕДПИСАННОЙ ПРОДОЛЖИТЕЛЬНОСТЬЮ 3.1. В данном параграфе будет доказано существование ситу- аций е-равновесия в дифференциальных играх преследования с пред- писанной продолжительностью в классе кусочно-программных стратегий, определенных в п. 1.6. Рассмотрим подробно случай, когда выигрыш игрока Е — расстояние р (х (7), у (Т)) в последний момент игры Т. Пусть динамика игры задается следующими дифференциальны- ми уравнениями: дляР:х=/(х, и); (3.1) 1 для E:y=g (у, v). (3.2) Здесь х (0, у (1)еКп, и (t)eU, v (t)e Г, где U, V — компактные мно- 245
жества евклидовых пространств Rk и R1 соответственно, te [0, оо). Пусть выполнены все требования п. 16. Определение. Обозначим через ёР(х0) множество точек xgR”, для которых существует измеримое программное управление u(t)eU, переводящее точку х0 в х за время t, т. е. х (t0)=x0, х (t0+f)=x. Множество ёР(х0) называется множеством достижи- мости игрока Р из начального состояния х0 за время t. Аналогично определяется множество достижимости С‘Е (уо) иг- рока Е за время t из начального состояния у0. Предположим, что функции f, g таковы, что множества до- стижимости С Р (хо), С е (уо) игроков Р и Е соответственно удовлет- воряют следующим условиям: 1) ёР(х0), С‘Е (уо) определены при всяких х0, yo^R", to, tе[0, оо) (t0^t) и являются компактными множествами пространства Rn; 2) отображение С'Р (х0) непрерывно по совокупности аргументов в метрике Хаусдорфа, т. е. для любых е>0, хьсЛ", ге[0, оо) суще- ствует такое 5>0, что если |r—1'\<6, р (х0, х'^<8, то р* (CJ.x0), СР (•хо))<е- То же выполняется для СЕ (у0)- Напомним, что метрика Хаусдорфа р* в пространстве компакт- ных подмножеств Л" задается так: р* (Л, В)= max (р' (А, В), р' (В, А)), р' (А, В)=тах р (а, В) аеА и р (a, B)=min р (а, Ь), где р — стандартная метрика в Л". ЬеВ Теорему существования будем доказывать для игры преследова- ния Г (х0, уо, Т) с предписанной продолжительностью, где х0, уосЛ" — начальные позиции игроков Р и Е соответственно, а Г — продолжительность игры. Игра Г (х0, у0, Т) протекает следующим образом. Игроки Р и Е в момент времени <о=О начинают переме- щаться из позиций Хо, уо в соответствии с выбранными кусочно- программными стратегиями. В момент времени t=T игра закан- чивается, при этом игрок Е получает от игрока Р выигрыш, равный р (х (7), у (7)) (см. п. 1.8). В каждый момент времени fe[O, 7] игры 246
г (х0, у0, 7) обоим игрокам известны момент времени t, своя позиция и позиция противника. Обозначим через Р (х0, t0, t) (Е (у0, t0, /)) множество траекторий системы (3.1) ((3.2)), исходящих из точки х0 (уо) и определенных на интервале [Го, /]. 3.2. Фиксируем некоторое натуральное и>1. Положим 3 = Tj2? и введем в рассмотрение вспомогательные по отношению к игре Г (х0, уо, Т) игры Г • (х0, уо, Т), i= 1, 2, 3. Игра Г? (х0, уо, Т) протекает следующим образом. На 1-м шаге игрок Е, находясь в позиции у0, выбирает yi из множества СЕ (у0), а игрок Р, находясь в позиции х0 и зная выбор yt игрока Е на этом шаге, выбирает точку Х| еСр (х0). На к-м шаге, к=2, 3, ..., 2", игрок Е, зная позицию игрока Р х^еСр (х*_2) и свою позицию y*_ieCl(y*_2), выбирает точку укеСЕ (y*_i). Игрок Р, зная х*_ь Ук-ъ Ук, выбирает хкеСр (х*_Э. На 2"-м шаге игра заканчивается, и игрок Е получает выигрыш, равный р (х (7), у (Т)), где х (7)=х У (Т)=у2„. Отметим, что выбор игроками на к-м шаге точек хк, ук из множеств достижимости Ср (xt_j), СЕ (Ук-i) можно трактовать как выбор ими соответствующих траекторий из множеств Р (х*_ь (к—1)5, кЗ), Е (yk-i, (к—1)5, кЗ), оканчивающихся в точках хк, ук в момент t=k3 (или выбор управлений и (•), v (•) на [(&— 1) 5, £5], которым эти траектории соответствуют согласно (3.1), (3.2)). Игра Г2 (х0, уо, Т) отличается от игры Г] (х0, у о, Т) тем, что на к-м шаге игрок Р выбирает хкеСр (х*_(), зная х*_н y*_i, а игрок Е, зная, кроме того, хк, выбирает укеСЕ (y*-i). Игра rf (х0, уо, 7) отличается от игры Г2 (х0, у0, 7) тем, что на 2"-м шаге игрок Р выбирает х2„еСр (х2И1), после чего игра закан- чивается и игрок Е получает выигрыш р (х (7), у (Т— 5)), где х (Т)=ха, у (Т-3)=у2„_1. 3.3. Лемма. В играх Г? (х0, у о, Т), i=l, 2, 3, существуют ситу- ации равновесия при всех х0, у0, Т< оо и значение игры Vai Г f (х0, у0, 7) есть непрерывная функция х0, УобТ?". При всяком п>0 выполняется неравенство Vai Г? (хь, Уо, 7)^ Vai Г| (х0, у0, Т), Т=2"3. (3.3) 247
Доказательство. Игры Г? (х0, Уо, Т), i=l, 2, 3, принадлежат классу многошаговых игр, определенных в § 2. Существование ситуации равновесия в играх rf (х0, Уо, Т) и непрерывность функций Vai Г< (хо, уо, 7) по Хо, Уо непосредственно следует из теоремы п. 2.2 и ее следствия. Для значений игр Г * (х0, у0, Т), i= 1, 2 справедливы рекуррентные уравнения Vai rf (х0, уо, 7)= max min Vai Г? (х, у, Т—8), УеС1<У(? хеС,(х<} Vai rf (х0, уо, Т)= min max Vai rf (x, у, T— 8) xeCi(x0) >eCi(,'o) при начальном условии Vai rf (x, у, 0)=Val rf (x, y, 0)=p (x, y). Применяя последовательно лемму п. 2.2. гл. I, убедимся в справед- ливости неравенства (3.3). 3.4. Лемма. При любом целом п>0 справедливы неравенства Vai Tf" (х0, уо, 7)<Val Г?»+> (х0, у0, Т), Vai Tf" (хо, уо, 7)>Val rf»*1 (х0, у0, Т), где Ьк=Т12к. Доказательство. Покажем справедливость первого из нера- венств. Второе неравенство доказывается аналогично. Во избежание громоздкости обозначений будем далее полагать С* (yd=Cs£ (у,), С* (хд=С& (xf), i=0, 1,..., 2"-1. Имеем Vai Tf»*1 (хо, Уо, 7)= max min л+1 л+1 у1вс х1*с (х<? max min Vai Tf»+1 (x2, y2, T— 25n+!)> л+1 л+1 1>2бС X2®C > max max л+1 л+1 ЛбС Ц? У2*С Ц) min min Vai rf"+1 (x2, y2, T— 2<5„+1)= л+1 л+1 *1бС ж2бС = max min Vai rf»+1 (xb уь T— 3„). Л Л лбС xi6C ц? Продолжая этот процесс, получим 248
Vai Г|"+1 (x0, Jo, T)^ max min ... n n ylec tyj) x\ec (x{? max min p (x2„, y2„)=Val Г?" (x0, Jo, T). n n ^2n— P (*2*—p 35. Теорема. При всех хь, Уое1С, Т<ао справедливо равенство пределов: lim Vai Г fr (х0, у0, T)=lim Vai Г|« (хь, у0, Г), Л-*ОО Л-+ОО где5и=Т/2". Доказательство. Фиксируем некоторое л>0. Пусть и (•), ®( ) — пара стратегий в игре Г 2" (х0, у0, Т). Эта пара является таковой и в игре Г Зп (хо, Уо, Т). Пусть в ситуации и (•), v (•) реализует- ся последовательность х0, хь ..., x2„, у0, Уь ..., у2Я. Обозначим функции выигрышей в играх Г 2п (х0, Уо, 7), Г*" (х0, у0, Т) соответст- венно через К2 (и (•), v (•))=/> (х*, у2„\ К3 (и (), v ( ))=р (х2„, y2„_,). Тогда К2 (и (•), v ( ))<Я3 (и (), v (•))+/> (y2„_t, у^. В силу произвольности и (•), v (•) отсюда имеем: Vai Г|« (х0, уо, 7)<Val Г£> (х0, у0, 7)+ + max max р (у, у1). (3.4) /бС*(у) Пусть yfreCfc (у0), тогда (yfyc С% (у0). Запишем неравенст- во (3.4) для игр с начальным состоянием х0, yf”. Учитывая пре- дыдущее включение, получим Vai (х0, yh 7)^Val П" (х0, yh Т)+ + max max р (у, у1). (3.5) yeCTt(yJ уеС^М Из определения игр rf» (х0, у0, Т) и rf"(x0, у0, Т) вытекает равенство 249
Vai Г," (x0, Jo, 7) = max Vai Tf" (x0, уf", T). (3.6) В силу непрерывности no t функции Се (у) и выполнения условия Сое(у)=У второе слагаемое в (3.5) стремится к нулю при п-»оо. Обозначим его через £j (п). Из (3.5), (3.6) получаем Vai rfr (хо, уо, T)>Val Г£ (х0, yfr, T)-Ei (п). (3.7) В силу непрерывности функции Vai Г (х0, уо, Т) из (3.7) имеем неравенство Val Г," (хо, у», T)>Val Г£ (х0, у0, Т)-^ (п)-е2 (л), (3.8) где £2 (п)-*0 при п-»оо. Переходя в (3.8) к пределу при п-»оо (что возможно на основании лемм п. 3.3, 3.4 и теоремы о су- ществовании предела у монотонной ограниченной последовате- льности), получаем lim Val Г (х0, у0, Т) > lim Val Г £ (хь, уо, Г). (3.9) л-*оо л-*со Из леммы п. 3.3 вытекает противоположное неравенство. Следова- тельно, оба предела в (3.9) совпадают. 3.6. Утверждение теоремы п. 3.5 доказано в предположении, что последовательность разбиений интервала [0, 7] ff»={^o=O<6<--<f№7}, п=1, ...» удовлетворяет условию Г/2", J=0,1 2" — 1. Утверждения теоремы п. 3.5 и лемм п. 3.3, 3.4 справедливы для всякой последова- тельности <т„ измельчающихся разбиений интервала [0, 7], т. е. такой, что <г„+1 => <г„ (это означает, что разбиение <тл+1 получается из а„ добавлением новых точек) И у (ff„)=max (/i+i-t,) -» 0. i л-*оо Рассмотрим теперь такие любые последовательности разбиений интервала [0, 7] {<т„} и Лемма. Имеет место равенство lim Val Г'" (х0, у0, 7)=lim Val Г[” (х0, у0, Г), л-*оо л-*оо где х0, уобЛ", Т< оо. 250
Доказательство проведем от противного. Допустим, что ут- верждение леммы неверно, и предположим для определенности, что выполняется неравенство lim Val Г'" (х0, у0, Т)> lim Val Г'" (х0, у0, Г). л-*оо л-♦со Тогда согласно теореме п. 3.5 имеем lim Val Г’и (х0, у0, Т)>lim Val Г?" (х0, у0, Т). л-»оо Л-♦СО Отсюда найдутся натуральные числа mt, П] такие, что выполнено неравенство Val Г’т1 (х0, Уо, 7)>Val Г;'»1 (х0, у0, Т). Обозначим через а разбиение интервала [0, 7] точками, принад- лежащими как разбиению <rm|, так и разбиению <г „ . Для него выполняется неравенство * Val Г $ (х0, уо, 7)^ Val Г?'"1 (х0, у0, Т)< <Val Г?"1 (х0, уо, TXVal Г j (х0, у0, Г). Откуда Val г; (Хо, Уо, T)<Val Г j (х0, у0, Т). Это противоречит (3.3), следовательно, сделанное предположение неверно и утверждение леммы справедливо. 3.7. Теорема. При всех хь, у0, Т<оо в игре Г (хй, Уо, Т) суще- ствует ситуация Е-равновесия для любого £>0. При этом Val Г (хо, уо, Т)=lim Val Г’" (х0, у0, Т), (3.10) Л-♦СО где {<г„} — любая последовательность измельчающихся разбиений интервала [0, 7]. Доказательство. Зададим произвольно выбранное число £>0 и покажем, что найдутся такие стратегии и, (•) и v, (•) игроков Р и Е соответственно, что для всех стратегий и ()еР и v ()еЕ выполняются неравенства К (х0, уо, и, (•), г ( ))-е<£ (х0, уо, и, (•), v, (•))«$ ^К(хо,Уо, «(•),«.(•)) + £. (3.11) В силу теоремы п. 3.5 найдется такое разбиение в интервала [0, 7], 251
что Vai Г? (*о, Уо, Л-lim Vai Г? (х0, Уо, Т)<-, «-♦00 2 lim Vai Г?” (х0, у0, 7)-Vai ГТ (х0, у0, Т)<~. я-»оо 2 Положим и* (-)=(<т, ац8), «’(•)=(р, bj, где а^, Ьг — оптимальные стратегии игроков Р“я Е соответственно в играх Г? (х0, Уо, Т) и Г" (х0, уо, Т). Тогда справедливы соотношения: К (х0, уо, и (•), « ())<Val Г J (хо, уо, Т)< <lim Vai Г? (х0, у0, 7)+-, ® ()еЕ; (3.12) «-♦00 2 к(х0, Уо, и (•), / ())>Val Г’ (Хо, у0, Т)> >lim Vai Г?» (х0, у0, 7)--, и ()еР. (3.13) »-»0О 2 Из (3.12), (3.13) и теоремы п. 3.5 имеем -~<К (хь, уо, и (•), / ())- lim Vai ГТ" (х0, у0, Т)<-. (3.14) 2 я-»оо 2 Из соотношений (3.12)—(3.14) следует (3.11). . В силу произвольности е из (3.14) следует (3.10). Теорема до- казана. * 3.8. Замечание. При доказательстве теоремы существования нигде не был использован специфический вид выигрыша р (х (7), у (7)). Существенной является лишь непрерывная зависимость вы- игрыша от реализованных траекторий. Поэтому теорема п.3.7 оста- ется справедливой, если вместо р (х (7), у (7)) рассмотреть любой непрерывный функционал траекторий х (/), у (/). В частности, таким функционалом может быть min р (х (/), у (0), т. е. минимальное 0<«Г расстояние между игроками в процессе игры. Поэтому результат данного параграфа остается в силе и для дифференциальной игры преследования на достижение минимального результата с пред- писанной продолжительностью. 252
\ § 4. ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ НА БЫСТРОДЕЙСТВИЕ 4.1. Дифференциальные игры преследования на быстродействие представляют собой частный случай дифференциальных игр с ин- тегральным выигрышем, определенных в п. 1.8. Классы стратегий Р и Е те же, что и в игре с предписанной продолжительностью. Предположим, что в R* х J?" задано множество F= {(х, у): р (х, у)^1, />0}, и пусть х (г), у (0 — траектории игроков Р и Е в ситуации (и (•), v (•)) из начальных состояний хь, Уо- - Обозначим 6, (Хо, у0; и (•), V ( ))=min {/: (х (t), у (t))eF}; (4.1) если не существует такого t, что (х (/), у то t„ (х0, у0; и (•), v (•)) полагается равным +оо. В дифференциальной игре преследования на быстродействие выигрыш игрока Е полагают равным к (х0, Уо; U (), V (-))=/„ (х0, Уо; « ( ), ® (•)). (4.2) Выигрыш игрока Р в ситуации S—(x0, у0, и (-), v ()) равен {—К (5)} (игра антагонистическая). Игра зависит от начальных состояний х0, у0, поэтому будем обозначать ее через Г (х0,у0). Из определения функции выигрыша (4.2) следует, что в игре Г (хо, уо) целью игрока Е является максимизация времени сближе- ния с игроком Р на заданное расстояние />0. Игрок Р, наоборот, стремится минимизировать это время. 4.2. Между игрой преследования на быстродействие Г (хо, Уо) и игрой преследования с предписанной продолжительностью на достижение минимального результата существует прямая связь. Пусть Г (х0, уо, Т) — игра преследования с предписанной продол- жительностью Т на достижение минимального результата (выиг- рыш игрока Е равен min р (х (/), у (/)). Было показано, что для игр 0<«Т такого типа при любом е>0 в классе кусочно-программных страте- гий существует ситуация Е-равновесия (см. п. 3.8). Пусть V (х0, Уо, 7) — значение такой игры, а V (х0, у0) — значение игры Г (х0, уо), если оно существует. Лемма. При фиксированных хь, Уо функция V (х0, у0, Т) непрерыв- на и не возрастает по Т на отрезке [0, со]. Доказательство. Пусть Т1>7,2>0. Обозначим через v?1 (•) 253
стратегию игрока Е в игре Г (х0, Уо, 7\), которая гарантирует игроку Е, что расстояние между ним и игроком Р на отрезке [О, ТА не меньше max [О, V (х0, у0, Т\) —в]. Следовательно, она тем более гарантирует расстояние max [О, V (хь, у0, Л)—в] между ними на отрезке [О, TJ, где Т2<Т\. Поэтому V С’Со, Уо, Т2)>тах [О, V (х0, уй, ТО-е] (4.3) (е-оптимальная в игре Г (х0, у0, 7\) стратегия не обязательно е- оптимальна в игре Г (х0, у0, Т2)). Поскольку е может быть выбрано произвольным, из (4.3) следует второе утверждение леммы. Непре- рывность V (х0, уо, Г) по Т доказывать не будем. Отметим лишь, что это свойство можно получить, используя непрерывность V (х0, Уо, Т) по х0, у0- 4.3. Рассмотрим уравнение V(xo,yo,T)=l (4.4) относительно Г. Возможны следующие три случая: 1) уравнение (4.4) не имеет корней; 2) имеет единственный корень; 3) имеет более одного корня. В случае 3) из невозрастания и непрерывности функции V (хь, Уо, Т) по Т следует, что уравнение (4.4) имеет целый сегмент корней, т. е. функция V (х0, уо, Т) как функция от Т имеет интервал постоянства. Рассмотрим каждый случай отдельно. Случай 1. В этом случае возможно: а) V (х0, Уо, Т)<1 для всех Т>0; б) inf V(х0, у0, Т)>1\ т>о в) inf Г (х0, уо, Т)=1. Г>0 В случае а) имеем V (хо, Уо, 0)=р (х0, уо)<1, т. е. tn (х0, у0; « ( ), v ())=0 для всех и (•), v (•). Тогда значение игры Г (хь, уо) равно V (х0, уо)=О. В случае б) выполняется равенство inf V (хо, уо, 7)= lim V(х0, у0, Т)>1. Т>0 Т-*оо Отсюда для любого Т>0 (сколь угодно большого) у игрока Е лая- 254
\ \ дется соответствующая стратегия v ()еЕ, которая гарантирует ему избежание /-встречи на отрезке [0, 7j. Но тогда игрок Р не имеет стратегии, которая бы гарантировала ему /-встречу с игроком Е за конечное время. В то же время нельзя утверждать, что игрок Е обладает стратегией, гарантирующей избежание /-встречи за лю- бое время. Вопрос о нахождении начальных состояний, в которых такая стратегия существует, сводится к решению игры качества для игрока/?. Таким образом, при /dim V (х0, уо, Т) можно лишь I Т-оо утверждать, что значение игры Г (х0, у0), если оно существует, больше ^любого наперед заданного Т, т. е. равно +оо; в) рассмотрим совместно со случаем 3). Случай 2. Пусть То — единственный корень уравнения (4.4). Тогда из невозрастания и непрерывности по Т функции V (х0, уо, Т) следует, что V (х0, уо, Т)> V (х0, уо, То) при всех Т< То, (4.5) V (х0, уо, Т)<У (х0, уо, То) при всех Т> То; lim V (хо, уо, T)=V (хо, уо, То). (4.6) г-То Фиксируем произвольное Т>Т0. Рассмотрим игру преследования Г (хь, уо, Т). Она обладает ситуацией Е-равновесия в классе кусочно- программных стратегий для любого е>0. Это означает, в частно- сти, что для любого е>0 существует стратегия и, (-)еР игрока Р, которая гарантирует ему сближение с игроком Е на расстояние V (х0, уо, Т)+&, т. е. К (и. (•), v ())< V (хо, уо, Г)+е, v ()еЕ, (4.7) где К (и (•), v (•)) — функция выигрыша в игре Г (х0, уо, Т). Из (4.5), (4.6) следует существование ё>0 такого, что для любого е<ё най- дется число Т (в), Т0<Т (е)< Т, при котором Б= v (Хо, Уо, То)- v (Хо, Уо, Т (8)). (4.8) Из (4.7), (4.8) следует, что для любого е<ё К (и, (•), v (•))< V (х0, уо, Т)+в< V (хо, уо, Т (е))+е= = И(хо,уо, To)=l, v(-)eE, т. е. стратегия и, (•) обеспечивает /-встречу за время Т. Отсюда, 255
в силу произвольности Т> То следует, что для любого Т> Тп наймет- ся отвечающая ему стратегия и ()еР, которая гарантирует /-встре- чу за время Т. Иными словами, для любого 8 > 0 существует uJ() е Р такая, что < То+3 при всех v (•) е Е. / (4.9) Аналогично доказывается существование vs (-)еЕ такого, что 4 (*о, Уо, и (•), vs (•))> То-5 при всех и ()еР. I (4.10) Из (4.9), (4.10) следует, что в игре преследования на быстродей- ствие Г (х0, Уо) для любого е>0 существует ситуация е-равновесия в кусочно-программных стратегиях и значение игры равно То, где То — единственный корень уравнения (4.4). Случай 3. Обозначим через То минимальный корень уравнения (4.4). Теперь, вообще говоря, мы не можем утверждать, что значе- ние игры Vai Г (х0, у0)= То. Действительно, из V (х0, у0, То)=1 следу- ет лишь, что в игре Г (х0, уо, То) у игрока Р для любого 8>0 существует стратегия м, (•), гарантирующая ему за время То встречу с игроком Е на расстоянии не более чем 1+е, а из существования более одного корня уравнения (4.4) и монотонности V (х0, у0, Т) по Т получаем существование интервала постоянства функции V (х0, у0, Т) по Те [То, TJ. Поэтому увеличение продолжительности игры Г (хо, Уо, То) на 8, где 8<Ti—То, не приводит к уменьшению гаран- тированного сближения с игроком Е, т. е. для всех Те[Т0, TJ игрок Р может лишь обеспечить сближение с игроком Е на расстояние 1+е (для любого е>0), и нет основания считать, что при каком-то Те[Т0, TJ величина е окажется равной нулю. Если бы в игре Г (х0, Уо, То) существовала ситуация равновесия (а не ситуация е-равнове- сия), то значение игры Г (х0, у0) было бы равно То и в случае 3. 4.4. Модифицируем понятие ситуации равновесия в игре Г (х0, Уо). Далее в этом параграфе удобнее использовать запись Г (х0, у0, I) вместо Г (хо, уо), подчеркивая, что игра Г (х0, уо, I) заканчивается при сближении игроков на расстояние /. Пусть tln (хо, Уо‘, и (•), v (•)) — время до момента сближения на расстояние I в ситуации (и (•), v (•)) и заданы е> 0, 5>0. Определение. Будем говорить, что пара стратегий и6, (), v, (•) образует ситуацию е, 8-равновесия в игре Г (х0, уо, I), если 256
\ (хо, Уо, U (), Vs, ())+е>/'+< (х0, у0; й* (•), Vs, ())^ \ >t‘n+s(xo, Jo; (),«(•))-£, для всех стратегий и ()еР, v ()еЕ. Определение. Пусть существует такая последовательность 5*-»0, что во всех играх Г (х0, у0; /+<5&) для любого е>0 существуют ситуации е-равновесия. Тогда предел i lim V (х0, Jo, /+4)= V (хо, Уо, О . Аг-»ОО называется значением игры Г (х0, уо, I) в обобщенном смысле. Заметим, что величина V (х0, уо, /) не зависит от выбора после- довательности {<$*} вследствие монотонного убывания функции V (Хо, Уо, /) ПО I. Определение. Будем говорить, что игра Г (х0, у0, /) имеет значение в обобщенном смысле, если существует такая последовате- льность {5*}, Дь-*О, что для любого £>0 и <5*с{<5*} в игре Г (х0, Уо, /) существует ситуация е, 8к-равновесия. Можно показать, что если игра Г (х0, у0, /) имеет значение в обычном смысле, то значение ее V (х0, у0, /) (в обобщенном смысле) существует и равно lim (хо, у0; й" (•), (•))= V' (хо, Уо, /)• 8->0 Из определения значения и решения игры Г (х0, у0, /) (в обобщенном смысле) вытекает, что если в игре Г (х0, у0, /) для любого е>0 существует е-ситуация равновесия в обычном смысле (т. е. решение в обычном смысле), то V (х0, у0, /)= V (х0, уо, /) (достаточно взять последовательность Дь=О для всех к). Теорема. Пусть уравнение (4.4) имеет более одного корня и То — наименьший корень, То<оо. Тогда существует значение V (хо, Уо, Z) (в обобщенном смысле) игры преследования на быстродей- ствие Г (х0, уо, I) и V (хо, уо, /)= То. Доказательство. Из монотонности и непрерывности функции V (х0, уо, Т) по Т следует существование такой последовательности 257
Тк-> То слева, что V (х0, Уо, Тк)-* V (х0, Уо, То)=I и в точках Тк функция V (хо, Уо, Тк) строго монотонна. Пусть / Sk=V(Xb,yo,Tk)-l^i. I Из строгой монотонности функции V (х0, уо, Т) в точках Т^к выте- кает, что уравнение V (х0, у0, T)=l+Sk имеет единственный корень Тк. Это означает, что для любого Зке {<5*} в играх Г (х0, jf0, /+<$*) существует ситуация е-равновесия для любого е>0 (см. случай 2) п. 4.3). Значит, в игре Г (х0, Уо, /) существует решение в обобщенном смысле: lim V (х0, уо, l+8k)=lim Тк= То= V' (х0, у0, /) к-*ао к-*ао и теорема доказана. Рассмотрим теперь случай в) п. 4.3. Имеем: inf V (х0, у0, Т)=/. т Пусть Гк-»оо. Тогда lim V (х0, у0, Тк)=1. Из монотонности и непре- к-*<х> рывности V (х0, уо, 7) по Т следует, что последовательность {7*} можно выбрать так, что в точках Тк функция V (х0, у0, 7) строго монотонна. Тогда как и при доказательстве теоремы п. 4.4 можно показать, что существует такая последовательность {<$*}, что lim V(х0, уо, /+5*)= lim Тк= 7^= оо. к->оо к->оо Таким образом, и в данном случае обобщенное решение суще- ствует, а обобщенное значение игры Г (х0, у0, I) равно бесконеч- ности. 43. Часто оказывается важным определить, может ли игрок Р гарантировать /-встречу из данных начальных позиций х, у за фиксированное время Т. Если это невозможно, то может ли игрок Е гарантировать избежание /-встречи в течение заданного времени. Пусть V (х, у, Т) — значение игры с предписанной продолжите- льностью Т из начальных состояний х, уеР? с выигрышем min р (х (/), у (/))• Тогда возможны следующие альтернативы: о<г<т 1) V(x,y, Т)>1; 2) И(х, у, Т)^1. Случай 1. Из определения функции V (х, у, Т) следует, что для любого £>0 найдется такая стратегия игрока Е, что для всех 258
стратегий и () справедливо неравенство \ К (х, у, и (•), (•))> V (х, у, Т)- е. Выбрав £ достаточно малым, можно добиться выполнения неравен- ства К (х, у; и (•), и, (•))> V (х, у, Т)-е>1 для всех стратегий и ()еЕ игрока Р. Из вида функции выигрыша К. следует, что, используя стратегию ю* (•), игрок Е может гаран- тировать выполнение неравенства min р (х (/), у (t))>l независимо от действий игрока Р, т. е. в рассматриваемом случае игрок Е гара- нтирует избежание /-встречи на отрезке времени [0, 7] независимо от действий игрока Р. Случай 2. Пусть То — минимальный корень уравнения V (х, у, Т)=1 при фиксированных х, у (если р (х, у)<1, то То полага- ем равным 0). Тогда из определения V (х, у, То) следует, что в игре Г (х, у, То) игрок Р при любом е>0 обладает стратегией м, (•), гарантирующей выполнение неравенства К (х, у; и,’ (•), v (•))< V (х, у, То)+е=1+£ для всех стратегий v ( )gE игрока Е. Из вида функции выигрыша К следует, что, используя стратегию и*, (•), игрок Р может гаран- тировать выполнение неравенства min р (х (/), у (0)</+е независи- мо от действий игрока Е. Продолжая произвольным образом стра- тегию и, (•) на отрезок [Го, Т], получаем, что в случае 2 игрок Р при любом е>0 может гарантировать (/-Навстречу с игроком Е за время Т независимо от действий последнего. Фактически доказана следующая теорема (об альтернативе). Теорема. Для любых х, yeRn, Т>0 справедливо, по крайней мере, одно из следующих утверждений: 1) из начальных состояний х, у игрок Е может в течение времени Т гарантировать избежание 1-встречи независимо от действий игро- ка Р; 2) при любом £>0 игрок Р может гарантировать (1+ервстречу с игроком Е из начальных состояний х, у за время Т независимо от действий последнего. 4.6. Для каждого фиксированного Т>0 все пространство R" х Л" делится на три непересекающиеся области: область А = {х, у: V (х, у, Т)<1\, которую будем называть зоной захвата; область = {х, у: V (х, у, которую естественно назвать зоной избежа- 259
ния захвата, и область С—{х, у: V (х, у, Т)=1} —зону нейтраль- ного исхода. Пусть х, уеА. По определению А при любом е>0 игрок Р об- ладает такой стратегией и\ (•), что К(х, у; «:(•),«(•))< V (х, у, Т)+е при всех стратегиях « () игрока Е. Выбрав подходящим образом £>0, можно обеспечить выполнение неравенства К(х, у; и*. (•), v (•))< V(х, у, Т)+е<1. Последнее означает, что стратегия и*, игрока Р гарантирует ему /-встречу с игроком Е из начальных состояний х, у за время Т. В результате получаем следующее уточнение теоремы п. 4.5. Теорема. Для любого фиксированного T>Q все пространство делится на три неперескающиеся области А, В, С, обладающие следующими свойствами: 1) при любых х, уеА игрок Р обладает стратегией и, (•), кото- рая гарантирует 1-встречу с игроком Е на отрезке [О, Г] независимо от действий последнего; 2) для х, уеВ игрок Е обладает стратегией v', (•), которая гарантирует избежание 1-встречи с игроком Р на отрезке [0, 7] независимо от действий последнего; 3) если х, уеС и 8>0, то игрок Р обладает стратегией и\ (•), гарантирующей (1+е)-встречу с игроком Е за время Т независимо от действий последнего. § 5. НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ СУЩЕСТВОВАНИЯ ОПТИМАЛЬНОЙ ПРОГРАММНОЙ СТРАТЕГИИ УБЕГАЮЩЕГО 5.1. Важным подклассом игр преследования являются игры, в которых оптимальная стратегия убегающего игрока является только функцией времени (так называемый регулярный случай). Ограничимся рассмотрением игры преследования с предписан- ной продолжительностью, хотя все результаты могут быть перене- сены н на игры преследования по быстродействию. Пусть Ср (х) (Cj(y))— множество достижимости игрока Р(£) из начального состояния х (у) к моменту времени Т, т. е. множество тех позиций, в которые может попасть игрок Р (Е) из начального состояния х (у) в момент Т, используя всевозможные измеримые программные управления и (/), (v (/)), /е[0, 7] при условии, что движение проис- ходит в соответствии с системой х=/(х, и) (y=g (у, «)). Введем в рассмотрение величину Рт(хо, у0)= max min р (х, у), yGC*(yJ (5.1) 260
называемую иногда (см. [7, 39, 40]) гипотетическим рассогласовани- ем множеств Се (Уо) и Ср (х0) (см. пример 8 п. 2.6 гл. II). Функция рт (х0, у0) обладает следующими свойствами: 1°. Рт (хо, у0)>0, рт (х0, Уо)\т-о=Р (.Xq, уо); 2°. рт (х0, уо)=О, если CJ (х0) => С? (у0); 3°. Если V (х0, уо, Т) — значение игры Г (х0, Уо, Т) с предписан- ной продолжительностью и терминальным выигрышем р (х (Т), У (D), то V (х0, у а, Т)^рт (хо, Уо)- Действительно, свойство 1° следует из неотрицательности функ- ции р (х, у). Пусть Ср (х0) => Се (уо)- Тогда для любого у'еСв (Уо) существует такое x'eCj (х0), что р (х'. у')=0, (х^у'), откуда полу- чаем 2°. Свойство 3° следует из того, что игрок Е, выбирая направ- ление движения на точку Ме Се (Уо), для которой Рт (х0, Уо)= min Р (х, М), xeCT(x($ всегда гарантирует получение выигрыша рт (хо, уо). Точка М назы- вается центром преследования. 5Л. Пусть Гг (х0, уо, Т) — дискретная игра преследования с ша- гом д (8=tk+i — tk), предписанной продолжительностью Т, дискри- минацией игрока Е и начальными состояниями х0, у0- Тогда справе- длива следующая теорема. Теорема. Для того чтобы для любых х0, Уо^Т?" и Т=5к, к= 1, 2,..., выполнялось равенство Рт (хй, Уо)=Vai Г, (х0, у0, 1), (5.2) необходимо и достаточно, чтобы для всех хь, уо^Л", <5>0 и Т=б'к, к= 1, 2, ..., имело место соотношение Рт(хо,Уо)= max min pTs (х, у) (5.3) (Vai G (х0, у©, Т) — значение игры Гг (хь, у0, Т)). Доказательство теоремы опирается на следующий результат. 261
Лемма. Для любых х0, yQeR”, Т^б выполняется неравенство Рт (.х0, уо)^ max min рт~г (х, у). уеС‘е(уо) хеС*(х0) Доказательство. По определению функции рт имеем max min pT-S (х, у)= уеС*г(уо) *еС*(*о) = max min max min p (x, y). yeC*t(yo) xeC*(XQ> yeC™ (y) xeCj-*(x) Для всех хе Ср (х0) имеет место включение С J-4 (х) с. Ср (х0). Сле- довательно, для любых хе Ср (х0), ye Сp~s (у) min р(х, у)> min р(х,у). xeCf-4(*) Тогда для всех хе Ср (х0), уе Ср (у0) max min р (х, у)> max min р (х, у) уеС*"* (у) xeCj~*(x) JeCj-' (у) xeCj(xo) И min max min p (x, y)> max min p (x, y). *eC'(xo) jeCj-‘(y) xeCj-'W yeCT-‘ (у) xeC*(x0) Таким образом, max min рт-s (x, y)^ max max >еС'(уо) xeC'(xo) >eC'(yo) yeCp‘( min p (x, y)= xeCj(xo) = max min p (x, у)=рт (x0, y0); yeCj(yo) xeCj(xo) — лемма доказана. Перейдем к доказательству теоремы. Необходимость. Пусть выполняется условие (5.2) и не выпол- няется условие (5.3). Тогда согласно лемме существуют такие (5>0, Хо, уоёЛ", Т0=5к0, к0>1, что Ртъ (х0, уо)< max min pTo-s (х, у). (5.4) J6C'(yo) хеС'(хо) 262
4 Пусть и° (•) — оптимальная стратегия игрока Р в игре Г4 (х0, Уо, То) и на 1-м шаге игры игрок Е выбирает точку у* 6 С| (у0), для которой min рт0-г(х, у*)= max min рТо_г(х,у). (5.5) хеС'(*о) -УеС^(уо) хеС'(*о) Пусть х° (8) — состояние, в которое переходит Р на 1-м шаге при использовании стратегии м° (•), а ю° (•) — оптимальная страте- гия Е в игре Г4 (х° (5), у*, То—8). Рассмотрим следующую страте- гию v (•) игрока Е в игре Г4 (х0, у0, То): в момент /=0 он выбирает точку у*, а начиная с момента t=8, игрок Е использует стратегию ®° (•)• Обозначим через й° () сужение стратегии и° (•) на отрезке [5, То]. Из (5.2), (5.4), (5.5) (согласно формуле (5.2) рт (х0, уо) — значение игры Г4 (х0, у0, Т) находим ' Рто (*о, Уо)>К (и° (), 5 (•); х0, уо, То)= I =К(й° (), v° (•); х° (8), у», То-8) = i =pT0-i (Х° (8), у*)> min Рто-г (х, у*)= | хеС'(хо) = max min рТо_} (х, у)>рГо (-Ко. Уо)- t >еС‘(го) хеС‘(жо) !; Полученное противоречие доказывает необходимость условия (5.3). Достаточность. Заметим, что условие (5.3) совместно с усло- « вием рт(хо, уо)1т-о=Р (хо, Уо) показывает, что функция рт(хо, у0) удовлетворяет функциональному уравнению для функции значения | игры Г4 (х0, уо, Т). Как следует из доказательства теоремы п. 2.2, это условие является достаточным для того, чтобы рт (х0, уо) было | значением игры Г4 (хо, у0, Т). Т 5.3. Лемма. Для того чтобы в игре Г (х0, уо, Т) существовала Д оптимальная программная стратегия игрока Е (т. е. стратегия, являющаяся функцией только времени), необходимо и достаточно, ! чтобы Vai Г (хо, уо, Т)=рГ (х0, уо). (5.6) j Доказательство. Достаточность. Пусть ю* (f), /е[0, Т] — 1 допустимое управление игрока Е, переводящее точку у0 в некоторую
точку М такую, что Рт (Хо, Уо)= min р (х, М). xeCj(xo) Обозначим v* () = {ст, v* (/)}, где разбиение о отрезка [0, 7] состоит из двух точек 4=0, 4 = Т. Очевидно, v* ()бЕ. Согласно теореме п. 3.4 гл. I v* ()еЕ — оптимальная стратегия игрока Е в игре Г (ль, Уо, Т), если Val Г (хо, уо, Т)= inf К (и (•), «* (•); х0, у0, Т). “ ОеР Но это равенство следует из (5.6), поскольку inf К (и (•), «* (•); хо, уо, Т)=рт (хо, у0). и()еР Необходимость. Пусть в игре Г (х0, у0, Т) существует оп- » тимальная программная стратегия игрока Е, тогда Val Г (х0, у0, Т)= sup inf К (и (•), v (•); х0, у0, Т)= .()еЕ к()еР = max inf р (х (Г), у)=рт (х0, у0)- и()еР Лемма доказана. Теорема. Для того чтобы при любых х0, уов-К", Г>0 в игре Г (*о, Уо, 7) игрок Е имел оптимальную программную стратегию, необходимо и достаточно, чтобы для любых б>0, х0, Уо^Е”, Т^б выполнялось равенство Рт(хо,Уо)= max min рг_«(х,у). (5.7) >еС^(уо) *еС^(хо) Доказательство. Достаточность. Из условия (5.7) соглас- но теореме п. 5.2 следует соотношение (5.2), из которого предель- ным переходом (см. теорему п. 3.7) получим Рт (х0, y0)=Val Г (х0, уо, Т). Отсюда согласно лемме п. 5.3 следует существование оптимальной программной стратегии игрока Е. 264
Необходимость условия (5.7) следует из теоремы п. 5.2, по- скольку существование оптимальной программной стратегии игро- ка Е в игре Г (х0, у0, Г) влечет существование таковой во всех играх (х0, уо, Т), Т=дк, fc>l, и справедливость соотношения (5.3). § 6. ОСНОВНОЕ УРАВНЕНИЕ В данном параграфе будет показано, что при определенных условиях функция значения дифференциальной игры удовлетворяет уравнению в частных производных, которое называется основным. Впервые в монографической литературе оно было рассмотрено Р. Айзексом [1] и его часто называют уравнением Айзекса—Вел- лмана. 6.1. Используя теорему п.5.3, выведем уравнение в частных про- изводных для функции значения дифференциальной игры. Будем предполагать, что для игры Г (х, у, Т) выполнены условия теоремы п. 5.3. Тогда функция рт (х, у) представляет собой значение игры Г (х, у, Т) продолжительностью Т из начальных состояний х, у. Пусть в некоторой области Q пространства 2?"х2?"х[0, оо) функция рт(х, у) имеет непрерывные частные производные по всем переменным. Покажем, что в этом случае функция рт (х, у) в области £2 удовлетворяет дифференциально-экстремальному уравнению др др др --max £ y gt (у, и)-min £ (х, u)=0, (6.1) 5Т vgV fyi ueU &Xj где функции f (x, u), gt (y, v), i= 1,..., n, определяют закон движения игроков в игре Г (см. (3.1), (3.2)). Предположим, что (6.1) не выполняется в некоторой точке (х, у, Т)еС1. Пусть, для определенности, --max X — gi(y, v)—max X — ft (x, u)<$. &T veF fyi ueU Пусть veV таково, что в рассматриваемой точке (х, yt Г)ей выполнено соотношение V-Ч &Р Z -ч V* \ Z — (у, ®)=max X — g! (у, »)• (_1 3У1 ,_1 Syt Тогда при любом ие Ub точке (х, у, Т)еС1 имеет место неравенство: 265
(6-2) Из непрерывной дифференцируемости функции р по всем перемен- ным следует, что неравенство (6.2) выполняется и в некоторой окрестности S точки (х, у, Т). Выберем число <5>0 настолько малым, чтобы точка (х (с), у (с), T—t)eS при всех те[0, <5]. Здесь Г г х (т)=х + Г f (х (/), и (0) Л, у (т)=у + g (у (/), V (/)) dt о о — траектории систем (3.1), (3.2), отвечающие некоторому допусти- мому управлению и (/) и v (t)=v соответственно и начальным усло- виям х (0)=х, у (0)=у. Определим функцию вЮ=гг\ Я (У (*)>*)- дТ |(х (г), у (т), T-r) /w J dyi |(х (г), у (г), Т-т) Д др - Z г I /(*(*).« (*)), те[0, 5]. i_i 3*il(*(r), J (г), т-t) Функция G (т) непрерывна по т, поэтому найдется число с<0 такое, что G (т)<с при те[0, 3]. Отсюда имеем s |о(т)Л<сй. (6.3) о Нетрудно убедиться в том, что <« К* W. У («). r-t) Из (6.3) получаем Рт (х, у)-Рт-г (х (8), у (<5))<с<5. Отсюда в силу произвольности и (I) следует Рт (х, у)< max min pr-s (х', у'), УеС'ад ZeC'(x) что противоречит (5.7). Таким образом, мы показали, что в том случае, когда у игрока Е в игре Г (х, у, Т) при любых х, у еЛя, Т>0 существует оптималь- ная программная стратегия, значение игры V (х, у, Т) (оно совпада- 266
ет с рт (х, у) согласно лемме п. 5.3) в области пространства R" х Rn х [0, оо), где существуют непрерывные частные производные у этой функции, удовлетворяет уравнению ЗУ V ЭГ < ч , • V г / ч /г лч —=тах £ — gi (У. «)+тт £ — f (х, и) (6.4) ЗТ jwl fyi ueU (_j dxt при начальном условии V (х, у, 7’)|т-о=Р (х, у). Предположим, что каким-то образом удается определить й, v, доставляющие шах и min SV SV в (6.4) как функции от х, у и —, —, т. е. дх Sy (6-5) _ _ / 8V\ - - / 8V\ и—и I X, — I, v=v I у, — I. \ дх J \ 3У/ Подставляя выражения (6.5) в (6.4), получаем д sv ( -( sv\\ д аг „ / _ ( sv\\ sv Z г&Р''” У<г +Z г/ х- « х- г = ~ (-1 &У1 \ \ 3У// i-i 8х‘ \ \ Зх// зт при условии V (х, у, Г)1г_0=р (х,у). (6.6) (6-7) Таким образом, для определения V (х, у, Т) имеем задачу Коши для уравнения в частных производных первого порядка (6.6) при начальном условии (6.7). ' Замечание. При выводе функциональных уравнений (6.4), (6.6) : и доказательстве теоремы п. 5.3 мы не использовали конкретный вид функции выигрыша, поэтому теорема остается справедливой для любого непрерывного терминального выигрыша Н (х (Т), у (Т)). Однако в этом случае вместо величины рт (х, у) необходимо рассмотреть величину Йт (х, у)= max min Н(х', у1). /«CJW xecj(x) Уравнение (6,4) также справедливо для значения дифференциаль- ной игры с предписанной продолжительностью и любым терми- * нальным выигрышем, т. е. если в дифференциальной игре с пред- писанной продолжительностью Г (х, у, Т) и терминальным выиг- рышем Н (х (Т), у (Г)) у игрока Е существует оптимальная про- граммная стратегия, то значение игры V (х, у, Т) в области про- странства Rn х Д" х [0, оо), где существуют непрерывные частные j производные, удовлетворяет уравнению (6.4) при начальном усло- 267
вии V (х, у, Т) \Т^О—Н (х, у) или уравнению (6.6) с тем же началь- ным условием. 6.2. Рассмотрим теперь игры преследования, в которых функция выигрыша равна времени до момента встречи. Предположим, для определенности, что терминальное многообразие F является сферой р (х, у)—1, />0. Будем предполагать, что множества Ср (х) и С'Е (у) непрерывны по t в нуле равномерно относительно х и у. Пусть имеет смысл величина О (х, у, Z)=max min t‘„ (х, у; и (/), » (/)), «(0 где t‘„ (х, у; и (/), « (/)) — время сближения на I — расстояние иг- роков Р и Е, движущихся из начальных точек х, у при использова- нии измеримых программных управлений и (/) и v (t) соответствен- но. Предположим также, что функция в (х, у, I) непрерывна по совокупности аргументов. Игру на быстродействие будем обозначать через Г (х0, у0)> Так же как это было сделано в § 4, 5, можно вывести необходимые и достаточные условия существования оптимальной программной стратегии игрока Е в игре преследования на быстродействие. Спра- ведлива следующая теорема. Теорема. Для того чтобы игрок Е при любых хь, уое1? в игре Г (хь, уо) имел оптимальную программную стратегию, необходимо и достаточно, чтобы при любом б > 0 и любых хь, Уо е Я" выполнялось равенство 0 (хо, Уо, !)=&+ max min 0(x',y',I). УеС^(уо) х'еС‘(хо) Для игры преследования по быстродействию уравнение (6.4) принимает вид max 2, у & <У» v)+mm £ — ft (х, м)= -1, (6.8) tyi veU dXi при начальном условии 6(х,у, /)|,(,.,)-/=0. (6.9) Здесь предполагается существование непрерывных частных произ- водных первого порядка функции 0 (х, у, I) по х, у. Полагая, что каким-то образом можно определить й, v, доставляющие max и min 89 89 - - ( 39\ - в (6.8) как функции от х, у, —, —, т. е. и=и I х, —I, v = дх ду \ dxj 268
=v (у, — J перепишем уравнение (6.8) в виде \ дУ/ л де ( -( ее\\ ее / _ ( де\\ * z, Ё — &7 )+£ —/ц*.«(*.-))=-i (6.Ю) i-1 gyt \ \ 8yjJ i-1 Зх‘ \ \ Зх// при условии 0 (х, у, I) |р (х> y)-i—0. (6.11) Вывод уравнения (6.8) аналогичен выводу уравнения (6.4) для игры преследования с предписанной продолжительностью. Обе задачи Коши (6.4), (6.7) и (6.8), (6.9) являются нелинейными относительно частных производных, поэтому при их решении воз- никают значительные трудности. 6.3. Перейдем теперь к выводу уравнений характеристик для (6.4). Предполо- жим, что функция V (х, у; Т) имеет непрерывные вторые смешанные производные на - - ( - - / всем пространстве, функции gj (у, v), fa (х, и) и функции и^и I х, — I, v=v I у, — ] имеют непрерывные первые производные по всем переменным, а множества L7, ду/ V имеют вид параллелепипедов a,n^um^bm, ю=1, ..., к и cq^vq^dq, ...» Z, где ..., t^)eC7, v=(«i,...» vfieK Обозначим dV п dV " dV В (х, у, Т)=—~ Y,—fi (х, й)- Е ~ Л (У‘ ’)• ЗТ i-l 3xi i-1 fyi функция В (х, у, 7)s0, поэтому беря частные производные по xi.хп получим 8х“ 8Т8хк ^Sxtdxk ^8xt8xk ” 82V *8 (* 8V \ &m - E 77- gt- E r~ (E t-л) 7~ 8yi8xk 8um 8x{ ) 8xk ' 8 / " 3F \<a. -- ~ E 7-( E 7“?i)“=0> /Зх* (6.12) Для каждой фиксированной точки (х,_у, T)gR xR х[0, оо) максимизирующее значение v и минимизирующее значение й в (6.4) лежат либо внутри, либо на границе интервала ограничений. Бели это внутренняя точка, то д / п dV \ д / " dV \ а. 1 £ 7'^) -“°’ -“°‘ ^“mXi-l^Xi /«-« /•“• Если же и (у) лежит на границе, то здесь могут представиться два случая. Исследуем
. / ar\ их подробно для одной из компонент ит I х, — ) вектора и. Исследование остальных \ _5*/ компонент вектора и и компонент вектора v проводится аналогично. Для простоты предположим, что в некоторой точке (х', у’, Tj - - / дК(х', у', П\ ит~ит I х'• ~ 1~ат- \ дх / Случай 1. Существует шар в пространстве Я* с центром в точке х', для всех точек х которого выполняется равенство - _ / dV(x, у’, Т)\ ит=ит I х> ~ ) = \ дх / Функция ит на этом шаре принимает постоянное значение, поэтому в точке х' имеем Случай 2. Такого шара не существует. Тогда найдется последовательность хг, Нт хг=х' такая, что Г—*00 3V(xr,y', Т)' дх Отсюда dXj (хл у', Т) =0. dV dfi _ ( dV (x, у, 7)\ Из непрерывности производных —, — и функции u=u | х,--------------) следу- dxi дит \ дх / ет, что предыдущее равенство выполняется и в точке (х\ у', Т*)- Таким образом, два последних слагаемых в (6.12) равны нулю, и при всех (х, у, 7)eR хЯ х[0, оо) выполняется равенство дВ d2V ” д2У — ---------------------------------У --------fi (х, и)- dxk дТдхк ^дх^ Д dV dfi ” д2У —Е л(у. ®)=°. *=1,2,..., л. .dyidx/c Пусть х (г), у (г), t е [0, 7] — решение системы / . / dV(x, у, Г-0\\ / -/ dV (х, у. T-ty \ \ дх Jf ~ V V ду JJ с начальным условием х (О)=хо, у (О)=уо- Вдоль решения х (/), У (0 имеем 270
32V(x(t),y(t), T-t) " 52Г(1(0, y(0. T-t) - E-------------------Л (* W.“(0)- STSxk Bxt3xk _ « dV (x (i), у (t), T-t) dft(x{t), it(f)) i_, 8xi dxk " a2v(x(f), y(t), T-t) - E----------—-------------gi G (0> • W)-o, *-i,..., ,-1 8У<дхк где „,ч -Z-z У(О, Г-0' и (0=1/1 X (О, дх -,ч sv(*U),y(t). T-t)' •(0=» (у (0> 3У Однако, d /ЗУ а (0, у (О, Г-0\ Д 82v (X (О, у (0, г-0 ,........... - I-----------------)- Е--------—-----------ft (х (0, и (0)+ * Л\ dxk ) Jwl dxkdxt - a2F(i(0, j(0, Т-0 d2V(x(t),y(t),T-t) ft О (0,»(0)------1...................»• (6 *4) дхкЗТ dxk3yt 'аг(х(0,;(0, г—р\____________• аг(х (р, у (р, г-о dft (х (р, й (р) < dxk J dxt dxk Заметим, что у дважды непрерывно дифференцируемой функции можно менять порядок дифференцирования. Перепишем (6.13) с учетом (6.14) в виде d dt fc«l...л. Аналогичным образом получим уравнения d dt i=l, ..., п. Так как при re[O, 7] V (i (0, у (I), T-t)=ff (£ (Т), у (Г)), то d (dV(x(i),~y(f),T-t)\ dt \ дТ J Введем следующие обозначения: dV{x{t),y(t), T-t)\______» dV (x (О, У (О, Г-0 dgj (y (0, a (Q) , 3yt J 8yt dyt д ar(x(0, y(0, т-t) 271
v L 3V(x(t), y(t), T—t) . Vyi (0----------------------. i-1. «• fyi VxW={Vx,(t)}, Vy<J)-{Vyi(f)}, „ дакаю, y(0. t-o Fr W-------------—----------• dT В результате получим следующую систему обыкновенных дифференциальных урав- нений для функций х (г), у (О, Ух (0, Уу (0, Ут (О-’ *i=/i (*. й (х, К,)), yi=gt (у, »(у, Vy)\ . " 8fi (*, «(х, Кх)) . " -1 " Z Уу , dgt(y.v(y,yy)) ..... * - . (6.15) Рг-0, i, Jt-1,л и, кроме того, согласно (6.6) имеем я я Ут- £ Vytgi (у. 5 (у. Vy))+ £ VXifi (X, й (X, Vx)). i—1 i—1 Для решения системы нелинейных уравнений (6.15) относительно функций х (0, у (О, Ух* W> Уу^ (0> Ут (0 необходимо определить начальные условия. Для функции У (* (0> У (0, 0 ОНИ заданы в момент времени г» Т, поэтому введем переменную т=Г— t и запишем уравнение характеристик в регрессивной форме. Введем обозначе- ния х= — х, у=—у. Уравнения характеристик принимают следующий вид: Л--л (у. ®). (616) t v s^x’ * ,r, Уук-Ъ Уу Kr-o. 8Ук При задании начальных условий для системы (6.16) используется соотношение V (х, у, Т) |т-о-Я (х, у). Пусть х |т.0-«. У Тогда дН PJt-o-— ’ OXj X-S, y»f> ЗН 1т-0=— i dyj х^л, (6.17) п я Frk-О» Е Уу* к-о gi V (s', Уу |t.o))+ Е к-оЛ и (s, Ух к-о». i-1 i-l Подробные исследования возможных путей решении системы (6.16)—(6.17) см. в[1]. Аналогичным образом, используя уравнение (6.8), можно записать уравнение характеристик для задачи преследования на быстродействие. 272
§ 7. МЕТОДЫ ПОСЛЕДОВАТЕЛЬНЫХ ПРИБЛИЖЕНИЙ ДЛЯ РЕШЕНИЯ ДИФФЕРЕНЦИАЛЬНЫХ ИГР ПРЕСЛЕДОВАНИЯ 7.1. Пусть rs(x, у, Т) — дискретная форма дифференциальной игры Г (х, у, Т) продолжительностью Т>0 с фиксированным шагом разбиения 8 и дискриминацией игрока Е на время <5>0 вперед. Обозначим через Vs (х, у, Т) значение игры Г« (х, у, Т)*. Тогда lim Vs (х, у, Т)= V (х, у, Т) г-»о и оптимальные стратегии в игре Г« (х, у, Т) при достаточно малых 8 могут быть эффективно использованы для построения ситуаций е равновесия в игре Г (х, у, Т). 7.2. Идея численного метода состоит в построении алгоритма нахождения решения игры Г« (х, у, Т). Перейдем непосредственно к изложению метода. Нулевое приближение. За нулевое приближение функции зна- чения игры Vs (х, у, Т) принимаем функцию Vs (х, у, Г)= max min р (£, >/), (7.1) где Ср(х), Се (у) — множества достижимости игроков Р и Е из начальных состояний х, yeR" к моменту времени Т. Выбор функции (х, у, Т) в качестве начального приближения оправдан тем, что в достаточно широком классе игр (так называ- емый регулярный случай) она оказывается значением игры Г (х, у, Т). Следующие приближения строятся по правилу: И (х, у, Т)= max min И Ц, Т-8), ieC>r(*) V} (х, у, Т)= max min KJ ({, г/, Т—8), Ijec^fr) feC‘(x) Vg (x, y,T)— max min К J (5, q, T-8) (7.2) uec^a) ieC‘r(x) при T>3 и Vo (x, y, T)= Vf (x, у, T) при 1. Как видно из формул (7.2), операция max min берется по множе- ствам достижимости Се (у), Ср(х) за время 8, т. е. за один шаг дискретной игры Гг (х, у, Т). *Вопросы, связанные с обобщениями и приложениями теоремы Хелли, подробно изложены в книге: Данцер Л., Грюнбаум Б., Кли В, Теорема Хелли. М., 1968. 10 Теория игр ^73
7.3. Теорема. При фиксированных х, у, Т, 3 числовая последова- тельность [К$ (х, у, 7)] не убывает с ростом к. Доказательство. Докажем сначала неравенство V's(x,y, Г)>П(х, у, Т). Для всех £еСр (х) справедливо: Ср~г (О с CJ (х). Для любых цеСв~1 (ц), £еСр (х) имеем min р (?, ^)> min р (5, ц). ёеСг-'(О ?eCj(x) ?еСЧх) Отсюда V\ (х, у, Т)= max чес1 (у) min max min р (£, ij)> feC*(x) jeCj-'fe) ёвС;-‘(О max min p (£, ij)= «eC^(y) JeCj-'to) feCj(x) = max min p (£, ц)= И® (x, у, T). ,eCj(y) eeCj(x) Предположим теперь, что для l^k справедливо неравенство Vls(x,y,T)>V's-i(x.y.T) (7.3) и докажем его для l=k+1. Из соотношений (7.2) и (7.3) следует, что Т Vs+l (X, у, Т)= max min Kj ({, ц, Г-5)> <»ec‘(y) feCj/x) > max min KJ"1 ({, »?, T-3)= Vks (x, у, T). 4eC‘tb) l*C‘r(x) Таким образом, в случае Т>3 по индукции утверждение те- оремы доказано. В случае Т^З утверждение теоремы очевидно. 7.4. Теорема. Последовательность {К*(х, у, Т)} сходится за Г Н конечное число шагов N, при этом имеет место оценка - 4-1, 3 где квадратные скобки означают целую часть. Доказательство. Пусть N=[T/8l + l. Покажем, что V” (х, у, T)=Vg+l (х, у, Т). (7.4) Равенство (7.4) легко получить из построения последовательности [V* (х, у, 7)]. Действительно, 3 Vg (х> у, Т)= max ч'еС1 (у) min 4*еС’(х) rr* <е, ч1, т-5)= max *еС*(у) min е‘еС*(х) max ч’еС'й*) 274
... max min П (£""*, T-(N-1) <5). j'-'eC'fo*-2) e"-1eC*«''-2) Аналогично имеем K*+1 (x, у, T) = max min max ... U2eC'a) f*eC'(x) 42eC'(u2) ... max min Vj T-(N-1) 3). Ч"-1еС»1(я"-Ч e*-‘eC« ({«-*) Однако T— (N— 1) 3=a<3, поэтому Vх, nN~', «)= Vl (i*-*, riN~', a)= V*t «*’*, a), откуда и следует равенство (7.4). Совпадение членов последовательности К* при k^N выводится из (7.4) индукцией. Теорема доказана. 7.5. Теорема. Предел последовательности {К* (х, у, Т)} совпа- дает со значением игры Г4 (х, у, Г). Доказательство. Данная теорема является, по существу, сле- дствием теоремы п. 7.4. Действительно, обозначим Vg (х, у, T)=lim И (х, у, Т). к-ьао Сходимость происходит за конечное число шагов, не превосходящее 'N=[T/3]+1, поэтому в рекуррентном уравнении (7.2) можно перей- ти к пределу при Л-»оо. Предельная функция Vg (х, у, Т) удовлет- воряет уравнению Vs (х, у, Т)= max min Vs ({, tj, T-3) (7.5) 4eC>t(y} ieC*r(xj при начальном условии Vg (x, у, T) |о<г<«= max min p (£, rf), (7.6) чес'м feCj(x) что и является достаточным условием для того, чтобы функция Vg (х, у, Т) была значением игры Гл (х, у, Т). 7.6. Зная функцию Vg (х, у, Т), можно, используя уравнение (7.5), построить оптимальные кусочно-программные стратегии в игре Г4 (х, у, Т). С помощью стратегий, оптимальных в игре Г4 (х, у, Т), строятся е-оптимальные стратегии в основной игре Г (х, у, Т). Как следует из (7.4), совпадение двух последовательных прибли- жений на шагах к и к+1 означает, что соответствующее приближе- 275 10*
ние уже является значением игры ГЛ (х, у, Т), поскольку в этом случае все последующие приближения совпадают с к-м приближени- ем. Такое совпадение и является критерием прекращения вычисле- ний. Имеются достаточные основания полагать, что в широком классе задач сходимость происходит гораздо быстрее, чем за время, указанное в теореме п. 7.4, в частности в «регулярном случае» вычисления прекращаются на 1-м шаге после вычисления функции Vs (х, у, Т) (это в то же время является критерием «регулярности»). 7.7. Приведем модификацию метода последовательных прибли- жений, изложенного выше. В качестве начального приближения возьмем функцию V°s(x, у, T)=VHx, У, Т), где Vg (х, у, Т) определена равенством (7.1). Следующие приближения строим по правилу: Р*+1 (х, у, Т)= max max min Р* (£, у, T—iS) ie[l:W| >jeC“(j) feCj(x) при T>8, где N=[T/8], и P$+1 (х, у, 7)= И (х, у, Т) при Для последовательности функций {V* (х, у, Т)} так же, как и для последовательности функций {К* (х, у, Г)}, справедливы утвержде- ния теорем п. 7.3—7.5. Доказательство этих утверждений для последовательности фун- кций {Р* (х, у, Т)} почти дословно повторяет аналогичные рассуж- дения для последовательности функций {К*(х, у, Г)}. Функци- ональное уравнение для функции значения игры Г« (х, у, Т) прини- мает в области {(х, у, Т) | Т> 5} вид Vf (х, у, Т)= max max min V6 (£, q, Т— iS), (7.7) <е[1:Л] ireCjO>) (еС“(х) где N=[T/8), а начальное условие остается прежним, т. е. имеет вид (7.6). 7.8. Докажем эквивалентность уравнений (7.5) и (7.7). Теорема. Уравнения (7.5) и (7.7) с начальным условием (7.6) являются эквивалентными. Доказательство. Пусть функция Vs (х, у, Т) удовлетворяет уравнению (7.5) и начальному условию (7.6). Покажем, что она удовлетворяет уравнению (7.7) в области {(х, у, 7)|Т><5}. Действительно, справедливы следующие соотношения: Vs (х, у, Т) = max min Vs ({, ц, Т—8)= ne&fy) feC*(x) = max min max min Уг (£, tj, T—2S)^ ЧвС^Ь) ieC‘r(x) чеС‘^4) 276
max neC‘t(y) max min min Vs (?, T— 25) = feC^(x) {eC'f({) = max <jeC“O-) .> max i;eC" (x) min Vs(£, ti, T-28)>... (x) min Vf(£,ri,T-i8)>.... feC* (x) При i= 1 имеем Vs (x, y, T)= max min Vs (£, tj, T—S), цеС^ОО feC^(x) поэтому справедливо равенство Vs (x, у, 7)=max max min Vs (&, t], T—iS), ie[l:M neCj6>) feC“(x) где N=[T/S], что и доказывает требуемое утверждение. Пусть теперь функция Vs(x, у, Т) в области {(х, у, Т)|Т>5} удовлетворяет уравнению (7.7) и начальному условию (7.6). Пока- жем, что она удовлетворяет также уравнению (7.5). Предположим противное. Тогда в области {(х, у, Т) |Г> 5} должно иметь место неравенство Vs (х, у, Т)> max min Vs (f, q, T—5). Однако max min. Vs (e, ti, т-8)= ijeC*(y) feC»(x) = max min max max min Vs (J, tj, T-(i+1) <5)> neC^(y) eec;<x) ie[l :N-1] > max max max min min Vsdij, T-(i+l)8)= В' ’IGCtg(y) /е[1:ЛГ-1] eeCj(x) ?ec;«) = max max max min min Vs (?, rj, T-(i+1) 5)= ie[l :X-1) ПеС*я(у) eeC*(x) lee;® = max max min Vs ({, tf, T—i8)= Vs (x, у, T). ie[2:N) neCjOO 4eC“(x) Полученное противоречие доказывает теорему. 277
§ 8. ПРИМЕРЫ РЕШЕНИЯ ДИФФЕРЕНЦИАЛЬНЫХ ИГР ПРЕСЛЕДОВАНИЯ 8.1. Пример 4. (Простое движение). Рассмотрим дифференци- альную игру Г (х0, уо, Т), в которой движение игроков Р и Е проис- ходит в евклидовом пространстве IC согласно следующим уравне- ниям: для Р:х = аи (t), ||u (08<1, х (О)=хо, для E:y=pv (0, ||v (08 < 1, У (O)=Jo, (8.1) где а, Р — константы а>Р>0, х, у, и, veR*. Выигрыш игрока Е равен Я(х(Т),у(Г))=||х(Т)-у(Т)||. Пусть rs(x, у, Т) — дискретная форма дифференциальной игры Г (х, у, Т) с шагом разбиения £>0 и дискриминацией игрока Е. Hipa G (х, у, Т) протекает в N шагов, где N=T/S. Согласно результатам § 2 (см. пример п. 2.3) игра Г« (х, у, Т) имеет значение Vs (х, у, Т)=шах {0, ||х-у|| -N5(<i-p)} = =шах {0, ||х-у||-Г(а-0)}, а оптимальное движение игроков происходит по прямой, соединя- ющей начальные состояния х, у. Согласно результатам § 3 значение исходной дифференциальной игры V (х, у, 7)=lim Vs (х, у, Т)=тыж. {0, ||х-у|| - Т (а-р)}. (8.2) «-.о Можно убедиться, что V (х, у, Т)= max min ||х'—у'|| =рт (х, у), у'сС*(у) x'eCj(x) где Се (у)=8 О'. РТ) — шар в Л" радиуса РТ с центром в точке у, аналогично Cp(x)=S (х, аТ). Тем самым согласно лемме п. 5.3 у игрока Е в игре Г (хо, Уо, Т) существует оптимальная программная стратегия v* (f), /е[0, Г], которая приводит траекторию игрока Е в точку у*вСе (Уо). для которой Рт(хо,Уо)= min ||х'-у*||. *'eCj(*o) 278
Очевидно, fyo-xp ho -*ой V при Уо^Хо, при Уо=хо, где vcR" — произвольный вектор такой, что ||w|| = 1. Из результатов § 6 следует, что в области Д={(х,у, Т): ||х—у|| — Г (а—/1)>0}, где существуют непрерывные частные производные 8V , ЗУ ЗУ х-у ~=-(a-S), —=-—=-----------, дт дх ду Ix-jfI функция V (х, у, Т) удовлетворяет уравнению (6.4): ЗУ . fdV \ „ fdV \ Л ----a mm I —, и )—ртах I —, v 1=0. ЗТ \8х / 1»1<1 / (8.3) В уравнении (8.3) минимум и максимум достигаются при управле- ниях ЗУ и (8.4) ЗУ - / ЗУ \ 8У/ Зу _ у-х Д 1-И-хГ (8.5) Стратегии (8.4), (8.5) являются оптимальными в дифференциаль- ной игре (8.1). Стратегию й (х, у), определяемую соотношением (8.4), называют «погонной стратегией», так как в каждый момент времени вектор скорости игрока Р при использовании этой страте- гии нацелен на преследуемого игрока Е. 8.2. Пример 5. (Игра преследования при наличии сил трения). Преследование происходит на плоскости. Уравнения движения име- ют следующий вид: для игрока Р: Qi=Р» в * 1 О II ц^1 (86) Pi^aui-kj)h 1=1, 2, ||и||<1; 279
для игрока Е: ri = Si, s^fa-k^ i=l, 2, ||®||<1; (8,7) ф(0)=д?,л(0)-р?,г.(0)»г?, si (0)=4, г= 1, 2; а, 0, кЕ, к„>0. (8.8) Здесь q=(qi, qi) и г=(гь г2)— местоположение на плоскости игроков 1 и 2 соответственно; р=(рь р2) и s=(si, s^ — их импульсы; кр, кЕ — некоторые константы, интерпретируемые как коэффициен- ты трения. Выигрыш игрока Е полагается равным я(?(П,г(Г))=к(П-г(т)||= =7(91 (П-n (Ш2+[?2 (Т)-Г2 (Т)]2. В плоскости ?=(?i, <?2) множество достижимости Ср (q°, р°) игрока Р из начальных состояний р (0)=р°, q (0)=g° за время Т представляет собой круг (см. упр. 18) радиуса ^(^^(в'^+^Т-1) с центром в точке a (q°, Р°, T)^q°+p°1-^—. кр Аналогично, множество СЕ (г°, s°) представляет собой круг радиуса с центром в точке b(r°, s°, Т)=г°+----s°. кЕ Для величины pT(q°, Р°, г°, з°), определяемой соотношением (5.1), в данной дифференциальной игре выполняется равенство Рт (?°. Р°> г°, з°)= max min Ц9— r||. recjfr’, 1») fecjfc». р») 280
Отсюда (см. формулу (2.10)) имеем Рт (q, Р, г, s)=max {0, ||а (q, р, T)-b (г, s, Т)||-(R, (T)—RE (Г))} = ( /Л / 1—e kpT 1-e *J =max <0, / У I qi-ri+pt — -------------st ——- (. у f—1 \ e +kpT— 1 o e 4-fc^T— а--------£--------я-------------1 x к2, Ъ /) (8.9) В частности, условий a>0, — >— достаточно, чтобы для любых ^Е начальных состояний q, р, г, s нашлось отвечающее им Т, при котором рт (q, р, г, дг)=О. Функция рт (q, р, г, s) удовлетворяет дифференциально-экстре- мальному уравнению (6.1) в области Q={(?, р, г, s, Ту.рт(д, р, г, х)>0}. Действительно, в области Q существуют непрерывные частные производные др др др дТ* dqi dpt ”, i=l,2. di-j dsi (8.10) Уравнение (6.1) принимает вид 3? V (др 1дР вт др V-* vp —/?шах >. — ю,—a min ), — u,=0. MCI (-1 Sst I«I<1 f-l 8Pi 8р , 8Р , X si-— kppi-— kESi)- dpi osj J V» ^P ___n linn /, — Hi—v. I«I<1 i-1 dPi (8.Н) Здесь экстремумы достигаются на управлениях и, v, определяемых следующими формулами: (8-12) (8.13) 281
Подставляя эти управления в (8.11), получим нелинейное уравнение в частных производных первого порядка (8.14) Вычисляя частные производные (8.10), убеждаемся, что функция Рт Р> г> 5) в области Q удовлетворяет уравнению (8.14). Отметим, что величина pr(q°, Р°, r°, з°) является значением дифференциальной игры (8.6)—(8.8), а управления, определяемые соотношениями (8.12), (8.13), оптимальные в области Q. Из формул (8.12), (8.13), (8.9) находим 1_е-^ 1_е-*'Г ri-qt+Si----Pi--- «г=-===^==?=, vt=Ui, i=l,2. (8.15) l-e^V г,—?i+s(------------Pt---- «я к, / В ситуации и, v направление действия силы каждого из игроков параллельно линии, соединяющей центры кругов достижимости (как это следует из формулы (8.15)), и остается постоянным, по- скольку в этой ситуации центры кругов достижимости перемещают- ся вдоль прямой линии. § 9. ИГРЫ ПРЕСЛЕДОВАНИЯ С ЗАДЕРЖКОЙ ИНФОРМАЦИИ У ПРЕСЛЕДОВАТЕЛЯ 9.1. Ранее в этой главе рассматривались конфликтные управля- емые процессы, в которых каждый из участников (игроков) имел полную информацию, т. е. в каждый текущий момент игры Р (Е) знал свое состояние х (I) [у (/)] и состояние противника у (t) [х (/)]• Были получены теоремы о существовании ситуаций с-равновесия в чистых стратегиях в таких играх и проиллюстрированы различные методы построения движения. Это оказалось возможным, посколь- ку дифференциальные игры с полной информацией представляют собой предельный случай многошаговых игр с полной информаци- ей, когда промежуток времени между двумя последовательными ходами стремится к нулю. Иначе обстоит дело с дифференциаль- ными играми с неполной информацией, где применение смешанных стратегий играет существенную роль. Не останавливаясь на анализе всей проблемы, рассмотрим только случай игры преследования 282
с предписанной продолжительностью, терминальным выигрышем и задержкой поступления информации игроку Р о фазовом состоя- нии игрока Е на время />0. 9.2. Пусть задано некоторое число Z>0, называемое временем задержки информации. При 0<Z<Z преследователь Р в каждый момент времени t знает свое состояние х (г), время t и начальное местоположение у0 убегающего Е. При игрок Р в каждый момент t знает свое состояние х (t), время t и состояние y(t—I) игрока Е в момент t—I. Игрок Е в каждый момент времени t знает свое состояние у (/), состояние противника х (/) и время t. Его выигрыш равен расстоянию между игроками в момент времени Т, выигрыш игрока Р равен выигрышу Е с обратным знаком (игра антагонистическая). Обозначим эту игру Г (х0, уо, Т). Определение. Под кусочно-программной чистой стратегией v (•) игрока Е будем понимать пару {т, Ь}, где т — разбиение отрезка времени [0, 7] конечным числом точек O^tl<...<tlc=T и b — отоб- ражение, которое каждому состоянию х (/(), у (Zj) tt ставит в соот- ветствие отрезок измеримого программного управления v (/) игрока Е при te[tit z/+1). Определение. Под кусочно-программной чистой стратегией и (•) игрока Р будем понимать пару {о, а}, где а — произвольное разбиение отрезка времени [0, 7] конечным числом точек а — отображение, которое каждому состоя- нию У (t'i—Г), t'i при ставит в соответствие отрезок измеримого программного управления и (t) игрока Р при ze[z',, z'+1). Для отображение а каждому состоянию х Уо, h ставит в соответствие отрезок измеримого управления и (/) игрока Р при f<+1). Множества всех кусочно-программных чистых стратегий игро- ков Р иЕ будем обозначать соответственно через Р и Е. Уравнения движения имеют вид x=f (х, и), ueU<= Р?, xelC, y=g (у, ю), ®е Vс 2?’, у е/?". (9.1) Полагаем выполненными все условия, обеспечивающие существова- ние и единственность решения системы (9.1) для любой пары изме- римых программных управлений и (О, v (/) при заданных начальных условиях хь, уо- Это гарантирует существование единственного ре- шения системы (9.1) в случае использования игроками Р и Е кусоч- но-программных стратегий 'и ()еР, v ()еЕ при заданных началь- ных условиях х0, уо- Таким образом, в любой ситуации (и (), v (•)) при заданных начальных условиях х0, у0 функция выигрыша игрока 283
Е определяется однозначно к (х0, Уо; U (•), V ())=р (X (Г), у (Г)), (9.2) где х (0, у (0 — решение системы (9.1) при начальных условиях х0, Уо в ситуации (и (.), ® (.)), ар — евклидово расстояние. 93. Можно на простейших примерах показать, что в рассмат- риваемой игре Г (х0, уо, Т) ситуации е-равновесия существуют не для всех чисел е>0. Поэтому для построения ситуаций равновесия воспользуемся подходом, предложенным Ф. Нейманом и О. Мор- генштерном для конечных позиционных игр с неполной информаци- ей [47]. Расширим пространства стратегий игроков Р и Е до так называемых смешанных кусочно-программных стратегий поведения (СКПСП), которые предполагают возможность случайного выбора управления на каждом шаге. Пример 6. Уравнения движения имеют вид для Р:х=и, ||и||<а, для E:y=v, |Н<Д (9.3) а>Д>0, х, yeR2, u.veR2. Выигрыш игрока Е равен р (х (Т), у (Т)), где х (Г), у (0 — реше- ние системы (9.3) при начальных условиях х (/о)=хо, у (f0)=y0. Иг- рок Р в течение игры знает лишь начальное состояние у0 против- ника, а игрок Е имеет полную информацию о состоянии игрока Р(/=7). Пусть v (х, у, 0 — некоторая кусочно-программная стратегия игрока Е. Для каждой стратегии v существует стратегия й (х, f) игрока Р, использующая только информацию о начальном положе- нии игрока Е, своем текущем положении и времени, прошедшем с момента начала игры, гарантирующая выигрыш р (х (Т), у (7))<е для 7>р (хь, Уо)/(«—Р)- Действительно, пусть и* (х, у, t) — страте- гия игрока Р в игре с полной информацией, имеющая следующую структуру: до момента встречи t„ осуществляется погонное пресле- дование игрока Е, а при t„ < / < Т точка х (0 сохраняется в некоторой е-окрестности убегающей точки. Такая стратегия в игре с полной информацией может быть легко описана аналитически (см. пример 4 п. 8.1). Построим траектории х (/), у (0 движения игроков в ситу- ации (и* (х, у, О, v (х, У, 0) из начальных состояний х0, Уо- Для этого достаточно проинтегрировать систему х=и* (х, у, t), х (t0)=x0, у=® (х, у, 0, у Оо)=Уо. (9.4) 284
По построению р (х (Т), у (Т))<е. Пусть теперь й (t) = u* (х (Z), у (t), t), и хотя стратегия и* (х, у, t), использующая для выработки управления информацию о положении Е, недопустима, стратегия и (t) является допустимой, поскольку использует лишь информацию о времени, прошедшем с момента начала игры и о начальном состоянии игрока Е. Очевидно, что в ситуациях (й (/), ® (х, У, 0) и (и* (х, y,J), v (х, у, /)) траектории игроков совпадают, поскольку стратегия ® (х, у, t) одинаково реагирует как на стратегию и* (х, у, Г), так и на стратегию й (t) выбором управления v (х (г), у Таким образом, мы показали, что для каждой стратегии v (х, у, I) существует программное управление и (t), являющееся допусти- мой стратегией в игрес неполной информацией, и такое, что р (х (т£ у (Т))<е, где х (/), у (0 — соответствующие траектории. Выбор v (х, у, I) произволен, поэтому отсюда следует, что sup inf р (х (Г), у (Т))=0, (9.5) где sup inf берется по множествам стратегии игроков в игре с непо- лной информацией. Вместе с тем для любой стратегии и (х, /) игрока Р можно построить такую стратегию v (х, у, t) игрока Е, что в ситуации (и (х, 0> v (х, у, I)) выигрыш р игрока Е превзойдет рТ. Действительно, пусть й (х, 0 — некоторая стратегия игрока Р. Так как его движение не зависит от у (t), то траектория движения игрока Р может быть получена интегрированием системы х=й (х, t), х (to)=xo (9.6) независимо от движения игрока Е. Пусть х (0 — траектория, полу- чившаяся в результате интегрирования системы (9.6). Соединим точки х (Т) и уо и направим движение игрока Е по прямой [х (7), у0] в направлении от точки х (Г) с максимальной скоростью. Очевид- но, что такое движение игрока Е обеспечивает расстояние между ним и точкой х (Т) большее или равное рТ. Обозначим построен- ную таким образом стратегию игрока Е через v (/). Тогда получим, что в ситуации (й (х, t), v (t)) выигрыш игрока Е больше или равен величине РТ. Отсюда следует, что infsupp (х (Т), у (Т))>ДТ, (9.7) где inf sup берется по множествам стратегий игроков в игре с непо- лной информацией. Из (9.5) и (9.7) следует, что значение игры в классе чистых стратегий в рассматриваемой игре не существует. 9.4. Определение. Под смешанной кусочно-программной стра- тегией поведения (СКПСП) игрока Р будем понимать пару р ()={т, </}, где т — произвольное разбиение отрезка времени [0, 7] конечным числом точек 0=tt<t2< ...<tk=Tи d-отображение, ставящее в со- 285
ответствие состоянию х (Ji), у tt при tt>l и состоянию х (Л), Уо, ti при вероятностное распределение pt (•), сосредоточенное на конечном числе измеримых программных управлений и (t) при te[ti, 4+1)- Аналогично под СКПСП игрока Е будем понимать пару v ()={<т, с}, где а — произвольное разбиение отрезка времени [0, 7] конечным числом точек Q=ti<t2...<t't= Ти с-ртображение, ставящее в соот- ветствие состоянию х (t^, у (/’•), t 't вероятностное распределение v- (•), сосредоточенное на конечном числе измеримых программных управлений v (t) при 16 [/,, Z,+i). СКПСП игроков рпЕ будем обозна- чать соответственно через F и Ё (ср. со «стратегиями поведения» п. 8.3 гл. IV). Каждая пара СКПСП р (), v () индуцирует распределение веро- ятностей на пространстве траектории х (/), х (О)=хо; у (t), у (0)=уо. Поэтому под выигрышем R (х0, Jo; р (•), v (•)) в СКПСП будем понимать математическое ожидание выигрыша К (х0, у0; и (•), v (•)), усредненное по распределениям на пространствах траекторий, кото- рые индуцируются СКПСП р (•), v (•). Определив пространства стратегий Р, Е и выигрыш R, мы определили смешанное расшире- ние Г (хь, Уо, Т) игры Г (хо, уо, Т). 9.5. Обозначим через С J (х) и С / (у) соответственно множества достижимости игроков Р и Е из начальных состояний х и у в мо- мент времени Т, а через (?? (у) — выпуклую оболочку множества Се (у)- Предположим, что множества достижимости компактны, и введем в рассмотрение величину у (у, Т)= min max р (£, rj). Пусть у (у, Т)=р(у, у), где yeCJ(y), yeCg(y). Из определения точки у следует, что она является центром минимальной сферы, содержащей множество Се (у). Отсюда получаем, что эта точка единственна. В то же время существуют по крайней мере две точки касания множества С Г (у) с минимальной содержащей его сферой, которые совпадают с точками у. Пусть у (/) — некоторая траектория (у(О)=уо) игрока Е при При перемещении игрока Е вдоль этой траектории вели- чина у (у (t), T—t) изменяется, меняется также и точка у. Пусть у (0 — траектория точки у, соответствующая траектории у (/). На- зовем точку Me Се~1 (уо) центром преследования, если у (М, 1)= max у (у', I). у'еС^-' 6>о) 286
9.6. Рассмотрим вспомогательную одновременную антагони- стическую игру преследования на выпуклой оболочке множества Се (у). Преследователь выбирает некоторую точку £eCs (у), а убе- гающий — точку г/еСв (у). Выбор совершается одновременно, и иг- рок Р при выборе точки £ не знает выбора ц игрока Е, и наоборот. Игрок Е получает выигрыш р (£, if). Обозначим значение этой игры через V (у, Т), чтобы подчеркнуть зависимость значения игры от параметров у и Т, которые определяют множества стратегий Се (у) и Се (у) игроков Р и Е. Игру в нормальной форме запишем следу- ющим образом: Г (у, 7><CJ(y), СТЕ (у), р (у', у")>- Множество стратегий минимизирующего игрока Р выпукло, функция р (у', у") также выпукла по своим аргументам и непрерыв- на. Для таких игр мы можем применить теорему п. 5.5 гл. П. Поэтому в игре Г (у, Т) существует ситуация равновесия в смешан- ных стратегиях. Оптимальная стратегия игрока Р чистая, а оп- тимальная стратегия игрока Е предписывает положительную веро- ятность не более чем (л+1) точке из множества С? (у), причем V (у, Т)=у (у, Т). Оптимальная стратегия игрока Р в игре Г (у, Т) заключается в выборе центра минимальной сферы у, содержащей множество Се (у)- Оптимальная стратегия игрока Е предписывает положительные вероятности не более чем (п+1) точке из точек касания указанной сферы с множеством С? (у) (здесь п — размер- ность пространства х, у). Значение игры равно радиусу этой сферы (см. пример 11п. 5.5 гл. II). 9.7. Рассмотрим одновременную игру Г (М, I), где М — центр преследования. Обозначим через yt (М),..., y„+J (М) точки из множе- ства СЕ(М), которые входят в спектр оптимальной смешанной стратегии игрока Е в игре Г (М, /), а через у (М) — оптимальную стратегию игрока Р в этой игре. Определение. Траектория у* (f) называется условно-опти- мальной, если у* (О)=уо,у* (Т—1)=М, у* (T)=yt (М) для некоторого i из чисел 1, ..., п+1. Для каждого i может существовать несколько условно-опти- мальных траекторий игрока Е. Теорема. Пусть Т^1 и для любого числа е>0 игрок Р к момен- ту времени Т может гарантировать е-встречу с центром у (7) минимальной сферы, содержащей множество С1Е (у (T—I)). Тогда игра Г (*0, Уо, Т) имеет значение у (М, I), t-оптимальная стратегия игрока Р чистая и совпадает с любой его стратегией, гарантиру- ющей ^12-встречу с точкой у (Т). Оптимальная стратегия игрока Е смешанная: в течение времени O^t^T—l он должен перемещаться в точку М по любой условно-оптимальной траектории у* (/) и далее с вероятностями рь ..., ря+1 (оптимальная стратегия игрока Е в игре 287
Г (М, /)) выбрать одну из условно-оптимальных траекторий, перево- дящих точку у* (Т—1) = М в точки yi (Л/), 1=1, ..., n+1, входящие в спектр оптимальной смешанной стратегии игрока Е в игре Г (М, Z). Доказательство. Обозначим через щ (•) v, (•) указанные в те- ореме стратегии, оптимальность которых требуется доказать. Для доказательства теоремы достаточно убедиться в справедливости следующих соотношений: £ (х0, Уо; Д (•), V. ( ))+е>£ (х0, Уо5 U, (•), V. (•))> >£(х0, Уо; U, (•), V ()) — е, д ()бР, V ()еЁ; (9.8) lim R (х0, Уо; и, (•), V. ( ))=у (М, I). (9.9) «-»0 Левая часть неравенства (9.8) следует из определения стратегии и, (), в силу которого для любой кусочно-программной стратегии и ()еР выполняется неравенство К (хь, уо; и (•), v. (•))+£>.£ (х0, у0; и, (•), v. (•)). Обозначим через х* (0 траекторию преследователя в ситуации («. (•), v. (•)). Тогда К (хо, уо; «. (•), v. (•))= X PiP (х* (Г), у, (М)). (9.10) 1—1 Пусть R — радиус минимальной сферы, содержащей множество С'£(Л0, т. е. R=y (М, I). Тогда Л-е/2<р (х* (Г), у,(M))^R+e/2 для всех i=l, ... , и+1, поскольку точка х* (Т) принадлежит л+1 е/2-окрестности точки у (М). Так как £ pf= 1, р,->0, то из формулы (9.10) получаем 1-1 Л-е/2<£(хо, у»; и. (•), V. ())<Л+е/2, (9.11) что доказывает (9.9). У Пусть состояния х (7), у (Т—/) реализовались в ситуации (и, (•), v ( )) и Q (•) — вероятностная мера, индуцированная на множестве Се(у(Т—0). Из оптимальности смешанной стратегии p=(pi, ..., р„+1) в игре Г (М, I) имеем Е Pip (У (М), у, (М))>у (у (Г-0, 0 = =ValT (у (Г-0, l)> f p(y[y(T-l)],y)dQ, (9.12) c;(y(T-w 288
где у [у (Т-1)] — центр минимальной сферы, содержащей множест- во С‘Е (у (Т- 0). Однако р (х (Т), у [у (Т—/)])<е/2, поэтому при уеС'Е (у (T—Ij) имеем р (х (7), У)^/2+р (у [у (Т-l)], у)<Л + е/2. (9.13) Из неравенства (9.11)—(9.13) вытекает, что £(х0,у0; и. (•),*.(•))> f p(x(T),y)dQ-e, (9.14) однако f p (x (T), y) dQ=K (x0, y0; u. (•), v (•)). (9.15) Из формул (9.14) и (9.15) получаем правую часть неравенства (9.8). Теорема доказана. При Т<1 решение игры существенно не отличается от случая 7>/ и теорема сохраняет силу, если вместо С'Е (у0), С'е (Уо) У (М, I), у (Т—1) рассматривать соответственно СЕ (у0), СЕ (у0), У (М, Т), у0. При Z—>0 диаметр множества С1Е(М) стремится к нулю, что, в свою очередь, вызывает стремление к нулю значения вспомога- тельной игры Г (М, I). Однако значение этой вспомогательной игры равно значению Vt (х0, у0, Т) игры преследования с задержкой информации Г (х0, у0, Т) (здесь индекс Z означает время задержки информации). Смешанная оптимальная стратегия игрока Ев Г (М, I), сосредоточивающая свою массу на не более чем п+1 точке из СЕ (М), в пределе сосредоточивает всю массу в одной точке М, т. е. превращается в чистую стратегию. Это вполне согласуется с тем, что при Z—>0 игра Г (х0, у0, Т) превращается в игру с полной информацией. Пример 7. Уравнения движения имеют вид х—и, ||«||<а; y=v, ||v|| a>fl, x,ycR2. Пусть время Т удовлетворяет условию Т>р (х0, Уо)/(а — Р)+1. Множество достижимости С'Е (уо)=С'Е (уо) и совпадает с кругом радиуса fll с центром у0. Значение игры Г (у, I) равно радиусу круга С'Е (у), т. е. V (у, l)-fil. Так как величина V (у, Z) в данном случае не зависит от у, то любая точка множества СЕ~‘ (у0) может быть центром преследова- ния М. Оптимальная стратегия игрока Р в игре Г (у, I) заключается в выборе точки у, а оптимальная стратегия игрока Е — смешанная 289
и заключается в выборе двух любых диаметрально противополож- ных точек круга Се (у) с вероятностями (х/2, х/2). В соответствии с этим оптимальная стратегия преследователя в игре Г (х0, Уо, Т) заключается в погонном преследовании точки у (/—/) при (при точки jo) до встречи с этой точкой, кроме того, до момента Т следует оставаться в е/2-окрестности этой точки. Оп- тимальная стратегия игрока Е — смешанная кусочно-программная стратегия поведения — и заключается в переходе из точки j0 в про- извольную точку MgCe~1 (jo) в течение времени Г— /, далее в рав- новероятном выборе направления на одну из двух диаметрально противоположных точек круга С1Е(М). При этом ¥а1Г(х0, Jo, 7)=Д/. Упражнения задача 1. Построить множество достижимости в игре «простое движение» для игрока Р и игрока Е. 2. Пусть игрок Е перемещается из точки уо=(у?, У%) с постоянной по величине и направлению скоростью Д. Показать, что для каждого такого движения существует единственное движение игрока Р из точки хо»=(Хр х%) с постоянной скоростью а которое осуществляет встречу (/-встречу) с игроком Е за минимальное время. Такое движение игрока Р будем называть быстродействием в точку встречи. 3. Пусть игрок Е перемещается из точки уо=(у?, у£) с постоянной по величине и направлению скоростью Д, а игрок Р осуществляет быстродействие в точку встречи из точки хож(Хр xj). Для каждой такой пары движений игроков Е и Р построить точку встречи. Показать, что полученное геометрическое место точек встречи иг- роков ЕъР представляет собой окружность Апполония, и написать ее уравнение. 4. В условиях предыдущего упражнения построить множество точек /-встречи игроков ЕъР. 5. Обозначим через А (хо, Jo) множество точек встречи относительно начальных состояний х&, Jo игроков Р и Е (окружность Апполония). Пусть до некоторого момента т (т меньше времени до момента встречи) игроки Е и Р перемещаются прямолинейно с максимальными скоростями в точку встречи М. Построим новое множество точек встречи А (х (т), у (т)) относительно состояний х (т), у (т) как начальных в момент времени т. Эго некоторая новая окружность Апполония. Показать, что окружности А (хо, Уо) и А (х (т), у (т)) касаются в точке М, следовате- льно, А (х (г), у (т)) содержатся в круге А (х0, уо), ограниченном окружностью Л (хо, Уо). Xх 6. Пусть игрок Е перемещается из точки уо вдоль некоторой гладкой кривой у (О с максимальной скоростью Д. Игрок Р движется с максимальной скоростью а, в каждый момент времени х зная местоположение у (т) игрока Е и направление вектора скорости «(т) = {«1 (t), v2 (т)} {vj (т)-!-»* (т)«/г}. Построим П-стратегию игрока Р. Согласно этой стратегии он выбирает направление вектора скорости на точку встречи М в предположении, что игрок Е будет на отрезке времени [т, оо) 290
придерживаться постоянного направления движения {i>i (т), v2 (т)} (перемещаться вдоль луча с постоянной скоростью Д). Показать, что если игрок Р использует П-стратегию, то отрезок [х (т), у (т)], соединяющий текущие местоположения игроков, останется до момента встречи параллельным отрезку [х0, Уо]- 7. Пусть игрок Е перемещается из уо вдоль некоторой гладкой кривой у (т) с максимальной скоростью Д. Написать аналитическое выражение для П-стратегии игрока Р. 8. Показать, что при использовании П-стратегии игроком Р точка встречи всегда содержится во множестве А (xq, УоХ ограниченном окружностью Апполония А (х0. ?о)- Указание. Доказательство провести сначала для движений игрока Е ьдрль к — вершинных ломаных, используя утверждение упр. 5, а затем совершить предель- ный переход. 9. (Игра «шофер-убийца»). Чтобы записать уравнения движения игроков в этой игре, достаточно задать пять фазовых координат: по две координаты для обозначе- ния местоположения игроков Р (автомобиль) и Е (пешеход) и еще одну для обозначе- ния направления движения преследователя. Обозначим их через хь х2, Уь у2, # (рис. 29) . Задание этих фазовых координат полностью и однозначно определяет состояние игры в каждый момент. Управление для игрока Е выглядит просто. Для описания направления его движения достаточно задать угол ф (см. рис. 29). Теперь выберем управление для игрока Р. Проведем через точку Р прямую СС (|С'Р| = |РС| =К), перпендикулярную вектору скорости преследования. По своему желанию игрок Р выбирает мгновенный центр кривизны своей траектории в любой точке, например в точке С1г лежащей на этой прямой вне интервала С'С. Управление и будем считать равным по абсолютной величине R/\PC}\, положи- тельным для точек Q, лежащих слева от Р, и отрицательным — справа от Р; таким образом, — 1. Доказать, что уравнения движения имеют следующий вид: xi=tDisin0, X2 = O)1COS0, У1=СО28т<Р, у2 = й>2СО8ф, e = CD[/R U. 10. {Игра «шофер-убийца». Понижение размерности.) Предположим, что на плос- кости выбрана подвижная система координат, связанная с автомобилем Р. Коор- динаты пешехода уь у2 можно рассматривать в этой системе как составляющие единственного переменного вектора х; ось х2 будем считать всегда направленной вдоль вектора скорости автомобиля. 291
Пусть игрок Р в момент t выбирает центр кривизны своей траектории в точке С= (R/u, 0) и пусть расстояние СЕ равно d (рис. 30). Тогда вращение игрока Р вокруг точки С эквивалентно вращению х вокруг С в противоположном направлении, но с той же угловой скоростью. Таким образом, вектор х движется со скоростью, равной по модулю (du/R), в направлении, перпендикулярном СЕ. Составляющие его скорости получаются умножением модуля соответственно на -x-i/d И (xi-Rj<p)/d). Показать, что уравнения движения имеют вид: о>1 а>1 *1 =--х2и+а>28тф, *2 =—х\и—+a>2cos^, R R - + 11. Пусть а и Ъ — такие числа, что p^yja2 +6* >0. Показать, что max (асов +b ап $) достигается на таком & что cos ф~а/р, sin f ~b/p и этот максимум равен р. 12. Пусть выигрыш терминальный и уравнения движения имеют вид xi—aV+(D8mu, Xj» —1+ЮСО8И, 0<м<2я, - КРХ + 1, где а и ш — гладкие положительные функции от х^ и х2. Записать уравнение для значения игры в форме (5.64) и (5.66) и показать, что уравнение в форме (5.69) имеет вид avX1 где Указание. Использовать упр. 11. 13. (Игра «шофер-убийца».) Записать основное уравнение в форме (6.8) и (6.10) для уравнений движения в естественном пространстве (упр. 9) и в редуцированном пространстве (упр. 10). Для vx, vy, v в первом случае ввести обозначения t>i, ®2> *э, «5, где индексы относятся к соответствующим фазовым координатам в том порядке, в каком они появляются в уравнениях движения. 14. Найти уравнение характеристик в регрессивной форме в естественном про- странстве для игры «шофер-убийца». Здесь основное уравнение (6.10) имеет вид ©1 (vjSin9+V2cos^)+fl>2P'*-1>51/+1»0, где _____ Р«\Лз+г!» U--Sgnt>5, ИПф=Гз/р, СО6ф»1ц/р. 15. С помощью ранения упр. 14 показать, что решение в малом игры «шофер- убийца» состоит для игрока Р из возможно более резких поворотов вправо-влево, а для игрока Е — в движении по прямой. 16. Записать и проиллюстрировать уравнение (6.6) для игры на «перетягивание» xi=u+v, |w|<a, x2«w+v, х (О)»хо 292
с терминальным выигрышем р (х (Г), А), где А — некоторая точка, AeR2, лежащая вне множества достижимости системы к моменту времени Т из начального состояния хо- 17. Записать явные выражения для оптимальных стратегий в игре упр. 16 и для ее модификации, когда продолжительность игры не фиксируется заранее, а выигрыш игрока Е полагается равным времени попадания в начало координат. 18. Доказать, что множество достижимости управляемой системы 4i=Pi. Pi^Wi-kpi, Pitty^Pp i=l, 2 в пространстве геометрических координат (44, ^2) — круг с центром в точке ?Я^°+Р° (1 ~е кТ)1^ и радиусом Л=а (е *Т+£Г- 1)/Аг2. 19. Доказать, что функция рт (tf, Р, г, s) удовлетворяет уравнению (6.6), записан- ному для данного случая. 20. Преследование происходит в плоскости, уравнения движения имеют следу- ющий вид: для Р <№*Ри Pi^Wi-kpPi, м<1, 1—1, 2, ддяЕ Я=Рч, М<1, /—1, 2. Здесь q и у — местоположения игроков РъЕ соответственно, р — импульс игрока Р. Таким образом, в рассмотренном случае игрок Е двигается согласно «простому движению», а игрок Р, представляющий собой материальную точку единичной массы, перемещается под действием силы трения а. Выигрыш игрока определим как расстояние между геометрическими местополо- жениями игроков в момент окончания игры Т\ Н (« (Т), У (Л)-Р (« (П У (Л)- z (ft (Л-я (Т)У. Вычислить величину рт (q, у). 21. Вывести уравнение (6.6) для задачи из упр. 20. 22. Рассмотреть игру «простое преследование» с предписанной продолжитель- ностью Т в полуплоскости F, т. е. при дополнительном предположении, что игроки в процессе преследования не могут покинуть множество F. Построить области достижимости игроков. 23. Вычислить величину рт (х, у) для игры «простое преследование» на полупло- скости с предписанной продолжительностью. 24. Рассмотреть антагонистическую игру «простое преследование» с предписан- ной продолжительностью между двумя преследователями P»{Pi, P2L действующи- ми как один игрок, и преследуемым игроком Е. Уравнения движения имеют следу- ющий вид: х1»!?, Д<тт{а, а2}, x2=u2, |1?|^а2, хр х2, yeR2, y—v, к1, и2, vgR2, -*1 (O)=xJ, х2(0)=х^, ^(0)=>»о. 293
Выигрыш игрока Е равен min р(х (Т), у(Т)\ т. е. игрок Е заинтересован в мак- симизации расстояния до ближайшего из преследователей к моменту окончания игры. Построить множества достижимости игроков и геометрически определить мак- симинное расстояние pr(xj, x2v у) между этими множествами. 25. Обобщить теорему п. 9.7 на случай, когда в преследовании участвует несколько преследователей Plt Pm, действующих как один игрок, и один убегающий игрок Е.
ЛИТЕРАТУРА Основная а) учебники 1. Айзекс Р. Дифференциальные игры. — М.: Мир, 1967. 2. Воробьев Н. Н. Теория игр для экономистов кибернетиков. — М.: Наука, 1985. 3. Давыдов Э. Г. Методы и модели теории антагонистических игр. — М.: Изд-во МГУ, 1978. 4. Дрешер М. Стратегические игры. Теория и приложения. — М.: Сов. радио, 1964. 5. Дюбин Г. Н., Суздаль В. Г. Введение в прикладную теорию игр.— М.: Наука, 1981. 6. Карлин С. Математические методы в теории игр, программировании и эконо- мике. — М.: Мир, 1964. 7. Красовский Н. Н. Управление динамической системой. Задача о минимуме гарантированного результата. — М.: Наука, 1985. 8. Крушевский А. В. Теория игр. — Киев: Вища школа, 1977. 9. Мак-Кинси Дж. Введение в теорию игр. — М.: Физматгиз, 1960. 10. Мулен Э. Теория игр. С примерами из математической экономики. — М.: Мир, 1985. И. Оуэн Г. Теория игр. — М.: Мир, 1971. 12. Петросян Л. А. Дифференциальные игры преследования. — Л.: Изд-во ЛГУ, 1977. б) сборники задач 13. Коваленко А. А. Сборник задач по теории игр. — Львов: Вища школа, 1974. 14. Морозов В. В., Сухарев А. Г., Федоров В. В. Исследование операций в задачах и упражнениях. — М.: Высшая школа, 1986. Дополнительная в) монографии и учебные пособия 15. Ауман Р., Шепли Л. Значение для неатомических игр. — М.: Мир, 1977. 16. Ашманов С. А. Линейное программирование. — М.: Наука. 1981. 17. Берж К. Общая теория игр нескольких лиц. — М.: Физматгиз, 1961. 18. Беленький В. 3., Волконский В. А., Иванков С. А., Поманский А. Б., Шапи- ро А. Д. Итеративные методы в теории игр и программировании. — М.: Наука, 1974. 295
19. Блекуэлл Д., Гиршик М. Теория игр и статистических решений. — М.: ИЛ, 1958. 20. Бондарева О. Н. О теоретико-игровых моделях в экономике. — Л.: Изд-во ЛГУ, 1974. 21. Вайсборд Э. М., Жуковский В. И. Введение в дифференциальные игры не- скольких лиц и их приложения. — М.: Сов. радио, 1980. 22. Вилкас Э. Й., Майминас Е. 3. Решение: теория, информация, моделирова- ние. — М.: Радио и связь, 1981. 23. Воробьев Н. Н. Основы теории игр. Бескоалиционные игры. — М.: Наука, 1984. 24. Гаврилов В. М. Оптимальные процессы в конфликтных ситуациях. — М.: Сов. радио, 1969. 25. Гейл Д. Теория линейных экономических моделей. — М.: ИЛ, 1963. 26. Гермейер Ю. Б. Игры с непротивоположными интересами. — М.: Наука, 1976. 27. Горелик В. Д., Кононенко А. Ф. Теоретико-игровые модели принятия решений в эколого-экономических системах. — М.: Наука, 1982. 28. Григоренко Н. Л. Дифференциальные игры преследования несколькими объектами. — М.: Изд-во МГУ, 1983. 29. Данилов Н. Н. Игровые модели принятия решений. — Кемерово: Изд-во КГУ, 1981. 30. Данскин Дж. Теория максимина. — М.: Сов. радио, 1970. 31. Демьянов В. Ф., Малоземов В. Н. Введение в минимакс. — М.: Наука, 1972. 32. Жуковский В. И., Тынянский Н. Т. Равновесные управления многокритериаль- ных динамических систем. — М.: Изд-во МГУ, 1984. 33. Зубов В. И. Динамика управляемых систем. — М., 1982. 34. Зубов В. И., Петросян Л. А. Математические методы в планировании. — Л.: Изд-во ЛГУ, 1982. 35. Карлин С. Сведение некоторых классов игр к интегральным уравнениям/Сб. ст. [СЗ]. 36. Колмогоров А. Н., Фомин С. В. Элементы теории функций и функциональ- ного анализа. — М.: Наука, 1981. 37. Кондратьев А. И. Теоретико-игровые модели в задачах распознавания. — М.: Наука, 1986. 38. Кононенко А. Ф. О равновесных позиционных стратегиях в неантагонистичес- ких дифференциальных играх//ДАН СССР. 1976. 231 № 2. С. 285 — 288. 39. Красовский Н. Н. Игровые задачи о встрече движений. — М.: Наука, 1970. 40. Красовский Н. Н., Субботин А. И. Позиционные дифференциальные игры. — М.: Наука, 1974. 41. Куржанский А. Б. Управление и наблюдение в условиях неопределенно- сти. — М.: Наука, 1977. 42. Кукушкин Н. Н., Морозов В. В. Теория неангагонистических игр. — М.: Изд-во МГУ, 1977. , 43. Лагунов В. H. Bacjsfiwc и дифференциальные игры. Вильнюс. 1979. 44. Льюис Р. и Райфа X. Игры и решения. Введение и критический обзор.— М.: ИЛ, 1961. 45. Малафеев О. А. О существовании ситуации равновесия в дифференциальных 296
бескоалиционных играх двух лиц с независимыми движениями //Вестник ЛГУ, 1980. № 7. С. 12 — 16. 46. Моисеев Н. Н. Математические задачи системного анализа. М., 1981. 47. Фон Нейман Дж., Моргенштейн О. Теория игр и экономическое поведение.— М.: Наука. 1970. 1 48. Никольский М. С. Первый прякА>й метод Л. С. Понтрягина в дифференциаль- ных играх.— М.: Изд-во МГУ, 1984. 49. Партхасаратхи Т., Рагхаван Т. Некоторые вопросы теории игр двух лиц.— М.: Мир, 1974. 50. Пек Дж., Э. Л. Далмидж А. Л. Игры на компактном множестве/Сб. ст. [С. 3]. 51. Петросян Л. А., Данилов Н. Н. Кооперативные дифференциальные игры и их приложения.— Томск: Изд-во ТГУ, 1985. 52. Петросян Л. А., Захаров В. В. Введение в математическую экологию.— Л.: Изд-во ЛГУ, 1986. 53. Петросян Л. А., Зенкевич Н. А. Оптимальный поиск в условиях конфликта.— Л.; Изд-во ЛГУ, 1987. 54. Петросян Л. А., Томский Г. В. Душгмжескяе игры и их приложения.— Л.: Изд-во ЛГУ, 1982. 55. Петросян Л. А., Томский Г. В. Геометрия простого преследования. — Ново- сибирск.: Наука, сиб. отд., 1983. 56. Подиновский В. В., Ногин В. Д. — Парето-оптимальные решения многокри- териальных задач. — М.: Наука, 1982. 57. Понтрягин Л. С., Болтянский В. Г., Гамкрелидзе Р. В., Мищенко Е. Ф. Математическая теория оптимальных процессов. — М.: Наука, 1976. 58. Понтрягин Л. С. К теории дифференциальных игр//Успехи математических наук, 1966. Т. 21. Вып. 4. С. 219 — 274. 59. Понтрягин Л. С. Линейная дифференциальная игра убегания//Труды МИАН СССР, 1971. Т. 112. С. 30 — 63. 60. Понтрягин Л. С. Линейные дифференциальные игры преследования. Мате- матический сборник. Новая серия, 1980. Т. 112. Вып. 3. С. 307 — 330. 61. Пшеничный Б. Н. Выпуклый анализ и экстремальные задачи. — М.: Наука, 1980. 62. Розенмюллер Н. Кооперативные игры и рынки. — М.: Мир, 1974. 63. Рокафеллар Р. Выпуклый анализ. — М.: Мир, 1973. 64. Робинсон Дж. Итеративный метод решения игр/Сб. ст. [С 1, С. 110 — 118]. 65. Садовский А. Л. Монотонный итеративный алгоритм решения матричных игр//ДАН СССР, 1978. Т. 238. № 3, С. 538 — 540. 66. Сайон М. Некоторые общие теоремы о минимаксах/Сб. ст. [С. 3. С. 40 — 46]. 67. Сайон М., Вульф Ф. Об игре, не обладающей значением/Сб. ст. [С. 4. С. 290 — 300]. 68. Сансоне Дж. Обыкновенные дифференциальные уравнения. — М.: ИЛТ 1954. Т. 2. 69. Субботин А. И., Ченцов А. Г. Оптимизация гарантии в задачах управле- ния. — М.: Наука, 1981. 70. Смольяков Э. Р. Равновесные модели при несовпадающих интересах участ- ников. — М.: Наука, 1986. 71. Суздаль В. Г. Теория игр для флота. — М.: Воениздат, 1976. 297
72. Феллер В. Введение в теорию вероятностей и ее приложения. Т. 1,2. — М.: Мир, 1984. 73. Ху Т. Целочисленное программирование и потоки в сетях. — М.: Мир, 1974. 74. Черноусько Ф. Л., Меликян А. А. Игровые задачи управления и поиска. — М.: Наука, 1978. 75. Яновская Е. Б. О существовании значения антагонистических игр с полунеп- рерывными функциями выигрыша//Изв. АН СССР. Техн, киберн., 1973. № 6. С. 56 — 60. 76. Зенкевич Н. А., Еськова В, А. Конечные антагонистические игры. Кемерово, Изд-во Кемеровского ГУ, 1989. 77. Зенкевич Н. А., Ширяев В. Д. Игры со многими участниками. Саранск, Изд-во Мордовского ГУ, 1989. 78. Данилов Н. Н., Зенкевич Н. А. Неантагонистические игры двух лиц. Кемеро- вов, Изд-во Кемеровского ГУ, 1990. — 99 с. 79. Петросян Л. А., Гарнаев А. Ю. Игры поиска. СПБ.: Изд-во Санкт-Петер- бургского ун-та, 1992. 80. Arunabha Bagchi. Stackelberg Diflerentai Gaines in Economic Models. — Springerg — Verlag, 1984. 81. Basar T., Olsder I. Dynamic Noncooperative Game Theory. — London, Acad. Press, 1982. 82. Friedman A. Differential Games. — N. Y., John Wiley, 1971. 83. Owen G. Game Theory. Second Edition. Acad. Press, 1982. 84. Bierman N. S., Fernandez L. Game theory nith economic applications. Addison — Wesley Publishing Company, INC, USA, 1993. 85. Brams S. J. Theory of Moves. Cambridge University Press, 1994. 86. Fudenberg D., Tirole J. Game theory. MIT Press, Cambridge, Massachusetts, London, England. 1992. 87. Gibions R. Game theory for applied economists. Princeton University Press, Princeton, New gersey, 1992. 88. Harsanyi J. C., Selten R. A. General Theory of Eguilibrium Selection in Games. The MIT Press, Cambridge, Massachusetts, London, England. 1989. 89. Myerson R. B. Game Theory. Analysis of Conflict. Harvard University Press. Cambridge, Massachusetts, London, England, 1991. 90. Petrosjan L. A. Differential Games of Pursuit. World Scientific Publishing Co. Pte Ltd. London, Singapore, 1993. 91. Van Damme, EES. Stability and Perfection of Nash Eguilibria. Springer — Verbag, Berlin, №. 9. 1991. 92. Weibull J. W. Evolutionary Game Theory. MIT Press, Cambridge, Massachusetts, London, England. 1995. Специальная г) справочники и обзоры 93. Теория игр. Аннотированный указатель публикаций по 1968 г. — Л.: Наука, 1976. 94. Теория игр. Аннотированный указатель публикаций отечественной и зару- бежной литературы за 1969 — 1974 гг. — Л.: Наука, 1980. 298
95. Воробьев Н. Н. Современное состояние теории игр//Успехи мат. наук, 1970. 25. № 2. С. 81 — 140. 96. Воробьев Н. Н. Бескоалиционные игры/В кн.: Проблемы кибернетики. Вып. 33. М., 1978. С. 69 — 90. 97. Петросян Л. А., Томский Г. В. Динамические игры//Изв. АН СССР. Техн, киберн. № 2. 1983. С. 33 — 50. 98. Прохоров Ю. В., Рязанов Ю. А. Теория вероятностей. Основные понятия. Предельные теоремы. Случайные процессы. — М.: Наука, 1967. 99. Соболев А. И. Кооперативные игры. — Проблемы кибернетики. Вып. 39. М., 1982. С. 201 — 222. 100. Тынянский Н. Т., Жуковский В. И. Дифференциальные игры с ненулевой суммой (бескоалиционный вариант)/ В кн.: Итоги науки и техники: Математический анализ. — М.: ВИНИТИ, 1977. Т. 15. С. 199 — 266. 101. Тынянский Н. Г., Жуковский В. И. Дифференциальные игры с ненулевой суммой (кооперативный вариант)/В кн.: Итоги науки и техники: Математический анализ. — М.: ВИНИТИ, 1979. Т. 17. С. 3 — 112. 102. Яновская Е. Б. Бесконечные антагонистические игры/В кн.: Теория вероят- ностей. Математическая статистика. Математическая кибернетика. Т. 10. М., 1972. С. 75 — 106. 103. Яновская Е. Б. Антагонистические игры/В кн.: Проблемы кибернетики. Вып. 34. — М.: Наука, 1978. С. 221 — 246. 104. Дифференциальные игры: Указатель русской и иностранной литературы за 1968 — 1974 гг. Свердловск: Уральск, научи, центр, 1978. 105. Дифференциальные игры со многими участниками: Указатель литературы за 1968 — 1983 гг. — Русе: НРБ, 1985. д) сборники статей С1. Матричные игры/Ред. Н. Н. Воробьев. — М.: Физматгиз, 1961. С2. Применение теории игр в военном деле/Ред. В. О. Ашкенази. — М.: Сов. радио, 1961. СЗ. Бесконечные антагонистические игры/Ред. Н. Н. Воробьев. — М.: Физмат- гиз, 1963. С4. Позиционные игры/Ред. Н. Н. Воробьев и Н. Н. Врублевская. — М.: Наука, 1967. С5. Теория игр. Доклады на I Всесоюзной конференции по теории игр. Ереван, 1968/Ред. Н. Н. Воробьев. — Ереван: Изд-во АН Арм ССР, 1973. Сб. Успехи теории игр. Труды II Всесоюзной конференции по теории игр. Вильнюс, 1971/Ред. Э. Вилкас. — Вильнюс: Минтис, 1971. С7. Теоретико-игровые вопросы принятия решений: Сб. статей. Ин-т соц.-эк. проблем АН СССР/Ред. Н. Н. Воробьев. — Л.: Наука, 1978. С8. The Shapley value: essays in honor of Lloyd S. Shapley/edited by Alvin E. Roth. Cambridge University Press. — 1988. C9. Game Theory and Applications: vol. 1/edited by Petrosjan L. A., Mazalov V. V. Nova Science Publishers, Inc.; №w9. — 1995. CIO. Game Theory and Applications: vol. 2/edited by Petrosjan L. A., Mazalov V. V. Nova Science Pyblishers, Inc.; №<9. — 1996. 299
Использованная литература 1. Айзекс Р. Дифференциальные игры. М., 1967. 2. Воробьев Н. Н. Теория игр для экономистов-кибернетиков. М., 1985. 3. Дюбин Г. Н., Суздаль В. Г. Введение в прикладную теорию игр. М., 1981. 4. Карлин С. Математические методы в теории игр, программировании и эконо- мике. М., 1964. 5. Мак-Кинси Дж, Введение в теорию игр. М., 1960. 6. Мулен Э. Теория игр. М., 1985. 7. Оуэн Г. Теория игр. М., 1971. 8. Петросян Л. А, Дифференциальные игры преследования. Л., 1977. 9. Коваленко А, А. Сборник задач по теории игр. Львов, 1974. 10. Морозов В, В., Сухарев А. Г., Федоров В. В, Исследование операций в задачах и упражнениях. М., 1986. 11. Ашманов С. А, Линейное программирование. М., 1981. 12. Воробьев Н. Н. Основы теории игр. Бескоалиционные игры. М., 1984. 13. Гейл Д. Теория линейных экономических моделей. М., 1963. 14. Льюис Р., Райфа X. Игры и решения. М., 1961. 15. Колмогоров А. Н., Фомин С. В. Элементы теории функций и функциональ- ного анализа. М., 1981. 16. Партхасаратхи Т., Рагхаван Т. Некоторые вопросы теории игр двух лиц. М., 1974. 17. Петросян Л. А., Данилов Н. Н. Кооперативные дифференциальные игры и их приложения. Томск, 1985. 18. Петросян Л. А., Захаров В. В. Введение в математическую экологию. Л., 1986. 19. Петросян Л. А., Зенкевич Н. А. Оптимальный поиск в условиях конфликта. Л., 1987. 20. Петросян Л. А„ Томский Г. В. Геометрия простого преследования. 21. Рокафеллар Р. Выпуклый анализ. — М.: Мир. 1973. 22. Садовский А. Л. Монотонный итеративный алгоритм решения матричных игр//ДАН СССР, 1978. 238. № 3. С. 538—540. 23. Сансоне Дж. Обыкновенные дифференциальные уравнения. М., 1954. 24. Феллер В. Введение в теорию вероятностей и ее приложения. Т. 1,2. М., 1984. 25. Ху Т. Целочисленное программирование и потоки в сетях. М., 1974.. 26. Owen G. Game Theory. Second Edition. Acad, Press, 1982.
Учебное издание Петросян Леон Аганесович, Зенкевич Николай Анатольевич, Семина Елена Александровна ТЕОРИЯ ИГР Редактор Яковлева Ж. И. Художественный редактор Иванова Ю. Э. Художник Орлова М. О. Технический редактор Романова В. М. Корректор Кожуткина В. В. Оператор Новоселова В. Н. ЛР № 010146 от 25.12.96 ЛР № 065329 от 06.08.97 Изд. № ФМ-960. Сдано в набор 09.02.93. Подп. в печать 28.10.97 Формат 60х90‘/16. Бумага офс. № 1. Гарнитура Литературная Печать офсетная. Объем 18,62 усл. печ. л., 18,87 усл. кр.-отт., 17,34. уч.-изд. л. Тираж 10000 экз. Заказ № 1699 Издательство «Высшая школа», 101430, Москва, ГСП-4, Неглинная ул., д. 29/14 Набрано на персональном компьютере издательства ООО «Книжный дом «Университет», 117234, Москва, Воробьевы горы, ГЗ МГУ, Сектор Д, комн. 4 Тел.: 938-21-84, 939-45-81 Отпечатано в типографии издательства «Дом печати» 432601, г. Ульяновск, ул. Гончарова, 14