Текст
                    Л. А. Петросян, Н. А. Зенкевич, Е. В. Шевкопляс
ТЕОРИЯ ИГР


Л. А. Петросян Н. А. Зенкевич Е. В. Шевкопляс Теория игр 2-е издание Рекомендовано УМО в области инновационных междисциплинарных образовательных программ в качестве учебника по направлению 010500 «Математическое обеспечение и администрирование информационных систем» Санкт-Петербург «БХВ-Петербург» 2012
УДК 512.8(075.8) ББК 22.14+22.19я73 П30 Петросян, Л. А. ПЗО Теория игр: учебник / Л. А. Петросян, Н. А. Зенкевич, Е. В. Шевкопляс. — 2-е изд., перераб. и доп. — СПб.: БХВ-Петербург, 2012 — 432 с: ил. — (Учебная литература для вузов) ISBN 978-5-9775-0484-3 Учебник предназначен как для первоначального, так и для углубленного изучения теории игр. Проведено систематическое исследование математических моделей принятия решений несколькими сторонами в условиях конфликта. Представлено последовательное изложение единой теории статических и динамических игр. Рассмотрены все основные классы игр: конечные и бесконечные антагонистические игры, бескоалиционные и кооперативные игры, многошаговые и дифференциальные игры. Для закрепления материала в каждой главе содержатся задачи и упражнения разной степени сложности. Во втором издании расширены разделы, касающиеся статической теории кооперативных решений и динамических кооперативных игр, а также игр с неполной информацией. Уточнены и изменены доказательства отдельных утверждений. Применен новый единый подход к исследованию оптимального поведения игроков в позиционных и дифференциальных играх. Для студентов и аспирантов математических, экономических, управленческих и технических направлений и специальностей УДК 512.8(075.8) ББК 22.14+22.19я73 Группа подготовки издания: Главный редактор Екатерина Кондукова Зам. главного редактора Евгений Рыбаков Зав. редакцией Григорий Добин Компьютерная верстка Екатерины Шевкопляс Корректор Наталия Першакова Дизайн серии Инны Тачиной Оформление обложки Елены Беляевой Фото Кирилла Сергеева Зав. производством Николай Тверских Рецензенты: Я. Н. Петров, д-р физ.-мат. наук, проф., завкафедрой исследования операций СПбГУ; А. Ю. Гарнаев, д-р физ.-мат. наук, проф. кафедры компьютерного моделирования и микропроцессорных систем СпбГУ. Подписано в печать 30.09.11. Формат 70x1001/16. Печать офсетная. Усл. печ. л. 34,83. Тираж 1200 экз. Заказ N2 3985 "БХВ-Петербург", 190005, Санкт-Петербург, Измайловский пр., 29. Санитарно-эпидемиологическое заключение на продукцию Ш77.99.60.953.Д.005770.05.09 от 26.05.2009 г. выдано Федеральной службой по надзору в сфере защиты прав потребителей и благополучия человека. Отпечатано с готовых диапозитивов в ГУП "Типография "Наука" 199034, Санкт-Петербург, 9 линия, 12 ISBN 978-5-9775-0484-3 © Петросян Л. А., Зенкевич Н. А., Шевкопляс Е. В., 2011 © Оформление, издательство "БХВ-Петербург", 2011
Оглавление Предисловие б Введение 8 1 Матричные игры 12 § 1.1. Определение антагонистической игры в нормальной форме 12 § 1.2. Максиминные и минимаксные стратегии 16 § 1.3. Ситуации равновесия 18 § 1.4. Смешанное расширение игры 22 § 1.5. Некоторые сведения из теории выпуклых множеств 25 § 1.6. Существование решения в классе смешанных стратегий 28 § 1.7. Свойства оптимальных стратегий и значения игры 30 § 1.8. Доминирование стратегий 38 § 1.9. Вполне смешанные и симметричные игры 43 § 1.10. Итеративные методы решения матричных игр 48 i § 1.11. Упражнения и задачи 52 2 Бесконечные антагонистические игры 55 §2.1. Бесконечные игры 55 § 2.2. Ситуация ^-равновесия . . 58 § 2.3. Смешанные стратегии 63 §2.4. Игры с непрерывной функцией выигрыша 70 §2.5. Игры с выпуклой функцией выигрыша 76 § 2.6. Одновременные игры преследования 85 § 2.7. Один класс игр с разрывной функцией выигрыша 90 . §2.8. Бесконечные игры поиска 93 §2.9.Покер 98 §2.10. Упражнения и задачи 116 3 Неантагонистические игры 119 §3.1. Определение бескоалиционной игры в нормальной форме 119 § 3.2. Принципы оптимальности в бескоалиционных играх 123 i § 3.3. Смешанное расширение бескоалиционной игры 129 § 3.4. Существование ситуации равновесия по Нэшу 133 I § 3.5. Существование ситуации равновесия в конечной игре п лиц 134 i §3.6. Модификации концепции равновесия по Нэшу 137 3
4 Оглавление § 3.7. Свойства оптимальных решений 141 § 3.8. Эволюционно устойчивые стратегии 145 § 3.9. Равновесие в совместных смешанных стратегиях 149 §3.10. Задача о переговорах 152 §3.11. Игры в форме характеристической функции 159 §3.12.С-ядро и iVM-решение 165 §3.13. Вектор Шепли 173 §3.14. Вектор Шепли и потенциал 179 § 3.15. Упражнения и задачи 182 4 Многошаговые игры 187 §4.1. Определение динамической игры с полной информацией 187 § 4.2. Равновесие по Нэшу 190 § 4.3. Основные функциональные уравнения 194 § 4.4. Иерархические игры 196 § 4.5. Иерархические игры (кооперативный вариант) , 198 § 4.6. Многошаговые игры с неполной информацией 204 § 4.7. Стратегия поведения 210 § 4.8. Функциональные уравнения для одновременных многошаговых игр . . . 216 §4.9. Построение единственного равновесия по Нэшу 223 § 4.10. Структура множества абсолютных равновесий по Нэшу 227 §4.11. Индифферентное равновесие в позиционных играх 234 §4.12. Стратегии наказания и «народные теоремы» 237 §4.13. Кооперация в многошаговых играх 241 §4.14. Кооперативные стохастические игры 250 §4.15. Марковские игры 261 §4.16. Упражнения и задачи 277 5 Антагонистические дифференциальные игры 284 §5.1. Антагонистические дифференциальные игры 284 § 5.2. Многошаговые игры с полной информацией 292 § 5.3. Существование ситуаций е-равновесия 296 §5.4. Дифференциальные игры преследования на быстродействие 301 § 5.5. Существование оптимальной программной стратегии убегающего 307 §5.6. Основное уравнение 310 § 5.7. Методы последовательных приближений 316 §5.8. Примеры решения дифференциальных игр преследования 320 §5.9. Игры преследования с задержкой информации у преследователя 323 §5.10. Упражнения и задачи 329 6 Неантагонистические дифференциальные игры 333 §6.1. Принцип динамического программирования 333 §6.2. Принцип максимума Понтрягина 338 §6.3. Равновесие по Нэшу в программных стратегиях 341 § 6.4. Равновесие по Нэшу в позиционных стратегиях 345 §6.5. Конкурентная реклама с двумя участниками 347 §6.6. Игры с бесконечной продолжительностью ., 350 § 6.7. Модель конкуренции с бесконечной продолжительностью 352
Оглавление 5 §6.8. Упражнения и задачи 354 7 Кооперативные дифференциальные игры в форме характеристической функции 356 §7.1. Определение кооперативной игры 356 §7.2. Дележи 357 §7.3. Дележи в динамике 359 § 7.4. Принцип динамической устойчивости 361 §7.5. Динамически устойчивые решения 362 §7.6. Процедура распределения дележа 363 §7.7. Управление загрязнением окружающей среды 365 § 7.8. Упражнения и задачи 374 8 Кооперативные дифференциальные игры двух лиц с дисконтированием 377 §8.1. Постановка задачи 377 §8.2. Кооперативные игры с бесконечной продолжительностью 391 , § 8.3. Игры с нетрансферабельными выигрышами 397 § 8.4. Упражнения и задачи 409 Литература 410 Предметный указатель 422
Предисловие Теория игр — это раздел математики, в котором исследуются математические модели принятия решений в условиях конфликта, т. е. в условиях столкновения сторон, каждая из которых стремится воздействовать на развитие конфликта в своих собственных интересах. Теорию математических моделей принятия оптимальных решений принято называть исследованием операций, поэтому теорию игр следует рассматривать как прикладную математическую теорию — составную часть исследования операций. Несмотря на наличие богатой монографической и специальной литературы по теории игр, учебников, покрывающих этот раздел математики, сравнительно немного и в них рассматриваются в основном отдельные разделы теории игр. Настоящий учебник восполняет этот пробел и является существенным развитием книги Петросян Л. А., ' Зенкевич Н. А., Семина Е. А. «Теория игр», М.: Высшая школа, Книжный дом «Университет», 1998, в которой впервые в отечественной литературе было дано систематиче-' ское изложение единой теории статических и динамических игр. В новой книге из ложе- ' ние динамических игр распространено на случай кооперативных дифференциальных игр, существенно расширены разделы, касающиеся статической теории кооперативных решений и динамических кооперативных игр, а также игр с неполной информацией. Уточнены и изменены доказательства отдельных утверждений. Здесь впервые в отече- , ственной учебной литературе используется единый подход к исследованию оптимального поведения игроков в позиционных играх, основанный на концепции динамиче- : ской устойчивости (состоятельности во времени) решений неантагонистических игр, а также свойствах сильной динамической устойчивости, динамической совместимости, согласованности и других динамических характеристиках состоятельности различных оптимальных решений. На базе изложенного подхода приведено систематическое изложение бескоалиционных, коалиционных и кооперативных принципов оптимальности в i различных классах позиционных игр. В учебнике отражено большинство актуальных направлений современной теории игр. Он методически построен так, что понятие модели конфликта (игры) развивается от простой (матричные игры) до наиболее сложной (дифференциальные игры). Большинство университетских учебных программ предполагает чтение отдельных разделов или специальных курсов по теории игр. Данный учебник построен таким образом, чтобы каждая глава могла служить основой такого курса. Для предварительного ознакомления с теорией игр достаточно изучить материал гл. 1. Типовой курс по теории игр может быть построен на основе гл. 1, 3 и 4. В учебнике полно изложены теории антаго- i нистических игр (гл. 1, 2, 4, 5), неантагонистических игр (гл. 3, 4, 6) и кооперативных игр (3, 4, 7, 8). В учебных дисциплинах «Системный анализ» и «Модели принятия ре- i шений» целесообразно использовать гл. 3 и 4. При построении курса лекций полезно i также воспользоваться приведенным списком специальной литературы.
Предисловие 7 Во всех главах приводятся многочисленные примеры, иллюстрирующие основные положения теории. Некоторые из них представляют самостоятельный интерес. В конце каждой главы приведены упражнения для индивидуальной работы, расположенные в порядке изложения материала и возрастания сложности. В ряде случаев они существенно дополняют содержание главы. Систематическое решение этих упражнений является важной формой изучения теории игр. Для усвоения основных понятий и результатов, приведенных в учебнике, достаточно знания курса математики в объеме университетской программы. Наиболее сложными в математическом отношении являются главы 2 и 5, которые предназначены для студентов математических специальностей. В списке рекомендованной литературы приведены основная (основные учебники и задачники), дополнительная (монографии и учебные пособия) и специальная (статьи, справочники, обзоры, сборники статей) литература. В список дополнительной литературы включены также статьи, которые цитируются в основном тексте. Вместе с тем библиография не претендует на полноту. Учебник может быть использован как для первоначального, так и для углубленного изучения теории игр. Он предназначен для студентов и аспирантов, обучающихся по направлению «Прикладная математика и информатика» и специализирующихся в области исследования операций, системного анализа, методов оптимизации, математической кибернетики, математического моделирования, будет также полезен студентам и аспирантам экономических, управленческих и технических направлений, изучающим математические методы принятия решений в сложных системах управления. Книга заинтересует специалистов, развивающих теорию игр, исследование операций, теорию управления, математическую экономику, теорию менеджмента и их приложения. Учебник написан на основе курсов «Теория игр и исследование операций», «Системный анализ», «Математические модели принятия решений в экономике и управлении», «Исследование систем управления», а также ряда специальных курсов по разделам и приложениям теории игр, прочитанных Л. А. Петросяном, Н. А. Зенкевичем и Е. В. Шевкопляс студентам старших курсов и аспирантам на факультете прикладной математики — процессов управления (ПМ-ПУ) и в Высшей школе менеджмента Санкт-Петербургского государственного университета. Благодарности. Параграфы 7, 9 гл. 1, § 5, 10 гл. 3, § 4-6, 8 и 9 гл. 4, § 2-6, 8 гл. 5 написаны совместно с Е. А. Семиной, за что авторы выражают Елене Александровне искреннюю признательность. Мы благодарим Е. М. Парилину, А. А. Седакова, С. Ю. Костюнина и В. А. Клеме- шева, а также студентов и аспирантов кафедры математической теории игр и статистических решений факультета прикладной математики — процессов управления Санкт- Петербургского государственного университета за помощь при подготовке рукописи. Выражаем особую благодарность Н. Н. Петрову и Н. И. Наумовой за ценные замечания и предложения. Авторы
Введение 8.1. Математическая теория игр является составной частью исследования операций. Она находит широкое применение в различных областях человеческой деятельно- . сти, таких, как экономика и менеджмент, промышленность и сельское хозяйство, военное дело и строительство, торговля и транспорт, связь и т. д. В настоящем учебнике изложены основные понятия и результаты теории игр. 8.2. Задачи исследования операций можно классифицировать по уровню информа- i ции о ситуации, которой располагает субъект, принимающий решение. Наиболее простыми уровнями информации о ситуации являются детерминированный (когда условия, в которых принимаются решения, известны полностью) и стохастический (когда известно множество возможных вариантов условий и их вероятностное распределение). В этих случаях задача сводится к нахождению экстремума функции (или ее математического ожидания) при заданных ограничениях. Методы решения таких задач изучаются в курсах математического программирования или методов оптимизации. Наконец, третий уровень — неопределенный, когда известно множество возможных вариантов, но без какой-либо информации об их вероятностях. Такой уровень информации о ситуации является наиболее сложным. Эта сложность оказывается принципиальной, так как могут быть не ясны сами принципы оптимального поведения. Следуя i определению Н.Н. Воробьева, теория игр — это теория математических моделей при- i нятия решений в условиях неопределенности, когда принимающий решение субъект («игрок») располагает информацией лишь о множестве возможных ситуаций, в одной из которых он в действительности находится, о множестве решений («стратегий»), которые он может принять, и о количественной мере того «выигрыша», который он мог бы получить, выбрав в данной ситуации данную стратегию. Установление принципов оптимального поведения в условиях неопределенности, доказательство существования решений, удовлетворяющих этим принципам, указание алгоритмов нахождения решений и составляют содержание теории игр. 8.3. Неопределенность, с которой мы встречаемся в теории игр, может иметь различное происхождение. Однако, как правило, она является следствием сознательной деятельности другого лица (лиц), отстаивающего свои интересы. В связи с этим под теорией игр часто понимают теорию математических моделей принятия оптимальных i решений в условиях конфликта. Таким образом, моделями теории игр можно в принципе содержательно описывать весьма разнообразные явления: экономические, правовые i и классовые конфликты, взаимодействие человека с природой, биологическую борьбу за существование и т. д. Все такие модели в теории игр принято называть играми. i Математическое описание игры сводится к перечислению всех действующих в ней игроков, указанию для каждого игрока всех его стратегий, а также численного выигры-
Введение 9 ша, который он получит после того, как игроки выберут свои стратегии. В результате игра становится формальным объектом, который поддается математическому анализу. 8.4. Игры можно классифицировать по различным признакам. Во-первых, бескоалиционные игры, в которых каждая коалиция (множество игроков, действующих совместно) состоит лишь из одного игрока. Так называемая кооперативная теория бескоалиционных игр допускает временные объединения игроков в коалиции в процессе игры с последующим разделением полученного выигрыша или принятия совместных решений. Во-вторых, коалиционные игры, в которых принимающие решения игроки согласно правилам игры объединены в фиксированные коалиции. Члены одной коалиции могут свободно обмениваться информацией и принимать полностью согласованные решения. По выигрышу игры можно разделить на антагонистические и игры с ненулевой суммой. По характеру получения информации — на игры в нормальной форме (игроки получают всю предназначенную им информацию до начала игры) и динамические игры (информация поступает игрокам в процессе развития игры). По количеству стратегий — на конечные и бесконечные игры. 8.5. Учебник состоит из восьми глав. Первая глава содержит основные сведения из теории конечных антагонистических (матричных) игр. Здесь доказывается теорема существования ситуации равновесия в классе смешанных стратегий, выводятся свойства оптимальных смешанных стратегий, приведены методы решения матричных игр. Хотя антагонистический конфликт является очень специальным случаем конфликта, возникающего в конкретных сферах приложений, тем не менее, в первой главе приводятся многочисленные примеры задач поиска и преследования, которые моделируются матричными играми. Во второй главе рассматриваются бесконечные антагонистические игры или игры с бесконечным числом стратегий у каждого из игроков. Здесь теоремы существования ситуаций равновесия справедливы далеко не во всех случаях. К важным условиям существования относятся свойства функции выигрыша. В главе приводится доказательство существования ситуации равновесия в смешанных стратегиях, когда функция выигрыша является непрерывной. Однако существует достаточно большое число классов игр, для которых это обстоятельство не имеет места, но равновесие, тем не менее, существует. К играм такого типа относятся дуэли и покер. Рассмотрение игр типа покера интересно еще и тем, что позволяет обосновать стратегию «блефа», часто встречающуюся на практике. В главе рассмотрены также приложения к задачам поиска и преследования. Третья глава посвящена статическим неантагонистическим играм. В качестве принципа оптимальности в таких моделях обычно используется равновесие по Нэшу. Приводится доказательство существования равновесия по Нэшу в смешанных стратегиях в играх с конечным числом стратегий, исследуются свойства равновесий и приводятся, некоторые модификации равновесия по Нэшу. Исследуются и другие принципы оптимальности, такие, как решения оптимальные по Парето и арбитражные схемы. В связи с серьезными приложениями в биологии и экономике, даются определение и свойства эволюционно-устойчивых стратегий. В последнее время возродился интерес к использованию коррелированных действий в неантагонистических играх. В этой связи в главу включен материал о равновесиях в совместных смешанных стратегиях. Вторая половина главы посвящена кооперативной теории игр. Здесь мы ограничиваемся изложением случая, когда выигрыши игроков трансферабельны и игра задается характеристиче-.
10 Введение ской функцией. Предполагается, что при кооперации игроки максимизируют свой суммарный выигрыш. Поэтому задача заключается в дележе полученного максимального выигрыша, который устраивал бы всех игроков. Исходя из такого понимания кооперации, в главе приводится классическое понятие характеристической функции и основные принципы оптимальности (С-ядро, ./VM-решение и вектор Шепли). Доказаны теоремы существования непустого ядра. Отдельно исследованы выпуклые и простые игры, доказано существование С-ядра. Теоретические результаты иллюстрируются примерами из социально-экономической сферы. В четвертой главе исследуются позиционные многошаговые игры (игры в развернутой форме). Эта глава имеет особое значение, поскольку она служит базой для понимания следующих глав, в которых описываются дифференциальные игры. Наиболее изученным классом игр являются игры с полной информацией. Для них доказывается существование абсолютного равновесия по Нэшу, т. е. такого равновесия, сужение которого в каждой подыгре, является равновесием в этой подыгре. Однако, кроме абсолютных равновесий, существует достаточно представительный класс равновесий в стратегиях наказания. Приводится характеристика этого класса равновесий и приводятся теоремы, характеризующие этот класс равновесий. Особенностью равновесий по Нэшу является их неединственность и неэквивалентность в том смысле, что выигрыши игроков в разных ситуациях равновесия могут серьезно различаться. Поэтому нетривиальным вопросом является выбор конкретного равновесия по Нэшу. В главе предлагается в качестве представителя равновесий по Нэшу выбрать индифферентное равновесие, существование и единственность которого доказывается. Особое место занимают иерархические игры. В главе приводится решение иерархических игр с дре- - вовидной и ромбовидной структурой. Отдельно исследованы кооперативные позиционные игры. Здесь возникает новая проблема — построение динамически устойчивых (состоятельных во времени) принципов оптимальности. Эта проблема решается с помощью введения процедур распределения дележа и основанной на них регуляризации игры. Отдельный параграф посвящен построению принципов оптимальности в играх с переменным коалиционным разбиением. В пятой главе рассматриваются антагонистические дифференциальные игры. Изложение материала ведется на примере дифференциальных игр преследования. Однако полученные результаты могут быть легко использованы и в более общем случае. Доказывается основополагающая теорема о существовании ситуации е-равновесия в классе кусочно-программных стратегий, выводится уравнение Айзекса-Беллмана для функции значения игры, приводятся итеративные методы решения этого уравнения. Результаты теории иллюстрируются на модельных примерах простого преследования и преследования при наличии сил трения. В указанных случаях находится решение уравнение Айзексаа-Беллмана в явной форме. Исследуется задача преследования на быстродействие, и приводятся теоремы, указывающие на связь между задачами преследования на быстродействие и с предписанной продолжительностью. Отдельный параграф посвящен задаче преследования с задержкой информации у преследователя специального вида. Обоснован вид оптимальной стратегии убегающего, которая в этом случае включает в себя случайный выбор управляющего воздействия. Здесь следует заметить, что уровень строгости решений дифференциальных игр и, в частности, игр преследования, базирующихся на решении уравнения Айзекса- Беллмана, ограничивается областью фазовых переменных, для которых указанное уравнение имеет смысл. Строгое обоснование решений может быть получено с использованием фундаментальных результатов Н. Н. Красовского и его учеников. Именно
Введение 11 на основе формализации дифференциальной игры, предложенной Н. Н. Красовским, оказывается возможным связать дескриптивную теорему о значении игры и ситуации равновесия с обобщенным минимаксным решением уравнения Айзекса-Беллмана (см. [Красовский, Котельникова, 2010]). Это же замечание.относится и к неантагонистическим дифференциальным играм, рассмотренным в следующей главе, для которых подобные результаты еще не получены, но их получение является лишь делом времени. Неантагонистическим некооперативным дифференциальным играм посвящена шестая глава. В некооперативном случае в качестве принципа оптимальности берется равновесие по Нэшу в позиционных стратегиях. Для определения абсолютных равновесий в регулярном случае обосновывается техника использования систем дифференциальных уравнений в частных производных Гамильтона-Якоби-Беллмана. И хотя эта техника трудно применима для решения сложных задач, в ряде конкретных случаев удается найти явное решение. Это касается, прежде всего, приведенных в главе задач управления совместным предприятием, ограничения вредных выбросов в атмосферу и совместной добычи ограниченного природного ресурса. Во всех указанных задачах равновесия находятся в явной форме. В седьмой и восьмой главах рассматриваются дифференциальные кооперативные игры. При формировании кооперативного соглашения используется принцип оптимальности классической кооперативной теории. Однако в динамике, так же как и в дискретных игровых задачах, здесь имеет место нарушение динамической устойчивости (состоятельности во времени) основных принципов оптимальности. Поэтому проводится регуляризация игры путем введения нового управляющего воздействия — процедуры распределения дележа, что обеспечивает динамическую устойчивость принципа оптимальности. Кооперативное решение находится для прикладных задач, рассмотренных также' в некооперативном случае. В учебнике принята тройная нумерация подразделов (пунктов) и формул: номер главы, номер параграфа, номер подраздела. Для рисунков и таблиц в рамках главы используется сквозная (двойная) нумерация. Основным структурным элементом учебника является подраздел (пункт), на который и делаются ссылки в тексте. Например, пример 1 п. 2.1.3 или теорема п. 4.2.5.
Глава 1 Матричные игры §1-1. Определение антагонистической игры в нормальной форме 1.1.1. Начнем изучение теории игр с простейшей статической модели — матричной игры, в которой участвуют два игрока, множество стратегий каждого из игроков i конечно, а выигрыш одного игрока равен проигрышу другого. i Определение. Система T=(X,Y,K), (1.1.1) где X uY — непустые множества, и функция К : X х У —» R1, называется антагонистической игрой в нормальной форме. Элементы х е X и у GY называются стратегиями игроков 1 и 2 соответственно в i игре Г, элементы декартового произведения XxY (т. е. пары стратегий (ж, у), где х Е X и у Е Y) — ситуациями, а функция К — функцией выигрыша игрока 1. Выигрыш игрока 2 в ситуации (ж,у) полагается равным [—К{х,у)]\ поэтому функция К также называется функцией выигрыша самой игры Г, а игра Г — игрой с нулевой суммой. Таким образом, используя принятую терминологию, для задания игры Г необходимо определить множества стратегий X, Y игроков 1 и 2, а также функцию выигрыша К, заданную на множестве всех ситуаций XxY. Игра Г интерпретируется следующим образом . Игроки одновременно и независимо выбирают стратегии х Е X, у Е Y. После этого игрок 1 получает выигрыш, равный К(х, у), а игрок 2 - (-К{х, у)). 1.1.2. Определение. Игра Г' = (X', У', К') называется подыгрой игры Г = (X, У, К , где X' С X, Y' С Y, а функция К' : X' х Y1 —» R1 является сужением функции К на X' х Y', В данной главе будут рассматриваться главным образом антагонистические игры, i в которых множества стратегий игроков конечны. Определение. Антагонистические игры, в которых оба игрока имеют конечные множества стратегий, называются матричными. \ Пусть игрок 1 в матричной игре (1.1.1) имеет всего т стратегий. Упорядочим множество X стратегий первого игрока, т. е. установим взаимно однозначное соответ- i ствие между множествами М — {1,2,... ,т} и X. Аналогично, если игрок 2 имеет п стратегий, то можно установить взаимно однозначное соответствие между множе-
§1.1. Определение антагонистической игры в нормальной форме 13 ствами ЛГ = {1,2,...,п}иУ. Тогда игра Г полностью определяется заданием матрицы А = {ciij}, где dij = K(xi,yi), (i,j) e M x N, (xi,yj) e X xY,i G MJ e N (отсюда и название игры — матричная). При этом игра Г реализуется следующим образом. Игрок 1 выбирает строку i G М, а игрок 2 (одновременно с игроком 1 и независимо от него) выбирает столбец j Е N. После этого игрок 1 получает выигрыш (а^), a игрок 2 получает (—CLij). Если выигрыш равен отрицательному числу, то речь идет о фактическом проигрыше игрока. Игру Г с матрицей выигрышей А обозначим Та и назовем (га х п)-игрой согласно размерности матрицы А. Если из изложения понятно, об игре с какой матрицей идет речь, то индекс А будем опускать. Нумерация стратегий в матричной игре может производиться различными способами, поэтому каждому отношению порядка, строго говоря, соответствует своя матрица. Таким образом, конечная антагонистическая игра может быть описана различными матрицами, отличающимися друг от друга лишь порядком строк и столбцов. 1.1.3. Пример 1 (Оборона города). Этот пример известен в литературе под названием «игра полковника Блотто» [Дрешер, 1964]. Полковник Блотто имеет га полков, а его противник — п полков. Противник защищает две позиции. Позиция будет занята полковником Блотто, если на ней наступающие полки окажутся в численном превосходстве. Противоборствующим сторонам требуется распределить полки между двумя позициями. Определим выигрыш полковника Блотто (игрока 1) на каждой позиции. Если у него на позиции полков больше, чем у противника (игрока 2), то его выигрыш на этой позиции равен числу полков противника плюс один (занятие позиции равносильно захвату одного полка). Если у игрока 2 полков на позиции больше, чем у игрока 1, то игрок 1 теряет все свои полки на этой позиции и еще единицу (за потерю позиции). Если обе стороны имеют одинаковое число полков на позиции, то имеет место ничья и каждая из сторон ничего не получит. Общий выигрыш игрока 1 равен сумме выигрышей на обеих позициях. Игра, очевидно, антагонистическая. Опишем стратегии игроков. Пусть, для определенности, га > п. Игрок 1 имеет следующие стратегии: хо — (га, 0) - послать все полки на первую позицию; х\ = (га — 1,1) - послать (га — 1) полков на первую позицию, а один - на вторую; х2 = (га —2,2),... ,xm_i = (1,га — 1),хт = (0,га). Противник (игрок 2) имеет следующие стратегии: уо = (п, 0), у\ = (п — 1,1),..., уп = (0, п). Пусть игрок 1 выбрал стратегию хо, а игрок 2 — стратегию уо- Вычислим выигрыш аоо игрока 1 в этой ситуации. Поскольку га > п, на первой позиции выигрывает игрок 1. Его выигрыш равен п + 1 Следовательно, аоо = п + 1. Теперь вычислим aoi- Поскольку га > п — 1, то на первой позиции выигрыш игрока 1 равен п — 1 + 1 = п. На второй позиции выигрывает игрок 2. Следовательно, проигрыш игрока 1 на этой позиции равен единице. Таким образом, aoi = п — 1. Рассуждая аналогично, получаем aoj = п — j + 1 — 1 = п — j, 1 < j < п. Далее, если га — 1 > п, то <^ю = гг + 1 + 1 = гг + 2, ац = п — 1 + 1 — п, ац = п — j + 1 — 1 — 1 = п — j — 1, 2 < j < п.
14 1. Матричные игры В общем случае (для любых га и п) элементы а^-, г = 0, га, j = 0,п, матрицы выигрышей вычисляются следующим образом: п + 2, n- j + 1, n-j-i, -га + г + j, J + 1, -m-2, -г-1, —га + г — 1, о, если если если если если если если если если га - га - га - га - га- т - га - га - т - - г> п - г > п - г > п - г < п -г — п - г < п - г = п - г < п - г — п -3, * -з, * -3, * > h = 3> <3> -3, i>3, -з, « -з, * >3> <3, -h i<fi -3, г -h * = 3, = 3- Таким образом, при га = 4,n = 3, рассмотрев всевозможные ситуации, получим матрицу выигрышей А этой игры: Уо 4 1 2 1 0 2/1 2 3 2 0 1 У2 1 0 2 3 2 Уз 0 -1 -2 1 4 Пример 2 (Игра на уклонение) [Гейл, I960]. Игроки 1 и 2 выбирают целые числа г и j из множества {1,...,п}, при этом игрок 1 выигрывает величину \г — j\. Игра антагонистическая. Матрица выигрышей этой игры квадратная, размера (n x п), где aij ~ К ~з\- Так, если п = 4, матрица А игры принимает вид 3 4 2 3 1 1 2 0 1 Г 1 0 J Пример 3 (Дискретная игра типа дуэли) [Гейл, I960]. Игроки продвигаются навстречу друг другу на п шагов. После каждого сделанного шага игрок может выстрелить или нет, но во время игры он может выстрелить только один раз. Считается, что вероятность того, что игрок попадает в своего противника, если выстрелит, продвинувшись на к шагов, равна к/п (к <п). Стратегия игрока 1(2) заключается в принятии решения стрелять на г-м (j-ъл) шаге. Пусть г < j и игрок 1 принимает решение стрелять на г-м шаге, а игрок 2 — на j-u шаге. Тогда выигрыш ац игрока 1 определяется формулой _ %_ _ ( _ г\ j _ п{г - j) + ij П v UJ П Uz Таким образом, выигрыш ац — это разность вероятностей поражения противника и собственной гибели в дуэли. х0 Xi А= х2 Хл 1 2 1 Г 0 1 2 1 0 3 2 1 4 3 2
§1.1. Определение антагонистической игры в нормальной форме 15 0 3 7 11 15 -3 0 -1 2 5 -7 1 0 -7 -5 -11 -2 7 0 -15 -15 -5 5 15 0 В случае i > j первым стреляет игрок 2 и ац = — а^. Если же i = j, то полагаем a-ij — 0. Так, если положить п = 5, то матрица этой игры, умноженная на 25, имеет вид А = Пример 4 (Игра «нападение — защита»). Пусть игрок 1 намерен атаковать один из объектов Ci,..., сп, которые имеют положительные ценности тх > 0,..., тп > 0. Игрок 2 защищает один из этих объектов. Будем считать, что если атакован незащищенный объект q, то он с достоверностью уничтожается (игрок 1 выигрывает т^), а защищенный — поражается с вероятностью 1 > /3^ > 0 (объект q выдерживает нападение с вероятностью 1 — Pi > 0), т. е. игрок 1 выигрывает (в среднем) far.i, г = 1,2,..., п. Тогда задача выбора объекта нападения (для игрока 1) и объекта защиты (для игрока 2) сводится к матричной игре с матрицей выигрышей 0171 Т2 far2 Т2 Priori Пример 5 (Игра дискретного поиска). Имеется п ячеек. Игрок 2 прячет предмет в одной из п ячеек, а игрок 1 хочет его найти. При проверке г-й ячейки игрок 1 тратит Ъ > 0 усилий, при этом вероятность найти предмет в г-й ячейке (если там он спрятан) равна 0 < Pi < 1, г = 1,2,..., п. Если предмет найден, то игрок 1 получает доход а. Стратегиями игроков являются номера ячеек, в которых игроки соответственно прячут и ищут предмет. Выигрыш игрока 1 равен разности между ожидаемым доходом и усилиями, затраченными на поиск предмета. Таким образом, задача поиска и прятания предмета сводится к матричной игре с матрицей выигрышей А api - п -п -п ... -Ti —Т2 а/?2 — 72 — 7"2 . . . — 72 7"п — 7"п Тп . . . Схрп — 7"п Пример 6 (Поиск «шумного» объекта.) Предположим, что игрок 1 ведет поиск подвижного объекта (игрок 2) с целью его обнаружения. Игрок 2 преследует противоположную цель (т. е. стремится уклониться от обнаружения). Игрок 1 может двигаться со скоростями ai = 1, а2 — 2, аз = 3,а игрок 2 — соответственно со скоростями Pi = 1? /?2 = 2, Рз = 3. Дальность действия средства обнаружения игрока 1 в зависимости от скоростей движения участников игры приведена в матрице D = ai С*2 аз /?i 4 3 1 /32 5 4 2 /Зз 6 " 5 3
16 1. Матричные игры Стратегиями игроков являются скорости движения, а в качестве выигрыша игрока 1 в ситуации (ai,/3j) примем производительность поиска ац — a^%, г = 1,3, j = 1,3, где 5ij - элемент матрицы D. Тогда задача выбора скоростей игроков при поиске - уклонении может быть представлена матричной игрой с матрицей /?1 /?2 /Зз "4 5 б 1 б 8 10 . 3 6 9 J §1.2. Максиминные и минимаксные стратегии 1.2.1. Рассмотрим антагонистическую игру Г = (X, У, К). Здесь каждый из игроков выбором стратегии стремится максимизировать свой выигрыш. Но для игрока 1 он определяется функцией К(х, у), & для игрока 2 как (—К(х, у)), т. е. цели игроков прямо противоположны. При этом заметим, что выигрыш игрока 1(2) определен на ситуациях (ж, у) Е XxY, складывающихся в процессе игры. Но каждая ситуация, а следовательно, и выигрыш игрока зависят не только от его выбора, но и от того, какая стратегия будет выбрана противником. Поэтому, стремясь получить возможно больший выигрыш, каждый игрок должен учитывать поведение противника. Поясним сказанное на примере игры «оборона города». Если игрок 1 хочет получить максимальный выигрыш, то он должен принять стратегию хо (или х±). В этом случае, если игрок 2 применит стратегию Уо(уз), то первый получит выигрыш, равный 4 единицам. Но если игрок 2 применит стратегию ys (соответственно г/о)? то игрок 1 получит выигрыш, равный 0, т. е. потеряет 4 единицы. Аналогичные рассуждения можно провести и для игрока 2. В теории игр предполагается, что оба игрока действуют разумно, т. е. стремятся к получению максимального выигрыша, считая, что соперник действует наилучшим (для себя) образом. Что может себе гарантировать игрок 1? Пусть игрок 1 выбрал стратегию х. Тогда в худшем случае он выиграет minK(x, у). Поэтому игрок 1 всегда может у гарантировать себе выигрыш тахттК(х,у). Если отказаться от предположения до- х у стижимости экстремума, то игрок 1 может всегда получить выигрыш, сколь угодно близкий к величине v= sup inf' К(х,у), (1-2.1) xexy^Y которую будем называть нижним значением игры. Если же внешний экстремум в (1.2.1) достигается, то величина у_ называется также максимином', принцип построения стратегии ж, основанный на максимизации минимального выигрыша,— принципом максимина, а выбираемая в соответствии с этим принципом стратегия х — максиминной стратегией игрока 1. Для игрока 2 можно провести аналогичные рассуждения. Пусть он выбрал стратегию у. Тогда в худшем случае он проиграет т&хК(х,у). Поэтому второй игрок всегда X может себе гарантировать проигрыш не более, чем minmaxK(x,y). Число У х ai А= а2 as v = inf sup K(x, у) y^Y xGX (1.2.2)
f 1.2. Максиминные и минимаксные стратегии 17 называется верхним значением игры Г, а в случае достижения внешнего экстремума в (1.2.2) и минимаксом. При этом принцип построения стратегии у, основанный на минимизации максимальных потерь, называется принципом минимакса, а выбираемая в соответствии с этим принципом стратегия у — минимаксной стратегией игрока 2. Подчеркнем, что существование минимаксной (максиминной) стратегии определяется достижимостью внешнего экстремума в (1.2.2) ((1.2.1)). Пусть задана матричная (т х п)- игра Г^. Тогда экстремумы в (1.2.1) и (1.2.2) достигаются, а нижнее и верхнее значения игры соответственно равны max mm ai l<i<m l<j<n min max a. 'tj- Минимакс и максимин для игры Гд могут быть найдены по следующей схеме: (1.2.3) (1.2.4) ап 0>21 0"ш1 тах^ ац а.12 CL22 0>т2 тах^ ai2 . min шаха*. 3 i J a>in a>2n &тп max^ uin miiij a\j miiij ci2j mirij amj > maxmina,-. Так, в игре Та с матрицей А = 1 нижнее значение (максимин) у_ и максиминная стратегия го первого игрока равны v — 3, го = 2, а верхнее значение (минимакс) v и минимаксная стратегия jo второго игрока v = 3, jo = 2. 1.2.2. Для любой игры Г — (X, У, К) справедливо следующее утверждение. Лемма. В антагонистической игре Г или V < V sup inf K(x,y) < inf sup K(x,y). хеХУ^У yzYxex (1.2.5) (1.2.6) Доказательство. Пусть х G X произвольная стратегия игрока 1. Тогда имеем Отсюда получаем К(х,у) < supK(x,y). хех inf К(х, у) < inf sup K(x, у). у^у у^у хех Теперь заметим, что в правой части последнего неравенства стоит константа, а значение х G X выбиралось произвольно. Поэтому выполняется неравенство sup inf K{x,y) < inf sup K{x,y). xexy^Y y^Y xGX
18 1. Матричные игры § 1.3. Ситуации равновесия 1.3.1. Рассмотрим вопрос об оптимальном поведении игроков в антагонистической игре. Естественно считать оптимальной в игре Г — (X, У, К) такую ситуацию (ж*, у*) Е X хУ, отклоняться от которой невыгодно ни одному из игроков. Такая ситуация (ж*, ?/*) называется равновесной, а принцип оптимальности, основанный на построении равновесной ситуации,— принципом равновесия. Конечно, для этого необходимо существование равновесия (т. е. чтобы принцип оптимальности был реализуем). Определение. В антагонистической игре Г = (X,У,К) ситуация (х*,у*) называется ситуацией равновесия или седловой точкой, если К(х,у*)<К(х*,у*), (1.3.1) К(х*,у)>К(х*,у*) (1.3.2) для всех х е X и у Е У. Множество всех ситуаций равновесия в игре Г обозначим через Z(T) С X х У Для матричной игры Та речь идет о седловых точках матрицы выигрышей А, т. е. таких точках (г*, j*), что для всех г Е М и j Е N выполняются неравенства В седловой точке элемент матрицы a^*j* является одновременно минимумом в своей I" 1 0 4 строке и максимумом в своем столбце. Например, в игре с матрицей 5 3 8 6 0 1 ситуация (2,2) является равновесной. 1.3.2. Множество ситуаций равновесия в антагонистической игре Г обладает свойствами, которые позволяют говорить об оптимальности ситуации равновесия и входящих в нее стратегий. Теорема. Пусть {х\,у\), (х^У^) ~~ две произвольные ситуации равновесия в антагонистической игре Г. Тогда 1) К{х\,у1) = К(х*2,у*2); 2) (xl,y*2) e Z(T), {x*2,y*x)zZ{T). Доказательство. Из определения ситуации равновесия для всех х G X иу GY имеем K{x,yl) < K(xl,yl) < K(xl,y); (1.3.3) К(х,у*2) < К(х*2,у*2) < К(х*2,у). (1.3.4) Подставим в левую часть неравенства (1.3.3) х\, в правую — у%, в левую часть неравенства (1.3.4) — ж* и в правую у{. Тогда получим К{х*2,у1) < К{х\,у\) < К{х\,у*2) < К(х*2,у*2) < К(х*2,у1). Откуда следует равенство Kixlyl) = К(х*2,у*2) = К{х*2,у*г) = К{х\,у*2). (1.3.5)
§1.3. Ситуации равновесия 19 Покажем справедливость второго из утверждений. Рассмотрим ситуацию (х^Уг)- Тогда из (1.3.3)—(1.3.5) имеем К(х,у1) < K(xl,yi) = K(x*2,yt) = К(х*2,у*2) < К(х*2,у) (1.3.6) для всех х е X, у G У. Доказательство равновесности ситуации (#1,2/2) ^ Z(T) проводится аналогично. Из теоремы следует, что функция выигрыша принимает одно и то же значение во всех ситуациях равновесия. Поэтому разумно ввести следующее определение. Определение. Пусть (х*,у*) — ситуация равновесия в игре Г. Тогда число v = K(x\y*) (1.3.7) называется значением игры Г. Из второго утверждения теоремы следует, в частности, такой факт. Обозначим X* и У* проекции множества Z(T) на X и У соответственно, т. е. X* = {ж* \х* е X, Зу* е У, {х\у*) е Z(r)}, У* = {у*\у* е У, Зх* е X, (х*,у*) е Z(T)}. Тогда множество Z(T) можно представить в виде декартового произведения Z(T) = X* хУ*. (1.3.8) Доказательство (1.3.8), как следствие второго утверждения теоремы, предоставим читателю. Определение. Множество X*(У*) называется мнооюеством оптимальных стратегий игрока \(2) в игре Г, а его элементы — оптимальными стратегиями игрока 1 (V- Заметим, что равенство (1.3.5) указывает на взаимозаменяемость оптимальных стратегий, т. е. любая пара оптимальных стратегий образует ситуацию равновесия, а выигрыш в ней равен значению игры. ' 1.3.3. Оптимальность поведения игроков не изменится, если в игре множества стратегий остаются прежними, а функция выигрыша умножается на положительную константу (или к ней прибавляется постоянное число). Лемма о масштабе. Пусть Г — (X, У, К) и Г' = (X, У, Kf) — две антагонистические игры, причем К' = (Ж + а, /3 > 0, а = const, (3 = const. (1.3.9) Тогда Я(Г) = Z(r), vr> = f3vr + а. (1.3.10) Доказательство. Пусть (ж*,у*) — ситуация равновесия в игре Г. Тогда имеем К'(х\у*) = рК(х*,у*) + a < ЦК{х*,у) +а = К'(х*,у), К'(х,у*) = 0К(х,у*)+а< PK(x*,y*)+a = К'(х*,у*), для всех х е X и у е У. Следовательно, (ж*,у*) е 2(Г"), 2Г(Г) С Z(T').
20 1. Матричные игры Обратно, пусть (ж, у) Е Z(Tf). Тогда К(х,у) = (1/{3)К'(х,у)-а//3 и, рассуждая аналогично, получаем, что (ж,у) Е Z(T). Следовательно, Z(T) = Z(T'), при этом выполняется равенство W = #V>2/*) = РК(х*,у*) + a = (3vr + a. Содержательно данная лемма говорит о стратегической эквивалентности двух игр, отличающихся лишь началом отсчета выигрышей, а также масштабом их измерения. 1.3.4. Теперь установим связь между принципом равновесия и принципами мини- макса и максимина в антагонистической игре. Теорема. Для того чтобы в игре Г = (X, У, К) существовала ситуация равновесия, необходимо и достаточно, чтобы существовали минимакс и максимин minsupif (ж,у), maxinfK(x,y) (1.3.11) Ух х у и выполнялось равенство: v = maxinf К (ж, у) = minsupif (ж,у) = v. (1.3.12) х у Ух Доказательство. Необходимость. Пусть (ж*,у*) Е Z(T). Тогда для всех х Е X и у GY выполняются следующие неравенства: if (ж,у*) < К{х*,у*) < К(х*,у) (1.3.13) отсюда s\ipK(x,y*)<K(x*,y*). (1.3.14) х Вместе с тем имеем inf supK(x,y) < supif (ж,у*). (1.3.15) Ух х Сравнивая (1.3.14) и (1.3.15), получаем inf supK{x,y) < supK(x,y*) < К(х*,у*). (1.3.16) Ух х Рассуждая аналогично, приходим к неравенствам К(х*,у*) < inf if (ж*, у) < sup inf if (ж, у). (1.3.17) У х У Таким образом, inf sup if (ж, у) < sup if (ж, у). Ух х С другой стороны, всегда выполняется обратное неравенство (1.2.6). Итак, получаем sup inf if (ж, у) = inf sup if (ж, у), (1.3.18) х У Ух при этом неравенства (1.3.16), (1.3.17) выполняются как равенства minsupif (ж,у) = sup К (ж, у*) = if (ж*, у*),
§1.3. Ситуации равновесия 21 maxinf if (ж, у) = inf if (ж*,у) = if (ж*, у*), х у у т. е. внешние экстремумы у minsup и maxinf достигаются в точках у* и ж* соответственно. Достаточность. Пусть существуют minsup и maxinf, maxinf if (ж, у) =ЫК(х*,у); (1.3.19) х у у minsup if (ж, у) = sup К (х, у*) (1.3.20) Ух х и выполняется равенство (1.3.12). Покажем, что ситуация (ж*,у*) является равновесной. Действительно, К(х*,у*) >mfK(x*,y)=msxinfK(x,y)i (1.3.21) У х у К{х*,у*) < sup К (ж, у*) -minsup К (ж, у). (1.3.22) ГЕ Ух Согласно равенству (1.3.12), minsup равен maxinf, а из (1.3.21), (1.3.22) следует, что он равен также и величине if (ж*, у*), т. е. неравенства в (3.21), (3.22) выполняются как равенства. Теперь имеем К(х*,у*) = ЫК(х*,у)<К(х*,у), У К(х\у*) = supK(x,y*) > К(х,у*) X для всех ж е X и у <Е У, т. е. (ж*,у*) <Е ^(Г). Заметим, что в ходе доказательства показано, что общее значение min sup и max inf равно if (ж*, г/*) = v — значению игры, при этом любая minsup (maxinf) стратегия у*(ж*) в условиях теоремы является оптимальной, т. е. ситуация (ж*,у*) является равновесной. Из доказательства теоремы получаем следующее утверждение. Следствие 1. Если minsup и maxinf в (1.3.11) существуют и достигаются на у их соответственно, то maxinf if (ж, у) < К (ж, у) < min sup if (ж, у). (1.3.23) х у Ух Игры, в которых существуют ситуации равновесия, называются вполне определенными. Поэтому данная теорема устанавливает критерий вполне определенной игры и может быть переформулирована следующим образом. Для того чтобы игра была вполне определена, необходимо и достаточно, чтобы существовали minsup и maxinf в (1.3.11) и выполнялось равенство (1.3.12). Заметим, что в матричной игре Г^ экстремумы в (1.3.11) всегда достигаются, поэтому теорема принимает следующий вид. Следствие 2. Для того чтобы матричная (га х п)-игра Гд была вполне определена, необходимо и достаточно выполнение равенства min max оцл = max min ац. (1.3.24) j=l,2,...,n г=1,2,...,т J г=1,2,...,т j = l,2,...,n
22 1. Матричные игры Например, в игре с матрицей 1 2 0 При этом max min ац i 3 4 1 3 4 -2 7 _ ситу = min max ац 3 i С другой стороны, игра с матрицей скольку 1 О О 1 ситуация (2,1) является равновесной. 2. не имеет ситуации равновесия, по- min max ац = 1 > max min ац — 0. 3 i i 3 Заметим, что игры, сформулированные в примерах 1 - 3 (п. 1.1.3), не являются вполне определенными, а игра в примере б вполне определена и ее значение v = 6. § 1.4. Смешанное расширение игры 1.4.1. Рассмотрим матричную игру Г^- Если в ней существует ситуация равновесия, то минимакс равен максимину, причем согласно определению ситуации равновесия каждый из игроков может сообщить свою оптимальную (максиминную) стратегию противнику и от этого ни один из игроков не может получить дополнительную выгоду. Теперь предположим, что в игре Г^ не существует ситуации равновесия. Тогда согласно теореме п. 1.3.4 и лемме п. 1.2.2 имеем min max а.ц — max min ац > 0. (1.4.1) 3 i i j В этом случае максиминная и минимаксная стратегии не являются оптимальными. Более того, игрокам бывает невыгодно их придерживаться, так как они могут получить больший выигрыш. Однако сообщение о выборе стратегии противнику может привести к еще большим потерям, чем в случае максиминной или минимаксной стратегии. Действительно, пусть матрица А имеет вид А 7 3 2 5 Для такой матрицы min max ац = 5, maxmina?;j = 3, т. е. ситуации равновесия не * j i i 3 существует. Обозначим через г* максиминную стратегию игрока 1 (г* = 1), а минимаксную стратегию игрока 2 через j* (j* — 2). Пусть игрок 2 придерживается стратегии j* = 2, а игрок 1 выберет стратегию i = 2. Тогда последний получит выигрыш 5, т. е. на 2 единицы больше, чем максимин. Однако если игрок 2 догадается о выборе игрока 1, то он изменит стратегию на j = 1, и тогда первый получит выигрыш лишь 2 единицы, т. е. на единицу меньше, чем в случае максимина. Аналогичные рассуждения можно провести и для второго игрока. По существу вопрос стоит о том, как разделить между игроками величину (1.4.1)? Оказывается, что в этом случае игрокам разумно действовать случайно, что обеспечивает наибольшую скрытность выбора стратегии. Результат выбора не может стать известным противнику, поскольку до реализации случайного механизма не известен самому игроку.
§1.4. Смешанное расширение игры 23 1.4.2. Определение. Случайная величина, значениями которой являются стратегии игрока, называется его смешанной стратегией. Так, для матричной игры Га смешанной стратегией игрока 1 является случайная величина, значениями которой являются номера строк г Е М, М = {1,2,..., т} матрицы А. Аналогично определяется смешанная стратегия игрока 2, значениями которой являются номера j Е N столбцов матрицы А. Учитывая только что введенное определение смешанных стратегий, прежние стратегии будем называть «чистыми». Так как случайная величина характеризуется своим распределением, то будем отождествлять в дальнейшем смешанную стратегию с вероятностным распределением на множестве чистых стратегий. Таким образом, смешанная стратегия х игрока 1 в игре есть m-мерный вектор т * = (&,...,&*), ]r& = U;>0,i = l,...,m. (1.4.2) г=1 Аналогично, смешанная стратегия у игрока 2 есть п-мерный вектор п у = (?7i,...,?7n), Y^Vj = Mj >0>i = l,-..,n. (1.4.3) 3 = 1 При этом & > 0 и rjj > 0 — вероятности выбора чистых стратегий г Е М и j Е N соответственно при использовании игроками смешанных стратегий х и у. Обозначим через X и У соответственно множества смешанных стратегий первого и второго игроков. Нетрудно заметить, что множество смешанных стратегий каждого игрока — компакт в соответствующем конечномерном евклидовом пространстве (замкнутое, ограниченное множество). Определение. Пусть х = (Съ---»Ст) Е X — смешанная стратегия игрока 1. Тогда множество индексов Мя = {г|геМ,&>0}, (1.4.4) где М = {1,2,..., т}, назовем спектром стратегии х. Аналогично для смешанной стратегии у = (r/i,... ,т?п) Е У игрока 2 спектр Ny определяется следующим образом: Ny = {j\jeN,Vj>0}, (1.4.5) где N = {1,2, ...,п}. Таким образом, спектр смешанной стратегии состоит из таких чистых стратегий, которые выбираются с положительными вероятностями. Для любой смешанной стратегии х спектр Мх ф 0, поскольку вектор х имеет неотрицательные компоненты, сумма которых равна 1 [см. (1.4.2)]. Рассмотрим смешанную стратегию щ = (Съ - -->&>--- »?т) ^ ^"» гДе & = 1, 0 = 0> j Ф U i — 1? 2,..., га. Такая стратегия предписывает выбор г-ой строки матрицы А с вероятностью 1. Естественно отождествлять смешанную стратегию щ Е X с выбором г-й строки, т. е. с чистой стратегией г Е М игрока 1. Аналогично отождествим смешанную стратегию Wj = (771,... ,77?,... ,r/n) E У, где щ = 1,7ft = 0,г ф j, j = 1,... ,п с чистой стратегией j E N игрока 2. Тем самым мы получили, что множество смешанных стратегий игрока есть расширение его пространства чистых стратегий. Определение. Пара (.г*, у) смешанных стратегий игроков в матричной игре Та называется ситуацией в смешанных стратегиях.
24 1. Матричные игры Определим выигрыш игрока 1 в ситуации (ж, у) в смешанных стратегиях для матричной (га х п)-игры Та как математическое ожидание его выигрыша при условии, что игроки используют смешанные стратегии соответственно х и у. Выбор стратегий игроками осуществляется независимо друг от друга, поэтому математическое ожидание выигрыша К(х,у) в ситуации (ж,у) в смешанных стратегиях х = ($i,...,Cm)> у = (га.,...,т?п) равно m n К{х,у) = J2J2a^iVj = {хА)у = х(Ау). (1.4.6) i=l j = l При этом функция К(х,у) является непрерывной по х G X и у Е У. Заметим, что выигрыши K(i,y), K(x,j) при применении одним из игроков чистой стратегии (г или j соответственно), а другим — смешанной стратегии (у или х) имеют вид п К{ъ,у) = К(щ,у) = Yj,a4V3 =a>iyJ = l,...,m, i=i m K(xJ) = K(x,Wj) = ^Гач& = xa3J = l,...,n, i=l где a,i — г-я строка, a aJ —j-й столбец (га х п)-матрицы А. Таким образом, от матричной игры Г^ = (М, iV, А) мы перешли к новой игре Та = (X,У,К), где X и У — множества смешанных стратегий в игре Г^ и /{ - функция выигрыша в смешанных стратегиях (математическое ожидание выигрыша). Игру Та будем называть смешанным расширением игры Та- Игра Та является подыгрой для ГА, т. е. Тл СТА- _ 1.4.3. Определение. Ситуация (х*, у*) в игре Та образует ситуацию равновесия, а число v = К(х*,у*) является значением игры Та, если для всех х G X и у GY К(х,у*)<К(х*,у*)<К(х*,у). (1.4.7) Теорема п. 1.3.2 очевидным образом справедлива и для ситуаций равновесия в смешанном расширении Та игры Га- Более того, согласно теореме п. 1.3.4 стратегии х* и у* являются соответственно максиминнои и минимаксной, поскольку внешние экстремумы в (1.3.11) достигаются (функция К(х,у) непрерывна на компактных множествах ХиУ). В лемме п. 1.3.3 была показана стратегическая эквивалентность двух игр, отличающихся лишь началом отсчета выигрышей, а также масштабом их измерения (лемма о масштабе). Оказывается, что если две матричные игры Га и Г а' находятся в условиях этой леммы, то их смешанные расширения стратегически эквивалентны. Формально этот факт устанавливается следующим утверждением. Лемма. Пусть Та и Та' — две матричные (га х п)-игры, где А' = аА 4- В, а > 0, а = const, а В — матрица с одинаковыми элементами /3, т. е. $ц — /3 для всех г и j. Тогда Z(Ta') = Z(Ta), va' = olva + /3, где Та' uTa — смешанные расширения игр Та1 и Та соответственно, a va' , va ~ значения игр Та' и Та -
§1.5. Некоторые сведения из теории выпуклых множеств 25 Доказательство. Обе матрицы А и А! одинаковой размерности га x п~; поэтому множества смешанных стратегий в играх Т аг и Та совпадают. Покажем, что для любой ситуации (ж, у) в смешанных стратегиях выполняется равенство К\х,у) = аК(х,у) + Р, где К' и К — выигрыши игрока 1 в играх Та> и Та соответственно. Действительно, для всех х Е X и у Е У имеем (1.4.J К'{х, у) = хА'у = а(хАу) + хВу — аК(х, у) 4- /3. Из леммы о масштабе следует, что Z{Ta') = Z(Ta)^ va' — &va + P- Пример 7. Проверим, что стратегии у* = (1/2,1/4,1/4), ж* = (1/2,1/4,1/4) оптимальны, a v — 0 — значение игры Г^ с матрицей А = 1 -1 -1 -1 -1 3 -1 3 -1 Упростим матрицу А (с целью получения максимального числа нулей). Прибавляя ко всем элементам матрицы А единицу, получим матрицу А' = 2 0 0 0 0 4 0 4 0 Каждый элемент матрицы А разделим на 2. Новая матрица принимает вид А" = 1 0 0 0 0 2 0 2 0 По лемме значение игр связано равенством va" = \va' — \{va + 1). Таким образом, требуется проверить, что значение игры Г,4" равно 1/2. Действительно, К"(х*,у*) = хтА"у* = 1/2. С другой стороны, для каждой стратегии у G У,г/ = (vi^V2iVs) имеем К"(х*,у) = bi + ^2 + ^3 = i1 = |,адлявсех.т = (Съ6,Ы>^ Х,К"(х,у*) = ^1 + 2С2 + 2^3 ~ \- Следовательно, указанные стратегии ж*,у* являются оптимальными, а VA-0. В .дальнейшем, говоря о матричной игре Гд, будем предполагать, что речь идет о ее смешанном расширении Га- § 1.5. Некоторые сведения из теории выпуклых множеств и систем линейных неравенств Этот параграф носит вспомогательный характер и при первом чтении может быть опущен. Однако для понимания доказательств последующих утверждений полезно напомнить широко распространенные понятия и результаты. Большинство из них будет приведено без доказательств, в необходимых случаях даны ссылки на специальную литературу.
26 1. Матричные игры 1.5.1. Множество М С Яш называется выпуклым, если вместе с любыми двумя точками этого множества х\, Х2 Е М в нем содержатся все точки отрезка Axi + (1 — Л)х2,0 < Л < 1. Понятие выпуклого множества можно сформулировать и в более общем, но эквивалентном виде. Множество М С Rm называется выпуклым, если вместе с точками х\,... ,Xk из М, оно содержит и все точки вида к к X — у AiXi, Ai -> и, у Ai — 1, г=1 г=1 называемые выпуклыми линейными комбинациями точек хг,..., Хк- Пересечение выпуклых множеств всегда выпукло. Рассмотрим систему линейных неравенств хА <Ъ или xaj <0J9 jeN1N = {l,...,n}, (1.5.1) где А = [aj,j в N] — (гп х п)-матрица, х е Лт, Ь = (ft,...,/3n) G Яп. Обозначим как X — {х\хА < 6} множество решений системы (1.5.1). Непосредственно из определения следует, что X — выпуклое множество. Множество X называется выпуклым многогранным множеством , заданным системой ограничений (1.5.1). 1.5.2. Точка X G М, где М — выпуклое множество, называется крайней точкой, если из условия х — Хх\ + (1 — Л)я?2, xi G М,Ж2 G М иО < А < 1 следует, что х\ = х2 — х. Содержательно определение означает, что х G М — крайняя точка, если не существует отрезка, содержащего две точки из М, для которого х является внутренней. Заметим, что крайняя точка выпуклого множества всегда является граничной, обратное неверно. Пусть X — выпуклое многогранное множество, заданное системой ограничений (1.5.1). Тогда справедливы следующие утверждения. Теорема. Множество X имеет крайние точки тогда и только тогда, когда гапкА = rank[aJ ,j G N] = т [Ашманов, 1981]. ' Теорема. Для того чтобы точка хо G X была крайней, необходимо и достаточно, чтобы она была решением системы x0aj =ft,jGJVi; (1.5.2) xoaj <0j,ieN\Nu (1.5.3) где Ni С N, rank[az;j GiVj —m [Ашманов, 1981]. Последняя теорема дает алгоритм нахождения крайних точек множества X. Для этого необходимо рассмотреть столбцовые базисы матрицы А, решить систему линейных уравнений (1.5.2) и проверить выполнение неравенств (1.5.3). Однако такой способ поиска крайних точек многогранного множества мало пригоден для практики, поскольку он связан с полным перебором всевозможных столбцовых базисов матрицы А. 1.5.3. Выпуклой оболочкой множества Р будем называть пересечение всех выпуклых множеств, содержащих Р, и обозначать conv(P). Данное определение эквивалентно следующему. Выпуклая оболочка множества Р состоит из всех выпуклых линейных комбинаций всевозможных точек из Р, т. е. п п СОПУ(Р) = {Х \х — ^^ ^iXii 5Z ^г — 1Лг>0, Xi G Р}. г=1 г=1 Выпуклая оболочка конечного числа точек называется выпуклым многогранником, порожденным этими точками. Выпуклый многогранник порожден своими крайними точками. Так, если рассмотреть множество X смешанных стратегий игрока 1 в (тхп)-игре, то X = conv{u\,..., nm},
§1.5. Некоторые сведения из теории выпуклых множеств 27 где щ = (0,..., 0,1,0,..., 0) — орты пространства Rm или чистые стратегии игрока 1. Множество X является выпуклым многогранником размерности (га — 1) и называется также (га— 1)- мерным симплексом или фундаментальным симплексом). При этом все векторы щ (чистые стратегии) являются крайними точками многогранника X. Аналогичные утверждения справедливы для множества У смешанных стратегий игрока 2. Конусом С называется множество таких точек, что если х Е С, Л > 0, то Хх Е С. Содержательно, конус С — это такое подмножество Лт, которое вместе с точкой х содержит и всю полупрямую (ее), где (х) = {у \у = \х,\>0}. Конус С называется выпуклым конусом, если выполняется условие: для всех х,у Е С справедливо х + у Е С. Другими словами, конус С — выпуклый, если он замкнут относительно операции сложения. Можно дать и другое эквивалентное определение. Конус называется выпуклым, если он является выпуклым множеством. Сумма выпуклых конусов С\ -\-Сг — {с \с = с\ + С2, с\ Е Ci, C2 ^ C2} и их пересечение С\ П С% также являются выпуклыми конусами. Непосредственной проверкой определения можно показать, что множество С — {х \хА < 0} решений однородной системы линейных неравенств, соответствующей (1.5.1), является выпуклым конусом. Пусть X — выпуклое многогранное множество, заданное системой ограничений (1.5.1), записанной в эквивалентной форме m ]Г&<к<&, (1.5.4) г=1 где х = (^i,..., ^m) E .Rm, Obi —i-я. строка матрицы А,г — 1,..., га. Предположим, что rank A = г, г < га, и векторы ai,..., ar образуют строчечный базис матрицы А. Разложим остальные строки по базису г a,j — 2_^^эаз-> j = г + 1,... ,га. (1.5.5) Подставляя (1.5.5) в (1.5.4), получим эквивалентную (1.5.4) систему неравенств г m Х>«+ Л &ц)<н<Ъ. (1.5.6) 1=1 j = r+l Обозначим через Хо множество векторов х = (^i,...,^m) E Яш, удовлетворяющих неравенствам (1.5.6) и условию %j — 0?j — r + l,...,m. По теореме п. 1.5.2, множество Хо имеет крайние точки. Справедлива следующая теорема [Ашманов, 1981]. Теорема о представлении многогранного множества. Пусть X — многогранное множество, заданное системой ограничений (1.5.4). Тогда х = м + с, где М + С — {х\х — у + z,y E M,z Е С}, М — выпуклый многогранник, порожденный крайними точками многогранного множества Хо, заданного (1.5.6), а С — {х\хА < 0} — выпуклый конус. Из теоремы, в частности, следует, что если множество X решений системы (1.5.4) ограничено, то X — выпуклый многогранник. 1.5.4. Напомним, что задача нахождения mines: при ограничениях хА > 6, х > 0, (1.5.7) где А — (га х ?г)-матрица, с Е Ят, х Е Ят, Ъ Е Rn называется прямой стандартной задачей линейного программирования, а задача, заключающаяся в определении тахбу при ограничениях Ау < с, у > 0, (1.5.8)
28 1. Матричные игры где у G Rn, двойственной задачей линейного программирования для (1.5.7). Вектор х G Rn, удовлетворяющий системе (1.5.7), называется допустимым решением задачи (1.5.7). Аналогично вводится понятие допустимого решения у Е Rn задачи (1.5.8). Допустимое решение х(у) называется оптимальным решением задачи (1.5.7) [(1.5.8)], если на нем достигается минимум (максимум) функции сх(Ьу) на множестве всех допустимых решений. Справедливо следующее утверждение [Ашманов, 1981]. Теорема двойственности. Если обе задачи (1.5.7),(1.5.8) имеют допустимые решения, то они обе имеют оптимальные решения х, у, соответственно, при этом сх = by. 1.5.5. В заключение параграфа приведем одно свойство выпуклых функций. Сначала напомним, что функция tp : М —>> R1, где М С Rm — выпуклое множество, называется выпуклой, если 4>(\xi + (1 - Л)ж2) < \<p(xi) + (1 - Х)ф2) (1-5.9) для всех xi,X2 Е М и Л Е [0,1]. Если же в (1.5.9) выполняется обратное неравенство, то функция (р называется вогнутой. Пусть (fi(x) — выпуклые на М функции, г = 1,... ,гг. Тогда верхняя огибающая ф(х) этого семейства функций яр(х) = max (рг(х) (1.5.10) г=1,...,п является выпуклой на М. Действительно, по определению выпуклой функции для хг,Х2 Е М и а Е [0,1] имеем cpi(axi + (1 - ct)x2) < aipi(xi) + (1 - а)^г(жг) < < amax(fi(xi) + (1 — a)max<pi(x2). г ~ г Отсюда получаем ф(ахг + (1 — а)х2) — max(^(axi + (1 — а)жг) < аф(хг) + (1 — а)ф(х2), г что и требовалось доказать. Аналогично можно показать вогнутость нижней огибающей'(в (1.5.10) берется минимум по г) семейства вогнутых функций. § 1.6. Существование решения матричной игры в классе смешанных стратегий Докажем, что произвольная матричная игра вполне определена в классе смешанных стратегий. 1.6.1. Основная теорема матричных игр. Всякая матричная игра имеет ситуацию равновесия в смешанных стратегиях [Фон Нейман, 1928]. Доказательство. Пусть Г^ — произвольная (m x п)-игра со строго положительной матрицей А — {а^}, т. е. ац > 0 для всех г = 1,т и j = l,n. Покажем, что в этом случае теорема справедлива. Для этого рассмотрим вспомогательную задачу линейного программирования minors, xA > w, х>0 (1.6.1) и двойственную ей задачу п. (1.5.4) maxyw, Ay < и, у > 0, (1.6.2)
§1.6. Существование решения в классе смешанных стратегий 29 где и — (1,..., 1) G Rm, w = (1,..., 1) G Rn. Из строгой положительности матрицы А следует, что существует такой вектор ж > О, для которого хА > w, т. е. задача (1.6.1) имеет допустимое решение. С другой стороны, вектор у = О является допустимым решением задачи (1.6.2). Поэтому по теореме о двойственности линейного программирования (см. п. 1.5.4) обе задачи (1.6.1) и (1.6.2) имеют оптимальные решения ж, у соответственно, при этом xu = yw = e >0. (1.6.3) Рассмотрим векторы ж* = ж/6 и у* = у/Q и покажем, что они являются оптимальными стратегиями игроков 1 и 2 соответственно в игре Гд, при этом значение игры равно 1/G. Действительно, из (1.6.3) имеем x*u = (xu)/Q = (yw)/Q = y*w — 1, а из допустимости жиг/ для задач (1.6.1), (1.6.2), следует, что ж* = ж/Q > 0 и у* — у/6 > 0, т. е. ж* и у* — смешанные стратегии игроков 1 и 2 в игре Та- Вычислим выигрыш игрока 1 в ситуации (ж*, у*): К(х*,у*) = ж*Агу* - (жЛу)/62. (1.6.4) С другой стороны, из допустимости векторов х иу для задач (1.6.1), (1.6.2) и равенства (1.6.3) имеем в = wy < (хА)у = х(Ау) <xu = Q. (1.6.5) Таким образом, хАу = Q, из (1.6.4) получаем, что /фЛ2/*) = 1/в. (1.6.6) Пусть xGXnyGY — произвольные смешанные стратегии игроков 1 и 2. Тогда выполняются неравенства К{х\у) = (х*А)у = (хА)у/в > (wy)/Q = 1/9, (1.6.7) К(х, у*) = ж(Агу*) - x(Ay)/Q < (xu)/Q = 1/G. (1.6.8) Сравнивая (1.6.6)—(1.6.8), получаем, что (ж*, у*) ситуация равновесия, a 1/G — значение игры Г^ со строго положительной матрицей А. Теперь рассмотрим (т х п)- игру Та' с произвольной матрицей А' — {а^}. Тогда существует такая константа /3 > 0, что матрица А — А' + В строго положительна, где В = {fiij} — (га х п)-матрица, /3^ = /3, г = 1, m, j = 1, п. В игре Г^ существует ситуация равновесия (ж*,у*) в смешанных стратегиях, а значение игры равно va — 1/G, где Q определяется как в (1.6.3). Из леммы п. 1.4.3 следует, что (ж*,у*) G Z(Ta') — ситуация равновесия в игре Yа1 в смешанных стратегиях, а значение игры равно va> — va — Р — 1/G — /3. Теорема доказана. Неформально факт существования решения в классе смешанных стратегий означает, что игроки всегда могут снять неопределенность выбора стратегии, с которой они столкнулись перед началом игры, рандомизируя множество чистых стратегий. Следует отметить, что не всегда в антагонистических играх существует решение в смешанных стратегиях. Примеры таких игр с бесконечным числом стратегий приведены в 2.3, 2.4. Заметим также, что доказательство теоремы конструктивно, поскольку сводит решение матричной игры к задаче линейного программирования, при этом алгоритм решения игры Та1 следующий.
30 1. Матричные игры 1) По матрице А! строится строго положительная матрица А = А' + jB, где В — {/%},/^-=/3>0. 2) Решаются задачи линейного программирования (1.6.1),(1.6.2). Находятся векторы х,р число 9 [см. (1.6.3)]. 3) Строятся оптимальные стратегии игроков 1 и 2 соответственно, х* = ж/9, у* = у/0. 4) Вычисляется значение игры Та1 vA, = 1/е - р. Пример 8. Рассмотрим матричную игру Г^, определенную матрицей А = 4 0 2 3 Соответствующие ей задачи линейного программирования имеют следующий вид: min (Ci + Ь)> max (771 4- т?2), 4& + 26>1, 4771 < 1 36 >1, 2Г71+ЗГ72<1, 6>0,6>0, 771 > 0,Г72 > 0. Заметим, что эти задачи в эквивалентной форме могут быть записаны для ограничений типа равенств: min (Ci + 62), max (Vi + r/2), 4&+2&-& = l, 4т/!+Г/3-1 3^2-^ = 1, 27/1+37^+7/4 = 1, 6 > 0,6 > 0,6 > 0,^4 > 0, 7/i > 0,7/2 > 0,7/3 > 0,7/4 > 0. Таким образом, любой метод решения задач линейного программирования может быть приспособлен для решения матричных игр. Наиболее распространенным методом решения таких задач является симплекс-метод, систематическое изложение которого можно найти в [Ашманов, 1981, Гейл, I960, Ху, 1974]. § 1.7. Свойства оптимальных стратегий и значения игры Рассмотрим свойства оптимальных стратегий, которые в ряде случаев помогают находить значение игры и ситуацию равновесия. 1.7.1. Пусть (я*,у*) Е X xY — ситуация в смешанных стратегиях в игре Та- Оказывается, что для проверки ситуации (х*,у*) на равновесность, неравенства (1.4.7) достаточно проверять не для всех х е X иу eY, а, лишь для i Е М и j Е TV", поскольку справедливо следующее утверждение. Теорема. Для того, чтобы ситуация (х*,у*) была равновесной в игре Та, а число v — К(х*,у*) — значением игры Та, необходимо и достатючно выполнение следующих неравенств для всех г Е М и j E N: K(i,y*) < К(х*,у*) < K(x',j). (1.7.1)
§1.7. Свойства оптимальных стратегий и значения игры 31 Доказательство. Необходимость. Пусть (ж*,у*) — ситуация равновесия в игре Г^. Тогда К(х,у*)<К(х*,у*)<К(х\у) для всех х е X, у eY. Поэтому, в частности, для щ G X и Wj G У имеем K{i,y*) = К(щ,у*) < К(х*,у*) < K(x\wj) = K(x*J) для всех i е М и j G N. Достаточность. Пусть (х*,у*) — пара смешанных стратегий, для которой выполняются неравенства (1.7.1). Пусть также х = (^i,... ,^m) G X и у = (771,... , т?п) е Y — произвольные смешанные стратегии игроков 1 и 2 соответственно. Умножая первое и f второе неравенства (1.7.1) на & и % соответственно и суммируя, получаем m m YlZiK(i,y*)<K(x'ty*)Ylt-i = K(x;y*), (1.7.2) При этом имеем Y,VjK(x*,j) > К{х\у*)^гц = К{х\у*). (1-7.3) 3 = 1 3 = 1 m Y,tiK(i,y') = К{х,у'), (1.7.4) г=1 Y,ri5K(x\j) = K{x\y). (1.7.5) 3=1 Подставляя (1.7.4), (1.7.5) в (1.7.2) и (1.7.3) соответственно и учитывая произвольность стратегий х G X и у G У, получаем равновесность ситуации (я*, г/*). Следствие. Пусть (г*, j*) — ситуация равновесия в игре Та- Тогда ситуация (г*, j*) равновесна и в игре Та- Пример 10 (Решение игры на уклонение). Предполагается, что игроки выбирают целые числа г и j между 1 и п, а игрок 1 выигрывает величину а^ = \г — j\, т. е. расстояние между числами i и j. Пусть первый игрок придерживается стратегии ж* = (1/2,0,..., 0,1/2). Тогда K{x\j) = 1/2|1 - j\ + l/2|n - j| = l/2(j - 1) + l/2(n - j) = (n - l)/2 для всех 1 < j < n. a) Пусть n = 2A; + 1 — нечетно. Тогда игрок 2 имеет такую чистую стратегию j* = (п + 1)/2 = к + 1, что air = |г - (п + 1)/2| = |г — fc — 1| <fc = (n — l)/2 для всех г = 1,2,... , п. b) Предположим, что п — 2к — четно. Тогда игрок 2 имеет такую стратегию у* - (0,0,..., 1/2,1/2,0,..., 0), где ^ = 1/2, ^+1 - 1/2, ту* = 0, j ^ к + 1, j ^ А;, и ^0",y*) = l/2|i-fc| + l/2|i-fc-l|< < l/2fc + l/2(fc - 1) = (n - l)/2, для всех 1 < i < п.
32 1. Матричные игры Теперь, используя теорему, нетрудно убедиться, что значение игры v — (п — 1)/2, игрок 1 имеет оптимальную стратегию я*, а оптимальная стратегия игрока 2 равна j*, если n = 2fc 4- 1, и у*, если п = 2к. 1.7.2. Приведем результаты, являющиеся непосредственным следствием теоремы п. 1.7.1. Теорема. Пусть Г^ — (га х п)-игра. Для того, чтобы ситуация в смешанных стратегиях (х*, у*) была равновесной в игре Та, необходимо и достаточно выполнение равенства max K(i,y*) = min K(x*,j). (1.7.6) 1<г<т l<J<Ti Доказательство. Необходимость. Если (ж*,у*) — ситуация равновесия, то согласно теореме п. 1.7.1 имеем K(i,y*)<K(x*,y*)<K(x\j) для всех г G {1,..., га}, j (Е {1,..., п}. Тогда K(i,y*)<K(x*,j) для всех г и j. Предположим противное, т. е. (1.7.6) не выполнено. Тогда max К (г, у*) < min K(x*,j). l<i<m 1<:/<п Следовательно, имеют место неравенства m К(х*,у*) = J2^K(i,y*) < max K(i,y*) < min K{x\j) < L—' 1<ъ<т l<J<n г=1 n <^V]K(x*J) = K(x*,y*). 3 = 1 Полученное противоречие и доказывает необходимость условия теоремы. Достаточность. Пусть пара смешанных стратегий (ж, у) такова, что maxif(i,y) = mM(i,j). Покажем, что в этом случае (х,у) является ситуацией равно- i __-7' весия в игре Г^. Справедливы соотношения п min K(xJ) <y^fjjK{x,j) = К(х,у) = z—' 1<г<га г=1 Следовательно, мы имеем if (г, у) < max #(г,у) = К(х,у) = min if(x,j) < K(xJ) l<i<m lSJ^n для всех 1 < i < m и 1 < j < п. Тогда по теореме п. 1.7.1, ситуация (х,у) образует равновесие в игре Г^.
§1.7. Свойства оптимальных стратегий и значения игры 33 Из доказательства следует, что любое из чисел в (1.7.6) равно значению игры. 1.7.3. Теорема. Для матричной игры Та справедливо следующее соотношение: maxmin K(x,j) — va — minmaxif (г,у), (1-7.7) х j у i причем экстремумы по смешанным стратегиям х и у в (1.7.7) достигаются на оптимальных стратегиях игроков. Теорема является следствием теорем п. 1.3.4, 1.7.2 и ее доказательство предоставляем читателю. 1.7.4. Теорема. В матричной игре Га множества оптимальных смешанных стратегий X* и У* игроков являются выпуклыми многогранниками. Доказательство. По теореме п. 1.7.1, множество X* является множеством всех решений системы неравенств xaJ > vA, j e N, хи = 1, х > О, где и— (1,..., 1) Е Дт, va — значение игры. Таким образом, X* — выпуклое многогранное множество (1.5.1). С другой стороны, X* С X, где X — выпуклый многогранник (1.5.3). Следовательно, X* — ограничено. Следовательно, по теореме п. 1.5.3 множество X* — выпуклый многогранник. Аналогично доказывается, что Y* — выпуклый многогранник. 1.7.5. В качестве примера использования теоремы п. 1.7.3 приведем геометрическое решение игр с двумя стратегиями у одного из игроков (2 х п) и (га x 2)-игры. Такой подход в литературе также называется графоаналитическим методом решения игр. В основе графоаналитических методов лежит свойство оптимальных стратегий ж* и у* доставлять внешние экстремумы в равенстве va = maxmin if (ж, j) = minmaxif (г, у). х j У г Пример 11. ((2хп) -игра.) Рассмотрим игру, в которой игрок 1 имеет две стратегии, а игрок 2 — п стратегий. Матрица имеет вид А __ Г ап а12 ... ain 1 L «21 ^22 - - - Oi2n J ' Пусть игрок 1 выбрал смешанную стратегию х — (^, 1 — ^), а игрок 2 чистую стратегию j Е N. Тогда выигрыш игрока 1 в ситуации (x,j) равен if(x,j)=^ii + (l-0«2i- (1.7.8) Геометрически он представляет собой прямую в координатах (^, К). Таким образом, каждой чистой стратегии j соответствует своя прямая. Графиком функции Н(0 = mm K(x,j) J является нижняя огибающая семейства прямых (1.7.8). Эта функция вогнута как нижняя огибающая семейства вогнутых (в данном случае линейных) функций (п. 1.5.5).
" 34 1. Матричные игры Точка ^*, в которой достигается максимум функции Н(%) по ^ Е [0,1], и дает требуемое оптимальное решение х* = (^*, 1 — <$;*) и значение игры ад = Н({;*). Для определенности рассмотрим игру с матрицей А = Для каждого.?' = 1,2,3,4 имеем: if (ж, 1) = -f + 2, if (ж, 2) = 2f+ 1, #(ж,3) = -3^+4, JK"(x, 4) = 4^. Нижняя огибающая Н(%) семейства прямых {K(xyj)} и сами прямые ЛГ(а:7 j), j = 1,2, 3,4 изображены на рис. 1.1. Максимум Н({;*) функции Н(%) находится на пересечении первой и четвертой прямых. Таким образом, ^* — решение уравнения 4Г = -Г + 2 = г>л. К(х,2) К(х,4) Рис. 1.1. Геометрическое решение (2 х п)-игры Откуда получаем оптимальную стратегию х* = (2/5,3/5) игрока 1 и значение игры va = 8/5. Оптимальную стратегию игрока 2 найдем из следующих соображений. Заметим, что в рассматриваемом случае К(х*, 1) = К(х*,4) = va = 8/5.
§1.7. Свойства оптимальных стратегий и значения игры ' 35 Для оптимальной стратегии у* = (vhvhvhvt) должно выполняться равенство уА = К{х\у^=т]1К{х\1)^г]1К{х\2) + г]1К{х\Ъ)Л-г11К{х\А). При этом К(х*,2) > 8/5, К(ж*,3) > 8/5; следовательно, 77^ = ^з = 0, а, 7?*,т?| можно найти из условия (1.7.1): %* +4т74* = 8/5, 2t7i = 8/5- Таким образом, rj* = 4/5, 7?| = 1/5 и оптимальная стратегия игрока 2 равна у* = (4/5,0,0,1/5). Пример 12 ((m x 2)-игра). В этом примере две стратегии имеет игрок 2, а игрок 1 имеет т стратегий. Тогда матрица А имеет вид Г ац а12 1 ^ | a2i ^22 L Qml OLm2 J Анализ этой игры проводится аналогично. Действительно, пусть у = (77,1 — т?) — произвольная смешанная стратегия игрока 2. Тогда выигрыш игрока 1 в ситуации (г, у) равен К(г, у) = азд + ai2(l - г/) = (ац - ai2)v + ai2. График функции if (г, у) — прямая. Рассмотрим верхнюю огибающую этих прямых, т. е. функцию H(rf) = тах[(ац - ai2)r] + ai2). г Функция Н(rj) — выпуклая (как верхняя огибающая семейства выпуклых функций). Точка минимума rj* функции H(rj) дает оптимальную стратегию у* = (rf, 1 — 77*) и значение игры va — H(rj*) = min H(rj). r?G[0,l] 1.7.6. Приведем результат, полезный при отыскании решения игры. Теорема. Пусть х* — (^*,---,Cm) u У* — {vh-'-iVn) ~~ оптимальные стратегии в игре Та и va - значение игры. Тогда для любого г, при котором К (г, у*) < va, имеет место равенство ^* = 0, а для любого j такого, что va < K(x*,j) имеет место равенство ту* = 0. Обратно, если %* > 0, то K(i,y*) = va, Q> если r/j > 0, то K(x*,j) =vA- Доказательство. Допустим, что для некоторого го G M, K(i0,y*) < va и ^* ф 0. Тогда получаем, что K(i0,y*)&<VAZt>. Для всех г е M, K(i,y*) < va, поэтому K{i,y*)a<vA$- Следовательно, К(х*,у*) < va, что противоречит тому, что va — значение игры. Вторая часть теоремы доказывается аналогично. Этот результат является аналогом теоремы о дополняющей нежесткости [Ху, 1974] или, как ее еще называют, канонической теоремой равновесия для задачи линейного программирования [Гейл, I960].
36 1. Матричные игры Определение. Чистая стратегия г Е M(j E N) игрока 1 (2) называется существенной или активной стратегией, если существует оптимальная стратегия х* — (^1» - - - >d) (У* — (Vii- - - j^n)) этого игрока, для которой ^* > 0 (77* > 0). Из определения и последней теоремы следует, что для каждой существенной стратегии4^ игрока 1 и любой оптимальной стратегии у* Е У* игрока 2 в игре Гд выполняется равенство K(i,y*) =агу* =vA. Аналогичное равенство имеет место для любой существенной стратегии j E N игрока 2 и оптимальной стратегии x*Gl* игрока 1 K(x*J) = ajx* = vA- Если для чистой стратегии г Е М и смешанной стратегии у G Y выполняется равенство ад = f^TO говорят, что стратегия г уравновешивает смешанную стратегию у в игре Гд. Таким образом, в данной терминологии теорему можно переформулировать следующим образом. Если чистая стратегия игрока существенна, то она уравновешивает любую оптимальную стратегию противника. Знание спектра оптимальной стратегии упрощает нахождение решения игры. Действительно, пусть Мх* — спектр оптимальной стратегии ж* игрока 1. Тогда каждая оптимальная стратегия у* = (77J,... ,77*) игрока 2 и значение игры v удовлетворяют системе неравенств a-ty* = v, г Е Мх*, ад* <v, ieM\Mx*, f>; = i, ry*>0, jeN. i=i При этом в спектр Мх* любой оптимальной стратегии х* могут входить лишь существенные стратегии.. 1.7.7. В заключение параграфа приведем аналитическое решение игры «нападение- защита» (см. пример 4 п. 1.1.3) Пример 13 [Sakaguchi, 1973]. Рассмотрим игру с (п х п) матрицей А. А = PiTi т\ ... п Т2 fitt - - - Т2 Т~п 7~п . . . Рп^п Здесь Ti > 0 — ценность, а 0 < ft < 1 - вероятность поражения объекта d,i = 1, 2,..., п при условии, что он защищен. Пусть т\ < Т2 < ... < тп. Определим функцию <р от целых чисел 1, 2,..., п следующим образом: п п m = {^(1 - аг1 -1}/ 5>,(i - ft))-1 (1J-9) i=k i=k и пусть / Е {1,2,..., n} — целое число, доставляющее максимум функции cp(k), т. е. tp{l) = max (p{k). (1.7.10) fc=l,2,...,n
§1.7. Свойства оптимальных стратегий и значения игры 37 Установим свойства функции ip(k). Обозначим символом R один из знаков отношения порядка {>,=,<}. В этом случае cp{k)Rcp(k 4-1) тогда и только тогда, когда rkRip{k), к = 1,2,..., п - 1, т0 = 0. Действительно, из (1.7.9) получаем fV- (1(;»r«))-+^>°^+"+y- "iff").»- (1.7.11) (1.7.12) Тогда имеем *>(*) -1 Т/с Vn {\ У^ч.! + *>(k) = *>(* + 1). (1.7.13) Заметим, что коэффициент в (1.7.13), стоящий после квадратных скобок, положительный. Поэтому из (1.7.13) получаем эквивалентность соотношений (1.7.11) и (1.7.12). Теперь так как ip(l) > ip(l — 1) или ср(1) > <р(14-1), (в этом случае t/_i < ip(l — 1) или 7"z > ^(0)» т0 из соотношений (1.7.10), (1.7.11) имеем неравенство Tl-l < 1р{1) < Т\. (1.7.14) Найдем оптимальные стратегии в игре Гд. Напомним, что мы предполагаем выполненными неравенства т\ < т^ < ... тп. Тогда оптимальными смешанными стратегиями х* — (й? - - - »d) и У* — (vli - - - iVn) игроков 1 и 2 соответственно являются следующие: 0, i = l,...,J-l, (r.a-^rvE^a-^))-1, * = *,...,* 3=1 * _ f 0, j = 1,...,/-1, ч Ъ | (г,--^(0)/(г,-(1-^)), j = /,..., п, (1.7.15) (1.7.16) а значение игры равно vA = у>(/). Действительно, ^* > 0,г = 1,2,... , п и Х)Г=1 С* = *- ^3 определения </?(/) и (1.7.14) получаем, что rjj > 0, j = 1, 2,..., п и $3j=i ^j = *- Пусть K(x*,j) — выигрыш игрока 1 в ситуации (x*,j), аналогично if (г, у*) — выигрыш в ситуации (г, у*). Подставляя (1.7.15), (1.7.16) в функцию выигрыша и используя предположение о неубывании ценностей объектов, а также (1.7.14), получаем K(x\j) n Е Er^* = v>(i) + (E^1 - ^))_1) > *>(*). j = 1^-1, '^-(i-&>,-$ = *>(*), j = «,n,
38 1. Матричные игры K(iv') = l n-^l)'i = 1,l~1' — У,У ] \ П-т,(1-&)г,* = 1р(1), i = l,n. Таким образом, для всех г, j = 1,... ,?г выполняются неравенства K(i,y')<<p(l)<K(x\j). Тогда по теореме п. 1.7.1, х* и у* — оптимальные стратегии игроков и va = Ц>(1) — значение игры. Игра решена. § 1.8. Доминирование стратегий Сложность решения матричной игры возрастает с увеличением размеров матрицы А. Вместе с тем, в ряде случаев анализ матрицы выигрышей позволяет сделать вывод, что некоторые чистые стратегии не входят в спектр оптимальной стратегии. Это приводит к замене первоначальной матрицы на матрицу выигрышей меньшей размерности. 1.8.1. Определение. Говорят, что стратегия х1 игрока 1 доминирует стратегию х" в (га х п)-игре Та, если для всех чистых стратегий j G {1,..., п} игрока 2 выполняются неравенства x'aj > х"а?. (1.8.1) Аналогично, стратегия у' игрока 2 доминирует его стратегию у'1', если для всех чистых стратегий г G {1,..., га} игрока 1 агУ' < сцу". (1.8.2) Если неравенства (1.8.1), (1.8.2) выполняются как строгие, то говорят о строгом доминировании. Частным случаем доминирования стратегий является их эквивалентность. Определение. Будем называть стратегии х' и х" игрока 1 эквивалентными в игре Та, если для всех j G {1,..., п} х'а? — х" о?, и обозначать xf ~ х". Для двух эквивалентных стратегий х' и х" выполняется (для каждого у G Y) равенство К{х\у) = К{х\у). Аналогично, стратегии у' и у" игрока 2 эквивалентны {у' ~ у") в игре Г^, если для всех г Е {1,... ,т} di у1 = aiy,/. Отсюда имеем, что для любой смешанной стратегии х G X игрока 1 выполняется равенство К{х,у') = К(х,у"). Для чистых стратегий введенные определения трансформируются следующим образом. Если чистая стратегия if игрока 1 доминирует стратегию г" , а чистая стратегия j' игрока 2 — стратегию j" того же игрока, то для всех г — 1,..., га; j — 1,..., п выполняются неравенства Oj%'j :^_ ai" j I Q>ij' _^ aijn.
§1.8. Доминирование стратегий 39 Это можно записать в векторной форме следующим образом: o>i' > &%" » &3 < о? . Эквивалентность пар стратегий г', г"(У ~ г") и j'\j"(j' ~ j") означает выполнение равенства а^/= а?у/(а-7 = а3 ). Определение. Будем говорить, что стратегия х"(у") игрока 1(2) доминируема, если существует стратегия х' ф х" {у' Ф у")этого игрока, которая доминирует х"{у"). В противном случае стратегия х''{у") недоминируема. Аналогично стратегия хп{у") игрока 1 (2) называется строго доминируемой, если существует стратегия х'{у') этого игрока, которая строго доминирует х"(у"), т. е. для всех j — l,n(i = 1,га) выполняются неравенства х'а3 > х"а\ aiy' < aiy". В противном случае говорят, что стратегия х"{у") игрока 1 (2) недоминируема строго. 1.8.2. Покажем, что игроки могут не использовать доминируемые стратегии. Этот факт устанавливает следующее утверждение. Теорема. Если в игре Та стратегия х' одного из игроков доминирует оптимальную стратегию х*, то стратегия х1 также оптимальна. Доказательство. Пусть, для определенности, х' и х* - стратегии игрока 1. Тогда в силу доминирования х'а3 > х*о? для всех j = 1,п. Следовательно, в силу оптимальности стратегии х* (см. 1.7.3), получаем Va — minx*aJ > minx'a3 > mina;*^ = va з з j для всех j = l,n. Следовательно, согласно теореме п. 1.7.3, стратегия х' также оптимальна. Итак, оптимальная стратегия может быть доминируема лишь оптимальной стратегией. С другой стороны, никакая оптимальная стратегия не является строго доминируемой, поэтому игроки не должны использовать строго доминируемые стратегии. Теорема. Если в игре Та стратегия х* одного из игроков оптимальна, то ж* — недоминируема строго. Доказательство. Пусть, для определенности, х* — оптимальная стратегия игрока 1. Предположим, что х* — строго доминируема, т. е. существует такая стратегия x'El, что х'а3 > х'а3, j = 1,2,...,п. Следовательно, minx'a3 > minx*a3. 3 3 Но в силу оптимальности я* Е X выполняется равенство minx*a-7 = vа- Тогда справед- з ливо строгое неравенство maxminxa-7 > va, х j' что противоречит тому, что va — значение игры (1.7.3). Полученное противоречие доказывает теорему.
40 1. Матричные игры Понятно, что обратное утверждение, вообще говоря, неверно. Так, в игре с мат- - \ 1 ° 1 1 о 1 рицеи 1-я и 2-я чистые стратегии игрока 1 недоминируемы строго, но они I неоптимальны. С другой стороны, интуитивно понятно, что если г-я строка матрицы А ( j -й столбец) доминируема, то нет необходимости приписывать ей (ему) положительную вероятность. Таким образом, для нахождения оптимальных стратегий вместо игры Та, достаточно решить подыгру Г^', где А! — матрица, получаемая из матрицы А вычеркиванием доминируемых строк и столбцов. Прежде чем перейти к точной формулировке и доказательству этого результата, введем понятие расширения смешанной стратегии х на г-м месте. Если х — (Съ - - - > Cm) ^ I и 1 < i < m + 1, то расширением стратегии х на г-м месте будем называть вектор Xi = (^i,..., Сг-ъ 0, &?---> Cm) ^ #m+1. Так, расширением вектора (1/3,2/3,1/3) на 2-м месте является вектор (1/3,0,2/3,1/3); расширением на 4-м месте — вектор (1/3, 2/3,1/3, 0); расширением на 1-м месте — вектор (0,1/3, 2/3,1/3). 1.8.3. Теорема. Пусть Та — (тп х п)-игра. Предположим, что г-я строка матрицы А доминируема (т. е. доминируема чистая стратегия г первого игрока) и пусть Г а' — игра с матрицей А', получаемой из А вычеркиванием г-й строки. Тогда справедливы следующие утверждения. 1) уА = vA'- 2) Всякая оптимальная стратегия у* игрока 2 в игре Та' является оптимальной и в игре Та- 3) Если х* — произвольная оптимальная стратегия игрока 1 в игре Г а' и%1 ~~ расширение стратегии х* на г-м месте, то х* — оптимальная стратегия этого игрока в игре Та- 4) Если г-я строка матрицы А строго доминируема, то произвольная оптимальная стратегия х* игрока 1 в игре Та может быть получена из некоторой оптимальной стратегии х* в игре Та' расширением на г-м месте. Доказательство.и Не нарушая общности, можно предположить, что доминируемой является последняя m-я строка. Пусть х = (Сь--->Ст) ~~ смешанная стратегия, которая доминирует строку т. Если Cm = 0, то из условия доминирования для всех j — 1, 2,..., п получаем т т—1 г=1 г=1 т—1 Х)6 = 1, Сг>0, г = 1,...,т-1. (1.8.3) В противном случае (Ст > 0), рассмотрим вектор х1 — (Ci, - -. ,Cm)? ГДе с, Ui/a-tm), Mm, (L84) ъг 0, г = т. v J
§ 1.8. Доминирование стратегий 41 Компоненты вектора х' неотрицательны, (^ > 0, г = 1,... , т) и Y^t=\ ^ = 1- С другой стороны, для всех j = 1,..., п имеем 1 m ^ m 1 ^m i=l * Cm i=l 1 ra—1 ^ ra— 1 1 ^m i=l X W i=l Учитывая (1.8.4), получаем ra—1 m—1 / v Siaijf > O^mj / v Si — araj> J — 15 - - - ? n> i=l i=l m—l X^i = l, C*>0, г = 1,...,т-1. (1.8.5) i=l Таким образом, всегда из доминирования т-й строки следует, что она не превосходит выпуклую линейную комбинацию остальных m — l строк [(1.8.5)]. Пусть (х*,у*) Е ^(ГаО — ситуация равновесия в игре ГА,, х* = (^*,... , Ci-i)> у* = (ту*,..., ту*). Для доказательства утверждений 1,2,3 теоремы достаточно показать, что К(х^, у*) = иЛ/ и ' n m—l J] а*Я* < va' < 5Z а*^* + ° ' а^' (1.8.6) j=l i=l для всех i = 1,..., m, j = 1,..., п. Первое равенство очевидно, а из оптимальности стратегий (х*, у*) в игре Гд/ следует выполнение неравенств п га—1 Yla^j - VA' - Yl ai&h { = 1'm~1' 3 = M*- (1.8.7) j=l i=l Из (1.8.7) очевидным образом следует правое из неравенств (1.8.6). Докажем левое неравенство. Для этого достаточно показать, что п 3 = 1 Из неравенств (1.8.3), (1.8.5) получаем п п га—1 га—1 j=l j=l i=l i=l что и доказывает первую часть теоремы.
42 1. Матричные игры Для доказательства второй части теоремы (утверждение 4) достаточно заметить, что в случае строгого доминирования m-й строки, неравенства (1.8.3), (1.8.5) выполняются как строгие для всех j = 1, п. Поэтому п п га—1 j = l j = l i=l Тогда из теоремы п. 1.7.6 получаем, что у любой оптимальной стратегии игрока 1 в игре Та rn-я компонента равна нулю. Теорема доказана. Сформулируем теорему о доминировании для второго игрока, доказательство которой опустим. Теорема. Пусть Та — (т х п)- игра. Предположим, что j-й столбец матрицы А доминируем и пусть Гд/ — игра с матрицей А!, полученной из матрицы А вычеркиванием j-го столбца. Тогда справедливы следующие утверждения: 1) vA = vA> - 2) Всякая оптимальная стратегия х* игрока 1 в игре Гд/ является оптимальной и в игре Та . 3) Если у* — произвольная оптимальная стратегия игрока 2 в игре Та> и у* — расширение стратегии у* naj-м месте, тоЩ — оптимальная стратегия игрока 2 в игре Та- 4) Далее, если j-й столбец матрицы А строго доминируем, то произвольная оптимальная стратегия у* игрока 2 в игре Та может быть получена из некоторой оптимальной стратегии у* в игре Та' расширением на j-м месте. 1.8.4. Обобщим полученные результаты и подведем итоги. Теоремы п. 1.8.3 дают алгоритм понижения размерности матрицы игры. Так, если строка (столбец) матрицы не больше (не меньше) некоторой выпуклой линейной комбинации остальных строк (столбцов) этой матрицы, то для нахождения решения игры можно эту строку (столбец) вычеркнуть. При этом расширение оптимальных стратегий в игре с усеченной матрицей даст оптимальное решение исходной игры. Если неравенства выполнялись как строгие, то множество оптимальных стратегий в первоначальной игре можно получить расширением множества оптимальных стратегий усеченной игры, в противном случае при такой процедуре оптимальные стратегии можно потерять. Поясним применение данных теорем на примере. Пример Ц. Рассматривается игра с матрицей [2110] 2 3 .1 3 3 12 0' L 0 3 0 б J Так как 3-я строка аз превосходит первую (аз > сц), то, вычеркивая первую строку, получаем Г 2 3 1 3 1 Аг =
§1.9. Вполне смешанные и симметричные игры 43 В этой матрице 1-й стобец а1 превосходит 3-й столбец а3. Поэтому получаем А2 = 3 1 3 1 2 О 3 0 6 В последней матрице никакая строка (столбец) не доминируется другой строкой (столбцом). Вместе g тем, 1-й столбец а1 превосходит выпуклую линейную комбинацию столбцов а2и а3, так как а1 > 1/2а2 + 1/2а3, поскольку 3 > 1/2 + 1/2 . 3, 1 = 1/2 - 2 + 1/2 . 0, 3 = 0-1/2 + 1/2-6. Исключая 1-й столбец, получаем " 1 2 0 3 " 0 6 В этой матрице 1-я строка эквивалентна смешанной стратегии х = (0,1/2,1/2), поскольку 1 = 1/2 - 2 + 0 - 1/2, 3 = 0- 1/2 + б - 1/2. Таким образом, исключая 1-ю строку, получаем матрицу " 2 0 0 б Оптимальные стратегии х* и у* игроков в игре с этой матрицей равны х** = у* — (3/4,1/4), при этом значение v игры равно 3/2. Последняя матрица получена вычеркиванием первых двух строк и столбцов, поэтому оптимальными стратегиями игроков в исходной игре являются расширения указанных стратегий на 1-м и 2-м местах, т. е. х*2 — У\2 — (0,0,3/4,1/4). §1.9. Вполне смешанные и симметричные игры Знание спектра оптимальной стратегии упрощает нахождение решения игры. В спектр оптимальной стратегии могут входить лишь существенные чистые стратегии игрока. При этом никакая существенная стратегия не является строго доминируемой, что непосредственно следует из теорем §1.8. 1.9.1. Рассмотрим класс игр, в котором знание спектра достаточно для нахождения решения игры. Определение. Стратегия х(у) игрока 1 (2) называется вполне смешанной, если ее спектр состоит из множества всех стратегий игрока, т. е. Мх = M(Ny = N). Ситуация равновесия (х*,у*) называется вполне смешанной, если стратегии х* и у* — вполне смешанные. Игра Та называется вполне смешанной, если каждая ситуация равновесия в ней является вполне смешанной. Следующая теорема утверждает, что вполне смешанная игра имеет единственное решение.
44 1. Матричные игры Теорема. Вполне смешанная (m x n)-uepa Та имеет единственную ситуацию равновесия (х*чу*) и квадратную матрицу (т — п). Если va ф О, то матрица А невырожденная и ж У VA Доказательство. Пусть ж* = (^,...,d) ^ X* и у* = (77J,... ,r?*) G У* — произвольные оптимальные стратегии игроков, a va — значение игры Та- Поскольку Г а ~ вполне смешанная игра, ж* и у* — вполне смешанные стратегии, которые (и только они) являются решениями систем линейных неравенств п. 1.7.6: ха3 — va, xu = 1, x > 0, j = 1,..., n, (1.9.4) yai = VA, yw = 1, у > 0, г = 1,..., га, (1.9.5) где w = (1,..., 1) е i?m, w = (1,..., 1) G #n. Покажем, что решение вполне смешанной игры (ж*,у*) единственно. Множества Х*,У*, заданные (1.9.4) и (1.9.5) являются непустыми выпуклыми многогранниками и, следовательно, имеют крайние точки. Согласно второй из теорем п. 1.5.2 имеем га < rank[al,..., ап, и] = rank[A, и] < га, (1.9.6) п < ranfc[ai,... ,am,w] = ranfc[A, ги] < n. (1.9.7) Теперь из этой же теоремы следует, что множества X*, У* имеют по одной крайней точке и, следовательно, состоят только из них (как выпуклые многогранники, содержащие единственную крайнюю точку). Единственность решения (ж*, у*) доказана. Пусть va — 0. Тогда однородная система ха3 =vA, j =T7n имеет ненулевое решение, откуда rank(A) < га. Поскольку rank[A,u] = га, имеем: rank(A) = га — 1. Аналогично, из (1.9.5) и (1.9.7) следует, что rank(A) = п — 1. Следовательно, n = m. Пусть г;^ 7^ 0- Тогда ranfc(A) = ran/c[A, vau] — rank[A,u] = m, ranfc(.A) = ranfcf-AjVAw] = ranfc[A, гу] = п. Отсюда получаем n = m = rank(A), т. е. А — невырожденная матрица. Система уравнений x*A = vau имеет решение х* == vauA~1. Запишем решение системы Ay* = vau : у* = A~lvAu. и A~l иА~хи A~lu иА-хи 1 uA~lu' (1.9.1) (1.9.2) (1.9.3)
§1.9. Вполне смешанные и симметричные игры 45 Тогда vA = 1 uA~lu' Теорема доказана. Справедливо и обратное утверждение, доказательство которого предоставляем читателю. Теорема. Пусть в (т х т) -игре Та матрица А является невырожденной. Тогда, если игрок 2 имеет вТа вполне смешанную оптимальную стратегию, то игрок 1 имеет единственную оптимальную стратегию х* (1.9.1). Если в игре ТА вполне смешанную оптимальную стратегию имеет игрок 1, то игрок 2 имеет единственную оптимальную стратегию у* (1.9.2), при этом значение игры va определено в (1.9.3). Пример 15 ((2 х 2) - игры). Пусть задана (2 х 2)-игра с матрицей А = an ai2 OL21 «22 Произвольная смешанная стратегия х игрока 1 может быть записана в виде, х = (^,1 — ^), где 0 < ^ < 1. Аналогично, смешанная стратегия игрока 2 имеет вид г/ = (77,1 — 77), где 0 < 77 < 1. Выигрыш в ситуации (х,у) равен К(х,у) =f[ail77 + ai2(l -г?)] + (1 - 0[СВД + «22(1 -77)]. Предположим теперь, что в игре Г^ нет ситуации равновесия в чистых стратегиях (в противном случае решение просто найти из равенства минимакса и максимина) и пусть х* = (^*, 1—^*), у* = (ту*, 1—гу*) — произвольные оптимальные стратегии соответственно первого и второго игроков. Ситуация (х*,у*) и игра ТА являются вполне смешанными (^* > 0 и ту* > 0). Поэтому по теореме п. 1.9.1 в игре существует единственная пара оптимальных смешанных стратегий, которые являются решением системы уравнений «1177* + (1 -77*)ai2 =VA, «21Г7* + (1 -77*)а22 =VA, «иГ + (1-Г)«21 =VA, «12Г + (1-Г)«22=г;л. Если добиваться того, чтобы va ф 0 (например, если все элементы матрицы А положительны, то это неравенство выполняется), то решение игры vA = А_1 , х* = vAuA~l, у* = vAA~lu, где и = (1,1). Так, легко проверить, что у матрицы А = I не существует седловой точки. Обратная матрица А~1 равна А~1 = Тогда vA = 1/3, х* = (2/3,1/3), у* = (1/3,2/3).
46 1. Матричные игры 1.9.2. Исследуем частный класс игр с матрицами специального вида. Определение. Игра Гд с квадратной матрицей А называется симметричной, если матрица А — кососимметричная, т. е. если ац — —ctji для всех г и j. В этом случае все диагональные элементы матрицы А равны 0, т. е. ац — 0 при всех г. Для кососимметричной матрицы А всегда выполняется условие АТ — — А. Поскольку матрица А квадратная, множества смешанных стратегий игроков совпадают, т. е. X = Y. Докажем теорему о свойствах решения симметричной игры Г^, которая полезна при отыскании ситуации равновесия. Теорема. Пусть Га — симметричная игра. Тогда va=0 и множества оптимальных стратегий игроков совпадают, т. е. "У* Л/"* Доказательство. Пусть А — матрица игры и х G X — произвольная стратегия. Тогда хАх = хАтх — —хАх. Следовательно, хАх = 0. Пусть (х*,у*) Е Z(A) — ситуация равновесия, at;^- значение игры. Тогда va = х*Ау* < х*Ау, уа — х*Ау* > хАу* для всех х Е X, у Е Y. Следовательно, vA < х*Ах* = 0, vA > У*Ау* = 0. Откуда получаем уА = 0. Пусть стратегия х* оптимальна в игре Та- Тогда (см. теорему п. 1.7.1) х*А > 0. Однако отсюда следует, что х*(—Ат) > 0, поэтому х*Ат < 0. Таким образом, получаем Ах* < 0. Значит, по той же теореме п. 1.7.1, х* — оптимальная стратегия игрока 2. Таким образом, доказано, что X* С Y*. Обратное включение доказывается аналогично. В дальнейшем на основании равенства X* = У*, говоря об оптимальной стратегии игрока в симметричной игре, мы не будем указывать, о каком именно игроке идет речь. Пример 16. Решим игру с матрицей А = Пусть х* = (Ci»С2 ? Сз) — оптимальная стратегия в игре Г^. Тогда должны выполняться неравенства Q - Q > о, ЧГ + S > о, й - Й > о, n q о, $+&+ S = 1. й > 0, в > 0, Q > 0. 1 'У-5; 0 -1 1 1 0 -1 -1 1 0
§ 1.9. Вполне смешанные и симметричные игры Покажем, что эта игра вполне смешанная. Действительно, пусть ^* стемы неравенств (1.9.8) получаем систему 47 0. Тогда из си- которая не имеет неотрицательного решения. Аналогичные рассуждения показывают невозможность случаев Q ~ 0 и ^з — 0- Поэтому игра Г^ — вполне смешанная. Следовательно, компоненты ^*,^2>й являются решением системы Й+Й+й = 1, &>0, г = 1,2,3. Эта система имеет единственное решение. Оптимальной стратегией является вектор ж* = (1/3,1/3,1/3). Пример 17. Решим дискретную игру типа дуэли с пяти шагов и одним выстрелом у каждого игрока, сформулированную в п. 1.1.4 (см. пример 3). Матрица А выигрышей игрока 1 является симметричной и имеет вид А = Заметим, что 1-я стратегия каждого игрока (1-я строка и 1-й столбец матрицы) строго доминируема, поэтому она не может быть существенной и ее можно вычеркнуть. В полученной усеченной матрице 0 3 7 11 15 -3 0 -1 2 5 -7 1 0 -7 -5 -11 -2 7 0 -15 -15 -5 5 15 0 0 1 2 5 1 0 -7 -5 -2 7 0 -15 -5 5 15 0 А' не все стратегии являются существенными. Действительно, из симметричности игры Та' следует, что V& — 0. Если бы все стратегии были существенными, то оптимальная стратегия х* была бы решением системы уравнений x*a'j =0, j = 2,3,4,5, E*? = i> i=2 которая решения не имеет. Перебирая варианты, остановимся на существенной подматрице А!\ составленной из строк и столбцов матрицы А с номерами 2, 3 и 5: А!' = 0 1 -5 -10 5 5-5 0
48 1. Матричные игры Игра с матрицей А!' является вполне смешанной и имеет единственное решение у = ж = (5/11,5/11,1/11). Теперь в исходной игре рассмотрим стратегии ж* = у* = (0,5/11,5/11,0,1/11), которые и являются оптимальными. Таким образом, окончательно имеем: va = 0, ситуация равновесия (х*,у*) — единственная. С точки зрения правил игры получаем, что дуэлянту не следует стрелять на 1-м шаге, он должен стрелять с равной вероятностью после 2-го и 3-го шагов, никогда после 4-го шага и лишь с малой вероятностью стрелять в упор. §1.10. Итеративные методы решения матричных игр Распространенный способ решения матричной игры путем сведения ее к задаче линейного программирования обладает тем недостатком, что процесс решения задачи линейного программирования существенно усложняется для матриц, большой размерности. В таких случаях обычно используют методы декомпозиции задачи линейного программирования, когда вместо решения задачи с исходной матрицей строится координирующая задача с матрицей, у которой мало строк, но много столбцов. На каждой итерации координирующей задачи решается некоторая совокупность вспомогательных задач линейного программирования с матрицами меньших размерностей. К сожалению, декомпозиционные методы эффективны лишь для матриц специального вида (например, блочно-диагональных). 1.10.1. Итеративный метод Брауна — Робинсона (метод фиктивного разыгрывания [Robinson, 1950]). Идея метода — многократное фиктивное разыгрывание игры с заданной матрицей выигрыша. Одно повторение игры будем называть партией. Пусть разыгрывается игра с (т х п) матрицей А — {a>ij}- В 1-й партии оба игрока выбирают совершенно произвольные чистые стратегии. В /с-й партии каждый игрок выбирает ту чистую стратегию, которая максимизирует его ожидаемый выигрыш против наблюдаемого эмпирического вероятностного распределения противника за (к — 1) партий. Итак, предположим, что за первые к разыгрываний игрок 1 использовал г-ю стратегию ^к раз (г = 1,..., т), а игрок 2 использовал j-ю стратегию г]к раз (j = 1,..., п). Тогда в (к + 1)-й партии игрок 1 будет использовать ijt+i-ю стратегию, а игрок 2 -- свою jfc+i-ю стратегию, где vk = maxY^dijVj =Yl<kk+1jVj з з и i i Пусть v — значение матричной игры Та- Рассмотрим отношения vk/k = maxY^aijtf/k = ^а1к^г}к/к, з з vk/k = mmJ2^i/k = J2ai^i/k* г i Векторы хк = (^i/k,... ,^/fc) и yk = (r]k/k,..., r]k/k) являются смешанными стратегиями игроков 1 и 2 соответственно, поэтому по определению значения игры имеем maxt;fc//c < v < minvk/k. к к
§1.10. Итеративные методы решения матричных игр 49 Таким образом, получен некоторый итеративный процесс, позволяющий находить приближенное решение матричной игры, при этом степень близости приближения к истинному значению игры определяется длиной интервала [maxvk/k,minvk/к]. Сходи- к к мость алгоритма гарантируется теоремой [Robinson, 1950]. Теорема. lim (mmvk /к) — lim (max v_k/k) = v. к—>оо к к—too к Пример 18. Найти приближенное решение игры с матрицей a = /з 7 a " 2 3 1 b 1 0 2 с 3 1 1 Обозначим как а, /3,7 стратегии игрока 1 и а, 6, с — стратегии игрока 2. Пусть сначала игроки выбрали стратегии a и а, соответственно. Если игрок 1 выбрал стратегию а, то игрок 2 может получить один из выигрышей (2, 1,3). Если игрок 2 выбрал стратегию а, то игрок 1 может получить один из выигрышей (2, 3, 1). Во 2-й и 3-й партиях игрок 1 выбирает стратегию /3, а игрок 2 выбирает 6, поскольку эти стратегии обеспечивают наилучший результат и т. д. В табл. 1.1 приведены результаты разыгрываний, в этой таблице указаны стратегия игрока, накопленный выигрыш и средний выигрыш. Таким образом, за 12 партий мы получили приближение решения х12 = (1/4,1/6, 7/12), у12 - (1/12,7/12,1/3), а точность может быть оценена числом 4/12 = 1/3. Основным недостатком рассмотренного метода является его малая скорость сходимости, которая уменьшается с ростом размерности матрицы. Это является также следствием немонотонности последовательностей vk/k и vk/k. Рассмотрим другой итеративный алгоритм, который избавлен от указанного недостатка. 1.10.2. Монотонный итеративный алгоритм решения матричных игр [Садовский, 1978]. Рассмотрим смешанное расширение Та = (X,Y,K) матричной игры с (га х п)-матрицей А. Обозначим как xN — (^, ...,^)е! приближение оптимальной стратегии первого игрока на N-й итерации и cN E RN, cN = (71^?---?7п0 — вспомогательный вектор. Алгоритм позволяет находить (точно и приближенно) оптимальную стратегию игрока 1 и значение игры v. В начале процесса игрок 1 выбирает произвольную чистую стратегию го, т. е. х° = (0,..., 1,..., 0) = щ0 и вектор с0 = а^0, где а^0 — строка матрицы А, имеющая номер го- Итеративный процесс строится следующим образом. Пусть выполнена N — 1 -я итерация и получены векторы х^-1,^-1. Тогда xN и cN вычисляются по следующим итеративным формулам: xN = (1 - с^)^-1 + aNxN, (1.10.1) cN - (1 - ам)^-1 + aNcN, (1.10.2) где параметр 0 < а^ < 1. Векторы xN и cN будут получены ниже.
50 1. Матричные игры Номер партии Г 2 3 4 5 6 7 8 9 10 11 12 Выбор игрока 1 a /3 /3 7 7 7 7 7 7 7 а а Таблица 1.1. Выигрыши игроков Выбор игрока 2 a Ь Ь Ь Ь Ь Ь с с с с Ь Выигрыш игрока 1 a (3 7 ~~2 3 Г 3 3 3 4 3 5 5 3 7 6 3 9 7 3 11 8 3 13 11 4 14 14 5 15 17 6 16 20 7 17 21 7 19 Проигрыш игрока 2 a b с ~~2 1 3~ 5 1 4 8 1 5 9 3 6 10 5 7 11 7 8 12 9 9 13 11 10 14 13 11 15 15 12 17 16 15 19 17 18 V т з~ 3/2 5/3 7/4 9/5 11/6 13/7 14/8 15/9 17/10 20/11 21/12 ч 21 ~к Г 1/2 1/3 3/4 5/5 7/6 9/7 10/8 11/9 12/10 15/11 17/12 Рассмотрим вектор cN г = (7^ 1, рых достигается минимум „N-l\ и выберем такие индексы j^, на кото- j = l,...,n J Jl JZ N-l 3k Обозначим через „N~l min 7^ 1 (1.10.3) и JN * = {ji,..., jk} множество индексов, на которых (1.10.3) достигается. Пусть TN С Та — подыгра игры Г^ с матрицей AN = {а^-1}, г = 1,..., га, a индекс jN-i ^ JN~1. Решаем подыгру и находим оптимальную стратегию xN Е X игрока 1. Пустьг" = (#\...,|Я). Вычислим вектор cN = YllLi ^ai- Пусть вектор cN имеет компоненты cN = (7^,..., 7^)- Рассмотрим (2 х ?г)-игру с матрицей ^N~1 7i z,N 7i *,N-1 1 -- In Z,N -- 7n J Найдем оптимальную стратегию (адг, 1 — oln), 0 < адг <1в этой подыгре. Подставляя найденные значения xN,cN,ctN в (1.10.1), (1.10.2), находим xN и cN. Процесс продолжаем до тех пор, пока не выполнится равенство адг = 0 или не будет достигнута требуемая точность вычислений. Сходимость алгоритма гарантируется следующей теоремой [Садовский, 1978].
§1.10. Итеративные методы решения матричных игр 51 Теорема. Пусть {xN}, {v_N} — итеративные последовательности, определяемые (1.10.1), (1.10.3). Тогда справедливы следующие утверждения: 1) UN > у/*-1, т- е- последовательность {г^-1} строго монотонно возрастает; 2) lim ziN = v_ iV-»oo (1.10.4) 3) lim x — x*, где x* G X* — оптимальная стратегия игрока 1. iV-»oo Пример 19. Решим, используя монотонный алгоритм, игру с матрицей А 2 1 3 3 0 1 1 2 1 Итерация 0. Пусть игрок 1 выбрал 1-ю строку матрицы .А, т. е. х* = (1,0,0) и с° = си = (2,1,3). Вычислим v° = гшггу!- =7$ = 1,J° = 2. Итерация 1. Рассмотрим подыгру Г1 С Г с матрицей Оптимальной стратегией х игрока 1 является вектор х — (0,0,1). Тогда с = аз — (1,2,1). Решаем (2хЗ)-игру с матрицей доминируем, поэтому рассмотрим матрицу 2 1 3 1 2 1 2 1 1 2 . Заметим, что 3-й столбец матрицы . В силу симметрии оптимальной стратегией игрока 1 в этой игре является вектор (адг, 1 — адг) = (1/2,1/2). Вычисляем х1 и с1 по формулам (1.10.1), (1.10.2). Имеем х1 = 1/2х° + 1/2Х1 = (1/2,0,1/2), с1 = 1/2с° + 1/2С1 - (3/2,3/2, 2), v1 = miiij 7} = 7i = 72 = 3/2 > y° = 1. Множество индексов имеет вид J1 = {1,2}. Итерация 2. Рассмотрим подыгру Г2 С Г с матрицей А = Первая строка в этой матрице доминируема, поэтому достаточно рассмотреть подматрицу "30" 1 2 Оптимальной стратегией игрока 1 в этой игре является вектор (1/4,3/4), поэтому х2-(0,1/4,3/4). " 2 3 1 1 ' 0 2
52 1. Матричные игры Вычислим с = 1/4а2 + 3/4аз = (3/2, 3/2,1) и рассмотрим (2 х 3)-игру с матрицей 3/2 3/2 1 3/2 3/2 2 Вторая стратегия игрока 1 доминирует первую, поэтому с*2 = 0. Таким образом, вычисления закончены х* = х1 — (1/2,0,1/2); значение игры равно v = у} = 3/2, а оптимальная стратегия игрока 2 имеет вид у* = (1/2,1/2,0) (см. пример 18). §1.11. Упражнения и задачи 1. Каждый из двух игроков показывает другому га пальцев на руке, (1 < га < n, n < 5) и одновременно называет число пальцев, которое, по его мнению, может показать противник. Если один игрок угадывает правильно, а другой неправильно, то тот, который угадал, выигрывает сумму, равную числу пальцев, показанных обоими игроками. Во всех остальных случаях выигрыши обоих игроков считаются нулевыми. (a) Сколько стратегий имеет каждый игрок при п = 3? (b) Построить матрицу игры для п = 2. 2. Распределение поисковых усилий. В одной из п ячеек игрок 2 прячет предмет. Игрок 1 имеет в распоряжении г ищущих, которые должны быть распределены по ячейкам для поиска предмета. Например, в первую ячейку могут быть направлены (г — 1) ищущих, один- bo вторую ячейку, а в остальные ячейки — ни одного и т. п. Предполагается, что известна вероятность обнаружения предмета в г-й ячейке (если он там находится) при поиске одним ищущим. Обнаружение предмета каждым из ищущих — независимые события. Выигрыш игрока 1 — вероятность обнаружения предмета при заданном распределении ищущих. (a) Вычислить число га чистых стратегий игрока 1. (b) Построить матрицу игры. 3. Поиск многих предметов. Игрок 2 прячет га черных шаров в п урнах. Общее количество шаров (черных и белых), находящихся в j-й урне, равно lj,j — 1,... ,гг, lj > га. Противник (игрок 1) старается обнаружить максимальное число черных шаров, имея возможность проверить одну из урн. При проверке г-й урны игрок 1 наугад (равновероятно) выбирает га шаров из U и его выигрыш равен математическому ожиданию количества черных шаров в выборке из т шаров. (a) Пусть в г-й урне спрятаны рг черных шаров. Вычислить вероятность $ц того, что выбранная из г-й урны группа г шаров содержит ровно j черных. (b) Построить матрицу игры. 4. Противовоздушная оборона. В системе ПВО объекта могут применяться три типа средств поражения воздушной цели (1, 2, 3), которые должны быть распределены между двумя стартовыми установками. У противника (игрока 2) имеется два типа самолетов (тип 1 и тип 2). Вероятности поражения самолетов одним средством сведены в матрицу 1 2 3 1 ' 0.3 0.5 0.1 2 0.5 0.3 0.6 Предполагается, что возможно нападение только одним из самолетов. Выигрыш игрока 1 — вероятность поражения самолета системой ПВО. (a) Построить матрицу игры. (b) Выяснить, имеется ли решение в чистых стратегиях.
§1.11. Упражнения и задачи 53 5. Найти ситуации равновесия и значения следующих игр: 1/2 0 1/2 1 3/2 О -1 6. Проверить, что v — 2 и пара (х* (а) (Ь) 2 7/4 , у*), где х* = (0,0,1), у* = (2/5,3/5,0) — соответственно 3-2 4 -14 2 2 2 6 7. Пусть А* (А") — подматрица матрицы А, получающаяся вычеркиванием ряда строк (столбцов) А. Показать, что выполняются неравенства vA> < у а < уа" , где vA>, vA>> — значения игр Та1 > Га" соответственно. " -1 3 -3 ~ значение и ситуация равновесия в игре с матрицей 8. Рассматривается игра ТА/ с матрицей мальная стратегия игрока 1 есть х 2 0 3 1. Значение игры va = 1 и опти- 2 1 0 (1/3,2/3,0). Найти оптимальную стратегию у* игрока 2. 4 0 9. Решить графически игру с матрицей 3 -2 5 -3 -1 -1 10. Показать, что строго доминируемая стратегия не может быть существенной. Г 20 0 11. Показать, что 3-я строка матрицы А доминируема, где А = 0 8 [45 12. Показать, что выбор 1-го столбца эквивалентен смешанной стратегии у = (0,1/3,2/3), 13 0 где матрица игры имеет вид 2 0 3 1 6 5 7 2 2 7 1 6 13. Используя понятие доминирования, найти решение игры с матрицей 14. Доказать теорему п. 1.7.3. 15. Решить игру поиска с одной попыткой. Игрок 2 прячет предмет в одну из п ячеек. Иг: рок 1 ищет его в одной из этих ячеек, при этом вероятность обнаружения предмета в г-й ячейке равна j3i > 0, г = 1,..., п (при условии, что он там находится). Показать, что рассматриваемая игра вполне смешанная. Найти решение игры. 16. Решить игру дискретного поиска (пример 5, п. 1.1.3) в предположении aj3i — п Ф 0, г = 1,... ,п. Указание. Воспользоваться результатом п. 1.7.7. 17. Игра поиска двух предметов. Игрок 2 прячет два предмета в п ячейках (можно оба в одной ячейке). Цель игрока 1 — обнаружить хотя бы один предмет, при этом он имеет возможность проверить одну ячейку (j3i > 0 — вероятность обнаружения одного предмета в г-й ячейке при условии, что он там находится). Если в г-й ячейке находятся одновременно два предмета, то вероятность их одновременного обнаружения равна j3f. Таким образом, матрица А-= {aka},a = (i,j),j = 1,... ,п, имеет вид OLka = 0, &ka = Pi, OLka = /5j, aka = (3i{2-, i = k, г ф j, i=j = k. Решить игру. 18. Решить игру поиска многих предметов (см. упр. 3). 19. Игра поиска нескольких множеств на плоскости. Заданы набор п фиксированних компактных выпуклых множеств К\, Къ,..., Кп С Я2 и система т конгруэнтных между собой
54 1. Матричные игры компактных выпуклых множеств Т\,..., Тт С R2. Дискретная одновременная игра поиска заключается в следующем. Игрок 2 прячет m множеств Tj (j = 1,...,га) в п множествах Хг (г = 1,... ,п) таким образом, что они пересекают К%. Тот факт, что pi множеств спрятаны в Ki, означает, что совокупность множеств {Tj} в количестве pi единиц бросается на плоскость случайно. Чистая стратегия а игрока 2 имеет вид 71 о = (pi,P2,...,Pn) e Rn, Yl^i = m' i-l где рг — количество множеств Tj, спрятанных в множестве К%. Игрок 1 может проверить одно из множеств Ki, бросая случайно в Ki точку х. Выигрыш игрока 1 — математическое ожидание числа множеств {Tj}, которым принадлежит х. Найти решение игры. 20. Игра поиска с двумя попытками у ищущего. Игрок 2 прячет предмет в одной из п ячеек, а игрок! (ищущий) производит поиск в одной из этих ячеек, имея возможность просмотреть две ячейки (повторный просмотр ячейки не допускается). Множество чистых стратегий игрока 1 состоит из несовпадающих пар (i,j), г — l,...,n, j — 1,...,п, г ф j и содержит С% элементов. Множество чистых стратегий игрока 2 определяется индексом /с, к — 1,... ,п и содержит п элементов. Матрица выигрышей имеет вид В = {P(%,j)k}i гДе _ Г 6k, если г = к или j = /с, (5k > 0), г{г,з) \ 0, в противном случае. Решить игру. 21. В игре поиска с двумя попытками у ищущего рассмотреть случай, когда множество чистых стратегий игрока 1 состоит из всевозможных пар (i,j) и содержит п2 элементов. Решить игру в предположении п-1 fc=l 22. В игре на уклонение (п. 1.7.1) показать, что игрок 1 всегда имеет единственную оптимальную стратегию. 23. Простейшая игра поиска. В простейшей игре поиска участвуют два игрока. Игрок 2 прячет предмет в одном из п ящиков. Противник (игрок 1) старается обнаружить спрятанный предмет. Если предмет спрятан в г-м ящике, а игрок 1 (ищущий) ищет его в г-м ящике, то вероятность обнаружения объекта (выигрыш игрока 1) равна оч, причем 0 < <п < о~2 < ... < о~п < 1. Если же предмет спрятан в г-м ящике, а игрок 1 ищет его в j-м ящике, то вероятность обнаружения объекта равна 0. (a) Построить матрицу игры. (b) Найти решение игры в классе вполне смешанных стратегий.
Глава 2 Бесконечные антагонистические игры §2.1. Бесконечные игры 2.1.1. В этой главе рассматриваются антагонистические игры, которые отличаются от матричных тем, что в них один или оба игрока имеют бесконечное (счетное или континуум) множество стратегий. С теоретико-игровой точки зрения это отличие малосущественно, поскольку игра остается антагонистической и проблема состоит в использовании более сложного аналитического аппарата исследования. Таким образом, будем исследовать общие антагонистические игры, т. е. системы вида Г = (Х,У,Н), (2.1.1) где X и Y — произвольные бесконечные множества, элементы которых являются стратегиями игроков 1 и 2 соответственно, а, Н : X xY —> R1 — функция выигрыша игрока 1. Напомним, что правила антагонистической игры изложены в п. 1.1.1. Выигрыш игрока 2 в ситуации (х,у) равен [—#(х,у)], х G X,y GY (игра антагонистическая). В этой главе будем рассматривать такие игры, у которых функция Н ограничена. 2.1.2. Пример 1 (Одновременная игра преследования на плоскости). Пусть Si и S2 — множества на плоскости. Игра Г заключается в следующем. Игрок 1 выбирает некоторую точку ж Е Si, а игрок 2 выбирает точку у Е S2. При совершении выбора игроки 1 и 2 не имеют информации о действиях противника, поэтому подобный выбор удобно интерпретировать как одновременный. В этом случае точки х Е Si, у Е S2 являются стратегиями игроков 1 и 2 соответственно. Таким образом, множества стратегий игроков совпадают с множествами Si и S2 на плоскости. Целью игрока 2 является минимизация расстояния между ним и игроком 1 (игрок 1 преследует противоположную цель). Поэтому под выигрышем Н(х,у) игрока 1 в этой игре будем понимать евклидово расстояние р(х, у) между точками х Е Si и у Е S2, т. е. Н(х,у) = р(х,у),х Е Si,2/ E Sz- Выигрыш игрока 2 полагаем равным выигрышу игрока 1, взятому с обратным знаком, а именно [—р(х,у)} (игра антагонистическая). Пример 2 (Поиск па отрезке) [Дюбин, Суздаль, 1981]. Простейшей игрой поиска с бесконечным числом стратегий является следующая игра.
56 2. Бесконечные антагонистические игры Игрок 2 (прячущийся) выбирает точку у G [0,1], а игрок 1 (ищущий) выбирает одновременно и независимо точку х Е [0,1]. Точка у считается «обнаруженной», если Iя — 2/1 ^ U гДе 0 < I < 1. В этом случае игрок 1 выигрывает величину +1; во всех остальных случаях его выигрыш полагается равным 0. Игра антагонистическая. Таким образом, функция выигрыша имеет вид Н(х,у) если \х — у\ < /, если \х — у\ > L Выигрыш игрока 2 полагается равным [—Н(х,у)]. Пример 3 (Поиск на сфере.) Пусть в В? задана сфера С радиуса R. Игрок 1 (ищущий) выбирает систему из точек Xi,X2, xs G С, а игрок 2 — одну точку у G С. Выборы точек осуществляются игроками одновременно и независимо друг от друга. Игрок 2 считается обнаруженным, если точка у G С оказывается в r-окрестности одной из точек Xj, j = 1,..., s. Здесь под r-окрестностью точки xj будем понимать сферический сегмент с вершиной в точке Xj и радиусом основания г (рис. 2). В дальнейшем r-окрестность точки Xj будем обозначать через S(xj,r). S{xj,r) Рис. 2.1. Поиск на сфере Целью игрока 1 является обнаружение игрока 2. Игрок 2 преследует противоположную цель. В соответствии с этим положим выигрыш игрока 1 равным Н(х,у) 1, если у е Мж, 10, в противном случае, где х = (xi,...,xs) и Мх = Uj=1S(xj,r). Выигрыш игрока 2 полагается равным 1-Н(х,у)}. ' Пример 4 (Шумная дуэль) [Карлин, 1964]. Каждому из двух дуэлянтов разрешается выстрелить только один раз. Предполагается, что оба они имеют «шумные»
§2.1. Б есконе чные игры 57 пистолеты, так что каждый знает, когда выстрелил его противник. Предполагается также, что функция меткости р\{х) (вероятность попадания при стрельбе в момент времени х) игрока 1 определена на [0,1], непрерывна, монотонно возрастает по х и Pi(0) = 0, pi(l) — 1. Аналогично, точность выстрела игрока 2 описывается функцией Р2{у) на [0,1], где рг(0) = 0, рг(1) = 1- Если игрок 1 поражает игрока 2, то первый получает выигрыш +1. Если игрок 2 поражает игрока 1, то игрок 1 получает —1, если оба игрока стреляют одновременно и с одинаковым результатом (успешным или нет), то выигрыш игрока 1 равен 0. Структура информации в этой игре (тот факт, что оружие шумное) принимается во внимание при составлении функции выигрыша Н(х,у). Если х < у, то вероятность того, что игрок 1 поразит противника, равна р\(х) и вероятность того, что игрок 1 промахнется, равна 1 —pi(x). Если игрок 2 еще не стрелял и знает, что игрок 1 больше не может выстрелить, то игрок 2 будет увеличивать свои шансы на успех, ожидая, пока у не станет равным 1. Таким образом, если игрок 1 промахнется в момент ж, то он наверняка будет поражен игроком 2, если х < у; следовательно, Я(х, у) = pi(x) + (~1)[1 - PiO)], х < у. Аналогично имеем Н(х,у) = Р2(у)(-1) + [1 - Му)\ ' 1» х > У и Н(х,у) =Pi{x)[l -р2{у)] +РгЫ[1 -Pi(z)](-1), х - у. Таким образом, функция выигрыша Н(х, у) в игре равна (2pi(x) -1, х <г/, Pi(x)-P2(y), х = у, 1-2ргЫ, х >2/, где же [0,1], уе [0,1]. Пример 5 (Бесшумная дуэль) [Карлин, 1964]. Снова каждому из дуэлянтов разрешается выстрелить только один раз, но в этом случае ни один из дуэлянтов не может определить, выстрелил его противник или нет. Предположим для простоты, что функции меткости заданы следующим образом: Pi(x) = Р2{х) = х. Тогда функция выигрыша, описывающая игру, имеет вид Щх,у) х- (1-х)у,х<у, 0, ж = 2/, -2/ + (1 -у)х,х >у, х G [0,1], у G [0,1]. Построение функции выигрыша Н(х,у) в этой игре производится так же, как и в примере 4, за исключением того, что в данном случае ни один из игроков не может определить момента выстрела противника, если только этот выстрел не оказался успешным. Пример 6 (Поиск «шумного» объекта). Рассматривается задача поиска «шумного» объекта (игрок 2) подвижным средством обнаружения (игрок 1). Дальность действия
58 2. Бесконечные антагонистические игры 1(х,у), средства обнаружения в зависимости от скоростей х е [xo,#i] и У ^ [2/о> 2/i] игроков 1 и 2 соответственно имеет вид где 1(у) = 1о + Р{у~Уо), (Xi -Хо) р_ (h-lo) (2/1 ~2/о)' h = i(2/i)? ^o = Цуо)- Положительные числа hjo считаются заданными. Таким образом, to(2/1 - 2/) + Zi(2/ - 2/о) (zi - ж) Z(rc,2/) - (2/i-2/o) (xi-xo)' В качестве функции выигрыша Н(х,у) игрока 1 понимается производительность поиска, т. е. просмотренная площадь в единицу времени Н(х,у) — 2х - 1{х,у). Выигрыш игрока 2 полагаем равным [—Н(х,у)}. Таким образом, получаем игру с функцией выигрыша Н{Х,у) = 2х1^-У) + 1^-у") ^-% (2/1 - 2/о) (zi - х0) гдех 6 [x0,xi],2/ e [2/o,2/i]- 2.1.3. В заключение отметим специальный класс антагонистических игр, в которых X — Y — [0,1]. В этих играх ситуации — суть пары чисел (х,у), где х,у G [0,1]. Эти пары задают точки единичного квадрата, поэтому такие игры называются играми на единичном квадрате. Класс игр на единичном квадрате во многом характеризует бесконечные антагонистические игры и поэтому является базовым при исследовании бесконечных игр. В частности, примеры 2, 4, 5 — примеры игр на единичном квадрате. Пример б также является игрой на единичном квадрате, если положить xq = 2/о = 0, xi = уг = 1. § 2.2. Ситуация s-равновесия, s-седловые точки и s-оптимальные стратегии 2.2.1. Как и во всякой антагонистической игре Г(Х, У, Н), в бесконечной игре принципом оптимального поведения игроков является принцип равновесия. Оптимальной (равновесной) является такая ситуация (ж*, у*), для которой выполняются неравенства #(х,2/*) < Н(х*,у*) < Щх\у) (2.2.1) при всех х G X, у G Y. Этот принцип реализуется в игре Г в том и только в том случае, когда v = у — у = Н(х*,у*), где у_ = maxinf H(х,у), v = minsupiJ(x,y), (2.2.2) т. е. внешние экстремумы максимина и минимакса достигаются и нижнее значение игры v_ равно верхнему значению v. Такая антагонистическая игра Г называется вполне определенной, а число v — значением игры (см. п. 1.3.4 гл. I).
§2.2. Ситуация е-равновесия 59 Для матричных игр существование и равенство максимина минимаксу было доказано в классе смешанных стратегий (см. §6 гл. I), поэтому решение игры заключалось в нахождении их общего значения v и тех стратегий ж*,2/*, на которых достигаются внешние экстремумы в (2.2.2). Для бесконечных игр существование внешних экстремумов в (2.2.2), вообще говоря, не обязательно. 2.2.2. Пример 7. Пусть каждый из игроков 1 и 2 выбирает число из открытого интервала (0,1), после чего игрок 1 получает выигрыш, равный сумме выбранных чисел. Таким образом, получаем игру на открытом единичном квадрате с функцией выигрыша Н(х,у) игрока 1: Я(х, у)-х + 1/,хЕ(0,1), у е (О,1). (2.2.3) Здесь ситуация (1,0) была бы равновесной, если бы 1 и 0 входили в число стратегий игроков, а значением игры v являлось v — 1. В действительности внешние экстремумы в (2.2.2) не достигаются, а верхнее и нижнее значения игры равны между собой. Поэтому v — 1 и игрок 1, выбирая число 1 — е, е > 0, достаточно близкое к 1, всегда может получить выигрыш, достаточно близкий к значению игры. С другой стороны, игрок 2, выбирая число е > 0 достаточно малым (близким к 0), может гарантировать, что его проигрыш будет сколь угодно близким к значению игры. 2.2.3. Определение. Ситуация (хе)уе) е антагонистической игре Г = (X,Y,H) называется ситуацией е-равновесия, если для любых стратегий х G X и у GY игроков 1 и 2 соответственно, выполняется неравенство: Я (х, уе)-е< Н(хе, уе) < Н{хе, у) + е. (2.2.4) Точка (хе,уе), для которой имеет место (2.2.4), называется е-седловой точкой, а стратегии хе и уе — е-оптимальными стратегиями игроков 1 и 2 соответственно. Полезно сравнить определения ситуации равновесия (2.2.1) и е-равновесия (2.2.4). Если отклонение от оптимальной стратегии приводит лишь к уменьшению выигрыша этого игрока, то отклонение от е-оптимальной стратегии может привести к его увеличению, но не более чем на е. Так, ситуация (1 — е,е), 0 < <5 < 1 является е-равновесной в примере 7, а стратегии хе — 1 — е, уе — е — ^-оптимальными стратегиями игроков 1 и 2 соответственно. 2.2.4. Заметим, что для двух стратегически эквивалентных игр Г = (X,Y,H) и Г'(Х, У, Я'), где Hf = (ЗН 4- се, /3 > 0, справедливы следующие результаты. Если {Хе,Уе) — ситуация е-равновесия в игре Г, то она является ситуацией (/Зе)-равновесия в игре Г' (сравните с леммой о масштабе §1.3). 2.2.5. Основное свойство е-оптимальных стратегий дает следующая теорема. Теорема. Для того, чтобы существовало значение v = mfsupH(x,y) = У х supinf Н(х, у) < -Ьоо антагонистической игры Г = (X, У, Н), необходимо и достаточ- х У но, чтобы для любого е > 0, существовали е-оптимальные стратегии хе,уе игроков 1 и 2, при этом- ШН(хе,уе) =v. (2.2.5) Доказательство. Необходимость. Пусть игра Г имеет конечное значение v. Для любого е > 0 выберем стратегию уе из условия suptf(x,^)-| <v (2.2.6) хех ^
60 2. Бесконечные антагонистические игры и стратегию хе из условия inf H(xe,y) + ^->v. (2.2.7) yeY 2 Из (2.2.2), (2.2.6), (2.2.7) получаем неравенство # (х, ye)-\<v< H{xe, у) + | (2.2.8) для всех стратегий х, у. Следовательно, \H(xs,ys)-v\<^ (2.2.9) Из неравенств (2.2.8), (2.2.9) следуют соотношения (2.2.4), (2.2.5). Достаточность. Если для любого числа е > 0 выполняются неравенства (2.2.4), то v = inf supH(x,y) < supH(x,ye) < Н{хе,уе) + е < Ух х < inf H(xey y) + 2e< sup inf Н{х, у) + 2е = у + 2е. (2.2.10) У х У Отсюда заключаем, что v < г>, но согласно лемме п. 1.2.2 гл. I справедливо противоположное неравенство. Таким образом, остается доказать, что значение игры Г конечно. Возьмем такую последовательность {гп}, что Итп_юо еп = 0. Пусть ek G {en}, ek+m Е {еп}, где га — любое фиксированное натуральное число. Имеем Н(хек+гшУек)+ек+т > Н{хек+гп^Уек+гп) > Н(хек,уек+т) - 6к+т, н(хек,Уек+гп)+ек >Н(хек,уек) >Н(хек+гп,уек)-ек. Таким образом, \Н(хек,Уек) ~ Н(хек+т>Уек+гп)\ < ек + ек+т = <W Так как Пт/с-юо $кт = 0 при любом фиксированном значении га, то существует конечный предел lime-+oH(xe,ye). Из соотношения (2.2.9) получаем неравенство \Н(хе,уе) — v\ < е\ следовательно, v = lime-+oH(xe,ys). Теорема доказана. 2.2.6. Для иллюстрации приведенных в этом параграфе определений рассмотрим подробно пример 1 п. 1.1.2. Пример 8. Предположим, что множества Si и 52 представляют собой замкнутые круги с радиусами Ri и i?2 (Ri < Дг)- Найдем нижнее значение игры v = max min p(x, у). Пусть Хо Е Si.Тогда mmy р(хо, у) достигается в точке уо пересечения прямой, проходящей через центр Oi круга 52 и точку жо, с границей круга 52- Очевидно, что величина miriyzs р{хо, у) достигает максимального значения в точке М Е Si, являющейся точкой пересечения линий центров OOi (рис. 2.2) с границей круга Si, наиболее удаленной от точки Oi. Таким образом, у= \OiM\ — i?2- Для вычисления верхнего значения ^игры v = min max р(х, у)
§2.2. Ситуация е-равновесия S2 61 Рис. 2.2. Нижнее значение игры рассмотрим два случая. Случай 1. Центр О круга Si принадлежит множеству 52 (рис. 2.3). Для каждого Уо ^ S2 точка хо, доставляющая maxxesi Р{х)Уо)> строится следующим образом. Пусть Xq и Xq — точки пересечения прямой О±уо с границей круга Si, a Xq — точка пересечения прямой Оуо с границей круга Si, наиболее удаленная от точки у0. Тогда хо определяется из условия p{xQly0) = max p(4,y0). г=1,2,о По построению, для всех у о G S2 maxp(x,y0) xESi р(хо,уо) > Дь Однако при уо = О получаем max/9(x,0) = jRi, xeSi следовательно, min maxр(х,у) = v — R\. Непосредственно видно, что точка О Е S2 и поэтому v = R\ > \0\M\ — R2 = v. При этом равенство возможно лишь при условии, что О принадлежит границе множества S2. Таким образом, если в случае 1 точка О не принадлежит границе множества S2l то значения игры и ситуации равновесия не существует. Если же точка О принадлежит границе множества S2, то существует ситуация равновесия, при этом оптимальная стратегия игрока 1 заключается в выборе точки М, лежащей на пересечении линии центров 00\ с границей множества Si и наиболее удаленной от точки 0\. Оптимальная стратегия игрока 2 заключается в выборе точки у G S2, совпадающей с центром О круга Si. Значение игры при этом равно v = v = v = Ri + R2 — R2 = Дi.
62 52 Рис. 2.3. Случай 1, когда О G S2 Случай 2. Центр круга О ^ S2. Этот случай рассматривается как вариант случая 1, когда центр круга S\ принадлежит границе множества 52- Вычислим величину v (рис. 2.4). V Пусть уо G 52- Тогда точка Хо, доставляющая тдьхр(х,уо)1 совпадает с точкой пе- xeSi ресечения xq прямой, проходящей через уо и центр О круга Si с границей круга 5i, наиболее удаленной от точки уо. Действительно, круг радиусом хоуо с центром в точке у о содержит S\ и его граница касается границы круга S\ в единственной точке Xq. Очевидно, что величина max^eSi р{х,у) — р{хо,у) достигает минимума в точке М\ пересечения отрезка 00\ с границей круга 52- Таким образом, в рассматриваемом случае v = min m&xp(x,y) = \OiM\ — R2 = v.- 11ES2 xeSi Оптимальные стратегии заключаются в выборе М G Si и Mi G 52 игроками 1 и 2 соответственно. Если в качестве множеств стратегий в примере 1 п. 1.1.2 рассматривать открытые круги S\ и 52, то в случае 2 значение игры существует и равно v — sup inf p(x,y) = inf sup p(x,y) =v — \OiM\ — R2 — v. xeSi yzs2 yeSi x^Si Однако оптимальных стратегий не существует, поскольку М ^ Si, Mi 0 52- Тем не менее, для любого е > 0 существуют е-оптимальные стратегии — это точки из е- окрестностей,точек М и Mi, принадлежащие соответственно множествам Si и S2. В заключение отметим, что игра в примере б имеет ситуацию равновесия в чистых стратегиях (см. упр. 7), а игры в примерах 1-5, вообще говоря, не имеют ситуации равновесия м значения игры. Так, в примере 2 лишь при х* = 1/2 у игрока 1 есть оптимальная стратегия I > 1/2, а значение игры равно единице (у игрока 2 оптимальной является любая стратегия). 2. Бесконечные антагонистические игры
§2.3. Смешанные стратегии ж /'" S2 | R2\ Рис. 2.4. Случай 2, когда О ^ S2 §2.3. Смешанные стратегии 2.3.1. Рассмотрим антагонистическую игру Г = (X, У, Я). Если она не имеет значения, то v Ф v. Для увеличения своего гарантированного выигрыша в таких случаях каждому игроку, как уже отмечалось в §1.4, важно знать намерение противника. И хотя правила игры не представляют такой возможности, при достаточно частом повторении игры с одним и тем же противником можно статистически оценить возможность выбора той или иной стратегии и поступить определенным образом. Как же должен поступить игрок, не желающий, чтобы его намерение было раскрыто? Единственным разумным способом в этом случае является выбор стратегии случайным образом, в соответствии с определенным случайным механизмом, т. е. необходимо использовать смешанные стратегии. Дадим формальное определение смешанной стратегии для бесконечной игры. 2.3.2. Пусть X — некоторая а-алгебра подмножеств множества X (включающая в себя одноточечные множества х G X) и пусть У — сг-алгебра подмножеств Y (у G У при у G У). Обозначим через X и Y множества всех вероятностных мер на сг-алгебрах X и У соответственно, и пусть функция В. измерима относительно а-алгебры X х у. Рассмотрим интеграл K(fjL,u)= / / H(x,y)dn(x)dv(y), \x e X, i/gF, (2.3.1) JxJy представляющий собой математическое ожидание выигрыша Н(х,у) по мерам /л, v [Brams, 1994]. Определение. Смешанным расширением игры Г = (X, У, Н) называется антагонистическая игра в нормальной форме с множествами стратегий X,Y и функцией выигрышей К(ц,и), т. е. игра Г = (X,Y,K). Поведение игроков в смешанном расширении игры Г можно интерпретировать следующим образом. Игроки выбирают независимо друг от друга меры /л G X и v G У. 63
64 2. Бесконечные антагонистические игры В соответствии с этими мерами они реализуют (например, с помощью таблицы случайных чисел) случайный выбор стратегий х Е X и у Е У. После этого игрок 1 получает выигрыш #(ж, у). Стратегии /i G I, г/ G У называются смешанными, axGl, у EY — чистыми стратегиями в игре Г. Введение смешанного расширения бесконечной игры требует определенных пояснений. Множества X и Y зависят от того, на каких сг-алгебрах X и У рассматриваются вероятностные меры. В случае матричных игр (множества X и Y конечны) в смешанном расширении игроки выбирали свои стратегии согласно вероятностным распределениям на множествах X и У. Если X — бесконечное множество и мы будем поступать так же, как в конечном случае, то необходимо рассматривать меры, для которых измеримы все подмножества бесконечного множества X. Однако таких мер сравнительно мало: это меры, сосредоточенные на не более чем счетных множествах точек. Используя только такие меры, игроки обедняют свои возможности (и далеко не всегда могут гарантировать существование ситуации равновесия в смешанных стратегиях). Поэтому используют менее обширные а-алгебры, на которых определяют вероятностные меры. Тогда возможных вероятностных мер существенно больше (и, как правило, гарантируется существование ситуации равновесия в смешанных стратегиях). Однако в этом случае не всякая функция Н на X х Y окажется измеримой, поэтому нельзя определить математическое ожидание выигрыша и тем самым понятие равновесия, значения игры и оптимальных стратегий. Таким образом, здесь необходим известный компромисс. С точки зрения проблемы нахождения решения желательно, чтобы смешанные стратегии имели наиболее простой вид и в то же время в этом расширении существовало, по крайней мере, значение игры. Строго говоря, интеграл в (2.3.1) должен браться по мере \х х v на декартовом произведении X х У. Однако согласно правилам антагонистической игры смешанные стратегии (меры) \х и v игроками выбираются одновременно и независимо друг от друга, т. е. вероятностные меры fi и v стохастически независимы. Определение. Ситуацией (д, v) в смешанных стратегиях называется пара вероятностных мер деХ, v EY, которые стохастически независимы. Таким образом, в ситуации (/i, v) в смешанных стратегиях выигрыш К (и, и) равен повторному интегралу (2.3.1). Одноточечные множества принадлежат сг-алгебре подмножеств множества стратегий, на которой определяются вероятностные меры, поэтому каждой чистой стратегии х(у) можно поставить в соответствие вероятностную меру \ix Е X [уу Е У), сосредоточенную в точке х е X (у Е У). Отождествляя стратегии х и цх, у и 1/у, видим, что чистые стратегии являются частным случаем смешанных, т. е. справедливы включения X С X, У С У. Тогда выигрыши игрока 1 в ситуациях (х, и) и (д, у) равны, соответственно, математическим ожиданиям: К(ху v) = K{»xjv) = J Я(х, y)dv{y), (2.3.2) К(ц, у) = КЬл, vv) = [ Щх, уШх), (2.3.3) Jx где интегралы в (2.3.1), (2.3.2), (2.3.3) понимаются в смысле Лебега — Стилтьеса. Если же распределения /х(ж), и (у) имеют плотности f(x) и д(у), т. е. dfj,(x) — f(x)dx и dv(y) = g(y)dy, интегралы в (2.3.1), (2.3.2), (2.3.3) понимаются в смысле Римана — Стилтьеса. Таким образом, Г С Г — подыгра своего смешанного расширения Г. Будем считать, что
§2.3. Смешанные стратегии 65 все интегралы в (2.3.1), (2.3.2), (2.3.3) существуют, каковы бы ни были вероятностные меры /л и is. Определение. Пусть Г = (X, У, Н) — антагонистическая игра, а Г = (X, У, jFC) — ее смешанное расширение. Тогда ситуация (/х*, is*) Е ХхУ называется ситуацией равновесия в игре Г в смешанных стратегиях, если для всех \х Е X и is G У выполняются неравенства: К{ц,и*) < К(ц*,и*) < К{ц\и), (2.3.4) т. е. (д*,И) — ситуация равновесия в смешанном расширении игры Т, a fi*(is*) — оптимальная стратегия игрока 1 (2) в Г. Аналогично, ситуация (fJ>*,is*) Е X х У называется ситуацией г-равновесия в игре Г в смешанных стратегиях, если для всех \i Е X и v Е Y выполняются неравенства K(ui, К) - е < K(»*e,v*e) < ВД, is) + е, (2.3.5) т. е. ц* (is*) — е-оптимальная стратегия игрока 1 (2) в Г. 2.3.3. Подобно тому, как это доказывалось для матричных игр, можно показать, что если функции выигрыша игр Г = (X, У, Н) иГ' = (X, У, Н') связаны равенством Н'(х,у) = аН(х,у) + /3, а > О, то множества ситуаций равновесия в играх Г и Г' совпадают, а значения игр связаны соотношением v(Tf) = av(T) + (3 (см. § 1.4). 2.3.4. Ситуации равновесия в смешанных стратегиях обладают такими же свойствами, как и в случае матричных игр, что следует из приведенных ниже теорем.' Теорема. Для того, чтобы пара (/i*z/*), /л* Е X, is* E У была ситуацией равновесия (е-равновесия) в смешанных стратегиях в игре Г, необходимо и достаточно для всех х Е X, т/ EY выполнение неравенств: К(х, is*) < K(li\is*) < К(ц\у), (2.3.6) (К(х,is*) - е < K(fi\is*) < K(ii\y) + е). (2.3.7) Доказательство. Необходимость теоремы очевидна, поскольку чистые стратегии являются частным случаем смешанных. Докажем достаточность для (2.3.6) (для (2.3.7) это доказывается аналогично). Пусть Пусть /л и is — произвольные смешанные стратегии игроков 1 и 2 соответственно. Тогда из (2.3.1), (2.3.2) и (2.3.6) получаем К(ц,и*)= [ K(x,is*)gIli(x)<K(h\is*), K(li\is) = J K(Li\y)dv(y) > К(ц\и*). Отсюда вытекают неравенства (2.3.4), что и требовалось доказать. Из теоремы, в частности, следует, что если (х*уу*) — ситуация равновесия (е- равновесия) в чистых стратегиях в игре Г, то она является и ситуацией равновесия (е-равновесия) в смешанном расширении Г, при этом значение игры v сохраняется. Заметим, что смешанное расширение Г является антагонистической игрой, поэтому относительно Г справедливо понятие вполне определенной игры (п. 2.2.1), а также теорема п. 2.2.5, только речь теперь идет о ситуации равновесия и значении игры в смешанных стратегиях.
бб 2. Бесконечные антагонистические игры 2.3.5. Теорема. Для того, чтобы игра Г = (X, У, Н) имела значение v в смешанных стратегиях, т. е. supinf K(f_i,v) = inf sup if (/x, v) — v, необходимо и достаточно выполнение равенства supinf К (д, у) = inf sup if (ж, z/) =v. (2.3.8) а у v х Если при этом игроки имеют оптимальные стратегии, то внешние экстремумы в (2.3.8) достигаются и равенства uifK(ij,\y) = v, (2.3.9) у supK(x,v*) = v (2.3.10) х являются необходимыми и достаточными условиями оптимальности смешанных стратегий [л* е X и v* GY. Доказательство. Пусть v — значение игры. Тогда по определению v = supinfif(/i,i/). (2.3.11) /л v Для фиксированной стратегии д, множество {JRT(/x, v)\ v G У} — выпуклая оболочка чисел if (/x, y)j у ЕУ. Так как точная нижняя граница любого множества действительных чисел совпадает с точной нижней границей выпуклой оболочки этих чисел, то inf.if(/х, v) - inf if(/i, y). (2.3.12) Равенство (2.3.12) можно получить также из следующих соображений. Поскольку У С У, имеем inf_if(/x, v) < inf if(/i,y). Предположим, что неравенство строгое, т. е. inf if (/х, v) < inf if (/x, y). v у Это значит, что при некотором достаточно малом е > 0 выполняется неравенство inf if (//, ^) + е < inf if (/i, у). v у Таким образом, при всех у е У if(/i,y) > inf if(/i,z/> +5. (2.3.13) Теперь, переходя к смешанным стратегиям в (2.3.13), получаем inf К(ц, v) > inf if (/x, z/) + 5. Полученное противоречие и доказывает (2.3.12). Возьмем супремум по ц в (2.3.12). Тогда v — supinf if (д, у).
12.3. Смешанные стратегии 67< Аналогично доказывается правое из равенств в (2.3.8). Обратно, если (2.3.8) выполнено, то из (2.3.12) следует, что v является значением игры. Пусть теперь /i*,z/* — оптимальные стратегии игроков 1 и 2 соответственно. По теореме п. 1.3.4 внешние экстремумы в (2.3.8) достигаются, а (2.3.9), (2.3.10) являются необходимыми и достаточными условиями оптимальности смешанных стратегий уГ и г/*. В п. 2.3.2 отмечалось, что введение смешанных стратегий в бесконечной антагонистической игре зависит от способа рандомизации множества чистых стратегий. Однако из (2.3.8) следует, что значение v игры не зависит от способа рандомизации. Так, для доказательства его существования достаточно найти хотя бы одно смешанное расширение игры, для которого выполнялось бы равенство (2.3.8). Следствие. Для любой антагонистической игры Г = (X,Y,H), имеющей значение v в смешанных стратегиях, справедливо неравенство: supinf H(x,y) <v< inf supH(x,y). (2.3.14) х У Ух Доказательство. Из теоремы п. 2.3.5 следует: supinf Н(ху у) < supinf К (/л, у) =v = mfs\ipK(xyv) <mfs\ipH(x,y). х У \i У и х Ух 2.3.6. Из (2.3.14) следует один из способов приближенного решения,антагонистической игры. Действительно, пусть внешние экстремумы в (2.3.14) достигаются, т. е. у- = maxinf H(x,y) = inf #(ж°,у), (2.3.15) х у у v+ = mins\ipH(x,y) = sup#(x,y°), (2.3.16) Ух х ж пусть a = v+—v~. Тогда максиминная стратегия х° игрока 1 и минимаксная стратегия j/° игрока 2 с точностью до а описывают оптимальное поведение игроков и могут быть взяты в качестве приближенного решения игры Г. Таким образом, в этом случае задача сводится к нахождению максиминных и минимаксных стратегий игроков 1 и 2 соответственно, а точность приближенного решения определяется величиной a = v+ — v~, при этом значение игры v согласно (2.3.14) лежит в интервале v Е [v~,v+]. Способам нахождения решения задач (2.3.15), (2.3.16) посвящена теория минимакса [Демьянов, Малоземов, 1972], [Данскин, 1970]. 2.3.7. Как и в случае матричных игр, для бесконечных игр важную роль играет понятие спектра смешанной стратегии. Определение. Пусть Г = (X, У, Н) — антагонистическая игра. Тогда чистую стратегию xq е X (уо е Y) игрока 1 (2) называют точкой концентрации его смешанной стратегии /x(z/), если /jl(xq) > 0(z/(yo) > 0)- Определение. Чистая стратегия xq . Е X (jjq G Y), где Х (соответственно, Y')— топологическое пространство, называется точкой спектра смешанной стратегии ц(у), заданной на борелевской а-алгебре подмножеств множества X(Y), если для любой измеримой окрестности и точки хо(уо) имеет место неравенство: li{u) = / dp(x) > 0 (v{u) = / dv{y) > 0). J U) J LO
68 2. Бесконечные антагонистические игры Спектром смешанной стратегии ji(y) назовем наименьшее замкнутое множество, fi-мера (и-мера) которого равна единице. Точки концентрации смешанной стратегии являются точками спектра; обратное, вообще говоря, неверно. Так, чистые стратегии, в которых смешанная стратегия имеет положительную плотность, являются точками спектра, но они не являются точками концентрации. Спектр смешанной стратегии \х(соответственно, v) будем обозначать X^iYy). Докажем аналог теоремы п. 1.7.6 гл. I о дополняющей нежесткости для бесконечных игр. Теорема. Пусть Г = (X, Y, Н) — антагонистическая игра, имеющая значение v. Тогда, если xq Е X, a v* —оптимальная смешанная стратегия игрока 2 и K(x0,i>*)<v, (2.3.17) то хо не может быть точкой концентрации какой-либо оптимальной ст,ратегии игрока 1. Аналогичный результат справедлив и для точек концентрации оптимальных стратегий игрока 2. Доказательство. Из оптимальности смешанной стратегии 1/*ЕУ следует, что для всех х Е X выполняется неравенство: К[хУ) <v. Интегрируя его по оптимальной смешанной стратегии (мере) д* игрока 1 на множестве X \ {хо}, получаем / K(x,v*)dii*(x) < v [ dfi*(x). Jx\{xQ} Jx\{x0} Пусть ц*(хо) > 0, т. е. Хо — точка концентрации оптимальной смешанной стратегии д* игрока 1. Тогда из (2.3.17) имеем К(хо,и*)ц*(х0) < уц*(х0). Складывая два последних неравенства, получаем противоречие v = [ K(x,v*)dti*(x)=K(iM*,v*)<v. Jx Следовательно, ц*(хо) = 0 для всех оптимальных стратегий д* Е X. 2.3.8. Для бесконечных антагонистических игр можно ввести понятие доминирования стратегий аналогично тому, как это делалось в §1.8. Определение. Стратегия \х\ Е X игрока 1 строго доминирует стратегию /х2 Е Е X (/ii >- ц2), если H(fiuy) > ff(/i2,y), для всех у Е У. Аналогично, стратегия v\ E У игрока 2 строго доминирует стратегию ь>2 Е У {у\ >- z/2), если H(x,vi) < Я(ж,г/2), для всех х Е X. Стратегии \±2 и щ называются строго доминируемыми, если существуют \1\ >- /Х2 UV\>-V2.
5 2.3. Смешанные стратегии 69 Если последние неравенства выполняются как нестрогие, то говорят, что \х\ доминирует ^2 (mi h 1^2) и v\ доминирует v<i (у\ ^ v^). Приведем без доказательства теоремы о доминировании, аналогичные теоремам п.1.8.3. Теорема. Для бесконечной антагонистической игры, имеющей решение, ни одна строго доминируемая чистая стратегия игрока не содержится в спектрах его оптимальных смешанных стратегий. Теорема. Пусть Г = (X, У, Н) — бесконечная антагонистическая игра, имеющая решение (X и Y — топологические пространства), и каждый элемент открытого множества Х° С X доминируется некоторой стратегией /л°, спектр которой не пересекается с Х°. Тогда всякое решение игры Г' = (X \Х°, У, Н) является решением игры Г. Аналогичная теорема верна и для стратегий игрока 2. 2.3.9. В этом параграфе рассмотрены свойства оптимальных (е-оптимальных) смешанных стратегий в предположении существования решения игры. Матричная игра вполне определена в смешанных стратегиях, т. е. всегда существуют значение и ситуация равновесия, что следует из теоремы п. 1.6.1 гл. I. Возможности решения бесконечных антагонистических игр в смешанных стратегиях ограничены, что показывает следующий пример. Пример 9 (Игра, не имеющая значения в смешанных стратегиях) [Воробьев, 1984]. Рассмотрим игру Г = (X, У, Я"), где X = У = {1,2,...} — множество натуральных чисел, а функция выигрыша имеет вид {1, если х > у, О, если х = у, —1, если х < у. Эта игра не имеет значения в чистых стратегиях. Покажем, что она не имеет значения п в смешанных стратегиях. Пусть ц — произвольная смешанная стратегия игрока d/j,(x) = 8XJ где 5Х > 0 и S^Li $х — 1- Возьмем е > 0 и найдем уе такое, что ]Г 5Х > 1 - е. Х<Уе Тогда оо К(^уе) = ^5хН(х,уе) = ]Р 5хК(х,уе) + ]Р 5хК(х,уе) = Х=1 Х<уе . Х>уе Х<Уе Х>уе- В силу произвольности е > 0 и так как Н(х,у) не принимает значений, меньших —1, имеем inf К (fi,, у) = -1. У Следовательно, поскольку стратегия \х произвольна, г> = supinf K{\i, у) = —1. м у
70 2. Бесконечные антагонистические игры Рассуждая аналогично, получаем v = inf sup K(x,v) = 1. v x Поскольку v > г;, то игра Г не имеет значения в смешанных стратегиях. Как будет показано в следующем параграфе, непрерывности функции выигрыша и компактности пространства стратегий достаточно для того, чтобы игра имела решение (значение и оптимальные стратегии) в смешанном расширении. § 2.4. Игры с непрерывной функцией выигрыша 2.4.1. В данном параграфе рассмотрим антагонистические игры Г = (X, У, Н) в предположении, что пространства стратегий X и У — метрические компакты (чаще всего они будут подмножествами евклидовых пространств), а функция Н непрерывна по обеим переменным. Под множествами X, У смешанных стратегий игроков 1 и 2 будем понимать множества вероятностных мер, заданных на а-алгебрах X и У боре- левских множеств пространств X и У соотвественно. Тогда выигрыш K(ji, v) игрока 1 в ситуации (д, v) G X х У в смешанных стратегиях — измеримая функция относительно борелевской а-алгебры X х У, которая определяется интегралом (2.3.1) и представляет собой математическое ожидание выигрыша по вероятностной мере дх v. Игру Г = (X,У,Я"), определенную указанным выше способом, будем называть непрерывной игрой. 2.4.2. Теорема. Если Г = (X, У, Н) — бесконечная антагонистическая игра, имеющая значение v и ситуацию равновесия (д*,^*), а функции К(^*,у),К(хуи*) — непрерывны соответственно по у их, то справедливы равенства K(ti*,y) = v, y&Yu,, (2.4.1) K(x,v*) = v, хеХц., (2.4.2) где Yv*, Хд» — спектры, смешанных стратегий v* и ц* соответственно. Доказательство. Из теоремы п. 2.3.4 следует, что неравенство K(f,y)>v (2.4.3) выполняется для всех точек у G У. Если (2.4.1) не выполнено, то существует такая точка уо ^ Yv* у что if (д*,уо) > v. В силу непрерывности функции К(/л*,у) неравенство (2.4.3) в некоторой окрестности и точки у0 выполняется как строгое. Из того, что Уо Е Yu* — точка-спектра смешанной стратегии z^*, следует, что v*(u) > 0. Отсюда и из неравенства (2.4.3) получаем v = K{p\v*) - У K(fjr,y)dv*(y) > v. Противоречие доказывает справедливость (2.4.1). Равенство (2.4.2) доказывается аналогично. Данный результат является аналогом теоремы о дополняющей нежесткости п. 1.7.6. Напомним, что чистая стратегия х, входящая в спектр оптимальной стратегии, называется существенной. Таким образом, теорема утверждает, что для существенных стратегий должны быть выполнены равенства (2.4.1), (2.4.2).
§2.4. Игры с непрерывной функцией выигрыша 71 Теорема п. 2.4.2 справедлива для любой непрерывной игры, поскольку справедливо следующее утверждение. 2.4.3. Лемма. Если функция Н : X xY —» R1 непрерывна на X xY, то интегралы K{fi, у) и К{х, v) являются соответственно непрерывными функциями от у их для любых фиксированных смешанных стратегий /л G X и v Е У. Доказательство. Функция Н(х,у) непрерывна на компакте X х У, поэтому она равномерно непрерывна. Возьмем произвольное е > О и найдем такое 5 > О, что как только p(2/i, 2/2) < $) то Для любого х выполняется неравенство: \Н(х,У1)-Н(х,у2)\<е, (2.4.4) где р(-) —- метрика в пространстве У. Тогда \K(fj,,y1)-K(fjLiy2)\ = \ / H{x,y1)dii{x)- / H(x,y2)dii(x)\ = Jx Jx = | [ [Н(х,У1)-Н(х,у2)]Ых)\< [ \H(x,yi)-H(x,y2)\dn(x)<e [ dfi(x) = e. (2.4.5) Jx Jx Jx Следовательно, функция К(ц, у) непрерывна по у. Аналогично доказывается непрерывность функции K{x,v) по х. 2.4.4. Сформулируем основную теорему данного параграфа. Теорема. Бесконечная антагонистическая игра Г = (X, У, Н), где X,Y— метрические компакты, а Н —непрерывная функция на их произведении, имеет решение б смешанных стратегиях (значение и оптимальные стратегии). Доказательство теоремы основано на аналитических свойствах смешанного расширения игры Г = (X,Y,K) и некоторых вспомогательных результатах. 2.4.5. Напомним, что последовательность борелевских мер дп, п — 1,2,..., заданных на борелевской а*-алгебре X компактного метрического пространства X, называется слабо сходящейся, если lim / (p(x)dfin(x) = / (p(x)dji(x) (2.4.6) n-+°° Jx Jx для любой непрерывной функции ip(x),x G X. Лемма. В условиях теоремы п. 2.4-4 множества смешанных стратегий X uY ^множества борелевских вероятностных мер) — метрические компакты в топологии слабой сходимости. Приведем схему доказательства для множества смешанных стратегий X (для У рассуждения аналогичны). Пространство борелевских мер X, заданных на борелевской сг-алгебре X компактного метрического пространства X , метризуемо, поскольку в X можно ввести метрику />(//,//') =тах(//,р"), где р' и р" — нижние границы таких чисел г' и г"соответственно, что для любого замкнутого множества F С X H\F) < fi"(Vr'(F)) + r', M"(F) < AVv(F)) + Л где Vr(F) = {х G X : mmzeF pi(x,z) < г}, г > О, и pi(-) —метрика в пространстве X.
72 2. Бесконечные антагонистические игры Известно [Brams, 1994], что сходимость в этом метрическом пространстве равносильна слабой сходимости, а семейство мер /х на борелевской сг-алгебре пространства X слабо компактно (т. е. компактно в описанном выше метрическом пространстве всех борелевских мер) тогда и только тогда, когда это семейство равномерно ограничено ц(Х) < с (2.4.7) и равномерно плотно, т. е. для любого е > О существует такой компакт АСХ, что fi(X\A) <е. (2.4.8) Условие (2.4.8) следует из компактности X, а (2.4.7) — из того, что меры ji G X нормированы (ia{X) = 1). 2.4.6. Заметим, что в условиях теоремы п. 2.4.4 множество смешанных стратегий X(Y) игрока 1 (2) является компактом и в обычном смысле, поскольку в данном случае слабая сходимость последовательности мер {/in}> ^ — 1,2,... равносильна сходимости в обычном смысле: lim цп(А) =ц{А) n—too для любого борелевского множества А С X, такого, что его граница А! имеет меру нуль: fi(Af) = 0. Доказательство этого результата представляет определенные технические сложности. Его можно найти, например, в [Дрешер, 1964]. 2.4.7. Обозначим через у_ и v соответственно нижнее и верхнее значения игры Г = (Х,У,Я). v = supinfif(/i, у), v = infsup(x,v). (2.4.9! [л У v x Лемма. В условиях теоремы п. 2.4-4 экстремумы в (2.4-9) достигаются, поэтому t; = maxminiir(/i,t/), v = mm max if (ж, z^). (2.4.10) Доказательство. Поскольку Н(х,у) непрерывна, то по лемме п. 2.4.3 для любой меры ц G X функция К(И,У) = / H(x,y)dii(x) непрерывна по у. Так как Y — компакт, то К (/л, у) в некоторой его точке будет достигать минимума. По определению v, для любого п существует такая мера /in6l, что ттК(цп,у) >у- 1/п. - у Так как X — компакт в топологии слабой сходимости (лемма п. 2.4.5), то из последовательности {/in}^Ll5 un G X можно выбрать слабо сходящуюся подпоследовательность. Пусть сама последовательность {дп}^=1 слабо сходится к некоторой мере цо G X. Тогда lim К{цп,у)= lim / Н(х,у)(1цп(х) = п->оо n—>-oo Jx = / H(x,y)dno(x) = К(и0,у), yeY. Jx
i"2.4. Игры с непрерывной функцией выигрыша 73 Но K{jiQ,y) не меньше у_ для каждого у G У. Следовательно, ттуК(^о,у) >иина ikj G X достигается требуемый максимум. Аналогично доказывается, что inf sup в (2.4.9) молено заменить на minmax. 2.4.8. Перейдем непосредственно к доказательству теоремы п. 2.4.4. Доказательство. Так как X и У — метрические компакты, то для любого целого п существуют конечные (1/п)-сети Xn = {*?, ...XJ,XnC X, Yn = {у?,..., y»J, YncY соответственно множеств X и У. Это означает, что для любых точек ж Е X и у Е У найдутся такие точки xf Е Xn и у" Е Уп, что PiM) < 1/п, /92(2/,2/J1) < 1/4 (2.4.11) где /0i(-),p2(') ~~ метрики пространств X и У соответственно. Для произвольного целого п построим матричную игру с матрицей Ап = {а^}, где <х% = Н(х?,у?), x?GXn, у? е Уп: (2.4.12) Игра с матрицей Лп имеет значение #п и оптимальные смешанные стратегии рп = a-J,...,тг" ), ^п = (^[N... ,^п) игроков 1 и 2 соответственно (см. теорему п. 1.6.1 гл. I). Функция Н(х,у) непрерывна на декартовом произведении X х У метрических компактов, поэтому она равномерно непрерывна, т. е. для заданного е > О можно найти такое 5 > О, что как только /01 (ж, ж') < <*, Р2(у,у') < S, то |Я(Ж,2/)-Я(ж,,2/,)|<е. (2.4.13) Выберем п настолько большим, чтобы 1/п < (5, и определим стратегию дп G I по правилу Mn(FH ^ тг? (2.4.14) {i\x?ZF,x?ZXn} для каждого борелевского множества F пространства X. Таким образом, имеем К(^, у?) = Y, <*?,*? > вп- (2.4.15) г=1 Если p2{y,y7j) < 5, то, согласно (2.4.4), (2.4.5) и (2.4.13), получаем \Н(х,у)-Н(х,у?)\<е, \K{fin,y)~K{finiy^)\ <e. Следовательно, для любого у GY (Yn — (1/п)-сеть множества У) имеем K(fjLn,y)>On-e. (2.4.16) Так как miny К(цп,у) достигается (лемма п. 2.4.7), то v>On-s. (2.4.17)
74 2. Бесконечные антагонистические игры Аналогично можно показать, что v<On + e. (2.4.18) Из (2.4.17) и (2.4.18) получаем v > v — 2е. Но по лемме п. 1.2.2 гл. I неравенство у_ < v выполняется всегда. Учитывая произвольность е > О, получаем y = v, (2.4.19) тогда из леммы п. 2.4.7 и (2.4.19) следует утверждение теоремы (см. п. 2.2.1). 2.4.9. Следствие. Имеет место равенство: v = lim <9n, (2.4.20) п—»оо где вп — v(An) —значение матричной игры с матрицей Ап (2.4-12). 2.4.10. Из доказательства теоремы п. 2.4.4 следует, что непрерывную игру можно с любой степенью точности аппроксимировать конечными играми. Более того, справедлив следующий результат. Теорема. Бесконечная антагонистическая игра Г = (X, У, Н), где X, Y — метрические компакты, а Н — непрерывная функция на их произведении, при любом г > 0 имеет е-оптимальные смешанные стратегии с конечным спектром. Доказательство теоремы следует из доказательства (п. 2.4.8) теоремы п. 2.4.4. Действительно, по игре Г построим матричные игры с матрицами Ап и смешанные стратегии jin G X , определяемые соответственно (2.4.12), (2.4.14) для произвольного целого п. Стратегии vn e Y игрока 2 определяются аналогичным образом: "n(G)= Е vb (2А21) {j\y?eG,y?eYn} где tn = (rf,... ,r^n) — оптимальная смешанная стратегия игрока 2 в игре с матрицей Ап и значением вп. По построению имеем On = ЕЕ«^ = *(/*», *n), ' (2A22) t=l 3 = 1 где K(fi,v) — выигрыш в смешанных стратегиях {ji,v) в игре Г. Из (2.4.16) и аналогичного неравенства для стратегии ип получаем, что для произвольного е > О найдется номер п, такой, что К(х, vn)-e<On< ЛГ(/Хп, у) + е (2.4.23) для всех х G X и у е Y. Учитывая, что стратегии jin и vn имеют конечный спектр Хп и Yn соответственно ( Хп, Yn — конечные l/n-сети множеств X и Y соответственно), получаем утверждение теоремы (см. п. 2.3.4). 2.4.11. Объединяя результаты теорем п. 2.4.4 и 2.4.10, можно сделать вывод, что бесконечная антагонистическая игра с непрерывной функцией выигрыша и компактными множествами стратегий для любого е > 0 имеет ^-оптимальные стратегии игроков, являющиеся смесями конечного числа чистых, а также смешанные оптимальные стратегии в классе борелевских вероятностных мер. В частности, эти результаты справедливы для игр на квадрате (п. 2.1.3) с непрерывной функцией выигрыша.
§2.4. Игры с непрерывной функцией выигрыша 75 2.4.12/Имеется большое число работ, в которых доказывается существование значения бесконечных антагонистических игр. Наиболее общий результат в этом направлении принадлежит Сайону. Для игр с компактными пространствами стратегий п полунепрерывными функциями выигрыша известны результаты [Пек, Далмидж], [Яновская, 1973], [Petrosyan, 1993]. Покажем, что в некоторых направлениях они не поддаются обобщению. Пример 10 (Игра на квадрате, не имеющая значения в смешанных стратегиях) [Сайон, Вульф]. Рассматривается антагонистическая игра Г = (X, У, Н), где X = Y — [0,1], а функция выигрыша Н имеет вид {—1, если х < у < х + 1/2, О, если х — у или у = х Л-1/2, 1, если у < х или х + 1/2 < у. Эта функция имеет разрывы на прямых у = х и у = х + 1/2. Покажем, что sup inf K(fi, v) - 1/3, inf sup K{\l, v) = 3/7. (2.4.24) Пусть ji — вероятностная мера на [0,1]. Если /х([0,1/2)) < 1/3, то положим у^ — 1. Если же д([0,1/2)) > 1/3, то выберем 5 > 0, такое, что /i([0,1/2 — 5]) > 1/3, и положим у^ = 1/2 — 6. В каждом из этих случаев получаем неравенства ini K(^iy)<K{^y^)< 1/3, V которые доказываются непосредственной проверкой. С другой стороны, если /j, выбрано так, что /i({0}) = д({1/2}) = д({1}) = 1/3, то для всех у G [0,1] имеем / Н(х, y)d^{x) = 1/3[Я(0, у) + #(1/2, у) + #(1, у)} > 1/3. Следовательно, доказано первое из равенств (2.4.24). Теперь пусть v — какая-либо вероятностная мера на [0,1]. Если z/([0,1)) > 3/7, то положим хи — 1. Если i/([0,1)) < 3/7, то ^({1}) > 4/7, и в этом случае положим ху = 0, если i/([0,1/2)) < 1/7; если же i/([0,1/2)) > 1/7, то выберем 8 > 0 так, чтобы г;([0,1/2 - д]) > 1/7, и положим xv — 1/2 — 5. В каждом из указанных случаев убеждаемся,-что supif(/i,z/) > К(хиуь>) > 3/7. С другой стороны, если v выбрано так, что ./({1/4}) = 1/7, «/({1/2}) = 2/7, i/({1}) = 4/7, то для любого х G [0,1] имеем У" H(x,y)dv(y) = ±[Щх, 1) + 2Я(х, ±) + 4Я(х, 1)] < |. Таким образом, доказано второе из равенств (2.4.24).
76 2. Бесконечные антагонистические игры §2.5. Игры с выпуклой функцией выигрыша В § 2.4 при достаточно общих предположениях было доказано существование решения в бесконечных антагонистических играх с непрерывной функцией выигрыша и компактными множествами стратегий. Вместе с тем представляет теоретический и практический интерес выделение таких классов игр, когда один или оба игрока имеют оптимальные чистые стратегии. Такие игры рассматриваются в данном параграфе. 2.5.1. Определение. Пусть X С Rm, У С Rn — компакты, множество У — выпукло, функция Н : X х У —> R1 непрерывна по совокупности аргументов и выпукла по у G У при любом фиксированном значении х Е X. Тогда игра Г(Х, У, Н) называется игрой с выпуклой функцией выигрыша (выпуклая игра). Приведем симметричное определение относительно игрока 1. Определение. Если X С Rm, Y С Rn — компакты, множество X выпукло, функция выигрыша Н непрерывна по совокупности аргументов и вогнута по х Е X при любом фиксированном у Е У, то игра Г = (X, У, Н) называется игрой с вогнутой функцией выигрыша (вогнутая игра). Если же X С Rm,Y СЙП- выпуклые компакты, а непрерывная по совокупности аргументов функция выигрыша Н(х,у) вогнута по х при любом фиксированном у и выпукла по у при каждом х, то игра Г(Х, У, Н) называется игрой с вогнуто-выпуклой функцией выигрыша (вогнуто-выпуклая игра). Рассмотрим игры с выпуклой функцией выигрыша. Аналогичные результаты справедливы и для вогнутых игр. Теорема. Пусть Г = (X, У, Н) — выпуклая игра. Тогда игрок 2 имеет оптимальную чистую стратегию, при этом значение игры равно v = minmaxiJ(x,y). (2.5.1) уеУ хех Доказательство. Так как X и У — метрические компакты (в метрике евклидовых пространств Rm и Дп), а функция Н непрерывна на произведении X х У, то, согласно теореме п. 2.4.4, в игре Г существует значение v и оптимальные смешанные стратегии /i*,zA Известно, что множество вероятностных мер с конечным носителем всюду плотно в множестве всех вероятностных мер на У [Прохоров, Рязанов, 1967]. Поэтому существует последовательность смешанных стратегий vn с конечным спектром, слабо сходящаяся к и*. Пусть спектр стратегии vn состоит из точек у^,... ,у^п и они выбираются с вероятностями rf},..., rj^ . Тогда в силу выпуклости функции Н имеем K{x^) = f^r}]H{x,yil)>H(x,yn), (2.5.2) 3 = 1 где у71 — YljZi ^Уп- Переходя к пределу при п -» оо в неравенстве (2.5.2) (если необходимо, то следует рассмотреть подпоследовательность {уп}), получаем K{x,v*)>H{x,y\ xGX (2.5.3) где у — предельная точка последовательности {у71}. Из (2.5.3) и леммы п. 2.4.3 имеем maxK(x,v*)>maxH(x,y). (2.5.4)
i'2.5. Игры с выпуклой функцией выигрыша 77 Пусть неравенство (2.5.4) строгое. Тогда v — ma,xK(x,v*) > т&хН(х,у) > шттахЯ(а;, v) = v, X X V X что невозможно. Таким образом, т&ххН(х,у) = тах^ К(х, u*) = v и из теоремы п. 2.3.5 получаем, что у — оптимальная стратегия игрока 2. Установим справедливость равенства (2.5.1). Так как у (Е У — оптимальная стратегия игрока 2, то v — тахН(х,у) > ттт&хН(х,у). х ух С другой стороны, выполняется неравенство v — тттахЩа;,^) < тттахЯ(ж,1/). v х ух Сравнивая последние неравенства, получаем (2.5.1), 2.5.2. Напомним, что функция (р : У -» Я1, где У С Лп, У — выпуклое множество, строго выпукла, если для всех Л G (О,1) выполняется строгое неравенство: (р(\уг + (1-Л)г/2) < A(^(yi) + (1 - А)<р(у2), УьУ2 е У, г/i ^ у2. Теорема. Пусть Г = (X, У, i7) — выпуклая игра со строго выпуклой функцией выигрыша. Тогда игрок 2 имеет единственную оптимальную стратегию, которая является чистой. Доказательство. Пусть /i* — оптимальная стратегия игрока 1, ср(у) = К(ц*,у) и v - значение игры. Если ?/ — точка спектра оптимальной стратегии игрока 2, то выполняется равенство (2.4.2): Однако для всех у е У имеем неравенство K((j,*,y) > v, поэтому <P(V) = ппп<р(г/) =г;. 2/GV Функция <р(у) является строго выпуклой, поскольку для Л G (0,1) имеет место неравенство: (р(\уг + (1 - \)у2) = / Я(ж, Ayi + (1 - A)y2)d/i*(x) < <Х [ H(x,yi)dti*(x) + (l-\) f H(x,y2)dfi*(x) = \(р(У1) + (I - \)ip(y2). (2.5.5) Jx Jx Из (2.5.5) следует, что функция ср(у) не может достигать минимума в двух различных точках. С другой стороны, существование точки минимума у функции ср(у) гарантируется теоремой п. 2.5.1, что завершает доказательство. 2.5.3. Приведем без доказательства результаты, симметричные теоремам по п. 2.5.1 и 2.5.2 для вогнутых и вогнуто-выпуклых игр. Теорема. Пусть Г — (X, У, Н), X С Rm, У С Rn — вогнутая игра. Тогда значение игры v вычисляется по формуле v = т&хттН(х,у) (2.5.6) х у а каждая чистая стратегия х*, на которой достигается maxmin (2.5.6), является оптимальной для игрока 1. Если, кроме того, функция Н(х,у) строго вогнута по х при каждом фиксированном у GY, то оптимальная стратегия игрока 1 единственна.
78 2. Бесконечные антагонистические игры Теорема. Пусть Г = (X,Y,H), X С Дт, Y С Rn —вогнуто-выпуклая игра. Тогда значение игры v равно v = тттахЯ(ж,т/) = тахттЯ(х,у). (2.5.7) ух х у В игре Г всегда существует ситуация равновесия (ж*,у*), где х* G X, у* G Y — чистые стратегии игроков 1 и 2, на которых достигаются внешние экстремумы в (2.5.7). Если при этом функция Н(х,у) строго вогнута (выпукла) по переменной х{у) при любом фиксированном у Е У (х Е X), то игрок 1 (2) имеет единственную оптимальную стратегию, которая является чистой. 2.5.4. Выясним структуру оптимальной стратегии игрока 1 в выпуклой игре Г = (Х,У,Я). Теорема. В выпуклой игре Г = (X, У, Н), Y С Rn, игрок 1 имеет оптимальную смешанную стратегию р,* с конечным спектром, состоящим не более чем из (п + 1)-й точки множества X. Доказательство этого результата основано на известной теореме Хелли о выпуклых множествах, которую мы приведем без доказательства [Рокафеллар, 1973, с. 210; Давыдов, 1978, с. 107]. Теорема Хелли. Пусть К — семейство из не менее чем п+1 выпуклого множества в R71, причем каждое множество из К компактно. Тогда, если каждые п+1 из множества семейства К имеют общую точку, то существует точка, общая всем множествам семейства К. Прежде чем перейти непосредственно к доказательству теоремы (2.5.5), докажем ряд вспомогательных утверждений. Пусть функция Н{х,у) непрерывна на произведении X х Y компактных множеств X с i?m, F С Rn. Обозначим как Хг — X х ... х X декартово произведение г множеств X. Рассмотрим функцию (р : Xr xY-^R1: (p(xi,...,xr,y)= max H(xi,у). l<i<r Лемма. Функция </?(жъ - - - » жг, у) непрерывна на Xr xY. Доказательство. Функция Н(х,у) непрерывна на компактном множестве X х У, поэтому и равномерно непрерывна на нем. Тогда для любого е > 0 найдется S > 0, такое, что из неравенств pi(x,x) < 8, р2{у\,у2) < 5 следует неравенство \Н{х,у\) — Н(х,у2)\ < е, где pi(-)» ръ(-) — расстояния в R171 и Rn соответственно. Имеем \р{х\,... ,xr,yi) - c/?(fi,... ,5?г,г/2)| = = | max H(xuyi) - max H(Wuy2)\ = \H{xix,y{) -Я(1»2,у2)|, 1<г<г 1<г<г где H{xil,yi) = max Н{хьу{), H(xi2,y2) = max Н{х^у2). 1<г<г Ki<r Если pi(xi,Xi) < 5 для i = l,...,r, /92(2/1,2/2) < * и если H{xil,yi) > Я(х»2,г/2), то 0< Нфг^уг) - H(Ei2,yi2) < H{xh,yi) -Я(1^,у2) <е. Аналогичные неравенства имеют место в случае Hfx^^yi) < H(x~i2,y2).'
§2.5. Игры с выпуклой функцией выигрыша 79 Лемма. В выпуклой игре Г = (X, У, Н), Y С Rn значение игры v равно v — min max Щх, у) = max min max H(xi,y), (2.5.8) у х aji,...,ajn+i у 1<г<п-)-1 где у GY, Xi G X, г = 1,...,п + 1. Доказательство. Введем обозначение: 0= max min max H(xi,y). xu...,xn+1 у 1<г<п+1 Так как min^ тах1<^<п+1 Н{х^у) < тшу тахж Н(х,у) = v для каждой системы точек (xb...,xn+i) <Е Xn+1, то 9 < v. (2.5.9) Для произвольного фиксированного набора стратегий Xi & X, г = 1,...,п + 1, рассмотрим систему неравенств относительно у: #(а*, у) < 0, у в У, г - 1,..., п + 1. (2.5.10) Покажем, что система (2.5.10) имеет решение. Действительно, 0 > min max Н{х.^у) = max H(xi,y) > Н(х{,у), г = 1,... ,n +1. г/ 1<г<п+1 1<г<п+1 Таким образом, у удовлетворяет системе (2.5.10). Следовательно, система (2.5.10) имеет решение для любых Xi G X, г = 1,2,...,п4-1. Зафиксируем х и рассмотрим множество Dx = {y\H(x,y)<e}. Функция Н(х,у) выпукла и непрерывна по у, поэтому множество Dx выпукло и замкнуто при каждом х. Множества {Dx} образуют систему выпуклых компактных множеств в Яп, причем в силу того, что неравенства (2.5.10) всегда имеют решение, любой набор по (п + 1)-му множеству системы {Д^имеет непустое пересечение. Поэтому по теореме Хелли существует точка у о G У, общая для всех множеств Dx, т. е. такая, что Н(х,у0)<в . (2.5.11) при любых х G X. Предположим, что 0 ф v. Тогда из (2.5.9) и (2.5.11) имеем 0 < v = min max il(ж, у) < т&хН(х,уо) < в, ух х т. е. 0 < 0. Полученное противоречие и доказывает (2.5.8). Перейдем к доказательству теоремы.
80 2. Бесконечные антагонистические игры Доказательство. Из предыдущей леммы имеем v= max min max H(xi,y) = min max H(xi:y) — xi,...,xn+i у 1<г<п+1 у 1<г<п+1 n+1 = minmax ^ H(xi:y)7Ti: (2.5.12) у v ^—i %—\ где afi,... ,жп+1 — векторы, на которых достигается внешний максимум в (2.5.8), п+1 p=(^,...,^n+1)EiT+1, TTi >0, Х>* = 1. (2.5.13) г=1 Рассмотрим функцию п+1 К(р, у) = 5Z Я(^' s/)71"*' y^Y,peP, г=1 где Р состоит из векторов, удовлетворяющих (2.5.13). Функция К(р,у) непрерывна по р и у, выпукла по у и вогнута по р, а множества У С Дп, Р С Дп+1 — компакты в соответствующих евклидовых пространствах. Поэтому по теореме п. 2.5.3 и из (2.5.12) имеем п+1 - п+1 V — min max } H(x~i,y)7ri = max min V^ Н(х~г,у)7Гг. (2.5.14) г=1 г=1 Из (2.5.8) и (2.5.14) следует существование таких р* Е Р и у* Е У, что для всех # Е X и у Е У выполняется неравенство: п+1 H(x,y*)<v<J2H&,y)<- г=1 Теорема доказана. Сформулируем теорему о структуре оптимальной стратегии игрока 2 в вогнутой игре Г-(X, У, Я). Теорема. В вогнутой игре Г = (X,Y,H), X С Дт7 игрок 2 имеет оптимальную смешанную стратегию v*с конечным спектром, состоящим не более чем из (т + 1)-й точки множества Y. Доказательство теоремы аналогично доказательству предыдущей теоремы. 2.5.5. Суммируем результаты теорем для выпуклых игр, доказанные в этом параграфе. Теорема. Пусть Г — (X, У, Н), X С i?m, У С Rn — выпуклая игра. Тогда значение v игры Г определяется по формуле v = min max Н(х, у). У х Игрок V обладает оптимальной смешанной стратегией //о с конечным спектром, состоящим не более чем из (п + 1)-й точки множества X. В то же время все чистые стратегии уо, на которых достигается miny тахж Н(х,у), являются оптимальными
il.o. Игры с выпуклой функцией выигрыша, 81 й,\я игрока 2. Если, кроме того, функция Н(х,у) при каждом фиксированном x'El упрого выпукла по у, то оптимальная стратегия игрока 2 единственна. Проиллюстрируем эти результаты на примере. Пример 11. Рассмотрим частный случай примера 1 (см. п. 2.1.2). Пусть Si = #2 = S, а, множество S представляет собой замкнутый круг на плоскости с центром в точке О и радиусом R. Функция выигрыша Н(х,у) = р(х,у), х G S, у G S, где р(-) — функция расстояния з Д2, является строго выпуклой по у при любом фиксированном х, a S — выпуклое ъшожество. Поэтому согласно теореме п. 2.5.5 значение игры v равно v = mmmaxp(x,y). (2.5.15) ?у с; о ХсО Вычисляя minmax в (2.5.15), получаем, что v = R (см. пример 8 п. 2.2.6). При этом точка уо Е S, на которой достигается минимум выражения max^s р{%,у), единственная и совпадает с центром круга S (т. е. точкой О). Эта точка и является оптимальной стратегией игрока 2 (минимизирующего). Теорема утверждает, что у игрока 1 (максимизирующего) существует оптимальная смешанная стратегия, предписывающая положительную вероятность не более чем трем точкам множества S. Однако вследствие симметрии множества S в действительности оптимальная смешанная стратегия (Ло игрока 1 предписывает с вероятностью 1/2 выбирать любые две диаметрально противоположные точки на границе множества S. Для доказательства оптимальности стратегий до»2/о достаточно установить, что К(х,уо) < Щдо>Уо) < i^(//o,y) для всех х,у Е S, где К — математическое ожидание выигрыша, К(^о^уо) = R/2 + R/2 == R. Действительно, А'(ж,2/0) = р(0,ж) < R и К(цо,у) = р(хиу)/2 + р(х2,у)/2 > Я, где Xi и ж2 — произвольные диаметрально противоположные точки на границе круга S. Оптимальность стратегий до и уо доказана. 2.5.6. Рассмотрим частный случай выпуклой игры Г = (X, Y, Н) когда X — Y = 0,1], т. е. выпуклую игру на единичном квадрате. Из теоремы п. 2.5.5 следует, что игрок 2 всегда имеет оптимальную чистую стратегию уо ^ [0>1]> а игрок 1 — смешанную, сосредоточенную не более чем на двух точках, при этом значение игры равно v= min max H(x,y). (2.5.16) уе[0,1]а;е[0,1] Множество всех существенных стратегий {х} С [0,1] игрока 1 является подмножеством решений уравнений (п. 2.4.2) H(x,yQ) = v, же [0,1], (2.5.17) где уо — оптимальная стратегия игрока 2. Чистые стратегии (2.5.17) игрока 1, удовлетворяющие равенству (2.5.17), иногда называются уравновешивающими. Множество всех уравновешивающих стратегий игрока 1 замкнуто и ограничено, т. е. компактно. Оптимальной чистой стратегией игрока 2 является любая точка уо ^ [0,1], на которой достигается (2.5.16). Обозначим через Нгу(х, у)частную производную функции Я по у (при у — 0 и у — 1 понимается соответственно правая и левая производные). Лемма. Если уо — оптимальная стратегия игрока 2 в выпуклой игре на единичном квадрате с функцией выигрыша Н, дифференцируемой по у и уо > 0, то найдется уравновешивающая стратегия х' игрока 1, для которой Н'(х',уо)<0. (2.5.18)
82 2. Бесконечные антагонистические игры Если эюе уо < 1, то существует такая уравновешивающая стратегия х" игрока 1, что Н'у(х",у0)>0. (2.5.19) Доказательство. Докажем (2.5.18). (Вторая часть леммы доказывается аналогично.) Предположим противное, а именно: для каждой уравновешивающей стратегии х игрока 1 выполняется неравенство Ну(х,уо) > О, т. е. функция Н(х,-) в точке у о строго возрастает. Это означает, что найдутся такие е(х) > 0 и Q(x) > 0, что для у Е [0,1] удовлетворяющих неравенству О (ж) > у о — у > О, выполняется неравенство: Н(х,у) < Н{х,у0) -е(х). В силу непрерывности функции Н имеем, что для каждой уравновешивающей стратегии х и е(х)/2 найдется такое 5(х) > 0, что при О (ж) > уо — у > О выполняется неравенство ТТ, ч гг/_ ч е(х) тт, ч е(х) тт, ч е(х) Н(х,у) < Н(х,у) - -^ < Н(х,у0) - -^ = Н(х,уо) - -^ для всех, уравновешивающих стратегий ж, для которых \х — х\ < 5(х). Множество уравновешивающих стратегий компактно, поэтому его можно покрыть конечным числом таких 5(ж)-окрестностей. Пусть е — наименьшее из всех соответствующих чисел е(х). Тогда имеем неравенство, справедливое для всех уравновешивающих стратегий х (в том числе и для всех существенных стратегий) Н(х,у) < Н(х,у0) --, где уо -min0(ж) <у < уо- Пусть (Ло — оптимальная смешанная стратегия игрока 1. Последнее неравенство справедливо для всех точек спектра стратегии /xq, поэтому, интегрируя, получаем s s K(ii0,y) < К(ц0,у0) - - - v - -, что противоречит оптимальности стратегии //о- Теорема. Пусть Г — выпуклая игра на единичном квадрате с функцией выигрыша Н, дифференцируемой по у при любом х, уо — чистая оптимальная стратегия игрока 2, a v — значение игры. Тогда: 1) если уо = 1, то среди оптимальных стратегий игрока 1 имеется чистая стратегия х', для которой выполняется (2.5.18); 2) если уо = 07 то среди оптимальных стратегий игрока 1 имеется чистая стратегия х", для которой выполняется (2.5.19); 3) если 0 < уо < 1, то среди оптимальных стратегий игрока 1 найдется такая, которая является смесью двух существенных стратегий х' и х", удовлетворяющих (2.5.18), (2.5.19) с вероятностями а и 1 — а, а Е [0,1].
§2.5. Игры с выпуклой функцией выигрыша 83 При этом а является решением уравнения аНу(х',у0) + (1 - а)Н'у{х'\уъ) = 0. (2.5.20) Доказательство. Пусть у0 = 1- Тогда найдется уравновешивающая стратегия х' игрока 1, для которой выполняется (2.5.18). Тогда из выпуклости функции Н(х',у) следует, что она не возрастает по у на всем промежутке [0,1], Достигая при у = 1 своего минимума. Это означает, что Н(х',у0)<Н(х\у) (2.5.21) при всех у е [0,1]. С другой стороны, из (2.5.17) следует, что Щх,у0)<Щх',у0) (2.5.22) при всех х Е [0,1]. Неравенства (2.5.21), (2.5.22) показывают, что (ж', г/о) — ситуация равновесия. Случай у о — 0 исследуется аналогично. Перейдем к случаю 3. Если 0 < уо < 1, то имеются две уравновешивающие стратегии х' и х'\ удовлетворяющие (2.5.18), (2.5.19) соответственно. Рассмотрим функцию р(Р)=РЩ(х',уо) + (1-0)Н'у(х",Уо)- Из (2.5.18), (2.5.19) следует, что у?(0) > 0, (р(1) < 0. Функция <р(/3) непрерывна, поэтому найдется а Е [0,1], для которого ip(a) = 0. Рассмотрим смешанную стратегию /хо игрока 1, заключающуюся в выборе стратегии х' с вероятностью а и стратегии х" с вероятностью (1 — а). Функция К(1ло,у) = аН(х',у) + (1 - а)Н(х",у) выпукла по у. Ее производная по у в точке у — у о равна К'у{цо,у0) = аН'у(х',у0) + (1 - а)Н'у(х",уо) - 0. Следовательно, в точке уо функция К(цо,у) достигает минимума. Отсюда, учитывая (2.5.17), имеем К(р0,у0) <К{ро,у), K{iA0,y) =Н(х,уо) = v = maxH(x,y0) > Н(х,у0) X при всех х G [0,1] и у Е [0,1], что и доказывает оптимальность стратегий ро и уо- 2.5.7. Теорема п. 2.5.6 дает способ отыскания оптимальных стратегий, который мы проиллюстрируем на примере. Пример 12. Рассмотрим игру на единичном квадрате с функцией выигрыша Н(х,у) = (х — у)2. Это есть одномерный аналог примера 11, только в качестве функции выигрыша здесь взят квадрат расстояния. Поэтому естественно ожидать, что значение v игры будет равно v = 1/4, оптимальной стратегией игрока 2 является середина отрезка 1/2, а оптимальной стратегией игрока 1 — выбор с вероятностью 1/2 крайних точек 0 и 1 интервала [0,1]. Покажем это, используя теорему п. 2.5.6.
84 2. Бесконечные антагонистические игры Заметим, что д2Н(х, у)/ду2 = 2 > 0, так что игра Г — строго выпуклая, поэтому игрок 2 имеет единственную оптимальную стратегию, которая является чистой (теорема п. 2.5.5). Пусть у — фиксированная стратегия игрока 2. Тогда та*(*-у)2 = {(1-^ У^1/2 2 У2\ У>1/2. Таким образом, из (2.5.16) получаем v = min{ min (l — у)2, min у2}. 0<y<i ?<y<i Оба внутренних минимума достигаются на уо — 1/2 и принимает значение 1/4. Поэтому v = 1/4, а уо = 1/2 — единственная оптимальная стратегия игрока 2. Найдем оптимальную стратегию игрока 1. Для этого заметим, что 0 < уо < 1 (Уо = 1/2). Найдем существенные стратегии игрока 1. Уравнение (2.5.17) в данном случае принимает вид (х — 1/2)2 = 1/4. Откуда Х\ — 0 и Х2 = 1, т. е. существенными для игрока 1 являются крайние точки отрезка [0,1]. Вычислим производные Ну{хиУо) = 1 > 0, Ну(х2,у0) = -К 0. Составим уравнение (2.5.20) относительно а. Имеем 2а — 1 = 0, откуда а — 1/2. Таким образом, оптимальная стратегия игрока 1 состоит в выборе им чистых стратегий 0 и 1 с вероятностью 1/2. 2.5.8. В заключение параграфа приведем результат, аналогичный п. 2.5.6 для вогнутой игры. Теорема. Пусть Г — вогнутая игра на единичном квадрате с функцией выигрыша Н, дифференцируемой по х при любом фиксированном у, хо — чистая оптимальная стратегия игрока 1, a v — значение игры. Тогда: 1) если xq = 1, то среди оптимальных стратегий игрока 2 имеется чистая стратегия у', для которой выполняется неравенство: #i(W)>0; (2.5.23) 2) если хо = 0, то среди оптимальных стратегий игрока 2 имеется чистая стратегия у"', для которой Н'х(хо,у")<0; (2.5.24) 3) если 0 < хо < 1, то среди оптимальных стратегий игрока 2 найдется такая, которая является смесью двух существенных стратегий у' и у", удовлетворяющих (2.5.23), (2.5.24), с вероятностями (3 и 1 — /3. При этом число /3 Е [0,1] является решением уравнения рН'х(х0,у') + (1-р)Н'х(х0,у")=0.
§2.6. Одновременные игры преследования 85 § 2.6. Одновременные игры преследования В этом параграфе приведено решение некоторых одновременных игр преследования, у которых функция выигрыша или множества стратегий игроков невыпуклые. К таким играм не применимы результаты §5, поэтому решение для обоих игроков находится в классе смешанных стратегий. Существование решения в этом классе гарантируется теоремой п.2.4.4. 2.6.1. Пример 13 (Одновременная игра преследования в кольце). Эта игра является частным случаем примера 1 п. 2.1.2, когда множества 5i = 52 = S; S представляет собой кольцо. Радиусы внешней и внутренней окружностей кольца S обозначим соответственно Я и г*-, Д > т, Покажем, что оптимальными стратегиями игроков 1 и 2 являются выборы точек с равномерным распределением на внутренней (для игрока 2) и внешней (для игрока 1) окружностях кольца S. Обозначим эти стратегии р* (для игрока 1) и и* (для игрока 2). При указанных стратегиях среднее значение выигрыша (расстояния) равно -1 л27Г л27Г К(р\ г/*) = _ / / у/8? -f г2 - 2Дг cos(<p - ф)дхрд.ф = 1 Г21Т = — / y/R2+r2-2Rrcos^ = Ф(г, R) (2.6.1) где ф и (р — полярные углы чистых стратегий игроков 1 и 2 соответственно. Если игрок 1 выбирает точку х с полярными координатами р, ф, то ожидаемое расстояние (игрок 2 придерживается стратегии и*) равно 1 г2?г К(х,ь>*) = Ф(г,р) = —- / у/г2 Л-р2 -2rpcos^. 2тг Jo При г < р < R функция (р(р) = р2 + г2 —2 pr cost; монотонно возрастает. В частности, г>(р) < ф{Щ ПРИ г < р < R. Отсюда имеем Ф(г,р) < Ф(г, R). Поэтому для любой стратегии игрока 1 ожидаемое расстояние не больше Ф(г, R). Рассмотрим теперь ситуацию (/х*,г/), в которой t/G 5, ари<р- полярные координаты точки у. Имеем л2тг -1 nZTT K{ii\y) = Q{p,R) = —j v/^2 + />2-2i?pcos^(p), r<p<R. Зафиксируем R и рассмотрим функцию Ф(р, R) на отрезке 0 < р < R. Дифференцируя по р, можно убедиться, что ЗФМ d4(p,R) 0<о</? Поэтому функция Ф(р, Д) монотонно возрастает по р, следовательно, Ф(г, Д) < Ф(р, Д) и для всех х,у е S. Таким образом, оптимальность стратегий р* и и* доказана, а значение игры v равно K{p*,v*), где K(p*,v*) определяется (2.6.1). В частности, если S — окружность радиуса Д (случай г = Д), то значение игры равно 4Д/7Г.
86 2. Бесконечные антагонистические игры 2.6.2. Пример Ц- Рассмотрим одновременную игру, когда игрок 2 выбирает пару точек у = {yi, у2}> где у\ G 5, У2 E 5, а игрок 1, не зная выбора игрока 2, — точку ж Е 5. Выигрыш игрока 1 полагаем равным min^i^ P2(x,Vi)- Приведем решение для случая, когда множество Д представляет собой круг радиуса Д с центром в начале координат (точке О): S = S(0,R). Рассмотрим функцию Ф(г, р) = г2 + р2 — 4гр/тт, где г и р принимают значения из промежутка г, р Е [О, Д]. Установим свойства функции Ф(г, р). Лемма 1. Функция Ф(г, Д) f?ca?c функция переменной г) является строго выпуклой и достигает абсолютного минимума в единственной точке г о = 2Д/7Г. Доказательство. Имеем д2Ф/дг2 = 2 > 0. Следовательно, функция Ф(г,р), г Е [0, Д] строго выпукла, а производная ^=2г-^ (2.6.2) ОТ 7Г строго монотонна. Очевидно, что функция (2.6.2) в единственной точке г о = 2R/n обращается в нуль. В силу строгой выпуклости, Ф(г, Д) точка г о является единственной точкой абсолютного минимума. Лемма доказана. Лемма 2. Функция Ф(го,р) строго выпукла по р и достигает абсолютного максимума в точке ро = Д. Доказательство. В силу симметрии функция Ф(г, р) является строго выпуклой по р. Поэтому максимум этой функции достигается в одной из точек 0 или Д. Тогда имеем Ф(г0, R) - Ф(г0,0) = rl + R2- 4Г0Й/7Г - rl = R2 - -( — )R = ^^'^ > °- 7Г 7Г Ъ2 Лемма доказана. Из лемм 1, 2 вытекает, что пара (го, Д) является седловой точкой функции Ф: Ф(г0,р)<Ф(г0,Д)<Ф(г,Д). Теорема. Оптимальными смешанными стратегиями являются: для игрока 2 — выбор точки у\ с равномерным распределением на окружности 5(0, го) с центром в точке О и радиусом г о (yi = —У2)> для игрока 1 — выбор точки х с равномерным распределением на окружности S(0,R). Значение игры равно величине Ф(го, Д). Доказательство. Указанные в теореме стратегии обозначим через /х* и и* для игроков 1 и 2 соответственно. Пусть игрок 1 придерживается стратегии //*, а игрок 2 — произвольной чистой стратегии у — {2/1, У2}, Vi — {ti cos ifi, ri sin^), i = 1,2. Рассмотрим сначала случай, когда у\ —У2- Обозначим через г число г\ +7*2, а через у? — угол ц>\ = <р2- Выигрыш игрока 1 равен 1 Г27Т А К(р?,у) = — / [R2 + r2- 2Дгсоз(^ - <p)]di/> = R2+r2> R2+r>2 - -(Дг) - Ф(г, Д). 27Г Jo 7Г (2.6.3) Тогда, по лемме 1, имеем K{ii*,y) > Ф(го, Д). В дальнейшем будем предполагать, что у\ ф- у<2- Введем на плоскости полярную систему координат следующим образом. За начало координат возьмем точку О, за полярную ось — луч, выходящий из точки О перпендикулярно хорде АВ (множеству равноудаленных от у\ и уч точек круга 5(0, Д)). Для простоты записи предположим,
§2.6. Одновременные игры преследования 87 Рис. 2.5. Одновременная игра преследования что и относительно новой системы координат точка yi имеет те же координаты (r^ cos (/?.;, Ъ sin <pi). Тогда (рис. 2.5) выигрыш первого игрока равен 1 С К{Р*,У) = 7Г / min lR2 + r<i ~ 2Rri cos(^ ~ ^i)l# 27Г Jo *=1'2 1 Г /3 27Г .7-/3 -f г2 - 2Яг2 cos(t/; - <р2)]# + л2тг-/3 2тг рлтт — р / [й2 -f r2 — 2Rri cos^ - (/?i)]<i'0. Пусть Fi(y>) = [(й2+г^)/?-2^г28т/?со8^]/тг, -/3 < <р </3, F2(<p) = [(R2 + г1)(тг - (3) + 2Rr1sin/3cosip}/<K, /3 < <р < 2тг - /3. Стационарными точками функций Fi и F2 являются 0 и 7г соответственно, так как имеем 0 < /3 < тг/2 и -F{(<p) = ^i?r2 sin/3 sin (/?, F2((p) = — f-Rn sin/3 sin у?, причем 0 и 7г — точки абсолютного минимума функций F\ и F2, {F[((p) < 0 при <р G (—/3,0), F{(ip) > О при (/? Е (0,/3); -F2((p) < 0 при ip е {/3, n), F^ip) > 0 при ip <Е (7г,27г — /?)). Следовательно, #(/Л у) - Fi(^2) + ^Ы > Fi(0) + F2(n) - If13 1 r27r~^ = — / (Я2 -f- r^ - 2Яг2 cos ^)ф/> + 7Г- / (Я2 + ri - 2ЙГ1 cos(^ - тг))е^, (2.6.4) 2тг ./.уз 27Г J^ т. е. игрок 1 при использовании игроком 2 стратегии у\ — {—п, 0}, у2 = {г2,0} получит меньший выигрыш, чем при использовании стратегии yi = |r» cos<p»,rising i = 1,2. Пусть теперь точки yi и у2 лежат на диаметре круга S(0,R) и расстояние между ними 2г. Обозначим через 2а центральный угол, опирающийся на дугу, стягиваемую хордой АВ (рис. 2.6). Предположим, что у\ — {Я cos а — г, 0}, у2 = {Rcosa + г, 0}.
88 2. Бесконечные антагонистические игры Тогда выигрыш первого игрока равен 1 f a ф(а, г) = — / [(R cos ф - R cos a - г)2 + Я2 sin2 ?/;]<#+ -1 /»27Г—а Н / [(йсо8^-^соза + г)2 + Я28т2^]# = 1 Г а = —- / [Я2-2йсо8^(^со8а + г) + (Ясо8а-Ьг)2]#4- 2^ J-a Н / [Я2 -2i2cos^(i?cosa-r) + (j^cosa - г)2]# = 27Г 7а = -{[Я2-Ь(Ясо8а + г)2]а-2Я8та(Дсо8а + г)-Ь + [R2 + (#cosa-r)2](7r -а) + 2Rsma(Rcosa-г)}. Рис. 2.6. Точки yi и ?/2 лежат на диаметре круга 5(0, й) Покажем, что функция г при фиксированном ф(а,г) достигает минимума по а при а = 7г/2. В результате элементарных вычислений получим дф/да — {2Rsma[(r[—2a)f— 7ri?cosa]}/7r, поэтому для достаточно малых значений а имеем дф(а,г)/да < О, т. к. sin а > 0, г (тс — 2а) — nRcosa < 0 (в предельном случае гп — ttR < 0). Вместе с тем дф(тг/2,г)/да = 0. При каждом фиксированном г функция дф(а,г)/да не имеет нулей по а, кроме а = 7г/2. Предположим противное. Пусть ах — нуль этой функции в интервале (0,7г/2). Тогда функция G(a) = (n — 2a)r—nRcosa обратится в нуль при а — а\. Таким образом, 6?(ai) = б?(тг/2) = 0. Очевидно, что G(a) > О при всех а Е (ai,7r/2). Это противоречит выпуклости функции G(a) (G"(a) = 7r.Rcosa > 0). Следовательно, дф(а,г)/да < 0 при a G (0,7г/2) и дф(7г/2,г)/да — 0. Тогда функция ф(а,г) достигает абсолютного минимума по а при a = 7г/2 : ф(а,г) > ф(тг/2,г). Значит, и в этом случае имеем ь K(f,y) = ф{а,г) > ф(ж/2,г) = Ф(г, R) > Ф(г0>Я). (2.6.5) Из (2.6.3)-(2.6.5) вытекает, что для любой чистой стратегии у = {2/1,2/2} справедливо неравенство К(/Лу)>Ф(г0,Д). (2.6.6)
§2.6. Одновременные игры преследования 89 Пусть игрок 2 применяет стратегию is* , а игрок 1 — произвольную чистую стратегию х — {р cos ip, p sin ip}. Тогда игрок 1 получает выигрыш 1 [2ж К(х, и*) = —- / min[p2 -f rl - 2pr0 cos(^ - <p), p2 + r2 -f 2pr0 cos(t/; - <p)]dy> = ^ Jo 1 /*27r = — / min(p2 -f rl - 2pr0 cos ^ p2 + r2, -f 2pr0 cos C) A; = Ф(пь р) /o и по лемме 2 имеем .^(а:,|/*) = Ф(го,/9)<Ф(го,Д). (2.6.7) Из неравенств (2.6.6) и (2.6.7) получаем, что р* и г/* — являются оптимальными стратегиями игроков, а Ф(го, Я) — значение игры. Теорема доказана. 2.6.3. Пример 15. Пусть игрок 2 выбирает набор из т точек у = {yi,..'.,ут}, где Уг G 5, i = 1,..., т, а игрок 1 одновременно с ним — точку х Е S. Выигрыш игрока 1 полагаем равным min^=iv..)m p{x->Vi)- Решим игру в случае, когда множество S совпадает с отрезком [—1,1]. Теорема. Оптимальная сметанная стратегия i/* игрока 2 заключается в равновероятном выборе двух наборов из т точек {-1 + {1 4г 2т -1 4г , г = 0,1,... ,т - 1}, , г = 0,1,... ,т — 1}. 2т - Г Оптимальная стратегия р* игрока 1 состоит в выборе точек (2т — 2% — 1 . Л ^ л . < 2т-1 .'~<М.-.2т-1} с вероятностями 1/(2т). Значение игры равно 1/(2т — 1). Доказательство. Пусть д* и г/* - смешанные стратегии игроков 1 и 2 соответственно, оптимальность которых нужно доказать. Введем следующие обозначения: k 2т-2г-1 2т - 2г + 1 2т 2т-1 1,2,..., 2т- 1. Покажем сначала, что K(x,v*) < (2m-1) при всех ж Е [—1,1]. Действительно, при х Е /?; имеем K(x,v*) — -min 2 г 2т - 4г - 1 +- mm 2т-1 2т + 4г + 1 + 2т- 1 1 2т - 2j - 1 \ 1 /2?п - 2j + 1 _ 2m-1 У + 2 V 2т-1 Х) ~~ 2т-\ (2.6.8) Пусть теперь игрок 1 выбирает смешанную стратегию р*, а игрок 2 — произвольную чистую стратегию у = {уи ..., ут}-
90 2. Бесконечные антагонистические игры Обозначим Тогда 2т -27-1 . л ж, = — —, з =0,l,...,2m-l. 2m — 1 2m-l 1 1 m 12 j = l Из неравенств (2.6.8), (2.6.9) вытекает утверждение теоремы. 1 § 2.7. Один класс игр с разрывной функцией выигрыша Для игр, у которых функции выигрыша разрывны, нельзя гарантировать существование значения игры в смешанных стратегиях (см. пример п. 2.4.12). Однако часто именно разрывность функции выигрыша позволяет найти оптимальные стратегии и значение игры. Нахождению решения помогают также эмпирические предположения о виде оптимальных стратегий игроков. 2.7.1. В данном параграфе будут исследованы игры с выбором момента времени или игры типа дуэли (см. примеры 4,5 п. 2.1.2). Основной особенностью этого класса игр на квадрате является разрывность функции выигрыша Н(х,у) вдоль диагонали х = у. Рассмотрим игру на единичном квадрате с функцией выигрыша [Карлин, 1964] Гф(х,у), если х < у, Н(х,у) = < (р{х)у если х = у, (2.7.1) [0(ж,у), если а; > у, где ф(х,у) определена и непрерывна на множестве 0 < х < у < 1, функция <р непрерывна на [0,1], а в(х, у) определена и непрерывна на множестве 0 < у < х < 1. Предположим, что игра Г = (X, У, i7), где X — Y — [0,1], Н задана (2.7.1), имеет оптимальные смешанные стратегии /х* и и* игроков 1 и 2 соответственно. Более того, предположим, что оптимальные смешанные стратегии /х*, и* являются распределениями вероятностей, которые имеют непрерывные плотности /*(ж) и д*(х) соответственно. Далее в этом параграфе будем обозначать искомую стратегию / (соответственно д), понимая под этим плотность распределения. Выясним свойства оптимальных стратегий. Пусть / — стратегия игрока 1. Для у Е [0,1] имеем K{f,y)= f il>{x,y)f{x)dx+ f 0{x,y)f(x)dx. (2.7.2) JO Jy
§2.7. Один класс игр с разрывной функцией выигрыша 91 Предположим, что /ид — оптимальные стратегии игроков 1 и 2 соответственно. Тогда для любой точки уо5 в которой дЫ) > о (2.7.3) (точки спектра стратегии д), выполняется K(f,y0)=v, (2.7.4) где v — значение игры. Но неравенство (2.7.3) строгое, поэтому существует 8 > 0 такое, что для всех у : \у — уо\ < 5, неравенство (2.7.3) сохраняется. Таким образом, для этих у сохраняется и равенство (2.7.4), т. е. выполняется равенство K(f,y) = v. Это означает, что dK(f,y) ду Уравнение (2.7.5) перепишем в виде 0. (2.7.5) Щу,у)-Ф(У,уШу) = I ^y(x,y)f(x)dx+ f 0y(x,y)f{x)dx, yeS(y0,6). (2.7.6) JO Jy Таким образом, мы получили интегральное уравнение (2.7.6) относительно искомой стратегии /. 2.7.2. Пример 16. Рассмотрим бесшумную дуэль, сформулированную в примере 5 п. 2.1.2. Функция выигрыша в игре имеет вид (2.7.1), где ф{х, у) = х~у + ху, (2.7.7) 0(х,у) = х-у-ху, (2.7.8) <р(х) - 0. (2.7.9) Заметим, что данная игра является симметричной, поскольку Н{х,у) = —Н(у,х) (кососимметричная функция выигрыша). Поэтому анализ, аналогичный проведенному в п. 1.9.2 гл. 1, показывает, что значение v игры, если оно существует, равно нулю, а оптимальные стратегии игроков (если они также существуют) должны быть одинаковыми. Имеем: фу{х,у) = — 1 + ж, 0у(х,у) = — 1 — ж, 0(у,у) — ф(у,у) = — 2у2 и интегральное уравнение (2.7.6) принимает вид -2y2f(y) = / (х - l)f(x)dx - / (х + l)f(x)dx. (2.7.10) JO Jy Будем искать стратегию / в классе дифференцируемых плотностей распределения, принимающих положительные значения в интервале (а, /3) С [0,1] (интервал (а, /?) — спектр стратегии /). Тогда (2.7.10) можно записать следующим образом: -2y2f(y) = [ (х - l)f(x)dx - [ (х + l)f(x)dx. (2.7.11) J a Jy
92 2. Бесконечные антагогтстические игры Дифференцируя обе части (2.7.11) по у, получим дифференциальное уравнение вида -4yf-2y2f = (y-l)f + (y + l)f или ,У/' = "3/ (у?0). (2.7.12) Интегрируя уравнение (2.7.12), имеем /(У) = 1У~\ (2.7.13) где 7 ~ некоторая константа. Теперь осталось найти а, /3 и 7- Напомним, что оптимальные стратегии игроков в рассматриваемой игре одинаковы. Из нашего предположения о спектре стратегии / следует, что K(f,y)=0 (2.7.14) для всех у Е (а, /3). Пусть /3 < 1. Поскольку функция K{f,y) непрерывна по у, из (2.7.14) имеем K(f, /3) = 0. Следовательно, / (x-P + Px)f(x)dx = 0. (2.7.15) J a. Однако в случае /3 < 1 из (2.7.15) следует Г0 K(f,l)= / (x-l+x)f(x)dx<0, J a что противоречит оптимальности стратегии /. Таким образом, /3 = 1 и Х(/, 1) = 0. Тогда, подставляя (2.7.13) в (2.7.15) при /3 = 1, получаем Гг2х-1 , 1— 'х = 1 0, 7^0. Откуда вытекает За2-4а + 1 = 0. (2.7.16) Решая уравнение (2.7.16), найдем два корня a = 1 и а = 1/3, первый из которых посторонний. Следовательно, a = 1/3. Коэффициент 7 находится из условия нормировки f(y) / /(y)dy = 7 / Л/з Л/з '1/3 Л/3 откуда 7 = 1/4. Таким образом, получено решение игры примера 5 п. 2.1.2: значение игры равно v — 0, оптимальные стратегии / и g обоих игроков (как плотности распределения) равны между собой и имеют вид /(*)=i,„^ 0,2 < 1/3, 1/(4ж3),ж>1/3.
§2.8. Бесконечные игры поиска 93 2.7.3. Пример 11. Найдем решение игры «шумная дуэль» (см. пример 4 п. 2.1.2) для функций меткости р\{х) — х и Р2{у) = У- Функция выигрыша Н(х, у) в игре имеет вид (2.7.1), где ф{х,у) = 2ж-1, (2.7.17) 9(х,у) = 1-2у, (2.7.18) ф) = 0. (2.7.19) Игра является симметричной, поэтому v = 0, а оптимальные стратегии игроков совпадают. Здесь оба игрока имеют чистую оптимальную стратегию х* = у* = 1/2. Действительно, Н(1/2,у) = 0(1/2,у) - 1 - 2у > 0 при у < 1/2; #(1/2,у) = <р(1/2) - 0 при у = 1/2; Я(1/2, у) - ^(1/2, у) - 0 при у > 1/2. С точки зрения интерпретации игры решение предписывает дуэлянтам стрелять одновременно, когда каждый пройдет половину дистанции до барьера. В заключение следует отметить, что класс игр с выбором момента времени хорошо изучен (см. [Давыдов, 1978, Karlin, 1959, Воробьев, 1984]). § 2.8. Решение бесконечных одновременных игр поиска В этом параграфе будет приведено решение игр поиска с бесконечным числом стратегий, сформулированных в п. 2.1.2. Первая из рассматриваемых игр интересна тем, что в ней оба игрока имеют оптимальные смешанные стратегии с конечным спектром. 2.8.1. Пример 18 (Поиск па отрезке). [Дюбин, Суздаль, 1981]. Рассмотрим задачу поиска на отрезке (см. пример 2 п. 2.1.1), которая моделируется игрой на единичном квадрате с функцией выигрыша Н(х,у) вида Н(х,у) = {1' «ели |*-»|<U 6(0,1), 10, в противном случае. Заметим, что при / > 1/2 у игрока 1 имеется чистая оптимальная стратегия ж* — 1/2 и значение игры равно единице, поскольку в этом случае Н(х*,у) == Н(1/2,у) — 1, так как |1/2 — у\ < 1/2 < / для всех у Е [0,1]. Предположим, что / < 1/2. Заметим, что стратегия х = / доминирует все чистые стратегии х < /, а стратегия х = 1 — / — все стратегии х > 1 — /. Действительно, Н(х,у) = Н(1,у) = 1, у е [0,21], 0, в противном случае, и если х < I, то H(xlV) = {h ve[U + *l> 10, в противном случае. Таким образом, при х < I : Н(х, у) < Н(1, у) для всех у Е [0,1].
94 2. Бесконечные антагонистические игры Аналогично имеем Щх,у)=Н(1-1,у) 1, 2/G[l-2U], О, в противном случае, а если х G [1 — /, 1], то Н(х,у) 1, yG [х-/,1], О, в противном случае. Таким образом, при х Е [1 — /, 1], i7(x, у) < Н(1 — /, у) для всех у Е [0,1]. Рассмотрим следующую смешанную стратегию /х* игрока 1. Пусть I — х\ < Х2 < ... < хш = 1—1 — точки, для которых расстояние между любой парой соседних точек не превосходит 21. Стратегия /х* выбирает каждую из этих точек с равными вероятностями 1/га. Очевидно, что при этом любая точка у Е [0,1] попадает в /-окрестность хотя бы одной точки ж/с. Следовательно, К{ц*,у)>1/тп. (2.8.2) Пусть теперь и* — стратегия игрока 2, которая состоит в равновероятном выборе точек 0 = t/i < у2 < - - - < Уп = 1, причем расстояние между парой соседних точек больше 21. Тогда, очевидно, существует не более одной точки у}~, в /-окрестности которой содержится точка х. Следовательно, К(х,и*) <1/п. (2.8.3) Если бы удалось построить стратегии /x*,z/* так, чтобы m = п, то величина 1/п была бы значением игры, а стратегии /х*,И — оптимальными стратегиями игроков. Оказывается, такие стратегии действительно можно построить. Для этого достаточно взять m = п = {1/(2/), если 1/(2/)— целое, [1/(2/)]+ 1, в противном случае. Здесь [а] — целая часть числа а. Точки (2.8.4) Хо = I + ' 1-2/ 1 (г-1), г = 1,2,. (2.8.5) отстоят друг от друга не более чем на 2/, а расстояние между соседними точками i-i Уо = 1 j = 1,2, ...,п, (2.8.6) строго больше 2/. Таким образом, 1/п — значение игры, а оптимальные стратегии /х*, и* являются равновероятными смесями чистых стратегий, определяемых формулами (2.8.5), (2.8.6). 2.8.2. Пример 19. Рассмотрим обобщение предыдущей задачи в том случае, когда игрок 1 (ищущий) выбирает систему из s точек Xi,...,xs, X{ G [0,1], % — l,...,s, a игрок 2 (прячущийся) выбирает независимо и одновременно с игроком 1 точку у G [0,1]. Игрок 2 считается обнаруженным, если находится такое j E {l,...,s}, что \у — Xj\ < /, / >0.
§2.8. Решение бесконечных одновременных игр поиска 95 В соответствии с этим функция выигрыша (выигрыш игрока 1) определяется следующим образом: {1, min \у — хЛ < I, з (2.8.7) О, в противном случае. Предположим, что игрок 1 располагает точки a?i,..., xs в точках xi = I + (1 — 21) (i — l)/(n — 1), 1<г<п, являющихся точками спектра стратегии /х* из предыдущего примера. Очевидно, что располагать две точки Xjx, Xj2 в одной точке отрезка [0,1] (т. е. выбирать совпадающие точки) невыгодно. Пусть /х* — стратегия игрока 1, выбирающая равновероятно любые s-наборы не равных друг другу точек {x~i}. Если s > n, то, расположив в каждой из точек Xj по точке ж$, игрок 1 полностью покроет отрезок [0,1] интервалами длины 21 с центрами в точках х$, и тем самым обеспечит, что для любой точки у е [0,1] будет иметь место min^ \xj — у\ < Z, т. е. в этом случае значение игры равно единице. Поэтому будем считать, что s < п. Число всевозможных различных выборов 5-наборов точек из множества {а^} равно С^. Имеем ВД,у) = ^Я(^1,...,х,5)2/)(-^) > %i = f Действительно, точка у обнаруживается, если она попадает в /-окрестность хотя бы одной из выбранных стратегией /х* точек {х^}. Для того, чтобы это произошло, игроку 1 необходимо выбрать точку Xi из /-окрестности точки у. Число наборов, удовлетворяющих этому требованию, не менее C%z\- Предположим теперь, что игрок 2 использует стратегию и* из предыдущего примера, а игрок 1 — произвольную чистую стратегию х = (#ь... ,xs). Тогда п K(xi,...,xs,v*) = Y]#(xi,...,x5,%)- < -. J=l Таким образом, значение игры равно s/n, a /х*, v* — оптимальные стратегии игроков. Значение игры линейно зависит от количества выбираемых ищущим игроком точек. 2.8.3. Пример 20 (Поиск на сфере). Рассмотрим игру поиска на сфере (см. пример 3 п. 2.1.2). Функция выигрыша Н(х,у) имеет вид Hfay) = < (2.8.8) 10, в противном случае, где х ~ (xi,...,x5) — набор s точек на сфере С и Мх — Uj=15(xj,r); S(xj,r) — r- сферическая окрестность точки Xj. Множество смешанных стратегий игрока 1 представляет собой семейство вероятностных мер {М}, определенных на декартовом произведении s сфер С х С х ... х С = Q, т. е. на Q = С5. Множество смешанных стратегий игрока 2 определим как семейство вероятностных мер {г/}, определенных на сфере С.
96 2. Бесконечные антагонистические игры Рассмотрим конкретную пару стратегий (/x*,i/*). В качестве стратегии и* выберем равномерную меру на сфере С, т. е. потребуем, чтобы //"- = sf- <2А9> где L(A) —лебегова мера (площадь) множества А. Будем предполагать, что параметры игры s, r и R таковы, что можно выбрать систему точек х — (xi, #2, - - - ? xs), удовлетворяющих условию s Ь(Мж) = ^Ь(5(х,.,г)) (2.8.10) 3 = 1 (сферические сегменты S(xj,r) не пересекаются). Зафиксируем фигуру Мх на некоторой сфере С. Тогда смешанная стратегия /х* порождается случайным бросанием этой фигуры Мх на сферу С. Для этого в фигуре Мх фиксируется некоторая внутренняя точка z, с которой жестко связываются два некол- линеарвых вектора а, Ъ (с углом <р > 0 между ними), расположенных в касательной плоскости к Мх в точке z. Точка z «бросается» на сферу С в соответствии с равномерным распределением, т. е. плотностью 1/(47гй2). Пусть в результате реализуется точка z' E С. Фигура Мх с фиксированными на ней векторами параллельно переносится на сферу С так, чтобы точки z и z1 совпали. Таким образом, векторы а, Ъ будут лежать в касательной плоскости к сфере С в точке z'. Затем на промежутке [0,2п] выбирают в соответствии с равномерным распределением угол (/У, и вектор Ъ в касательной плоскости поворачивают вместе со связанной с ним фигурой Мх на угол (/?' по часовой стрелке. В результате фигура Мх и вектор b переходят в новое положение на сфере С Случайное размещение множества Мх на сфере в соответствии с описанной двухэтапной процедурой и порождает случайный выбор точек x'i,x'2, ...,Жз G С, соответствующих смешанной стратегии /i*, а именно: игрок 1 выбирает точки х[, х'2,..., x's Е С, в которых оказались центры #i,..., xs сферических окрестностей S(xj,r), составляющих множество Ms. Мера /х*, построенная таким образом, оказывается инвариантной, т. е. вероятность покрытия множеством Мх любой точки у G С не зависит от у. Действительно, найдем вероятность этого события. Пусть Vt — {ш} — пространство всевозможных размещений Мх на сфере С. Тогда средняя площадь, покрываемая на сфере С при бросании на нее множества Мх (математическое ожидание площади), равна L(MX). В то же время L(MX)= I J(y^)dydfi\ (2.8.11) JnJc где J(y,oj) — характеристическая функция множества на сфере С, покрываемого областью Мх. По теореме Фубини имеем / / J(y,oj)dydv* = [ [j(y,u>)dn*dy. (2.8.12) Jn Jc Jc Jn Однако в силу инвариантности меры /х* интеграл J-^J(y^uj)dfi*^ совпадающий с вероятностью покрытия точки у множеством Мж, не зависит от у и равен р. Тогда из (2.8.11), (2.8.12) получаем L(MX) JZUHSjx^r))
§2.8. Решение бесконечных одновременных игр поиска 97 Обозначим через К(ц, v) математическое ожидание выигрыша при использовании игроками смешанных стратегий \± G {/х} и v G {у}. Если один из игроков использует чистую стратегию, то К(х, v)= [ Я(ж,y)du = f dv = Pr(y G Mx), Jc Jmx K(^y)= _H(x,y)dn= _J{x,y)dfi = Pi(yeMx), п в этом случае математические ожидания соответственно имеют смысл вероятностей попадания случайной точки в фиксированную область и накрытия случайной областью фиксированной точки. Для всех у и х = (xi,...,xs) в силу условий (2.8.9) и (2.8.13) имеем К(Х о - ^sl < ^ЗД^г)) = * Л _ А/Г7^ ^, . , E;,i^%,r)) e / / r 2\ *<"'»> = 4riP =2V,1-V1~(g) Г так как L{S{xhr)) = 2wR(R - y/(R2-r2)). Из определения ситуации равновесия и полученного неравенства К{ц*, у) > К(х, и*) следует, что смешанные стратегии /г* и и* являются оптимальными и wn-\(?-fW) — значение рассмотренной игры поиска. 2.8.4. Рассмотрим вариант предыдущей игры, полагая, что игрок 2 выбирает некоторое односвязное множество У С С и целью игрока 1 является максимизация площади пересечения L(Y П Мх) = L(Y n U^Sfo, r)). Цель игрока 2 противоположна. В остальном игра совпадает с игрой, рассмотренной в начале параграфа. Стратегия /х* игрока 1 совпадает с таковой в предыдущей игре. Смешанная стратегия и* игрока 2 строится аналогично стратегии /х* и заключается в случайном бросании множества У на сферу (в предыдущем случае игрок 2 случайно выбирал точки у G С). Таким образом, и* строится как инвариантная мера, которая состоит из случайного (в соответствии с равномерным распределением на С) выбора одной из фиксированных точек множества У на С и далее поворота У вокруг этой точки на случайный угол (в соответствии с равномерным распределением на [0, 27г]). Пусть К(х, и), К (/л, у) соответствуют математическим ожиданиям площади пересечения L(Yn Мх). Тогда к{^у) = Щх, и) = код ,*) = Ь{У)^ХУ Если Y — r-окрестность точки у, то значение игры равно К^*, v*) = ws(R - \/i?2-r2)2.
98 2. Бесконечные антагонистические игры §2.9. Покер 2.9.1. Модель покера с одним кругом ставок и одним размером ставки (см. [Беллман, 1960; Karlin, 1959]). Модель [Karlin, 1959], рассмотренная в данном разделе, является частным случаем модели п. 2.9.2, допускающей п возможных размеров ставки. Модель. В начале партии каждый из двух игроков А и В ставит по единице. После того, как каждый из игроков получит карту, ходит игрок А: он может или поставить еще а единиц или спасовать и потерять свою начальную ставку. Если А ставит, то у Б две альтернативы: он может или спасовать (теряя при этом свою начальную ставку), или уравнять, поставив а единиц. Если В уравнивает, то игроки открывают свои карты и игрок с лучшей картой выигрывает единицу (банк). Будем обозначать карту игрока А через ^, а карту игрока В через г/, при этом предполагаем, что случайные величины (и?| имеют равномерное распределение на единичном интервале. Положим Ь(^г}) = sign(% — rj). Стратегии и выигрыши. Стратегии строятся так. Пусть ф(%) — вероятность того, что если А получит ^, то он поставит а, 1 ~ 0(0 ~ вероятность того, что если А получит ^, то он спасует, ф(г)) — вероятность того, что если В получит г/, то он уравняет ставку а, 1 — ф(г)) — вероятность того, что если В получит rj, то он спасует. Если игроки применяют эти стратегии, то ожидаемый чистый выигрыш К{ф,ф) представляет собой сумму выигрышей, соответствующих трем взаимно исключающим возможностям: А пасует, А ставит а единиц и В уравнивает; А ставит и В пасует. Таким образом, 1 1 К(фу ф) = (-1) у[1 - ф{(-)Щ + (а + 1) Л ф(0Ф(ч)Щ, 77)^+ о о 1 0 0 0 1 + о Выигрыш игрока А можно переписать следующим образом: К(ф, ф) = -1 + j ф(0 f 2 + а j il>(rj)dri ~(a + 2)J фшЛ # - (2-9-1) или К(ф, ф) = -1 + 2 / ф(®(% + / Ш [-(Р. + 2) Г ф{§<% + * I ф&)бЛ dri. (2.9.2) Jo Jo \ Jo Jtj J Для решения игры нам надо найти такую пару стратегий (ф*,ф*), что К{ф,Г)<К{ф\ф*)<К{ф\ф) (2.9.3) для всех стратегий фиф соответственно. Таким образом, ф* максимизирует К(ф,ф*), в то время как ф* минимизирует К{ф*,ф). Поэтому мы будем искать стратегию ф*, которая максимизирует выигрыш (2.9.1), где ф заменено на ф*\ точно так же мы будем
§2.9. Покер 99 искать стратегию ?/>*, которая минимизирует (2.9.2), где ф заменено на ф*. Поскольку постоянные слагаемые не играют роли, задача состоит здесь в том, чтобы найти экстремумы: max J ф(0(2 + а^ ф*Шг1-{а + 2) j ф*Шп)^ (2.9.4) mm| ф(т,)(-(а + 2) J"^ ({)<% +a J <F(t)dt)dri- (2-9.5) Нетривиальность задачи состоит в том, чтобы проверить совместность наших результатов, т. е. что функция ф*, которая максимизирует величину (2.9.4), есть та же самая функция ф*, которая входит в выражение (2.9.5), и аналогично для ф*; если эти утверждения верны, то выполнено соотношение (2.9.3), и мы нашли решение игры. Интуитивные соображения подсказывают вид решения, которое мы ищем. Так как игрок В не имеет возможности блефовать, то ф*(г}) — 1 для значений rj больших, чем некоторое критическое число с, и ф*(г}) = 0 в противном случае; кроме того, поскольку В — минимизирующий игрок, функция ф*{г}) должна быть равна 1, если коэффициент при ф(г}) в выражении (2.9.5) отрицателен. Но этот коэффициент представляет собой убывающую функцию г/, и пусть с есть то значение, при котором она впервые обращается в нуль. Следовательно, -(а + 2) [ ф*($<% + a f 0*(Odf = 0. (2.9.6) При таком выборе ф*(г]) мы видим, что коэффициент при ф(^) в выражении (2.9.4) является константой при ^ < с. Если мы предположим, что эта константа равна нулю, то получим при ^ = с 2 + 0-(а + 2)(1-с) =0, с=-^-. (2.9.7) а + 2 v ; Причина, по которой мы определили постоянную с так, чтобы обратить в нуль коэффициент на интервале [0,с], состоит в следующем. При нахождении максимума в (2.9.4) мы, очевидно, вынуждены положить ф*(%) — 1, если коэффициент при этой функции положителен, и ф*(%) = 0, если этот коэффициент отрицателен. Значение ф*(%) может быть произвольным только в тех случаях, когда соответствующий коэффициент равен нулю. Но можно ожидать, что А будет пытаться частично блефовать, имея на руках плохую карту, откуда следует, что для этих раскладов ф(%), вероятно, удовлетворяет условию 0 < ф*((1) < 1. Как указывалось, это может быть, если коэффициент при ф(%) равен нулю. При определении с, согласно соотношению (2.9.7), коэффициент при ф(%) в выражении (2.9.4) равен нулю при ^ < с и положителен при ^ > с. В этих условиях из (2.9.4) следует, что максимизирущий игрок вынужден положить ф*(%) — 1 при ^ > с, в то время как значения ф*(%) при f < с могут быть произвольны, ибо они не влияют на выигрыш.
100 2. Бесконечные антагонистические игры Однако для того, чтобы равенство (2.9.6) при таком выборе ф* удовлетворялось, мы должны иметь -(а+ 2) / 0*(О# + а(1-с) = О, или (^-^Т^"-(^Т2р' и это условие может быть выполнено при ф*(%) < 1. Теперь легко проверить, что {произвольна между 0 и 1, но удовлетворяет условию КФ'Ш=Т&р, при 0<е<^5, 1, при ^<$<1, то ф* максимизирует (2.9.4) для ф*, а ф* минимизирует (2.9.5) для ф*. Интерпретация решения представляет некоторый интерес. (1) Оба игрока при высоких картах делают ставку или уравнивают. Особое значение имеет тот факт, что оба игрока используют одну и ту же критическую точку а/(а + 2) для того, чтобы различать хорошие и плохие карты. (2) Элемент блефа для игрока 1 проявляется только в том, что определена доля карт, на которой он мог бы блефовать; он может поставить а при получении карты из промежутка [0, а/(а 4- 2)] при единственном ограничении на вероятность ставки / Jo о/(о+2) 9 2.9.2. Модель покера с несколькими размерами ставки [Karlin, Restrepo, 1957]. Излагаемая в этом пункте модель является обобщением рассмотренной в п.2.9.1. Как и раньше, в качестве представления всех возможных раскладов-, которые могут быть сданы игроку, берется единичный интервал. Все расклады считаются равновероятными, так что операция сдачи расклада игроку может считаться эквивалентной выбору случайного числа из единичного интервала согласно равномерному распределению. Естественно, расклад ^i считается ниже расклада ^2 тогда и только тогда, когда ^1 < ^2- Игра происходит следующим образом. Два игрока А и В выбирают соответственно точки ^ и г] из единичного интервала согласно равномерному распределению. Оба игрока ставят по одной единице. Игрок А, зная свое значение ^, ходит первым и имеет возможность либо сразу спасовать, теряя свою ставку в пользу игрока Б, либо поставить любую из величин ai,a2,..., an, где 1 < а\ < а^ < -.. < ап. Игрок В должен в ответ или сразу спасовать, или уравнять ставку. В первом случае игрок А выигрывает ставку игрока В. Если же В уравнивает, то расклады ^ и rj сравниваются и игрок с лучшим раскладом выигрывает банк. Если ^ = rj, то никаких платежей не производится.
§2.9. Покер 101 Стратегия игрока А может быть описана как n-мерная вектор-функция где фг(0 есть вероятность того, что А поставит величину сц, если его расклад равен !;. Функции фг(^) должны удовлетворять условиям фг(^) > 0 и 1>(0<1- г=1 Вероятность того, что игрок А сразу спасует, равна г=1 Стратегия игрока В может быть представлена вектором где ipi(r)) означает вероятность того, что В уравняет ставку в а$ единиц, если он имеет расклад rj. Вероятность того, что В спасует, если А поставил а$, равна l—ipity). Каждая функция ipi(rj) удовлетворяет условию 0 < фг(71) < 1. Если А применяет стратегию </>, а В — стратегию ф, то ожидаемый выигрыш игрока А обозначается через К(ф,/ф). Перечисляя все возможности, мы можем написать К(ф,ф) = (-1) [ [i-53&(0U+ / I it^){l-MvMdV+ Jo L i=l J Jo Jo i=l + ^2(oi + l) f [ ФМШг,)Щ,л)<%<1г1, i=l Jo Jo где Щ,т)) =sign{$-r]). По определению ситуации равновесия, пара оптимальных стратегий ф* и ф* удовлетворяет неравенствам К(ф*,ф) > К(ф*, ф*) для всех ф (2.9.8) К(ф,ф*) < К(ф*,ф*) для всех ф. (2.9.9) Верно и обратное: если эти неравенства выполнены, то стратегии ф*, ф* оптимальны. Таким образом, ф* максимизирует К(ф,ф*), а ф* минимизирует К(ф*,ф).
102 2. Бесконечные антагонистические игры Преобразуя выражение для К(ф,ф), мы можем написать К(ф,ф*) = -1 + Т [фЩ2 + <ц [ ф:Шг,-(<ц + 2) [ ipt(ri)dri d$ (2.9.10) К(ф;ф) =-1 + 2Y, [фКО^ + Т [ il>i(v)\-(ai + 2) ГфШН + ai I ,-_i J ,-_i ^o L Jo Jr) *m dr/. Соотношения (2.9.10) и (2.9.11) имеют вид К(ф,<ф*) = Сг + К(ф*,ф) = С2 + Si i(0bi(0de tl)i{rj)Ki{rj)dri, (2.9.11) (2.9.12) (2.9.13) где Сi и Сг не зависят соответственно от сб и ф, a L^ и JQ обозначают соответственно выражения, стоящие в равенствах (2.9.10) и (2.9.11) во внешних скобках. Принимая во внимание ограничения, налагаемые на функции ф\,..., фп, ясно, что для максимизации (2.9.10) или (2.9.12), игрок А должен выбирать фг(^) = 1, если Li(%) положительно и превосходит все Lj(%) для j ф ц далее, он должен выбирать ф%{^) = 0, если Li(^) < 0; наконец, если Li(%) = 0, а остальные коэффициенты Lj(t;)(j ф г) неположительны, то он может максимизировать К(ф,ф*), выбирая функцию фг(0 произвольно, лишь бы она удовлетворяла условию 0 < фг(С) < 1 (или, если более чем одно из чисел Li(%) равно нулю, условию ^фг(0 < 1> где суммирование распространяется по индексам, соответствующим Li(%)' = 0). Аналогично, для того, чтобы минимизировать величину (2.9.11) или (2.9.13), В должен выбирать фг{ч) = 1, если Ki(rj) < 0, и фг(г}) = 0, если Ki{rj) > 0. Если Ki(rj) = 0, то значения фг(г}) на выигрыш не влияют. Руководствуясь интуитивными соображениями, построим две стратегии ф* и ф*. Далее проверим, удовлетворяют ли эти стратегии условиям (2.9.8) и (2.9.9), и тем самым — оптимальны ли они. Главная задача построения состоит в том, чтобы гарантировать совместность этих стратегий, т. е. чтобы функция 0*, которая максимизирует правую часть равенства (2.9.10), была той же функцией, которая содержится в выражении (2.10.11), и аналогичный факт должен иметь место для функции ф*. Так как игрок В не имеет возможности блефовать, мы можем ожидать, что для некоторых bi 1Ш = (?' ^^ (2-9.14) [1, rj>bi. Это утверждение справедливо, поскольку каждая из функций Kj(rj) является невоз- растающей. С другой стороны, мы можем ожидать, что игрок А, когда его расклад плох, иногда будет блефовать. Для того, чтобы учесть эту возможность, найдем критические числа bi, определяющие функцию ф*(г]) так, чтобы коэффициент Li($) при ф{ обращался для
§2.9. Покер 103 ^ < bi в нуль. Это возможно, так как функция Li(%) на этом интервале постоянна. Тогда получаем к=-%-, (2.9.15) и bi < 62 ... < Ьп < 1. Коэффициент Li(^) при 0^ на интервале (0, bi) равен нулю, а вне его представляет собой такую линейную функцию ^, что Ьг(1) = 4(1 - а*+ 2' Отсюда мы заключаем, что функции L^(^) и Lj(%) совпадают в точке do = 1 ~ тт; гк Т- (2.9.16) гз (2 + аг)(2 + а^) v ; Очевидно, что Сц является строго возрастающей функцией г и j. Положим С\ — Ь\ и С{ — Ci-i^ для г — 2, ...,п и cn+i = 1. Ясно, что при j ф г % Z>i(0 > Lj(^) > 0 для ^ из интервала (c,-,q+i). Согласно предыдущим рассуждениям, если функция ф* максимизирует К(ф,ф*), то ф*(%) = 1 при с* < ^ < Q+i- Для определенности мы также положим ф*{сг) — 1; это не существенно, так как если стратегия (функция) изменяется только в конечном числе точек (или на множестве лебеговой меры нуль), то выигрыш К(ф,ф) остается неизменным. Таким образом, мы показали, что если функция ф* определена согласно соотношениям (2.9.14), где Ьг = 7Г-. > 2 + а* то К(ф,ф*) максимизируется любой стратегией 0* вида ?(0 = { произвольна, ^ < с\ = Ъ\, °' Cl ^ * < Ci' (2.9.17) 1, Ci<%<Ci+u [0, Ci+i<$<l, где n $>:(*)<!, #ю>о. г=1 Значения 0*(^) на интервале 0 < ^ < Ci все еще не определены в виду соотношения Li(%) = 0, которое имеет место на этом интервале. Остается показать, что так построенная функция ф* действительно минимизирует К(ф*,ф). Для того, чтобы ф* заведомо обладало этим свойством, необходимо наложить на ф\ еще некоторые условия; для этого мы воспользуемся произволом, допущенным в определении </>*, когда ^ меняется в интервале [0, Ci). Для того, чтобы показать, что ф* минимизирует К(ф*,ф), достаточно установить, что коэффициент Ki(rj) при фг{г}) неотрицателен для rj < bi и неположителен для r\ > bi. Так как Ki{rj) — непрерывная монотонно убывающая функция, последнее условие эквивалентно соотношению -(<Ь + 2) / * ФШН + <Ч j ФШ)<% = 0- (2-9.18) JO Jbi
104 2. Бесконечные антагонистические игры Подставляя функцию ф*, определенную в (2.9.17) в соотношение (2.9.18) получаем равенства 2 / ' ФШ)<% = Ьх(1 - b{){b2 + 1), 2 / ' ФШЩ = Ьп(1 - Ьп)(1 - bn-i), (2.9. 7о Jo 19) 2 / ' <Ш^ - bi(l - bi)(bi+i - bi_i), г = 2,..., п - 1. (2.9.20) Jo Поскольку п г=1 эти равенства выполняются тогда и только тогда, когда 2/ly>i(0#<2fti. (2.9.21) Но сумма правых частей равенств (2.9.19) и (2.9.21) не превосходит (2 + Ъп — &0/4, так как всегда Ь*(1 — Ь») < 1/4. Из неравенства 6i > 1/3, мы получаем \{2 + Ъп-Ъ1)<\{Ъ-Ъ1)<2-<2Ъ1. Таким образом, условия (2.9.19)-(2.9.21) могут быть выполнены. Итак, неравенства (2.10.8) и (2.9.9) для стратегий ф* и ф* доказаны, т. е. оптимальными стратегиями являются следующие функции ФПЛ) = {°: "^ (2-9-22) 1, г) > bi, <Ш = { произвольна, но удовлетворяет условию 0, Ь\ < i < Ci или c-i+i < ^ < 1, Ч 1, Ci < f < Ci+i, (2.9.23) где Ь% = — , С\ = Oi, 2 +а» 2 Q = 1- ,0 w0 г, г = 2,...,п, cn+i - 1 (2 + a*)(2-f a*_i) X>?(o<i- г=1
§2.9. Покер 105 2.9.3. Модель покера с двумя кругами ставок (см. [Беллман, I960, Karlin, Restrepo, 1957]). В этом пункте мы распространим модель покера, описанную в предыдущем пункте, на случай двух кругов ставок. В то же время, мы ограничимся случаем, когда допускается только один размер ставки. Мы снова предполагаем для удобства, что каждому игроку сдаются случайные расклады, равномерно распределенные на единичном интервале. Выигрыш и стратегии. После того, как сделана начальная единичная ставка, игрок А ходит первым и имеет две альтернативы: он может спасовать или поставить а единиц. Затем ходит игрок В, который располагает тремя возможностями: он может пасовать, уравнять ставку игрока А или, наконец, повысить, поставив a 4- Ь единиц. Если В повысил, то на долю А остается либо пасовать, либо уравнивать ставку В. Если А и В получили соответственно карты ^ и 77, то их стратегии могут быть^ описаны следующим образом: фх (Q — вероятность того, что игрок А ставит а и, если игрок В повышает, пасует. 02 (О ~~ вероятность того, что игрок А ставит а и, если игрок В повышает, то А уравнивает ставку В. 1 — ф\(%) — 02(C) ~ вероятность того, что А сразу пасует. V>i(*7) ~~ вероятность того, что игрок В уравнивает начальную ставку. /02(^?) — вероятность того, что игрок В повышает. 1 — ф\{г]) — ^(т?) ~ вероятность того, что игрок В пасует. Ожидаемый выигрыш при этом равен К{ф,ф) > i«) - «Ж //[*«> + 02(О][1 - -01(^7) - ^2(r7)]dedry4- +(а + 1) J J ф2(0ф1 (rj)L(^ V)dtdri + (1 + a + b) J j ф2(0Мч)Щ, v)d^dV, где L(^rj) = sign(% — rj). (Этот ожидаемый выигрыш получается путем рассмотрения взаимно исключающих возможностей: А пасует; А ставит и В пасует; А применяет стратегию ф\ и В уравнивает или повышает; А применяет стратегию ф2 и В уравнивает или повышает.) Если мы обозначим оптимальные стратегии через Ф*(0 = (ФШФШ,Р(Г1) = {ФШФШ и перегруппируем члены в выражении К(ф,ф), как это делалось в предыдущих примерах, то получим Jo L Jo J$ -(а+ 2) [ ф}ШЩ<%+ I &(012 +а / iPl(r,)dri-(a + 2) f PMdri+ Jo i Jo I Jo J$ +(a + b) j 1>Z(n)dn-(a + b + 2) j ^*2{r})dr} di, (2.9.24)
106 2. Бесконечные антагонистические игры К(ф*,ф)= [ [-1+2фЖ) + Щ(Ж+ [ Фм\-(а + 2) Г[ФШ)+ФШ<%+- Jo Jo L ./о +« / Ш) + ФШМ]*Ч+ [ Mv)\-(a + 2) [ Ф1Ш- J<n J Jo L Jo 2) ГфШ)<%+(а + Ъ) f ФШЖ] JO Л/ J r7] drj. (2.9.25) Поиск оптимальных стратегий. Будем, как и раньше, искать функции ф*(%), которые максимизируют (2.9.24) и функции ф*(г}), которые минимизирут выражение (2.9.25). Интуитивные соображения подсказывают, что игрока А может в некоторых случаях блефовать с плохими картами, намереваясь спасовать, если В повышает; он будет также в некотором промежуточном интервале, скажем, при с < % < е, выбирать ФК^) = 1; он будет выбирать стратегию ф^О — 1 Для е < % < 1. Игрок В мог бы иногда блефовать, повышая ставки в интервале 0 < rj < с; он мог бы выбирать ф* = 1 в интервале с <г] < d, и-02 — 1 в интервале d < 77 < 1. Отсюда вовсе не следует, что это единственный возможный вид оптимальных стратегий. Действительно, далее мы увидим, что существуют оптимальные стратегии и иного вида. Однако, после того, как определена одна пара оптимальных стратегий, сравнительно легко найти и все остальные решения. Поэтому, прежде всего мы попытаемся найти оптимальные стратегии указанного вида. Для этого нам нужны такие значения с, d и е, которые порождают решения требуемого типа. Из построения ф* мы сразу видим, что для того случая, когда ^ < с коэффициент при ф\(^) в выражении (2.9.24) есть константа; составляя его выражение и приравнивая его к нулю, мы получаем 2 - (а + 2) / i&irfidri - (а + 2)(d - с) = 0. (2.9.26) Jo Коэффициенты при ф\ и ф\ должны быть равны в точке d, в которой игрок В изменяет характер своего поведения (2а+ 2) / #(0# = -Ь / ФЖ)<% + Ъ [ ФШ)<%- (2-9-27) Jd Jo Jd Аналогичное условие при ^ = е требует, чтобы выполнялось равенство (2а+ 6 + 2) f ^*(r])dri = b f Ф1(т))&п. (2.9.28) В точке г] = с, в которой игрок В начинает применять стратегии ф\ и ф% без блефа, соответствующие коэффициенты (которые являются убывающими функциями) изменяют знак с плюса на минусу т. е. они должны при rj = с обращаться в нуль. Следовательно, -(а + 2) /Ос[#(0 + ФШШ + а!с[ФШ) + ФШЫ = 0, (2 9 2Q) -(а + 2)^фШШ + (а + Ъ)^ф*2(О(% = 0. (При выводе (2.9.29) мы положили ф%{0 = 0 для 0 < ^ < с; это интуитивно ясно.) Введем теперь обозначения: mi = / ФШ)<%1 т2 = Jo Jo Шч)*П-
§2,9. Покер 107 Вспоминая предположение о виде решения и предполагая, что с < е < d, мы можем уравнения (2.9.26)-(2.9.29) записать следующим образом: 2 = (а + 2)(т2 + 1 - с), (2.9.30) 1 _ d = d - е или 2(1 - d) = (1 - е), (2.9.31) (2а + Ь + 2)т2 = Ь(1 - d), (2.9.32) (а -f 2)т! = а(1 - с), (2.9.33) (а + 2)(гщ + е - с) = (а 4- Ь)(1 - с). (2.9.34) Мы получили систему из пяти уравнений с пятью неизвестными: т\,тч,с,d, e; докажем теперь, что эта система уравнений имеет решение, согласующееся с предположениями, сделанными ранее, а именно, что 0<c<e<d<l,0<mi<0, 0< т^ < с. Решение уравнений (2.9.30)-(2.9.34). Эта система может быть решена в явном виде следующим образом. Перепишем последнее уравнение в виде (а + 2)(mi + 1 - с) = (2а + Ь + 2)(1 - е). Исключая с помощью уравнений (2.9.33) и (2.9.31) mi и (1 — е), мы получим (а 4-1)(1 - с) = (2а 4- Ь 4- 2)(1 - d). (2.9.35) Из оставшихся уравнений исключаем m<i\ тогда 2 - (1 - с) = Ь—_(i _ rf). (2.9.36) Следовательно, а4-2 v ' 2а+ 6 + 2 (1 - d) ( о ' о + ^^1 = Л" (2-9-37) v п 2а 4-^4-2 а+1Уа + 2 v y Найдя (1 — d), мы можем разрешить (2.9.36) относительно (1-е), а тогда значения остальных неизвестных находятся из исходных уравнений. Для того, чтобы показать, что это решение согласуется с поставленными условиями, заметим прежде всего, что из соотношения (2.9.37) следует (1 — d) > 0. Уравнение (2.9.35) показывает, что (1-е) > (1 — d), и, следовательно, с < d. Кроме того, из соотношения (2.9.36) следует, что N (1 - d) -f (1 ?—) > 0. (2.9.38) 2а4-Ь4-2уч ' \ a -f 2 Так как 2(а4-1)(1 —с) = (2а4-Ь + 2)(1 —е), мы заключаем, что (1-е) < (1-е), или с < е; а так как 2d = 1 -1-е, мы должны иметь е < d. Итак, мы показали, что 0<c<e<d<l. Для проверки двух оставшихся условий заметим, что из уравнения (2.9.30) следует, что т2 = с - (1 а4-2 так как Ш2 < с, и согласно (2.9.38), Ш2 > 0.
108 2. Бесконечные антагонистические игры Наконец, используя уравнение (2.9.33) и (2.9.30), мы заключаем, что m1 = -^-(l-C) = (l-c)--H-(l-c) = a + 2 a + 2 = (1 - C)[l - (Ш2 + 1 - С)] - (1 - С)(С - Ш2), и поэтому 0 < mi < с. Оптимальность стратегий ф* и ф*. Итак, мы можем выразить ф* и ф* через найденные выше значения величин с, е, d,mi, га2: \0, е<^<1, [1, е<<е<1, (2.9.39) V>i*W с < ту < d, d<r}<\. В оставшемся интервале 0 < rj < с функции ФК%) и ф\ (rj) выбираются произвольно, но с учетом того, что они заключены между нулем и единицей и удовлетворяют условиям / <Ж0^ = т1и/ ^{V)dv = гп2. Jo Jo Остается проверить, что стратегии ф* и ф*, описанные выше, соответственно максимизируют К(ф,ф*) (2.9.24) и минимизируют К(ф*,ф) (2.9.25). Для этого исследуем сначала коэффициенты Mi(^) и М2(^) при ф\ и 02 в выражении для К(ф,ф*). По построению, коэффициент Mi(^) при 0i на интервале [0,с) равен тождественно нулю, линейно возрастает на интервале [с, d), и в остальной части остается постоянным. Кроме того, функция Mi(^) непрерывна во всем промежутке [0,1]. Заметим теперь, что функция М2(^) линейна на [c,d] и имеет тот же наклон, что и Mi(^). Кроме того, эти функции совпадают при $ = ев промежутке [с, d] согласно (2.9.28), поэтому Mi = М2 для ^ G [с, d]. Из определения ф* мы можем сразу заключить, что функция М2 строго возрастает во всем промежутке [0,1] (см. рис. 2.7). Используя эти факты, легко осуществить максимизацию К(ф,ф*). Ясно, что максимум достигается на любой функции ф, обладающей следующими свойствами: (а) 02 = 0 и ф\ произвольна (0 < ф\ < 1) для ^ G [0,с); (б) функции удовлетворяют условию ф\Л-фч — 1, ав остальном произвольны для ^ G [с, d); (в) 02 = 1 для ^ 6 [d, 1]. Очевидно, что определенная выше функция 0* этим условиям удовлетворяет. Исследование коэффициентов Ni(rj) и iV2(??) при /0i(??) и ^fa) B выражении для К(ф*,ф) показывает, что они имеют вид, указанный на рис. 2.8. Заметим, что функция К(ф*,ф) минимизируется любой функцией ф, обладающей свойствами: (а') ф\ — 0 и фч произвольна (0 < фъ < 1) для rj G [0,с); (б') ф\ = 1 для ту G [с, d); (в') -02 = 1 для 7? G [d, 1]. Ясно, что описанная выше функция ^;* этим требованиям удовлетворяет. Доказательство оптимальности стратегий ф* и ф* завершено.
§2.9. Покер 109 Рис. 2.7. Коэффициенты Mi (^) и М2 (О В качестве иллюстрации приведем пример. Пусть а = b = 2; тогда мо = < / л19/35 I J0 1, Фт = ФШ г19/35 Шч) ф\<% = 8/35, 0 < е < 19/35, 19/35 < С < 23/35, 23/35 < С < 1, 0 < ^ < 23/35, 23/35 < f < 1, 0 < rj < 19/35, 19/35 < rj < 29/35, 29/35 < rj < 1, V>$dC = 3/70, 0 < г] < 19/35, 19/35 < rj < 29/35, 29/35 <rj< 1. Значение этой игры равно — 11/35. Общее решение. Из рассмотрения рис. 2.8 непосредственно следует, что минимизирующее решение не может иметь никакого иного вида, кроме указанного в соотношениях (2.9.39). Однако при максимизации функции К(ф,ф*) мы нашли, что на интервале [с, d] единственное необходимое условие, которому должно удовлетворять максимизирующее ф, состоит в том, что ф\ -f Ф2 = 1. «Изменяя ф\ и ф^ на этом интервале так, чтобы выполнялось это условие, мы можем найти все возможные оптимальные стратегии игрока А. С этой целью мы определим ф\{$) на [0,с] так, чтобы выполнялось соотношение рс / Jo
110 2. Бесконечные антагонистические игры Рис. 2.8. Коэффициенты Ni(rj), N2(r]) (значение rai вычислено выше) и <fo(0 = 1 на [d, 1]. Для ^ из [с, d] мы потребуем только, чтобы Ф1+Ф2 = 1. Выписывая условия, при которых К(ф, ф) минимизируется функцией ф*, мы получаем l-d = |f <ыеж и | <ыеж < д+ь+1 для чG fc 4. (2-9-40) где с и d те же, что и выше. Мы получаем эти условия, приравнивая коэффициенты при ipi(rj) и ^(т?) в выражении (2.9.25) в точке r\ — d и требуя, чтобы для ту из [c,d] имело место неравенство Ni(rj) < N2(17). Легко видеть, что это условие необходимо и достаточно для того, чтобы стратегия ф была оптимальной. 2.9.4. Модель покера с к повышениями [Karlin, Restrepo, 1957]. В этом разделе мы найдем оптимальные стратегии в модели покера с несколькими кругами ставок. Метод исследования представляет собой, в сущности, обобщение метода, использованного в предыдущем пункте. Значительно более сложные детали доказательства мы приводить не будем. Правила, стратегии и выигрыш. Два игрока ставят по единице каждый и получают независимо случайные расклады ^ и т\ (которые отождествляются с точками единичного интервала), распределенные равномерно. Имеется fc + 1 кругов ставок («круг» в этом пункте означает одно действие того и иного из игроков). В первом круге игрок А может или спасовать (и потерять единицу), или поставить поставить а единиц. А и В ходят поочередно. В каждом последующем круге игрок может либо спасовать, либо уравнять ставку противника (в этих случаях игра заканчивается), либо повысить ставку на а единиц. В последнем круге каждый игрок может только пасовать или уравнивать. Если к четно, то последний возможный круг заканчивает игрок А\ если к нечетно, то последний возможный круг заканчивает игрок В.
§2.9. Покер 111 Стратегию игрока А можно описать набором к функций ф — (0i(O> 02(О? - - - > 0fc(O)- Эти функции указывают способ действия игрока А, если он получает расклад ^. Точнее, к г=1 есть вероятность того, что игрок А сразу спасует, а к г=1 вероятность того, что игрок А в первом круге сделает ставку. Пусть далее, 01 (О — вероятность того, что игрок А спасует на своем втором круге; 02(0 — вероятность того, что игрок А уравняет на своем втором круге; Х^=з^(0 = вероятность того, что игрок А повысит на своем втором круге, если есть возможность повышать, т. е. если игрок В повысил на своем первом круге и продолжает игру. Аналогично, если игра продолжается до r-го круга игрока А, то пусть 02г-з(О = вероятность того, что игрок А будет пасовать на своем r-ом круге; 02г-2(О — вероятность того, что игрок А будет уравнивать на своем r-ом круге; !Сг=2г-1 Фг(0 — вероятность того, что игрок А повысит на своем r-ом круге. Аналогично стратегия игрока В может быть описана набором к функций: который указывает образ действий игрока Б, если он получает расклад rj. Вероятность того, что игрок В при первой возможности будет пасовать, равна к Если игра продолжается до r-го круга игрока Б, то ^2r-2(v) ~ вероятность того, что игрок В спасует на своем r-ом круге; i>2r-i(y) — вероятность того, что игрок В будет уравнивать на своем r-ом круге; Sj=2r /0i(r?) "~ вероятность того, что игрок В повысит на своем r-ом круге. Если игроки получают расклады ^ и rj и выбирают соответственно стратегии ф и Ф, то выигрыш игрока А может быть вычислен, как и в предыдущих примерах, путем рассмотрения взаимно исключающих случаев, которыми могут закончиться ставки.
112 2. Бесконечные антагонистические игры Выигрыш игрока А имеет следующий вид: k \ к к + ^ г=1 ' г=1 L j=l -1 /с + Е ^ Wi-(a + Х)<М0 + (2а + 1)02(0 Щ, т/)}+ fe + Е ^(г7){-[(2г-3)а + 1]02г-з(О + [(2г-2)а + 1]02г-2(О^^)}+ j=2r-2 /с + X) ^(0{[(2r-2)a + l]^2r_2(77) + [(2r-l)a + l]^2r_1(r7)L(e,r/)}-+ г=2г-1 /с + I] <ШН(2г - 1)а + l]^2r-i(0 + (2га + 1)<Ы0Д^??)}+ j=2r /с + Z) ^(0{(2ra + l)^2r(7/) + [(2r + l)a + l]^2r+i(r7)L(e^)}, г=2г+1 где L(^,rj) = sign{^ — rj). Математическое ожидание выигрыша равно tf(0,V)= / / P[<K0>^M*?- (2.9.41) Jo Jo Описание оптимальных стратегий. Можно показать, что существуют оптимальные стратегии ф* и -0*, характеризуемые 2к + 1 числами 6, сь ..., с&, di,..., d/~. Когда игрок получает расклад ^ из промежутка (0,6), он будет часть времени блефовать, а также некоторое время пасовать. Мы будем обозначать через ггц= I #(0#, г = 1,3,5,... (2.9.42) Jo I 1>j(ri)dri, j = 2,4,6,... (2.9.43) вероятности блефа на различных кругах ставок. Если игрок А получает расклад ^ в интервале (q_i,q), где со = Ь, то он будет выбирать ф*(%) = 1 и ф*(%) = 0 для Z ^ ^ Аналогично, если игрок В получает расклад rj в интервале (dj_i, dj), где do = Ь, то он будет выбирать ф*(г)) = 1и ^*(^) = О Для ' 7^ 3- Решение изображено на рис. 2.9. Тот факт, что C2r-i < d2r_i < d2r < c2r, r = 1,2,... имеет большое значение.
§2.9. Покер 113 Постоянные c^d^m^ и rij определяются путем решения громоздкой системы уравнений, аналогичной системе (2.9.30)-(2.9.34). Точнее, если к четно, то числа 6, c?;,dj,ra;, и rij находятся как решения следующих уравнений: [(4г - 1)а + 2] ]Г щ = а(1 - d2r-i), 2г = 2,4,..., fc, i=2r a(c2r-2 - d2r-2) = а(1 - c2r-2) + [(4r - 3)а + 2] ^ nJ5 2r = 4,6,..., fc, j=2r [(4г-3)а + 2] ]Г 77г» = а(1-с2г-2), 2r = 2,4,..., fc, г=2г-1 a(d2r-i - c2r-i) = a(l - d2r-i) + [(4r - l)a + 2] ^ mi} 2r = 2,4,..., fc, г=2г+1 (4ra + 2)(c2r - d2r-i) = [(4r + 2)a + 2](c2r - d2r), 2r = 2,4,..., fc, [(4r - 2)a + 2](d2r-i - С2Г-2) = (4ra + 2)(d2r_i - c2r-i), 2r = 2,4,..., fc, ,1 ^ 2 = (a + 2) / ^ДО*?. Аналогичная система может быть составлена и для нечетного fc. Получаемое при этом решение согласуется со схемой рис. 2.9. Ет* 6J = 1 ^2 = 1 ^ = 1 = 1 Cl С2 сз С4 ^ Х>* Ф1 = 1 ^5 = 1 ^5 = 1 ^4 = 1 6 dx d2 Рис. 2.9. Оптимальные стратегии 0*, -0* ^3 d4 V
114 2. Бесконечные антагонистические игры 2.9.5. Покер с одновременными ходами, [von Neumann, Morgenstern (1944), Karlin (1959)]. Два игрока А и В после получения случайных равномерно распределенных раскладов одновременно делают ставки. Начальная ставка может быть или Ъ (низкая ставка) или а (высокая ставка). Если обе ставки равны, то игрок с более высоким раскладом выигрывает. Если один игрок поставил высокую ставку, а другой - низкую, то поставивший низкую ставку имеет выбор: либо спасовать (теряя свою ставку), либо уравнять высокую ставку, поставив дополнительное^ — Ь. Если игрок, поставивший ставку, уравнивает, то игрок с более высоким раскладом выигрывает банк. Так как игра симметрична, достаточно описать стратегии одного из игроков. Если игрок А получает расклад ^, то мы будем обозначать через Ф\ (О — вероятность того, что игрок А поставит низкую ставку и спасует, если игрок В поставит высокую ставку; Фъ{0 = вероятность того, что игрок А поставит низкую ставку и затем уравняет ставку В\ фз(0 = вероятность того, что игрок А поставит высокую ставку. Разумеется, эти функции удовлетворяют условиям i(0>o, X>(6 = i, г=1 Ожидаемый выигрыш игрока А, если он использует стратегию ф, а игрок В использует стратегию ф, выражается в виде г»1 /-1 к(Ф,Ф) = ъ[ [ [<Ы0 + <Ш] to fa)+ ifcft)]bfo *?)#*?- Jo Jo - b [ [ faWikWdZdri + b f f MZ)Mv)dtdr) + Jo Jo Jo Jo + a [ f ф2(0ф3(г1)Щ,г,)Щг1 + Jo Jo + a f I <h(Z)MriWZ,v)dZdri + Jo Jo + a f f фз($Фз(ч)Щ,ч)(%<1г1. Jo Jo Ввиду симметрии игры мы можем заменить в этом выражении стратегию ф(г)) игрока В оптимальной стратегии ф*(т}). Сделаем довольно правдоподобное предположение о том, что в условиях этой стратегии ф^(ч) — 0> ибо, по-видимому, нет веских оснований сначала делать низкую ставку, а затем уравнивать. Это предположение далее будет строго обосновано.
§2,9. Покер 115 Так как ф\(rj) — 0, мы можем записать функцию К(ф,ф*) следующим образом: к(ф,ф*) = ь [ [ [ф1(0 + ф2&Шч)ЩМ<1т1-ь [ [ ФЛ0Ф1Ш^+ Jo Jo Jo Jo +ь f f ф3(0Ф1Ш^т1+ Jo Jo +a [ f [l-<l>i(G)-<h(0]<l>l(v)4bv)dZdri + a f [ ФзЮФ'МЩ^Щт! = Jo Jo Jo Jo = f ФЛо\ь I Ф1Шп-ь f Фгшч-ъ I ФЪШч- Jo L Jo J$ Jo -a f ф*3Шч + а f Ф1(ч)(1г1}<%+ f 02(0 fb / Ф1Шч - Ъ [ tfMdjyW Jo J$ J Jo ' L Jo J% J + / 0з(О [b / Ф1Ш'о}<%+ I f Ф1(Г1Щ$,Г1)<%<1Г1, (2.9.44) Jo I Jo J Jo .70 щф,ф*) = 1 ]>>(откек+2, где Z не зависит от ф^. Стратегия 0, максимизирующая К(ф, 0*), определяется выбором компоненты фг так, чтобы она была как можно больше, если Т^(^) = maxj Tj(%). Если максимум Tj(^) достигается одновременно на двух из Т$, то соответствующие ф^ могут принимать любые положительные значения при условии, что их сумма равна единице. При низких раскладах иногда рекомендуется блеф. Это означает, что при С < Со мы должны иметь Ti(^) = Тз(С) > Т^С)- Дифференцируя тождество Ti(C) = T3(^)5 и помня, что на интервале [0, Со] Ф*(0 + 0з(С) = 1? мы заключаем, что или *i(0 = а + Ь почти всюду для С < Со- Выбирая 0* указанным образом и полагая 0з(С) — 1 ДЛЯ С > Со, мы получаем, что равенство Ti(^) = Тз(С) возможно, если «0 = а — Ь Таким образом, мы приходим к следующему решению: ф* = {ФШ) = ^ ФШ) = ^ при С < Со, 105(0 = 1, при с > Со- (2.9.45) Проверка оптимальности так построенной стратегии ф* осуществляется обычными приемами. Ясно, что Xi(C) = Тз(^) > Тг(С) для С < Со, и, следовательно, максимум достигается лишь при условии 01+0з = 1» которое, несомненно, выполнено для 0* вида (2.9.45). Далее, мы видели, что равенство Xi(C) = Тз(С) единственным образом определяет ф* в соответствии с формулой (2.9.45) для С < Со- " '
116 2. Бесконечные антагонистические игры Для f > ^0? исследуя (2.9.44), мы находим, что Т^) = Хз(^) > Ti(^). Следовательно, максимизация функции К(ф,ф*) требует, чтобы ф удовлетворяла условию ф% + Фз — 1- Но, если на этом интервале 0J > 0, то несложное вычисление показывает, что Т\ (^) < Т2(0 для ^ > Ci, где ^i < ^о- В совокупности все эти доводы доказывают, что стратегия ф* вида (2.9.45) есть единственная оптимальная стратегия игры. §2.10. Упражнения и задачи 1. Игра нападения — защиты. Игрок 1 силами А единиц намерен атаковать один из объектов Ci,..., Сп, ценность которых определяется числами т\ > О,Т2 > 0,..., тп > 0, причем Ti > Т2 > ... > тп. Чистой стратегией х игрока 1 является вектор х = (^i,... ,^п)> ]СГ=1 & = ^' где & — часть сил, выделенных для атаки объекта d. Суммарные силы обороняющейся стороны (игрок 2) равны В. Чистой стратегией у игрока 2 является выбор набора неотрицательных чисел у = (?7i,... ,rjn), удовлетворяющих условию ^27=1 ^ = ^' где ^ ~~ часть сил> предназначенных для защиты объекта С%. Результат атаки на объект d пропорционален разности & — Vi, если силы атакующих превосходят силы защищающихся, а в остальных случаях он равен нулю. Построить функцию выигрыша. 2. Игра на единичном квадрате имеет функцию выигрыша Н(х,у) = ху- -х- -у. Показать, что (1/2,1/3) — ситуация равновесия в этой игре. 3. Показать, что игра на единичном квадрате с функцией выигрыша Н(х,у) = sign(x-y) имеет седловую точку. 4. Показать, что игра на единичном квадрате типа дуэли с функцией выигрыша {-1/х2,х > у, 0, ж = 2/, 1/у2,х < у имеет ситуацию равновесия (0,0). 5. Показать, что игра на единичном квадрате с функцией выигрыша Н(х,у) = (х — у)2 не имеет ситуации равновесия в чистых стратегиях. 6. Показать, что в игре на единичном квадрате с функцией выигрыша Н(х,у) х + у,хф \,уф 0, 1/2 + ж,ж^ 1,2/ = 0, {2,х = 1,у = 0 пара (хе,уе), где хе — 1 — в, уе = е, является ситуацией е-равновесия. Имеет ли эта игра значение? 7. Решить игру «поиска шумного объекта», сформулированную в примере 6 п. 2.1.2. 8. Вычислить выигрыш игрока 1 в игре на единичном квадрате с функцией выигрыша Н(х,у) в ситуации (F(x),G(y)) (F и G —функции распределения), если: (a) Н(х,у) = (х + у)/(4ху), F(x) = x\ G(y) = у2; (b) Н(х,у) = \х- у\(1 -\х- 2/|), F(x) = х, G(y) = у; (c) Н(х,у) = (х - г/)2, F(x) = 1/210(х) + l/2h(x), G{y) = h/2(x), где h{x) — ступенчатая функция.
§2.10. Упражнения и задачи 117 9. Игра дискретного поиска. Рассматривается следующая бесконечная игра. Стратегия игрока 2 заключается в выборе точки, равномерно распределенной на окружности радиуса у, где у может принимать значения из интервала [0,1]. Игрок 1 может просмотреть в единичном круге односвязную область a(Q) — a — const, где а < А, А = тс — площадь единичного круга. Его стратегия х заключается в выборе формы области Q, имеющей площадь а, которая целиком лежит в единичном круге. Выигрыш Н(х,у) игрока 1 равен вероятности обнаружения, т. е. Н(х,у) — Рг(у ё Q). Под смешанной стратегией д(у) игрока 2 будем понимать функцию плотности распределения случайной величины у е [0,1]. Найти решение игры. 10. Доказать теорему Хелли п. 2.5.4. 11. Рассмотрим непрерывный аналог игры «обороны города» (п. 1.1.3 гл. 1). Игрок 1 должен направить силы гг, х е [0,1] в наступление на первую позицию и силы 1 — х — в наступление на вторую позицию. Игрок 2 должен направить силы у, у Е [0,1] для обороны первой позиции и силы 1 — у — для обороны второй, на которой уже расположены постоянные оборонительные силы размером 1/2. Один игрок платит другому единицу на каждой позиции, если его силы на этой позиции меньше сил противника, и ничего не платит, если их силы равны. Построить функцию выигрыша Н(х,у) для игры на единичном квадрате. Показать, что данная игра не имеет решения в смешанных стратегиях. Указание. Воспользоваться результатом примера 10 п. 2.4.12. 12. Показать, что в непрерывной игре с функцией выигрыша Н(х,у) = [1 + (х + у)2]-1 стратегии F*(x) — Ji/2(#), G*(y) = 1/2 Jo (у) + l/2Ii(y) оптимальны для игроков 1 и 2 соответственно. 13. Доказать, что значение симметричной непрерывной игры на единичном квадрате равно нулю, а оптимальные смешанные стратегии совпадают (игра симметричная), если функция выигрыша кососимметрична, т. е. Н(х,у) = —Н(у,х)). 14. Определить оптимальные стратегии и значение игры на единичном квадрате с функцией выигрыша Н(х, у) = у3 — Зху + х3. 15. Показать, что в игре с функцией выигрыша Н(х,у) = е1У~х^1-х2/у2, х G [х0,хг], у е [yo,yi], 7 > 0 игрок 2 имеет оптимальную чистую стратегию. Выяснить вид этой стратегии в зависимости от параметра Что можно сказать об оптимальной стратегии игрока 1? 16. Проверить, что функция выигрыша из примера 11 п. 2.5.5, Н(х,у) = р(х,у), х е 5(0,/), у е 5(0,1), где 5(0,1) — круг с центром в 0 и радиусом I, р(-) — расстояние в В2, строго выпукла по у при любом фиксированном х. 17. Показать, что сумма двух выпуклых функций выпукла. 18. Доказать, что если выпуклая функция ip : [а, /3} —> R1 ограничена, то она непрерывна в любой точке ж Е (а,/3). . Вместе с тем на концах а и /3 промежутка (а,/3), выпуклая функция ip полунепрерывна сверху, т. е. lim (р(х) < ip(a) х—ю. (аналогично при х —»/3). 19. Пусть дана игра Г = (X, У, Я), X = Y = [0,1] с выпуклой ограниченной функцией выигрыша Н(х, -) : [0,1] —» R1. Показать, что игрок 2 в этой игре имеет либо оптимальную чистую стратегию, либо для каждого е > 0 чистую е-оптимальную стратегию. Относительно игрока 1 справедлив результат теоремы п. 2.5.6. Указание. Использовать результат упр. 18 и рассмотреть вспомогательную игру Го = (X, У, JJo), где Н0(Х,у) = {Н{Х'у)> «^^(О'1). I^lim^-^y Н(х,уп), если у — 0 или у — 1.
118 2. Бесконечные антагонистические игры 20. Решить игру «нападение — защита», сформулированную в упр. 1. 21. Рассматривается одновременная игра преследования на плоскости (см. пример 1 п. 2.1.2), когда множества стратегий 5i = S2 = 5, где 5 —некоторое замкнутое выпуклое ограниченное множество. (a) Показать, что значение рассматриваемой игры равно Я, где R — радиус минимального круга 5(0, jR), содержащего 5, а оптимальная стратегия игрока 2 является чистой и заключается в выборе центра О круга 5(0, Л). (b) Показать, что оптимальная стратегия игрока 1 является смешанной и является смесью либо двух диаметрально противоположных точек касания множества 5 с кругом S(0,R) (если такие точки х\ и х2 существуют), либо таких трех точек касания x'i,x'2, #3, что точка О лежит внутри треугольника, вершинами которого являются данные точки. 22. Решить одновременную игру преследования на плоскости, рассмотренную в упр. 21, в предположении, что игрок 2 выбирает не одну точку у Е 5, а га точек ух,..., уш G 5. Функция* выигрыша игры имеет вид 1 m Н{х,у) = — ]Гр2(ж,^), 4 = 1 где р(-) — расстояние в R2. 23. Игрок 1 выбирает системы а; из га точек промежутка [—1,1], т. е. х = (^i,---,^m), ^г ё [—1,1], i — 1,... ,га. Одновременно и независимо от него игрок 2 выбирает систему у из п точек того же промежутка [—1,1], т. е. у — (771,... ,77n), ?7j ё [—1,1], j = 1,2,... ,п. Функция выигрыша Н(х,у) имеет вид Н(х,у) = -(тахтт|^г - щ\ +maxmin|^ - щ\). Z г j j г Найти решение игры. 24. Рассмотреть обобщение задачи п. 2.8.3, а именно игру поиска, в которой игрок 2 выбирает систему к точек у = (уг,..., ?Д:) на сфере О, а игрок 1, как и прежде,— систему х из s точек х — (xi,..., xs) на сфере О. Функция выигрыша имеет вид Н(х,у) = {М | М = |Ы| : у, 6 5(.т,,г); j = 1,... ,s}, где S(xj,r) — сферический сегмент с вершиной в точке Xj и радиусом основания г; запись \{yi}\ означает количество точек множества {yi}. Точка yi считается обнаруженной, если у,- G S(xj,r) хотя бы для одного ж-/. Таким образом, значение функции выигрыша имеет смысл числа обнаруженных точек в ситуации (х,у). Найти решение игры.
Глава 3 Неантагонистические игры §3.1. Определение бескоалиционной игры в нормальной форме 3.1.1. В предыдущих главах были рассмотрены антагонистические игры двух лиц, т. е. игры, в которых интересы сторон прямо противоположны. Однако реальные задачи принятия решения в условиях конфликта характеризуются большим числом участников и, как следствие этого, неантагонистичностью конфликтной ситуации. Если говорить о конфликте двух лиц и его моделях, то можно заметить, что он также не исчерпывается только антагонистическим случаем. Дело в том, что интересы игроков могут i пересекаться, но не быть обязательно противоположными. Это, в частности, может , приводить к ситуациям, взаимовыгодным обоим игрокам (в антагонистическом конфликте это невозможно), что делает осмысленным кооперирование (выбор согласован- i ного решения), приводящее к увеличению выигрыша обоих игроков. Однако возможны такие конфликты, когда кооперация или соглашение невозможны по правилам игры. Поэтому в неантагонистических играх различают бескоалиционное поведение, когда соглашения между игроками запрещены правилами (см. § 3.1 - 3.8), и кооперативное , поведение игроков, когда разрешается кооперация типа выбора совместных стратегий i (см. § 3.9 - 3.10) и совершения побочных платежей (см. § 3.11 - 3.14). Рассмотрим сначала бескоалиционное поведение. 3.1.2. Определение. Система Г = W {Xi}ieN, {Hi}ieN), в которой N = {1, 2,..., п} — множество игроков, Xi — множество стратегий игрока г, Hi — функция выигрыша игрока i, определенная на декартовом произведении множеств стратегий игроков X — ПГ=1 ^ (множество ситуаций игры), называется бескоалиционной игрой. Бескоалиционная игра п лиц происходит следующим образом. Игроки одновременно и независимо друг от друга выбирают свои стратегии Xi из множеств стратегии Хь г — 1,2,..., п, в результате чего формируется ситуация х = (xi,...,xn), xi Е Xi. После этого каждый игрок г получает выигрыш Hi(x) = Hi{x\,..., хп) и игра заканчивается. Если множества чистых стратегий игроков Xi конечны, то игра называется конечной бескоалиционной игрой п лиц. 3.1.3. Бескоалиционная игра Г, в которой принимают участие два игрока, называ- i ется игрой двух лиц. Таким образом, бескоалиционная игра двух лиц Г в нормальной
120 3. Неантагонистические игры форме определяется системой Г = (Xi, X<2, Н\, Н^)^ где Х\ — множество стратегий первого игрока, Х2 — множество стратегий второго игрока, Х\ х Х^ — множество ситуаций игры, а Н\ : Х\ х Х^ —> Я1, #2 : Х\ х Х^ —> Я1 — функции выигрыша соответственно 1 и 2 игроков. Конечная бескоалиционная игра двух лиц называется биматричной. Это объясняется тем, что, перенумеровав множества чистых стратегий игроков числами 1, 2,..., га и 1, 2,..., п соответственно, функции выигрыша можно записать в виде двух матриц НХ=А: ац ... а1п иН2 = В Anl ... 0 При этом элементы а^ и /3^ матриц Л, Б являются соответственно выигрышами игроков 1 и 2 в ситуации (i,j), i G M, j G iV, M = {1,... ,ra}, N = {1,... ,n}. В соответствии с изложенным выше биматричная игра происходит следующим образом. Первый игрок выбирает номер ъ строки, а второй (одновременно и независимо) номер j столбца матрицы. Тогда игрок 1 получает выигрыш о.ц = Hi(x^yj), а игрок 2 — выигрыш fiij = H2(xi,yj). Заметим, что биматричную игру с матрицами Л и В можно также задать (га x п) матрицей (Л,Б), каждый элемент которой есть пара {oiij,Pij), ъ — 1,2,...,га, j = 1,2,..., п. Игру, определяемую матрицами Л и Б, будем обозначать Г(Л, В). Если бескоалиционная игра Г двух лиц такова, что Н\(х,у) = —Н2(х,у) для всех х G -X"i, у G -Х"2, то Г оказывается антагонистической игрой, рассмотренной в предыдущих главах. В частном случае, когда в биматричной игре ац = — /?^-, мы получаем матричную игру, рассмотренную в гл. 1. 3.1.4. Пример 1 («Семейный спор»). Рассматривается биматричная игра с матрицей (А,В) = он а^ 01 (4Д) (0,0) 02 (0,0) (1,4) Имеются различные интерпретации этой игры, но наиболее известная [Льюис и Райфа, 1961] следующая. Муж (игрок 1) и жена (игрок 2) могут выбрать одно из двух вечерних развлечений: футбольный матч (cki,/3i) или театр (о^/Зг)- Если они имеют разные желания (c*i,/?2) или (ck2,/?i), to остаются дома. Муж предпочитает футбольный матч, а жена — театр. Однако обоим гораздо важнее провести вечер вместе, чем участвовать в развлечении (хотя и предпочтительном) одному. Пример 2 (Игра «перекресток») [Мулен, 1985]. Два автомобилиста двигаются по двум взаимно перпендикулярным дорогам и одновременно встречаются на перекрестке. Каждый из них может остановиться (1-я стратегия а\ или /?i) и ехать (2-я стратегия а<2 или /?2). Предполагается, что каждый из игроков предпочитает остановиться, а не пострадать в аварии и проехать, если другой сделал остановку. Этот конфликт может быть формализован биматричной игрой с матрицей (А, В) он Oil Pi (1,1) (2,1-е) 02 (1-е,2) (0,0)
§3.1. Определение бескоалиционной игры в нормальной форме 121 Здесь неотрицательное число е соответствует неудовольствию от того, что игрок остановился и пропустил партнера. Пример 3 (Выбор способа передвижения по городу) [Мулен, 1985]. Пусть число игроков п велико и каждое из множеств Xi состоит из двух элементов: Xi = {0,1} (для определенности: 0 — воспользоваться автомобилем, 1 — использовать общественный транспорт). Функция выигрыша определяется следующим образом: H-i\X\, . . . , Хп) — a{t), b(t), При Xi = 1, при Xi — О, , 1 \г~\П н- а(0) 6(0) 0 . //\ / / t0 i Л 1 6(1) а(1) L t Рис. 3.1. Функции a(t), b(t) (выбор способа передвижения по городу) Пусть а и Ъ имеют вид, изображенный на рис. 3.1. Из вида функций a(t) и b(t) следует, что если доля игроков, выбирающих 1, больше ti, то уличное движение настолько свободно, что водитель чувствует себя лучше, чем пассажир в общественном транспорте. Если же доля автомобилистов больше 1 —to, то движение настолько интенсивное (при естественном приоритете общественного транспорта), что сравнение теперь в пользу пассажиров общественного транспорта. Пример 4 (Распределение ограниченного ресурса с учетом интересов потребителей). Предположим, что п потребителей имеют возможность расходовать (накапливать) некоторый ресурс, объем которого ограничен величиной А > 0. Обозначим объем ресурса, который расходует (накапливает) г-й потребитель, через ж*. В зависимости от значений вектора х = (жьжг,... ,жп) потребители получают выигрыш, который оценивается для i-го потребителя функцией /1г(#ъ#2» - - - ?^п)3 если общий объем израсходованного (накопленного) ресурса не превосходит заданной положительной величины 0 < Л, т. е. Е г=1 Xi < 6, Xi > 0.
122 3. Неантагонистические игры Если выполняется противоположное неравенство, то выигрыш i-го потребителя вычисляется с помощью функции gi(xi, x<i, - - -, хп). При этом предполагается, что полезность ресурса резко снижается, если Х^Г=1 Xi > ®> т* е* gi{x\,X2,...>xn) < Ы(хиХ2,...,хп). Рассмотрим неантагонистическую игру в нормальной форме Г = (N> {Xi}ieN, {Hi}ieN), в которой функции выигрыша игроков имеют вид ( |/г,(хь...,Жп), ЕГ=1^<© ЛДЖ1,Ж2,...,.гп)-< п Xi = [MiL 0<аг < A, ^ai = A, 7V = {1,2,... ,п}. г=1 Игроками в этой игре являются потребители ресурса. Пример 5 (Теоретико-игровая модель охраны воздушного бассейна от загрязнений) [Петросян, Захаров, 1986]. В промышленном районе расположено п предприятий, каждое из которых имеет один источник, выбрасывающий в атмосферу вредную примесь. В районе имеется экологически значимая зона ft , уровень загрязнения в которой не должен превышать предельно допустимого значения. Усредненное по времени и области значение концентрации вредной примеси в атмосфере при наличии п источников можно приближенно рассчитать по формуле п q = 2_. сгХ%, 0 < Xi < ai, i = 1,2,..., п. г=1 Пусть 0 < Х^=1 CiQ>i — значение предельно допустимой концентрации (ПДК) вредной примеси. Считая предприятия игроками, построим игру, моделирующую конфликтную ситуацию загрязнения атмосферы. Предположим, что каждое предприятие г может снижать свои эксплуатационные расходы, увеличивая выброс хц однако если в зоне ft уровень загрязнения превышает ПДК, на предприятие накладывается штраф s?; > 0. Пусть игрок г (предприятие) имеет возможность выбирать значения Xi из множества Xi = [0,а$]. Функции выигрыша игроков имеют вид /ц(>1,Ж2,...,жп), q < 0, hi(xux2,...,xn)-Si, q > 0, где hi(xi,X2,.. -, xn) — непрерывные и возрастающие по аргументу Xi функции. Пример 6 (Аукцион разделимого товара) [Зенкевич, 1994]. Два игрока участвуют в аукционе, на котором предлагаются q единиц товара с минимальной ценой р^. Предполагается, что игроки 1, 2 имеют бюджет М\,М2 соответственно. Они запрашивают количество товара q\, #2 соответственно (q\, #2 ~~ целые числа) и предлагают цены pi, р2 за единицу товара, причем делают это независимо и одновременно. -H-i\Х\, . . . , Хп)
§ 3.2. Принципы оптимальности в бескоалиционных играх 123 При этом (Ц + 42 > q, 0 < qi < g, 0 < q2 < q, Pi е fcpo, Pi], P2 б [po,P2], где Щ = Mx/(q - 1), Щ = M2/(q - 1). Согласно правилам аукциона, игрок, предложивший наибольшую цену, покупает запрашиваемое количество единиц товара по предложенной им цене. Другой игрок покупает остатки товара по предложенной им самим цене. Если предложенные игроками цены за единицу товара совпадают, то преимущество имеет игрок 1. Каждый игрок стремится максимизировать свой выигрыш. Данный аукцион может быть описан как неантагонистическая игра двух лиц в нормальной форме Г = (X, У, ill, Дг)? где множества стратегий определяются следующим образом: х = {pi\vi е [ро,рГ]}, У = {Р2|Р2 е [ро,Рг]}, а функциями выигрыша являются функции Ч („ «u/ (Pl~Pl)qU Pl>P2, НгЫ,Р2)-[ (^-Pl)(,-,2), Р1<Р2, тт , \ ч _ Г (P2~P2)g2, P1 <Р2, §3.2. Принципы оптимальности в бескоалиционных играх 3.2.1. Известно, что для антагонистических игр принципы минимакса, максимина и равновесия совпадают (если они реализуемы, т. е. существует равновесие, а максимин и минимакс достигаются). В таком случае они определяют единое понятие оптимальности и решения игры. В теории неантагонистических игр нет единого подхода к выработке принципов оптимальности. По существу имеется целое множество таких принципов, каждый из которых основывается на некоторых дополнительных предположениях о поведении игроков и структуре игры. Естественно предположить, что в игре Г каждый из игроков стремится к достижению ситуации ж, в которой значение его функции выигрыша было бы наибольшим. Однако функция выигрыша Щ зависит не только от стратегии г-го игрока, но и от стратегий, выбираемых другими игроками, поэтому ситуации {хг}, дающие большее значение выигрыша для i-го игрока, могут не быть таковыми для других игроков. Таким образом, так же, как и в случае антагонистической игры, стремление игроков получить наибольший выигрыш носит конфликтный характер и сама формулировка того, какое поведение является «хорошим» или оптимальным в игре, является проблематичной. Здесь имеется несколько подходов. Одним из них является равновесие по Нэшу и его различные обобщения. В случае, когда игра Г является антагонистической, равновесие по Нэшу совпадает с понятием равновесия, которое представляет собой основной принцип оптимальности в антагонистической игре. Пусть х = (а?!,... ,Жг_1,2?г,Жг+ь -- -> #n) ~~ произвольная ситуация в игре Г, a Xi — некоторая стратегия игрока ъ. Построим ситуацию, которая отлична от х только тем, что стратегия Хг игрока г заменена на стратегию х[. В результате мы получаем ситуацию (#i,..., a?i_i,a^,Xi+i,... ,хп), которую будем обозначать через (ж||а^). Очевидно, что если Xi и х[ совпадают, то (х||х^) — х.
124 3. Неантагонистические игры Определение. Ситуация ж* = (.tJ, ..., ж*,..., ж*) называется ситуацией равновесия по Нэшу, если для всех Xi Е Xi wi = l,...,n имеет место неравенство Щ(х*)>Щ(х*\\х^. (3.2.1) Пример 7. Рассмотрим игру примера 3 п. 3.1.4. Равновесными по Нэшу здесь являются ситуации, для которых выполняется условие t0<t*-l/n, t* + l/n<tb (3.2.2) где t* = ~ Y^j=\ x*y Из условия (3.2.2) следует, что переключение каждого отдельного игрока с одной чистой стратегии на другую при условии, что другие игроки своих стратегий не изменяют, не влияет на его выигрыш. Пусть в игре реализовалась ситуация ж, которой соответствует t = ^ ]Cj=i хз- t Е [to,ti], и пусть величина 8 — доля игроков, решивших переключиться со стратегии О на стратегию 1. Заметим, что если 8 таково, что b(t) = a(t) < a(t + 8), то выигрыши этих игроков увеличиваются при таком переключении, если стратегии остальных игроков останутся прежними. Однако если это переключение действительно произойдет, то у тех же игроков возникает желание переключиться со стратегии 1 на стратегию О, поскольку выполнено условие a(t + 8) < b(t -f 8). Если же это желание осуществится, то доля ^ Y^j=i хз игроков уменьшится и вновь попадет на отрезок [to, ^i]. Аналогично, пусть 8 — доля игроков, переключившихся по каким- либо причинам (например, из-за случайных ошибок) со стратегии 1 на стратегию 0, причем t — S<to. Тогда в силу условия b(t — 8) < a(t — 5), у игроков появится желание переключиться обратно на стратегию 1. При осуществлении этого желания доля ^ ]Cj=i хз увеличится и вновь вернется на отрезок [to, ti]. 3.2.2. Из определения ситуации равновесия по Нэшу следует, что ни один из игроков % не заинтересован в отклонении от стратегии ж*, входящей в эту ситуацию (согласно (3.2.1) его выигрыш при использовании стратегии Xi вместо ж* разве лишь уменьшится при условии, что остальные игроки придерживаются стратегий, образующих ситуацию равновесия х*). Таким образом, если игроки договорились предварительно об использовании стратегий, входящих в ситуацию равновесия ж*, то индивидуальное отклонение от договора невыгодно отклонившемуся игроку. Определение. Стратегия х\ Е Xi называется равновесной, если она входит хотя бы в одну ситуацию равновесия по Нэшу. Для бескоалиционной игры двух лиц Г = (Xi>Х^,Н\,Нъ) ситуация (ж*,у*) является ситуацией равновесия, если неравенства ffi(*,iT) < #i(**,2A H2(x*,y) < Н2(х*,у*) (3.2.3) выполняются для всех х Е Х\ и у Е X2 В частности, для биматричной (т х п)-игры Г(А,В) пара (i*,j*) будет ситуацией равновесия по Нэшу, если неравенства aij* < apj*, /3i*j < /3i*j* (3.2.4) выполняются для всех номеров строк г Е М и столбцов^' Е N. Так, в примере 1 равновесными являются ситуации (cki,/3i) и (ск2,/?2)> а в примере 2 — (а^/Зг) и (ck2,/3i).
§3.2. Принципы оптимальности 125 Напомним, что' для антагонистической игры Г = (Xi, Х2, Я) пара (ж*, у*) е Xi x Х2 является ситуацией равновесия, если Я(х,Я < Я(х*,Я < Н[х\у)у x<kXuyZ Х2. При этом имеют место следующие основные свойства антагонистических игр. 1°. Игроку невыгодно информировать своего противника о стратегии (чистой или смешанной), которую он собирается применить. (Конечно, если игрок собирается использовать оптимальную стратегию, то его выигрыш не уменьшится от того, что он объявит об этом, но он ничего и не выигрывает.) 2°. Если (ж, у) G Z(T), (xf', у!) G Z(T) — ситуации равновесия в игре Г, a v — значение игры, то (ж',у)еад, (sy)ez(r), (3.2.5) v = Я(ж, у) = Я(ж', у') = Я (ж, у') = Я(ж', у). (3.2.6) 3°. Игроки не заинтересованы в общении перед началом игры для выработки совместных действий. 4°. Если в игре Г существует ситуация равновесия, а х и у — максиминная и минимаксная стратегии соответственно, то (ж, у) 6 Z\T) — ситуация равновесия, и наоборот. Выясним, выполняются ли эти свойства для биматричных игр. Пример 8. Рассмотрим игру «семейный спор» (см. пример 1 и п. 3.1.4). Как уже отмечалось, в ней есть две равновесные ситуации (ai,/3i) и (а2,/?г)- Однако 1-я ситуация выгодна игроку г, а 2-я — игроку 2. Это противоречит (3.2.6), поскольку выигрыши игроков в этих ситуациях различны. Далее заметим, что, несмотря на равновесность ситуаций (cki,/?i), (0^2,^2)5 пары (скь/Зг) и (ck2,/?i) —не являются ситуациями равновесия по Нэшу, т. е. не выполнено свойство 2° (см. (3.2.5)). Если игрок 1 информирует партнера о намерении выбрать стратегию а\ и если игрок 2 убежден, что тот будет упорствовать, то ему ничего не остается, как объявить первую стратегию /?].. Аналогичные рассуждения можно провести и за игрока 2. Таким образом, каждому из игроков выгодно первому объявить свою стратегию, что противоречит свойству 1° для антагонистических игр. Предположим, что игроки не общаются до начала игры, а делают выбор одновременно и независимо друг от друга (как и предусмотрено правилами бескоалиционной игры). Проведем рассуждения за игрока 1. Ему выгодно, чтобы реализовалась ситуация (ai,/3i), в то время как игроку 2 выгодна ситуация (ск2>/?2)- Поэтому, если игрок 1 выберет стратегию ai, то игрок 2 может выбрать стратегию /32 и они оба проиграют (вектор выигрышей (0,0)). Тогда игроку 1 имеет смысл выбрать стратегию а2, поскольку в ситуации (#2? Аз) он получает выигрыш 1. Но игрок 2 может рассуждать аналогично и выбрать /?i, тогда в ситуации (a2,f3i) они оба опять проиграют. Таким образом, имеет место случай, когда ситуация выгодна (и поэтому неустойчива) для игрока 1. Аналогично (с точки зрения игрока 2) можно исследовать ситуацию (а2,(32). Следовательно, игрокам выгодно общаться перед началом игры и договариваться о совместном плане действий, что противоречит свойству 3°. Затруднения возникают также из-за того, что пара максиминных стратегий не является равновесной. Таким образом, мы имеем пример игры, когда не выполнено ни одно из свойств 1° — 4° антагонистической игры. Итак, в различных ситуациях равновесия по Нэшу векторы выигрышей игроков могут быть различны. Кроме того, множество ситуаций равновесия по Нэшу в отличие
126 3. Неантагонистические игры от множества ситуаций равновесия в антагонистической игре не является прямоугольным. Если х — (х\, ..., Xi,..., хп) их' = (#]_,..., х\,..., х'п) — две различные ситуации равновесия, то ситуация хп', состоящая из стратегий, которые образуют ситуации х и я/ и не совпадающая ни с одной из этих ситуаций, равновесной может не являться. Ситуация равновесия по Нэшу является множественным принципом оптимальности в том смысле, что различные ситуации равновесия могут быть в разной степени предпочтительными для различных игроков. Таким образом, остается не решенным вопрос: какую из ситуаций равновесия можно принять как устраивающий всех игроков принцип оптимальности? В дальнейшем будет показано, что множественность принципа оптимальности является существенной характерной чертой оптимального поведения в конфликтных управляемых процессах со многими участниками. Заметим также, что в отличие от антагонистического случая равновесная стратегия г-го игрока ж* далеко не всегда обеспечивает получение, по крайней мере, выигрыша Hi(x*) в ситуации равновесия по Нэшу, поскольку это существенно зависит от того, выберут ли остальные игроки стратегии, входящие в данную ситуацию равновесия по Нэшу. Поэтому равновесную стратегию не следует трактовать как оптимальную стратегию г-го игрока. Такая трактовка осмыслена только для набора стратегий игроков, т. е. для ситуаций. 3.2.3. Важная особенность ситуации равновесия по Нэшу заключается в том, что отклонение от нее двух игроков и более может привести к увеличению выигрыша одного из отклонившихся игроков. Пусть S С N — некоторое подмножество множества игроков (коалиция) и пусть х = (xi,... ,жп) — ситуация в игре Г. Обозначим через (#||ж$) ~ ситуацию, которая получается из ситуации х при замене в ней стратегий х^ ъ (Е S на стратегии х\ G Х^ i G S. Иными словами, в ситуации (хЦж^) игроки, входящие в коалицию 5, заменяют свои стратегии Xi на х\\ Если х* — ситуация равновесия по Нэшу, то из (3.2.1) вовсе не следует, что Щ{х*) >Hi{x*\\xs) для всех i G S. (3.2.7) Это будет показано далее на простых примерах. Можно усилить понятие равновесия по Нэшу, потребовав выполнения условия (3.2.7) или ослабленного условия (3.2.7) хотя бы для одного из игроков ъ G S. Тогда мы приходим к следующему определению. Определение. Ситуация ж* называется сильно равновесной, если для любой коалиции S С N и xs G Пгез-^ь существует игрок %о 6 S, для которого выполняется строгое неравенство: Я,0(х*)>Яго(.т*||х5). (3.2.8) Условие (3.2.8) гарантирует нецелесообразность соглашения между игроками с целью вступления в некоторую коалицию 5, так как в любой коалиции находится игрок го, которого это соглашение не устраивает. Любая сильно равновесная ситуация является равновесной. Если бы сильное равновесие существовало в достаточно широком классе игр, то оно могло бы явиться приемлемым принципом оптимальности в бескоалиционной игре. Однако оно существует крайне редко.
§ 3.2. Принципы оптимальности 127 Пример 9 («Дилемма заключенного»). Рассмотрим биматричную игру с матрицей 01 (5,5) (10,0) /?2 (0,10) (1,1) (А,В)= ai а2 Здесь одна ситуация равновесия (а2) /fe) (не сильно равновесная), которая дает игрокам вектор выигрышей (1,1). Однако если оба игрока сыграют (cki,/3i), to они получат вектор выигрышей (5,5), что выгодно обоим. Эта ситуация не является равновесной, но она лучшая для обоих игроков. Таких парадоксов в антагонистических играх не бывает. Если говорить об этом конкретном случае, то данный результат является следствием того, что при одновременном отклонении от равновесной стратегии каждый из игроков может выиграть еще больше. 3.2.4. Пример 8 приводит к мысли о возможности других принципов оптимальности в бескоалиционной игре, приводящих к ситуациям, более выгодным обоим участникам, чем в случае равновесных ситуаций. Таким принципом оптимальности является onmu- малъностъ по Парето. Рассмотрим множество векторов {Н(х)} — {Hi(x),..., Hn(x)}, x G X, X — ПГ=1 ^' т. е. множество значений вектор-выигрышей игроков во всех возможных ситуациях хеХ. Определение. Ситуация х в бескоалиционной игре Г называется оптимальной по Парето, если не существует ситуации х G X, для которой имеют место неравенства: Нг(х) > Щ(х) для всех г G N и Hio (х) > Щ0 (х) хотя бы для одного %о G N. Множество всех ситуаций, оптимальных по Парето, будем обозначать через Хр. Содержательно принадлежность ситуации х множеству Хр означает, что не существует другой ситуации ж, которая была бы предпочтительнее ситуации х для всех игроков. Отметим содержательное различие понятий ситуации равновесия и ситуации, оптимальной по Парето. В первой ситуации ни один игрок, действуя в одиночку, не может увеличить своего выигрыша-, во второй — все игроки, действуя совместно, не могут (даже не строго) увеличить выигрыш каждого. Заметим также, что соглашение о выборе фиксированной ситуации равновесия удерживает каждого индивидуального игрока от отклонения от нее. В оптимальной по Парето ситуации отклонившийся игрок может в некоторых случаях получить существенно больший выигрыш. В то же время сильно равновесная ситуация безусловно является и оптимальной по Парето. Так, в примере 9 («Дилемма заключенного») ситуация (а2,/?2) равновесна, но не оптимальна по Парето. Вместе с тем ситуация («i,/?i) , наоборот, оптимальна по Парето, но не является равновесной. В игре «семейный спор» обе равновесные ситуации (cki,/?i), (а2,/0г) сильно равновесны и оптимальны по Парето, но, как уже отмечено в примере 8, не являются взаимозаменяемыми. Такая же картина имеет место и в следующем примере. Пример 10. Рассмотрим игру «перекресток» (см. пример 2 п. 3.1.4). Ситуации (<22,/3i), (скь/Зг) равновесны и оптимальны по Парето (ситуация (cki,/?i) оптимальна по Парето, но не равновесна). Для каждого игрока равновесной является стратегия ai,/?i «остановиться », если другой игрок решил проехать перекресток, и, наоборот,
128 3. Неантагонистические игры выгодно выбрать стратегию а2)^2 «ехать», если другой игрок остановился. Однако выигрыш в две единицы каждый из игроков получает только при выборе стратегии &2,Р2— «ехать», поэтому здесь неизбежна борьба за лидерство, т. е. каждый из игроков заинтересован первым заявить, что он выбрал стратегию «ехать». Заметим, что точно к такому же выводу мы пришли при анализе игры «семейный спор» (см. пример 8). 3.2.5. Проанализируем поведение типа лидер — ведомый в игре двух лиц Г — (Xi,X2,Hi,H2). Обозначим как Z1, Z2 множества наилучших ответов игроков 1 и 2 соответственно, где Z1 ={{xux2)\H1{xuX2)=supH1(yuX2)h (3.2.9) 2/1 Z2 = {(xux2)\H2{xux2) = supH2{xuy2)} (3.2.10) 2/2 (предполагается, что супремумы в (3.2.9) и (3.2.10) достигаются). Определение. Назовем ситуацию (xi,x2) G Х\ х Х2 i-равновесием по Штакель- бергу в игре двух лиц V, a Hi — г-выигрышем, если (х\,х2) G Z-7 и выполняется равенство Tti = Hi(xux2)= sup Щ(уъу2), (3.2.11) (2/i>2/2)GZ-7 где г = 1,2, г -ф j. Понятие i-равновесия можно интерпретировать следующим образом. Игрок 1 (лидер) знает функции выигрыша обоих игроков Hi, Н2, а тем самым и множество наилучших ответов игрока 2 (ведомого) на любую стратегию х\ игрока 1. Тогда он, обладая этой информацией, максимизирует свой выигрыш, выбирая стратегию х\ из условия (3.2.11). Таким образом, Hi —это выигрыш г-го игрока, действующего оптимально в качестве «лидера» в игре Г. Лемма. Пусть Z(T) — множество ситуаций равновесия по Нэшу в игре двух лиц Г. Тогда Z(T) = Z1nZ2, (3.2.12) где Zl,Z2 — множества наилучших ответов (3.2.9), (3.2.10) игроков 1,2 в игре Г. Доказательство. Пусть {xi,x2) G Z(T) — ситуация равновесия по Нэшу. Тогда неравенства Н1{х'ъх2) < Н1(хих2), Н2(х1,х2) < Н2(хих2) выполняются для всех х[ G Х\ и xf2 E Х2. Отсюда следует: H\(xi,x2) = supHi(x[,x2), (3.2.13) x'i Н2(хъх2) =supH2{xux2). (3.2.14) х2 Таким образом, (х\,х2) G Z1 и (xi,x2) 6 Z2, т. е. (х\,х2) G Z1 П Z2. Обратное включение непосредственно следует из (3.2.13), (3.2.14). Лемма доказана.' Определение [Мулен, 1985]. Будем говорить, что в игре двух лиц Г = (Xi,X2,Hi,H2) имеет место борьба за лидерство, если не существует такой ситуации (х\,х2) G Х\ х Х2, что Hi<Hi(xux2), г = 1,2. (3.2.15)
§3.3. Смешанное расширение бескоалиционной игры 129 Теорема [Мулен, 1985]. Если игра двух лиц Г = (Xi,X2,Hi,H2) имеет по крайней мере две оптимальных по Парето и равновесных по Нэшу ситуации (#i,#2)> (yi? У2) с различными векторами выигрышей (Н1(хъх2),Н2(хих2)) ф (Н1(уиу2),Н2(уиу2)), (3.2.16) то в игре Г имеет место борьба за лидерство. Доказательство. В силу (3.2.12) для всякой ситуации равновесия по Нэшу (zi,z2) Е Z(T) справедливы неравенства . - Hi(zuz2)<Hi, г = 1,2. Предположим противное, т. е. что в игре Г нет борьбы за лидерство. Тогда существует ситуация (zi,z2) (E Х\ х Х2, для которой Hi{xl,x2)<~Hi<Hi{zuz2), (3.2.17) Я*(УьУ2)< Я* <#*(*!, *2), (3.2.18) г = 1,2. Однако (xi,x2), {yi,y2) ~ ситуации, оптимальные по Парето. Поэтому неравенства (3.2.17), (3.2.18) выполняются как равенства, что противоречит (3.2.16). Теорема доказана. В заключение заметим, что игры «семейный спор» и «перекресток » (п. 3.1.4) удовлетворяют условиям теоремы п. 3.2.5, поэтому в них имеет место борьба за лидерство. § 3.3. Смешанное расширение бескоалиционной игры 3.3.1. Рассмотрим бескоалиционную игру двух лиц Г = (Xi,X2,Hi,H2). В антагонистическом случае мы уже убедились, что ситуация равновесия в обычных чистых стратегиях, вообще говоря, не существует. Даже матричные игры в общем случае имеют ситуацию равновесия лишь в смешанных стратегиях. Поэтому естественно искать равновесие по Нэшу в бескоалиционной игре в классе смешанных стратегий. Как и в случае антагонистических игр, смешанную стратегию игрока мы отождествляем с вероятностным распределением на множестве листых стратегий.-Предположим для простоты, что множества стратегий Хг конечны, и введем понятие смешанного расширения игры. Пусть Г = {М,{Хг}мЛЪ}м) (3.3.1) — произвольная конечная бескоалиционная игра. Для определенности предположим, что игрок i в игре Г имеет т* стратегий. Обозначим через /^ произвольную смешанную стратегию игрока г, т. е. некоторое вероятностное распределение на множестве стратегий Х^ которые назовем чистыми стратегиями. Через fii{xi) будем обозначать вероятность, которую стратегия \±{ приписывает конкретной чистой стратегии Xi G Xi. Множество всех смешанных стратегий игрока ъ будем обозначать через Х*. Пусть каждый из игроков ъ G N применяет свою смешанную стратегию /х$, т. е. выбирает чистые стратегии с вероятностями ii%{xi). Будем предполагать, что вероятность появления ситуации х = (#i,... ,хп) равна произведению вероятностей выборов составляющих ее стратегий, т. е. /х(ж) = /Xi(Zi) X Ц2(Х2) X ... X fJLn(xn). (3.3.2)
130 3. Неантагонистические игры Формула (3.3.2) определяет вероятностное распределение на множестве всех ситуаций X = ПГ=1 ^> определяемое смешанными стратегиями jUi,jU2, - - -, /ап- Набор М — (Мь - - - 5 Ц"п) называется ситуацией в смешанных стратегиях. Ситуация в смешанных стратегиях \± реализует различные ситуации в чистых стратегиях с некоторыми вероятностями, поэтому значение функции выигрыша каждого из игроков оказывается случайной величиной. В качестве значения функции выигрыша 2-го игрока в ситуации \i принимается математическое ожидание этой случайной величины: Kt(ti) = е я^)м(*) = хех = ]Г ... ^Г Hi{xu...,xn) х /ii(xi) х ... х цп(хп), x\^lX\ хп&Хп ieN, x = (xi,...,a;n) G X (3.3.3) Введем обозначение един Е --- Е Е - - Е ъ(х\щ)Ццк(хк). (з.щ xiEXi Xj-iGXj-i Xj + i&Xj+i xTlGXn кфз Пусть ц'а — произвольная смешанная стратегия игрока j в игре Г. Умножая (3.3.4) на ц!{х'А и суммируя по всем х'а G Xj, получаем хгех. Определение. Игра Г = (N, {Xi}iej^{Ki}ie^f), в которой N — множество игроков, Xi — множество смешанных стратегий каэюдого игрока г, а функция выигрыша определяется равенством (3.3.3), называется смешанным расширением игры Г. Если неравенство Kj(fji\\xi) < а выполняется для любой чистой стратегии Х{ игрока г, то для любой смешанной стратегии \±\ справедливо неравенство Х^(д||/л*) < а. Доказательство этого факта вытекает из (3.3.3) и (3.3.4) стандартным переходом к смешанным стратегиям. 3.3.2. Для биматричной (га x п)-игры Г (А, В) можно определить множества смешанных стратегий Xi, X2 1 и 2 игрока, соответственно, в виде Хг = {х | хи = 1, х > 0, х G Я771}, X2 = {y\yw = l,y>0,ye Яп}, где и— (1,...,1) G Ят, tu = (l,...,l)G Rn. Также определим выигрыши игроков К\ и К2 в смешанных стратегиях в ситуации (ж, у) как математическое ожидание выигрыша Ki{x,y) = хАу, К2(х,у) = хВу, хе Хъ у G Х2. Следовательно, формально построено смешанное расширение Г(А, Б) игры Г(Д Б), т. е. бескоалиционная игра двух лиц Г(Д Б) = (XllX2l K^ К2). Для биматричной игры (как и для матричной) множество Мх = {г|<^ > 0} будем называть спектром смешанной стратегии х = (^i,... ,^m) игрока 1, а стратегию х, для которой Мх == М, М = {1,2,... , га}, вполне смешанной. Аналогично, А^ = {j|r/j > 0}
§3.3. Смешанное расширение бескоалиционной игры 131 будем называть спектром смешанной стратегии у — {гд,..., rjn} в биматричной (т х п)- игре Г(Д В). Ситуацию (х,у), в которой обе стратегии х и у являются вполне смешанными, будем называть вполне смешанной. Покажем на примере игры «семейный спор», что введение смешанных стратегий не снимает те трудности, которые возникают при анализе бескоалиционной игры (см. пример 8 п. 3.2.2). Пример 11. Пусть в игре «семейный спор» игрок 1 хочет максимально увеличить свой гарантированный выигрыш. Это означает, что он намерен выбрать смешанную стратегию х° = (<^°, 1 — ^°), 0 < <^° < 1 так, чтобы максимально увеличить наименьшую из двух величин Ki(x,(3i) и Ki(x,p2)^ т. е. maxmin{^1(x,/31),^1(x,/32)}-min{^1(x^/31),X1(x°,/32)}. X Максиминная стратегия х° игрока 1 имеет вид х° — (1/5,4/5) и дает ему средний гарантированный выигрыш 4/5. Если игрок 2 выберет стратегию /3i, то выигрыши игроков будут равны (4/5,1/5), если же он воспользуется стратегией (32l то (4/5,16/5). Таким образом, если игрок 2 догадается, что его партнер придерживается стратегии х°, то он выберет (32 и получит выигрыш 16/5. (Если игрок 1 может обосновать выбор (32 за игрока 2, то он может улучшить и свой выбор.) Аналогично, пусть игрок 2 придерживается максиминной стратегии (она имеет вид у0 = (4/5,1/5)), и если игрок 1 выбирает стратегию щ, то выигрыши игроков равны (16/5, 4/5). Если же игрок 1 выберет а2, то выигрыши игроков равны (1/5,4/5). Следовательно, против максиминной стратегии у0 ему выгодно применять стратегию а\. * . Если оба игрока будут рассуждать таким образом, то они приходят к ситуации (c^i,/З2), в которой вектор выигрышей (0,0). Здесь ситуация (х°,у0) в максиминных смешанных стратегиях не является ситуацией равновесия по Нэшу. 3.3.3. Определение. Ситуация /i* называется ситуацией равновесия по Нэшу в смешанных стратегиях в игре Г, если для любого игрока г и для любой его смешанной стратегии \±i выполняется следующее неравенство: Kid^Wiii) <Щц*), г = 1,...,п. Как показывает пример 11, ситуация в максиминных смешанных стратегиях не обязательно является ситуацией равновесия по Нэшу в смешанных стратегиях. Пример 12. В игре «перекресток» (см. пример 10 п.3.2.4) имеются две ситуации равновесия по Нэшу в чистых стратегиях: (ai, /З2) и (а2, /?i). Эти же ситуации оптимальны по Парето. В смешанном расширении игры возникает еще одна ситуация равновесия, а ршенно пара (х*,у*): * 1-е 1 X =У = -Z U1 + - U2, 2-е 2-е где иг = (1,0), и2 = (0,1) или х* = у* = ((1 - е)/{2 - е), 1/(2 - в)). Действительно, имеем ts / *ч 1-е 1-е „ в
132 3. Неантагонистические игры Более того, так как для любых смешанных стратегий х = (^, 1 — ^) и у — (г/, 1 — г/) выполняются равенства K1(x,y*)=tiK1(a1,y*) + (l K2(x*,y) = VK2(x*,f31) + (l то получаем K1(x,y*) = Ki(x\y*), К2(х*,у)=К2(х*,у*) для всех смешанных стратегий х G Х\ и у Е Х2. Следовательно, (ж*,у*) — ситуация равновесия по Нэшу. Более того, это вполне смешанная ситуация равновесия. Однако ситуация (х*,у*) не является оптимальной по Парето, так как вектор К(х*,у*) — (1 — е/(2 — в), 1 — е/(2 — в)) строго меньше (покомпонентно) вектора выигрышей (1,1) в ситуации (ai,/?i). Пусть К(ц*) = {Ki(jji*)} — вектор выигрышей в некоторой ситуации равновесия по Нэшу. Обозначим V{ = Ki(/A*) и v = {vi}. Заметим, что если в антагонистических играх значение v функции выигрыша в ситуации равновесия было одним и тем же для всех ситуаций равновесия, а следовательно, осуществлялось единственным образом для каждой антагонистической игры, в которой существовала ситуация равновесия, то в неантагонистических играх вектор v определяется неоднозначно. Таким образом, здесь можно говорить лишь о равновесном выигрыше v% = Ki(/j,*) игрока ъ в ситуации равновесия /х*, /х* е X, X = ПГ=1 -^i- Так, в игре «перекресток» в ситуации равновесия (аь/Зг) вектор равновесных выигрышей (г>1,г>2) имеет вид (1—5,2), а в ситуации (ж*, у*) он равен (1—5/(2—6:), 1—5/(2—6")) (см. пример 12). 3.3.4. Если в бескоалиционной игре Г = (Xi,X2,Hi) Щ) пространства стратегий бесконечны, например, Х\ С Ят, Х2 С Rn, то, как и в случае бесконечных антагонистических игр, смешанные стратегии игроков отождествляются с вероятностными мерами, заданными на борелевских сг-алгебрах множеств Х\ иХг- Если //иг/ — смешанные стратегии игроков 1 и 2 соответственно, то выигрышем игрока i в этой ситуации является Ki(ji,v) — математическое ожидание выигрыша, т. е. Ki(fj,,v)= / Hi(x,y)d/jJ(x)dv(y), (3.3.5) JX\J X2 где интегралы понимаются в смысле Лебега-Стилтьеса. Заметим, что в ситуациях (ж, v) и (//, у) выигрыши игроков имеют вид Ki(x,v) = / Hi(x,y)du(y)) Jx2 Ki(ii,y)= \ Hi(x,y)d(jJ(x), г = 1,2. JXi (Предполагается, что интегралы существуют.) Таким образом, формально смешанное расширение бескоалиционной игры Г двух лиц может быть задано системой Г = (Xi,X2, Ki,K2), где Х\ = {//}, Х2 = {*/}, а К\ и К2 определяются (3.3.5). Игра Г является бескоалиционной игрой двух лиц, поэтому ситуация (/i*,z/*) равновесна тогда и только тогда, когда выполнены неравенства, -аналогичные (3.2.3). -0*i(<*2,i/*) = l-2Z -v)K2(x*,02) = l-^-
§3.4. Существование ситуации равновесия по Нэшу 133 § 3.4. Существование ситуации равновесия по Нэшу 3.4.1. В теории антагонистических игр для существования ситуации равновесия в смешанных стратегиях было достаточно непрерывности функции выигрыша и компактности множеств стратегий (см. п." 2.4.4). Оказывается, что этих условий достаточно и для существования ситуации равновесия по Нэшу в смешанных стратегиях для бескоалиционной игры двух лиц. Вместе с тем вопрос о существовании ситуации равновесия в бескоалиционной игре двух лиц является правомерным. Уже приводился пример антагонистической игры, которая не имеет ситуации равновесия в смешанных стратегиях (см. п. 2.4.12). Сначала докажем существование ситуации равновесия в смешанных стратегиях для биматричной игры. Это доказательство опирается на известную теорему Какутани о неподвижной точке, которую приведем без доказательства в следующей формулировке (см. также п. 3.5.5). Теорема. Пусть S — компактное выпуклое множество в Rn u ф — многозначное отображение, переводящее точки S в компактные выпуклые подмножества S и удовлетворяющее условию: если хп G S, хп —» х, уп — ф(хп), уп -» у, то у G ф(х). Тогда существует такое х* G S, что х* G ф(х*). Теорема. Пусть Г (А, В) — биматричная (т х п)-игра. Тогда существуют смешанные стратегии х* G Х\ и у* G Х2 игроков 1 и 2 соответственно, такие, что пара (ж*,у*) является ситуацией равновесия по Нэшу. Доказательство. Множества смешанных стратегий Х\ и Х2 игроков 1 и 2 — выпуклые многогранники, поэтому множество ситуаций Х\ х Х2 — компактное выпуклое множество. Пусть ф — многозначное отображение, ф : Хх х Х2 -> Хг х Х2, определяемое соотношением ф : (х0,уо) -> < {х',у') т. е. образ отображения ф состоит из пар наилучших ответов игроков на стратегии у о и xq соответственно. Функции К\ и К2 как математические ожидания выигрышей в ситуации (ж, у) билинейны по х и у, а следовательно, образ ф(хо,уо) ситуации (#o,2/o) ПРИ отображении ф представляет собой выпуклое компактное подмножество в Х\ х Х2. Более того, если последовательности пар {(а#,у#)}, (х^Уо) Z Хх х Х2 и {{х'п,у'п)}, (х'п,у'п) G Ф(х%,Уо) имеют предельные точки, т. е. lim (жо,2/о) = (жо,2/о), Ит {х'п,у'п) - (x',yf), n—foo п—»оо то в силу билинейности функций Кi и К2 и компактности множеств Х\ и Х2, имеем, что (x',yf) e ф(х01уо). Ki{x',yo) = maxKi(x,y0), хеХг К2{хъ,у') = maxK2(x0,y), уех2
134 3. Неантагонистические игры Тогда по теореме Какутани существует ситуация (х*,у*) Е Хг х!2, для которой (ж*,у*) Gip{x*,y*), т. е. Кг(х*,у*) > Кг(х,у*), К2(х\у*) > К2(х\у) для всех х Е Х\ и у Е Хг. Теорема доказана. 3.4.2. Предыдущая теорема может быть обобщена на случай непрерывных функций выигрыша Н\ и Н2. При доказательстве этого результата;- требуется хорошо известная теорема о неподвижной точке, принадлежащая Брауэру [Партхасаратхи, Рагхаван, 1974]. Приведем без доказательства соответствующие теоремы. Теорема 1. Пусть Г = {Х\,Х2, Д"ь Н2) ~~ бескоалиционная игра двух лиц, пространства стратегий Х\ С К171, Х2 С Rn — компактные выпуклые подмножества, а множество Х\ х Х2 имеет внутренность. Пусть таксисе функции выигрыша Н\{х, у) и Н2(х,у) непрерывны на Х\ х Х2, причем Н\(х,у) вогнута по х при каждом фиксированном у,а функция Н2(х,у) вогнута по у при каждом фиксированном х. Тогда в игре Г существует ситуация равновесия по Нэшу (ж*,у*). Теорема 2. Пусть Г = (Xi,X2,Hi,H2) — бескоалиционная игра двух лиц, где Н\ и Н2 — непрерывные функции на Х\ х Х2; Х\, Х2 — компактные подмножества конечномерных евклидовых пространств. Тогда игра Г имеет ситуацию равновесия (д, и) в смешанных стратегиях. Не будем подробно останавливаться на построении смешанных стратегий в бескоалиционных играх п лиц с бесконечным числом стратегий и доказательстве существования ситуации равновесия по Нэшу. Отметим только, что если функции выигрыша Щ(х) непрерывны на декартовом произведении X — ПГ=1 ^ компактных множеств чистых стратегий, то в такой бескоалиционной игре всегда существует ситуация равновесия по Нэшу в смешанных стратегиях. Для существования ситуаций, оптимальных по Парето, достаточно компактности множества {Н(х)}, х Е X, что, в свою очередь, может быть обеспечено компактностью в некоторой топологии множества всех ситуаций X и непрерывностью в этой же топологии всех функций выигрыша К{, г = 1, 2,..., п. Очевидно, что для конечных бескоалиционных игр это всегда выполнено. § 3.5. Доказательство существования ситуации равновесия в конечной игре п лиц 3.5.1. Читатель может изучать параграф 3.5 независимо от предыдущего параграфа 3.4. Рассмотрим игру в нормальной форме Г = (TV, {Х^ед^ {#гЬелг)> где N (\N\ = п) — множество игроков, Xi — конечное множество стратегий игрока г, Hi — функция выигрыша игрока г. Под смешанной стратегией игрока г, как и ранее, будем понимать вероятностное распределение на множестве чистых стратегий Xi. Обозначим как Xi множество всех возможных смешанных стратегий игрока г. Для того, чтобы подчеркнуть отличие от смешанных стратегий, стратегии из множества Xi далее будем называть чистыми. Ситуацией в смешанных стратегиях будем называть любой вектор, компонентами которого являются смешанные стратегии всех игроков. Таким образом, множество всех ситуаций в смешанных стратегиях представляет собой декартово произведение X = ПГ=1 -^-i- Поэтому \i = (/ii,..., fjbn) является ситуацией в смешанных стратегиях тогда и только тогда, когда каждому игроку г Е N и каждой чистой стратегии Xi Е Х?; ситуация
§3.5. Доказательство существования ситуации равновесия 135 \i ставит в соответствие неотрицательное вещественное число /^(ж^), представляющее собой вероятность выбора чистой стратегии Х{ игроком г таким образом, что ]Г ll^Xi) = 1. Если согласно ситуации \i игроки выбирают свои чистые стратегии независимо, то вероятность того, что они выберут ситуацию в чистых стратегиях х — (#i,..., а^,..., хп) равна произведению вероятностей ПГ=1 А^(жг)- Для любой ситуации в смешанных стратегиях \i обозначим через Ki(fjJ) математическое ожидание выигрыша игрока г, который будет получен при независимом выборе игроками чистых стратегий согласно \i. Пусть X = ПГ=1 ^ (^ ~ множество всех возможных ситуаций в чистых стратегиях). Тогда Ki(fjL) = /J(TT 1^о{хз))Нг{х), для всех г G N. xGX jeN Обозначим как (/х||т$) для всех т^ G Xi ситуацию в смешанных стратегиях, где г-й компонентой является г^, а остальные компоненты такие же, как в \±. Таким образом, #гМ1п)=]Г^( [J iij(xj))n{xi)Hi{x). хех jeN\{i} Далее мы не будем использовать никакого специального обозначения для смешанной стратегии /i^ G -Х^, которая означает выбор чистой стратегии Xi с вероятностью 1, а просто будем обозначать ее через х^ используя то же обозначение, что и для соответствующей чистой стратегии. Если игрок г использует чистую стратегию ж$, в то время как все остальные игроки действуют независимо и выбирают стратегии согласно ситуации в смешанных стратегиях /i, то математическое ожидание выигрыша игрока г вычисляется следующим образом: Ki(ll\\Xi)= ]Г ( Д ^(х^)Щ(фг). XjZXj, зфг jeN\{i} 3.5.2. Определение. Ситуация в смешанных стратегиях /л является ситуацией равновесия по Нэшу в смешанных стратегиях, если Ki(n\\ri) < Ki(n), для всех ri G Xi, i G N. 3.5.3. Лемма. Для любого \i G ПГ=1 -^i и любого игрока г е N выполнено равенство max Ki(ii\\xi) = max К^Цп). Кроме того, pi G argmaxr.G^ Кг(ц\\тг) тогда и только тогда, когда pi(xi) = 0 при всех Xi, таких что Xi 0 argmax^X; Ki(fl\\xi)' Доказательство. Заметим, что для любого т* G Xi справедливо следующее равенство: КгЫ\Тг) = ^ n{Xi)Ki{n\\Xi). xi.exz
136 3. Неантагонистические игры Здесь Ki(fj,\\Ti) является математическим ожиданием для Ki{fi\\xi). Следовательно, Ki(fi\\ri) не может быть больше, чем максимальное значение случайной величины Ki(n\\xi), и оно строго меньше, чем это максимальное значение, всегда когда значение Ki(n\\xi) вычисляется для положительной вероятности (r^(x^) > О, Y1X ex Ti(xi) — 1)- Таким образом, наибольший ожидаемый выигрыш, который игрок % может получить при любых комбинациях смешанных стратегий других игроков, один и тот же, в независимости от того, использует игрок % смешанную стратегию иди нет. 3.5.4. Как было показано выше, для случая игры двух лиц теорема Какутани о неподвижной точке является удобным математическим аппаратом для доказательства существования различных решений игры (принципов оптимальности), в том числе — равновесия по Нэшу. Перед тем как сформулировать теорему Какутани о неподвижной точке, напомним некоторые определения. Множество S из конечномерного векторного пространства Rm называется замкнутым тогда и только тогда, когда для любой сходящейся последовательности векторов {xJ}, j = 1,..., оо выполнено свойство: если х3 G S при всех j, то и Hindoo х3 G S. Множество S называется ограниченным, если существует такое положительное число К, что для любого х G 5, выполнено YaLi С? ^ К (здесь х = {&}, & являются компонентами х). Заметим, что ограниченное, замкнутое множество в конечномерном евклидовом пространстве Rm является компактом. Точечно-множественное отображение F : X —> Y — это такое отображение, которое каждой точке х из X ставит в соответствие множество F(x), являющееся подпространством У. Предположим, что X и Y — метрические пространства, тогда понятия сходимости и предела должны быть определены для последовательностей точек из X и У. Точечно-множественное отображение F : X —> Y полунепрерывно сверху при выполнении следующего свойства для любой последовательности х3\ у3\ j = 1,..., оо: если х3 G S и у3; G F(x3) при всех j, причем последовательность {х3} сходится к некоторой точке х и последовательность {у3} сходится к некоторой точке y.ToyG F(x). Таким образом, F : X —> Y является полунепрерывным сверху отображением, если множество {(ж, у) : х G X, у G F(x)} — замкнутое подмножество множества X х Y. Неподвижной точкой отображения F : S —» S называется любая такая точка х из 5, что х G F(x). 3.5.5. Теорема Какутани. Пусть S — непустое выпуклое компактное подмножество конечномерного векторного пространства Rm. Пусть F : S —» S — любое полунепрерывное сверху точечно-множественное отображение, такое что для всех х из S F(x) является непустым выпуклым подмножеством множества S. Тогда существует точка х из S, такая что х G F(x). С доказательством теоремы Какутани о неподвижной точке читатель может ознакомиться в книге [Партхасаратхи, Рагхаван, 1974]. 3.5.6. Теперь при помощи теоремы Какутани мы можем доказать следующий фундаментальный результат. Теорема. В любой конечной игре п лиц в нормальной форме Г существует по крайней мере одно равновесие по Нэшу в смешанных стратегиях. Доказательство. Пусть Г — конечная игра в нормальной форме Г = (N> {Xi}iGN, {Hi}iGN)- Множество ситуаций в смешанных стратегиях ПГ=1 ^г является непустым, выпуклым, замкнутым и ограниченным подмножеством конечномерного векторного пространства.
§3.6. Модификации концепции равновесия по Нэшу 137 Это множество удовлетворяет приведенному выше определению ограниченного множества (К — \N\) и является подмножеством Rm, где т = Yh=i 1^1 (здесь \А\ означает число элементов в конечном множестве А). Введем следующее обозначение для всех \х G ПГ=1 ^ и всех игроков j G N: Rj(n) = arg max Ki(n\\Tj). r3ex3 Множество Rj{ji) представляет собой множество наилучших ответов из Xj на набор независимых смешанных стратегий (/ii,..., /ij-i, /ij+i, - -., /w) других игроков. По предыдущей лемме Rj{p) — множество всех распределений вероятностей pj на Xj, таких что Pi(xj) — О при всех Xj & arg max K3(fi\\yj). VjGXj Таким образом, Rj{p) выпукло, поскольку оно является подмножеством из Xj, которое определено системой линейных уравнений. Кроме того, Rj(p) непусто, т. к. оно содержит Xj из множества arg max G^. Kj(fj,\\yj), являющегося непустым. Пусть R: ПГ=1 ^i —> ПГ=1 ^* ~~ точечно-множественное отображение, такое что п п R{n) = ТТ Rj{n), для всех ^ G ]Т -XV 2=1 2=1 Значит, г G Д(/л) тогда и только тогда, когда Tj G Rj(li) для всех j G iV. Для любого /i, i2(/i) непусто и выпукло, поскольку Д(/х) является декартовым произведением непустых выпуклых множеств. Для того, чтобы показать, что R является полунепрерывным сверху положим, что {fik} и {тк}, к = 1,..., оо — сходящиеся последовательности, /лк G YlieN ^-i, к = 1, 2,...; rfc G fi(/ife), А; = 1, 2,...; Д = lim^oo /Д r = lim^oo rfc. _ Докажем, что г G R(~p). Для каждого игрока j G iV и каждого р^ G Х^ справедливо неравенство ^(/||^)>^(/И^), /с = 1,2,.... В силу непрерывности математического ожидания Kj(p) по ПГ=1^> можно последовательно показать, что для всех j G N и pj G X^, Таким образом, т?- G Rj(~p) при всех j G iV, а по определению Д(р), выполнено и г G Д(р). Мы уже доказали, что R : YlieN Xi —> Пгелг^г ~~ полунепрерывное сверху отображение. По теореме Какутани о неподвижной точке существует ситуация в смешанных стратегиях \i из Пгелг-^-ь такая что /i G Д(//). Следовательно, /i^ G Rj{p) при всех j G N. Поэтому Kj(pJ) > Kj(fi\\rj) при всех j G iV, Tj G Xj, т. е. \i — равновесие по Нэшу в смешанных стратегиях в игре Г. § 3.6. Модификации концепции равновесия по Нэшу 3.6.1. Как было показано выше, равновесие по Нэшу обладает некоторыми недостатками, поэтому было предпринято много попыток усовершенствовать это понятие.
138 3. Неантагонистические игры В настоящее время сложно выделить наиболее перспективные из новых определений. В этом параграфе мы приведем только некоторые из них. Для более глубокого изучения данного вопроса советуем обратиться к книге [van Damme, 1991]. 3.6.2. В основе одного из подходов для модификации понятия равновесия по Нэ- шу лежит идея о том, что каждый игрок совершает ошибки с некоторой маленькой вероятностью и, как следствие, каждая чистая стратегия может быть выбрана с некоторой положительной (возможно, маленькой) вероятностью. Эта идея позаимствована из игр с «дрожанием руки», в которых игроки должны использовать только смешанные стратегии. Пусть Г = (iV, Xi,..., Xn, Hi,..., Hn) — игра п лиц в нормальной форме. Обозначим, как и ранее, через Xi множество смешанных стратегий игрока г, а через Ki — математическое ожидание выигрыша игрока i в смешанных стратегиях. Определим следующим образом rji(xi), Xj G If и Xi(r]i) для i G N: Xi(r}i) = {fjiiGXi : fJLi{xi) > riifa), для всех x{ G Xu где rji(xi) > О, ^Г гц(хг) < 1}. Пусть г/0) = (7/1 (zi),..., 7/п(жп)),Ж1 еХ{,1 = 1,...,пи1[ф)] = 1X1=1 Xi(rji(xi)). Игра с «дрожанием руки» (Г, rj) — это бесконечная игра в нормальной форме вида Г= (A^,Xi(r/i(xi)),...,Xn(r/nOn)),Ki(^i,...,/in),...,iTn(/ii,...,/in)) определенная на множествах стратегий Xi(rji(xi)) с функциями выигрышей /<T»(/ii,...,/in), АЧ е Xi(r]i(xi)), i = 1,...,?г. 3.6.3. Нетрудно заметить, что игра «дрожащей руки» (Г, rj) удовлетворяет условиям, при которых можно использовать теорему Какутани п. 3.5.5 о неподвижной точке. Следовательно, данная игра имеет по крайней мере одно равновесие. Очевидно, что для такого равновесия чистая стратегия, которая не является наилучшим ответом на действия других игроков, должна быть выбрана с минимальной вероятностью. Поэтому справедлив следующий результат. Лемма. Ситуация в сметанных стратегиях \± е X(rj) является равновесием по Нэшу в игре (Г, rj) тогда и только тогда, когда выполнено следующее условие: если Ki{ii\\xk) < Ki{ii\\xi), то fii(xk) =rii{xk), для всех i,Xk,xi. 3.6.4. Определение. Пусть Г — игра в нормальной форме. Равновесие /л в игре Г называется совершенным равновесием в игре Г, если \± — предельная точка последовательности {(л(г])}v-++o, где ц(г)) — равновесие по Нэшу в игре «дрожащей руки» (Т, г\) для всех г]. Для того, чтобы равновесие \± в игре Г было совершенным равновесием, достаточно, чтобы для некоторой ассоциированной игры «дрожащей руки» (Г, ту) при г/ близких к нулю существовало равновесие, близкое к /i, что не обязательно означает существование такого равновесия для всех игр «дрожащей руки» (Г, rj) при г/ близких к нулю. Пусть {(Г, r/fc)}, к = 1,..., оо — последовательность игр «дрожащей руки», для которых г\к —> 0 при к —> оо. Поскольку в каждой игре (Г, rjk) имеется по крайней мере одно равновесие цк, и поскольку (.1 является элементом компактного множества X = П?=1 Хъ, существует предельная точка {/лк}. Нетрудно заметить, что эта точка является равновесием в игре Г, которое удовлетворяет определению совершенного равновесия. Поэтому доказана теорема.
§3.6. Модификации концепции равновесия по Нэшу 139 Теорема. Для любой игры в нормальной форме существует по крайней мере одно совершенное равновесие [Selten, 1975]. 3.6.5. Пример 13. Рассмотрим биматричную игру Г и Rx L2 "(1,1) (0,0) R2 (0,0) (0,0) В этой игре есть два равновесия — (Li, L2) и (R\, R2). Рассмотрим ассоциированную игру дрожащей руки (Г, г/). В ситуации (Jf?i, Д2) в игре с дрожанием руки стратегии R\ и R2 выбираются с вероятностями 1 —r?i(Li) и 1—^2(^2) соответственно, а стратегии L\ и L2 выбираются с вероятностями r\\{L\) и r}2(L2). Таким образом, выигрыш K7l(RiR2) в игре (Г, ту) будет равен K1l(RuR2)=rh(Ll)^2(L2). В ситуации (Li,i?2) стратегии L\ и R2 выбираются с вероятностями (1 — r\\[R\)) и (1 - Г)2{Ь2)). ПОЭТОМУ K7i(Ll,R2) = (l-Vl(R1))V2(L2). Поскольку г] мало, получаем K?(LuR2)>K?(RuR2). Поэтому в игре дрожащей руки ситуация (i?i, R2) не является равновесной и (Дь Дг) не является совершенным равновесием в изначальной игре. Непосредственной проверкой можно показать, что ситуация (Li,L2) является совершенным равновесием. Пример Ц- Теперь рассмотрим другую игру с матрицей и Hi L2 ' (1,1) (0,10) #2 (10,0) (10,10) Очевидно, что в этой игре есть два различных равновесия (Li,L2) и (Дх, Д2). Равновесие (Li, L2) строго доминируется равновесием (Дх, Д2). Рассмотрим ассоциированную игру дрожащей руки (Г,rj). Покажем, что (Li,L2) — совершенное равновесие в игре (Г, г/). Заметим, что Кг{1и L2) = (1 - m(Ri))(l - m{R2)) + 10(1 - Vi(Ri))V2(R2) + 10ryi(fli)7y2(i?2), ifi(fli, L2) = 10(1 - ryi(Li))7y2(fl2) + 1 ' »7i(bi)(l - ^(Д2)) 4- IOtji(Li)ry2(fl2). При малых r/i, 772 получаем неравенство: Kl(L1,L2)>K1(R1,L2). Аналогичным образом можно показать, что справедливо следующее неравенство: K2{LUL2)>K2{LUR2), т. е. {L\,L2) является совершенным равновесием в игре Г.
140 3. Неантагонистические игры Для ситуации (Ri,R2) B игре (Г,гу) выполнено K1{Ri,R2) = 10(1 - 77i(Li))(l - m(L2)) + Ю(1 - r?2(L2))r?1(L1) + т^Ы^) = -10(l-r?2(L2))+r?l(bl)r?2(b2), #i(ii, Лз) - 10(1 - г?1(Л1))(1 - r^(L2)) + Юг?1(Л1)(1 - r^(L2)) + (1 - m{Ri))m{L2) = = 10(1 - r72(L2)) + (1 - 771(Д1)ЫЬ2). При малых г] выполняется неравенство ^(Li, it!2) > K^(Ri,R2). Таким образом, (Ri,R2) не является равновесием в игре (Г,гу) и, следовательно, не является совершенным равновесием в игре Г. Поэтому (Li, L2) является равновесием в игре (Г, rj) и, следовательно, единственным совершенным равновесием в игре Г, но выигрыши в этом равновесии доминируются ситуацией (Ri,R2). Таким образом, мы видим, что попытка улучшения равновесия по Нэшу приводит к потере равновесия с более привлекательными выигрышами. В то же самое время, усовершенствованная концепция не приводит к исключению всех интуитивно неоправданных равновесий. В работе [Myerson, 1978] изучалась игра с матрицей L2 R2 A2 Li Г (1,1) (0,0) (-1,-2)1 Ri (0,0) (0,0) (0,-2) , М U-2'-1) (~2>°) (-2,-2) J которая является развитием примера 13 путем добавления строго доминируемых строки А\ и столбца А2. Доказано, что в этой игре (Ri,R2) также является совершенным равновесием в дополнение к {L\,L2). Это следует из доказательства того, что если игроки договорились использовать равновесие (Ri,R2) и каждый игрок ожидает, что ошибка А будет появляться с большей вероятностью, чем ошибка L, то оптимальным поведением для каждого игрока будет выбор стратегии R. Поэтому добавление строго доминирующих стратегий может изменять множество совершенных равновесий. 3.6.6. Существует другое понятия равновесия, введенное Р. Майерсоном в [Myerson, 1978], которое исключает некоторые «неразумные» совершенные равновесия, такие как равновесие (Ri,R2) в последнем примере. Это равновесие называется правильным равновесием. Основная идея, лежащая в определении этого равновесия, состоит в том, что игрок, совершающий ошибку, будет более упорно пытаться предотвратить более «дорогие» ошибки, чем «менее» дорогие, т. е. предполагается наличие некоторой рациональности в механизме совершения ошибок. В результате наиболее «дорогие» ошибки будут случаться с меньшей вероятностью, чем более «дешевые» ошибки. 3.6.7. Определение 1. Пусть (JV, Х\,... ,ХП, К\ь... ,Кп) — игра п лиц в нормальной форме в смешанных стратегиях. Положим е > 0 и пусть \±е Е ПГ=1^- Будем говорить, что ситуация в смешанных стратегиях [Iе является е-правильным равновесием в игре Т, если [f — вполне смешанная и удовлетворяет следующему условию если Ki{jjLE\\xk) < Ki([ie\\xi), то fii(xk) < S[ii(x[) для всех i,k,l. Определение 2. Будем говорить, что \i Е ПГ=1 ^i ~ правильное равновесие в -.игре Г', если ji — предельная точка для последовательности [f при е —» +0), где [Iе является е-правильным равновесием в игре Г.
§ 3.7. Свойства оптимальных решений 141 Справедлива следующая теорема [Myerson, 1978]. Теорема. В каждой игре в нормальной форме существует по крайней мере одно правильное равновесие. 3.6.8. В представленных выше понятиях совершенного и правильного равновесий основная идея усовершенствования концепции Нэша основывалась на том, что «разумные» равновесия должны быть устойчивыми против небольших отклонений в равновесных стратегиях. Существуют также модификации равновесия по Нэшу, основанные на идее устойчивости равновесий при возмущениях в выигрышах. Однако здесь мы не можем привести все эти концепции и рекомендуем читателям самостоятельно ознакомиться с книгой Эрика ван Дамма [van Damme, 1991] для более глубокого изучения материала. §3.7. Свойства оптимальных решений 3.7.1. Приведем свойства ситуации равновесия, которые помогают находить решение бескоалиционной игры двух лиц. Теорема. Для того, чтобы ситуация (/i*,i/*) в смешанных стратегиях в игре Г = (Xi, Х2, i^i, Н2) была ситуацией равновесия, необходимо и достаточно, чтобы для всех чистых стратегий х Е Х\ и у Е Х2 игроков 1 и 2, соотвественно, выполнялись следующие неравенства: ifi(zX)<^i(MV*), (3.7.1) K2{ii\y)<K2{ii\v*). (3.7.2) Доказательство. Необходимость очевидна, поскольку каждая чистая стратегия является частным случаем смешанной и, следовательно, должны быть выполнены неравенства (3.7.1), (3.7.2). Для доказательства достаточности необходимо перейти к смешанным стратегиям игроков 1 и 2, соответственно, в неравенствах (3.7.1), (3.7.2). Эта теорема (как и в случае антагонистических игр) показывает, что для доказательства равновесности ситуации в смешанных стратегиях достаточно проверить неравенства (3.7.1), (3.7.2) только для чистых стратегий партнера. Для биматричной (тпхп)- игры Г(А, В) эти неравенства принимают вид: Ki(i,y*) = ад* < х*Ау* = ifi(x*,y*), (3.7.3) K2(x*J) = x*V < х*Бу* = К2(х*,у*), (3.7.4) где a%{V) — строки (столбцы) матрицы А (Б), г — 1,..., га, j = 1,..., п. 3.7.2. Напомним, что для матричных игр каждая существенная чистая стратегия уравновешивает любую оптимальную стратегию противника (см. п. 1.7.6). Аналогичный результат справедлив и для биматричных игр. Теорема. ПустьТ(А1В) — биматричная (тхп)-игра, а (х,у) Е Z(T) — ситуация равновесия по Нэшу в смешанных стратегиях. Тогда выполняются равенства К1(г,у)^К1{х,у), (3.7.5) K2(xJ) = К2(х,у) (3.7.6) для всех г Е Мх и j Е Ny, где Mx(Ny) — спектр смешанной стратегии х(у).
142 3. Неантагонистические игры Доказательство. По теореме п. 3.7.1 имеем K1(i,y)<K1(x,y) (3.7.7) для всех i G Мх. Пусть выполняется хотя бы одно строгое неравенство в (3.7.7), т. е. Kl(i0,y)<K1(x,y), (3.7.8) где io G Мх. Обозначим как & компоненты вектора ж — (^i,..., ^m). Тогда &0 > 0 и га Kl(x,y) = Y,&<i{i,y)= J2 &Ki(i,y) < Kifav) J2 Si = Ki(x,y)- i=l ieMx i<EMx Противоречие доказывает справедливость (3.7.5). Равенства (3.7.6) доказываются аналогично. Данная теорема дает способ нахождения оптимальных смешанных стратегий игроков в игре Г (А, В). Действительно, предположим, что мы ищем ситуацию равновесия (ж,у), считая спектры стратегий Мх, Ny заданными. Тогда оптимальные стратегии должны удовлетворять системе линейных уравнений ydi = vi, xb3 = v2> (3.7.9) где i G Mx, j G Ny, vi, v2 — некоторые числа. Если же ситуация равновесия (ж, у) вполне смешанная, то система уравнений (3.7.9) принимает вид Ay — v\u, xB — v2w, (3.7.10) где и = (1,...,1), w = (1,...,1) — векторы соответствующей размерности, составленные из единиц; числа v\ — хАу, v2 = хВу — выигрыши игроков в ситуации равновесия (ж, 2/). 3.7.3. Теорема. Пусть Г(А,В) — биматричная (т х т)-игра, где А, В — невырожденные. Если игра Г имеет вполне смешанную ситуацию равновесия, то она единственная и вычисляется по формулам x = v2uB~\ (3.7.11) y = viA~1u, (3.7.12) где vi = l/iuA^u), v2 = 1/{иВ-1и). (3.7.13) Обратно, если для векторов ж, у е Rm, определяемых равенствами (3.7.11)-(3.7.13) справедливо х > 0, у > 0, то пара (ж, у) образует ситуацию равновесия в смешанных стратегиях в игре Г(Л,Б) с вектором равновесных выигрышей (vi,v2). Доказательство. Если (ж, у) — вполне смешанная ситуация равновесия, то ж и у с необходимостью удовлетворяют системе (3.7.10). Умножая первое из равенств (3.7.10) на Л-1, а второе на Б-1, получаем (3.7.11), (3.7.12). С другой стороны, поскольку хи = 1 и уи = 1, находим значения для v\ и^. Единственность вполне смешанной ситуации (ж, у) следует из единственности решения системы (3.7.10) в условиях теоремы. Докажем обратное утверждение теоремы. По построению векторов ж, у согласно (3.7.11)—(3.7.13), имеем хи = уи — 1. Отсюда и из условия ж > 0, у > 0 следует, что (ж, у) ситуация в смешанных стратегиях в игре Г.
§3.7. Свойства оптимальных решений 143 Согласно теореме п. 3.7.1 для того, чтобы ситуация (х,у) являлась ситуацией равновесия в смешанных стратегиях в игре Г(Д Б), достаточно выполнения условий ciiy = Ki(i,y) < хАу, i = 1,га, xb° = K2(x,j) < хВу, j = 1,га, или Ay < (xAy)u, - жБ < (xBy)u. Проверим справедливость этих соотношений для х = _ , и у = —-——. Имеем uB~iu uA~lu Ay- хВ u _ {uB~lAA~lu)u uA~lu ~ {uB-1u)(uA-1u) u (uB-lBA-lu)u uB-xu (uB^u^uA^u) = (xAy)u, = (%By)u, что и требовалось доказать. Проиллюстрируем применение теоремы на примере игры «семейный спор» п. 3.1.4. Рассмотрим смешанное расширение игры. Множество точек, соответствующих векторам выигрышей в смешанных стратегиях, можно изобразить графически (рис. 3.2). Нетрудно заметить, что игра удовлетворяет условиям теоремы, поэтому здесь имеется единственная вполне смешанная ситуация равновесия (х, у) вычисляемая по формулам (3.7.11)-(3.7.13): х = (4/5,1/5), у = (1/5,4/5), (vuv2) = (4/5,4/5). (5/2,5/2) Рис. 3.2. Выигрыши в смешанных стратегиях
144 3. Неантагонистические игры 3.7.4. Рассмотрим свойства различных принципов оптимальности. Заметим, что определения оптимальности ситуации по Парето и Нэшу, приведенные в п.3.3.2, касаются произвольной бескоалиционной игры (в частности, двух лиц), поэтому они справедливы и для смешанного расширения Г. Следовательно, для игры двух лиц 1 2 где Z(T) — множество ситуаций равновесия по Нэшу, Z и Z — множества наилучших ответов игроков 1 и 2 в игре Г и справедлива теорема о борьбе за лидерство (см. п. 3.2.5). В более сложном отношении находятся ситуации, равновесные по Нэшу и оптимальные по Парето. Из примеров п. 3.3.2 следует, что возможны случаи, когда ситуация равновесна по Нэшу, но не оптимальна по Парето, и наоборот. Вместе с тем возможно, что одна и та же ситуация оптимальна и в том и в другом смысле (п. 3.2.4). В примере 12 п. 3.3.3 было показано, что дополнительная ситуация равновесия, возникающая в смешанном расширении игры Г, не является оптимальной по Парето в смешанном расширении Г. Оказывается, что это довольно распространенное свойство биматричных игр. Теорема. Пусть Г (А, В) — биматричная (т х п)-изра. Тогда почти для всех (т х п)-игр (за исключением не более чем счетного множества игр) справедливо следующее утверждение. Ситуации равновесия по Нэшу в смешанных стратегиях, которые не являются равновесными в исходной игре, не являются оптимальными по Парето в смешанном расширении. Доказательство теоремы основано на том, что ее результат справедлив для множества П так называемых регулярных игр, которое открыто и всюду плотно в множестве биматричных (т х п)-игр. Полное доказательство этой теоремы можно найти в [Мулен, 1985]. 3.7.5. В заключение параграфа рассмотрим пример решения биматричных игр с малым числом стратегий, который во многом поучителен. Пример 16 (Биматичные (2 х 2)-игры) [Мулен, 1985]. Рассмотрим игру Г(Л,Б), в которой у каждого из игроков по две чистые стратегии. Пусть Здесь индексами Si, 62, т\,тъ обозначены чистые стратегии игроков 1 и 2 соответственно. Предположим для простоты, что числа ац, c*i2, 0:21, ^22, (/Зц, /?12, /З21, ^22) различны. Случай 1. В исходной игре Г, по крайней мере, один игрок, (пусть игрок 1) имеет строго доминирующую стратегию, скажем S\ (см. п. 3.1.8). Тогда игра Г и ее смешанное расширение Г имеют единственную ситуацию равновесия по Нэшу. Действительно, неравенства ац > a<i\, an > а22 приводят к тому, что в игре Г чистая стратегия Si строго доминирует все остальные смешанные стратегии первого игрока. Поэтому ситуацией равновесия является пара (#i,ti), если /Зц > /3i2 или пара (<Si,T2), если /Зц < /?i2. Т\ (ац,/3п) (tt21,/?2l) Т2 («12,/?12) (^22,/?22)
§3.8. Эволюционно устойчивые стратегии 145 Случай 2. Игра Г не имеет ситуации равновесия по Нэшу в чистых стратегиях. Здесь возможны два взаимоисключающих случая а) или Ь): а) а21 < «11, «12 < «22, /Зц < /?12, /322 < #21, б) ап < «21, «22 < «12, #12 < #11, #21 < #22, причем det^4 ф О, detB ф 0 поэтому выполняются условия теоремы п. 3.7.3. Поэтому в игре существует ситуация равновесия (ж*,у*), где #22 — #21 #11 — #12 #11 + #22 " #21 - #12 ' #11 + #22 ~ #21 ~ #12 (3.7.14) , = / а22-а12 «ii^^i \ \ац + а22 — «21 — «12 «11 + «22 — «21 — «12 / а соответствующие равновесные выигрыши v\ и v<i определяются по формулам «11«22 ~ «12«21 #11#22 - #12#21 Vi = — , V2 = «11 + «22 - «21 - «12 ' #11 + #22 - #12 ~ #21 Случай 3. Игра Г имеет две ситуации равновесия по Нэшу. Этому случаю соответствует выполнение одно из условий: a) а21 < «11, «12 < «22, #12 < #11, #21 < #22, b) аП < а21, «22 < «12, #11 < #22, #12 < #21- В случае а) равновесными будут ситуации (#i,ti), (52,72), а в случае Ь) — ситуации (^1,72), (<b,Ti) . Однако в смешанном расширении есть еще одна вполне смешанная ситуация равновесия (х*,т/*), определенная формулами (3.7.14), (3.7.15). Рассмотренные случаи исчерпывают изучение (2 х 2)-игры при условии, что элементы в матрицах различны. § 3.8. Эволюционно устойчивые стратегии 3.8.1. Пусть Г = (X, У, Л, В) — биматричная игра. Игра Г называется симметричной, если множества X и Y совпадают (X = Y) и о^- — Pji для всех г, j. Данное определение симметрии не является инвариантным по отношению к перестановкам множеств стратегий. Положим \Х\ — \Y\ = m, а чистые стратегии будем обозначать как % или j. В теории эволюционных игр матрица А игрока 1 называется «фитнес» матрицей игры. Поскольку в случае симметричных игр матрица А полностью определяет игру, то будем далее идентифицировать ее с игрой Г и называть игрой А. Смешанные стратегии х, у определим стандартным способом. Математическое ожидание выигрыша игрока 1 в ситуации (х, у) равно m m Е(х, у) = хАу = J2 Y1 аФ^г *=i j=i Для любой смешанной стратегии р = {^} обозначим через С(р) носитель стратегии р и через В(р) — множество наилучших ответов в чистых стратегиях против стратегии р в игре А: С(р) = {г : & > 0}, В(р) - {г : E(i,p) = max#(j,p)}. j
146 3. Неантагонистические игры 3.8.2. В работе [Maynard and Price (1973)] был рассмотрен пример игры, получившей название «Ястреб-голубь», который приводит к определению эволюционно устойчивой стратегии с общепринятым обозначением ESS. Пример 17. Игра «Ястреб-голубь» является 2x2 симметричной биматричной игрой со следующими матрицами: я D Н ' 1/2(1/ - С) 0 D V 1/2V R _ j D — н D Н ' 1/2(7 - С) V D 0 1/27 (3.8.1) Предположим, что двое животных соперничают за некоторый ресурс (например, территорию в благоприятном для проживания месте) со значением V, т. е. получившее ресурс животное увеличивает ожидаемое число потомков на V. Для простоты мы предполагаем, что существует всего две чистых стратегии — «ястреб» (Н) и «голубь» (D). Животное, применяющее стратегию «ястреб», всегда сражается за территорию в полную силу и уходит, только получив серьезные травмы. «Голубь» же только угрожает противнику некоторым удобным для него способом и отступает, когда получает серьезный отпор, не успев получить ранения. Два голубя могут разделить ресурс миролюбиво, но два ястреба обязательно будут сражаться, пока один из них не будет ранен и будет вынужден отступить. Предполагается, что ранение уменьшает ожидаемое число потомков на величину С. Далее будем предполагать, что у особей нет различий в размерах и возрасте, которые влияют на вероятность ранения. Тогда данный конфликт может быть описан при помощи биматричной игры (3.8.1). Если V > С, то игра Ястреб-Голубь имеет единственное равновесие по Нэшу (Н, Н), т. е. для игрока всегда разумно сражаться. В популяции голубей и ястребов ястребы имеют больший репродуктивный успех, чем голуби, которые будут постепенно вымирать и в долгосрочной перспективе полностью вымрут. Если V < С, то (Я, Я) не является равновесием, т. е. популяция, состоящая только из ястребов, не является устойчивой. В такой популяции мутанты, т. е. особи, использующие стратегию «голубь», имеют больший репродуктивный успех, что приводит к тому, что голуби будут распространяться в популяции, изначально состоящей из одних ястребов. Аналогично, популяция голубей также может быть завоевана ястребами, т. к. ситуация (D,D) не является равновесием по Нэшу. Если V < С, то игра имеет единственное симметричное равновесие по Нэшу в смешанных стратегиях где С = V/C. Кроме того, в игре есть два асимметричных равновесия (Я, jD) и (D,H). 3.8.3. Предположим, что в мономорфной популяции, т. е. популяции, состоящей из особей (игроков) одного типа, игроки используют смешанные стратегии р в игре с репродуктивной матрицей Л, а, кроме того, появляются мутанты, использующие стратегию q. Также будем считать, что популяция находится в неустойчивом состоянии, означающем, что малая часть г игроков использует стратегию q. Популяция вернется к своему изначальному состоянию, если количество потомков особей, использующих стратегию q будет меньше, чем количество потомков особей, использующих стратегию р. Предположим, что (р,р) — симметричное равновесие по Нэшу в симметричной биматричной игре. Пусть второй игрок вместо стратегии р решает использовать смесь
§3.8. Эволюционно устойчивые стратегии 147 двух смешанных стратегий р и q с вероятностями 1—е,е соответственно, где е — малая величина. Тогда в общем случае для новой смешанной стратегии у = (1 — e)p + eq множество наилучших ответов игрока 1 на стратегию у не обязательно будет содержать стратегию р. Кроме того, может так случиться, что q будет лучшим ответом против у, чем р. Однако, если для любого q существует такое е > 0, что р — лучший ответ на стратегию у — (1 — е)р + eq, чем д, то стратегия р игрока 1 будет в некотором роде устойчивой против малых возмущений, в том смысле, что для любого q найдется е > 0, такое что qA{(l - е)р + eq) < рА((1 - е)р + eq). (3.8.1) Если ситуация (р, р) является строгим равновесием (рАр > qAp при всех q), то всегда имеет место неравенство (3.8.1). Существует также эволюционная интерпретация неравенства (3.8.1), основанная на примере игры «Ястреб-голубь». Если выполняется неравенство (3.8.1), то (1 - e)qAp + eqAq < (1 - е)рАр + spAq. (3.8.2) Из (3.8.2) получаем, что неравенство qAp > рАр невозможно, поскольку в этом случае неравенство (3.8.1) не будет выполняться для малых е > 0. Тогда из (3.8.2) следует, что qAp < рАр, (3.8.3) или если qAp = рАр, то qAq < pAq. (3.8.4) Из неравенств (3.8.3), (3.8.4) тривиальным образом следует выполнение (3.8.2) при достаточно малых е > 0 (здесь е зависит от q). 3.8.4. Определение. Будем называть смешанную стратегию р эволюционно устойчивой (ESS), если ситуация (р,р) является равновесием по Кэшу и выполнены следующие условия устойчивости: если q ф р и qAp — рАр^ то qAq < pAq. (3.8.5) 3.8.5. Рассмотрим отображение p^{qeY, C(q)cB(p)}. Данное отображение удовлетворяет условиям теоремы Какутани о неподвижной точке. Поэтому существует такая точка р*, что р* G {q 6 Y, C(q) С В(р)}, откуда С(р*) С В(р*). (3.8.6) Из включения (3.8.6) следует, что р*Ар* > qAp* при всех q G Y и поэтому (р*,р*) является симметричным равновесием по Нэшу. Тем самым мы доказали следующую теорему.
148 3. Неантагонистические игры Теорема [Nash, 1951]. В каждой симметричной биматричной игре существует симметричное равновесие по Нэшу 3.8.6. Как уже было показано, если (р,р) является строгим равновесием по Нэшу, то р — эволюционно устойчивая стратегия (ESS), что также следует непосредственно из определения эволюционно устойчивой стратегии, поскольку в этом случае не существует q G Y, таких что qAp = pAp. Не все биматричные игры имеют эволюционно устойчивые стратегии. Например, если в матрице А элементы равны осц = а для всех г, j, то невозможно выполнение неравенства (3.8.5). 3.8.7. Теорема. Пусть А — 2 х 2-матрица с элементами ац ф а.2\ и а\2 ф olti- Тогда игра с матрицей А имеет эволюционно устойчивую стратегию. Если ац > #21 и #22 > <^i2, то А имеет два сильных равновесия (1,1), (2,2) и они являются эволюционно устойчивыми. Если же ац < агь <^22 < #12? то игра с матрицей А имеет единственное симметричное равновесие (р,р), которое является вполне смешанным (С(р) = В(р) = {1, 2}). При q фр имеем qAq — pAp = (q — p)A(q — р). Если q = (771,772), р = (6,6), то (q - p)A(q - р) = (77i - 6)2(ац - Oi2\ + а22 ~ ai2) < 0. Поскольку выполнено (3.8.5), следовательно, р является эволюционно устойчивой стратегией. 3.8.8. Рассмотрим игру с матрицей А А = b а а а а а Ъ —а а —а —а а Ъ —а , а а —а а Ь —а —а а —а а Ь (3.8. Если 0 < Ь < а, то эта игра не имеет эволюционно устойчивой стратегии. Действительно, эта игра имеет единственное симметричное равновесие р — (1/5,1/5,1/5,1/5,1/5), рАр = 6/5, и каждая стратегия является наилучшим ответом на стратегию р, для всех г, eiAei = ац = Ь > 6/5 = pAp = pAei (где е$ = (0,..., 0,1$, 0,..., 0)),-поэтому условие (3.8.5) эволюционной устойчивости не выполняется. Таким образом, для игр с более, чем двумя чистыми стратегиями, теорема не выполняется. 3.8.9. Интересен тот факт, что число эволюционно устойчивых стратегий в игре всегда конечно (хотя и может быть равно нулю). Если (р,р) и (q,q) — равновесия по Нэшу в игре с матрицей А, причем q ф р и C(q) С В(р), то р не может быть эволюционно устойчивой стратегией, поскольку q — наилучший ответ на р и q. Теорема. Еслир является эволюционно устойчивой стратегией в игре А и (g, q) — симметричное равновесие по Нэшу в игре А при C(q) С В(р), то р — q. 3.8.10. Пусть (рп,рп) — последовательность симметричных равновесий по Нэшу в игре А, такая что limn_^oopn — р. Тогда из определения предела получаем, что существует такое TV, что для всех п> N справедливо С(р) С С(рп) С В(рп) С В(р).
§3.9. Равновесие в совместных смешанных стратегиях 149 Из предыдущей теоремы получаем, что рп = р при п > N. Следовательно, любая эволюционно устойчивая стратегия является изолированной во множестве симметричных равновесных стратегий. Из компактности множества ситуаций в смешаных стратегиях получаем, что если бы было бесконечное множество эволюционно устойчивых стратегий, то сущестовала бы и некоторая точка сгущения, но предыдущие рассуждения показывают, что это невозможно. Поэтому справедлива следующая теорема. Теорема. Число эволюционно устойчивых стратегий конечно [Haigh, 1975]. § 3.9. Равновесие в совместных смешанных стратегиях 3.9.1. Продолжим изучение игр двух лиц. Как уже отмечалось в §3.2, даже если ситуация равновесия является недоминируемой (оптимальной по Парето), возможны случаи, когда одна ситуация равновесия выгодна игроку 1, а другая — игроку 2. Это затрудняет нахождение взаимоприемлемого решения возникающего неантагонистиче- с'кого конфликта на уровне формализации бескоалиционной игры. Поэтому исследуем неантагонистический конфликт в формализации, разрешающей игрокам принимать совместные решения. Проиллюстрируем этот подход на примере игры «семейный спор» (см. пример 12 п. 3.1.4). Пример 18. Рассмотрим смешанное расширение игры «семейный спор». Множество точек, соответствующих векторам выигрышей в смешанных стратегиях в игре, можно изобразить графически (см. рис. 3.2 п.3.5.3). На рисунке изображены две ситуации равновесия по Нэшу с векторами выигрышей (1,4), (4,1) в чистых стратегиях и одна вполне смешанная равновесная ситуация с вектором выигрышей (4/5,4/5) (ищется с использованием теоремы п. 3.5.3), которая менее предпочтительна для игроков, чем каждая из ситуаций равновесия в чистых стратегиях. Напомним, что равновесными здесь являются ситуации: (ai,/3i), («2,^2)» (Х*,У*), гДе х* = (4/5,1/5), у* — (1/5,4/5), а ситуации (ai,/3i), (0^2,^2) также оптимальны по Парето. Если игра повторяется многократно, то игрокам имеет смысл сделать совместный выбор: с вероятностью 1/2 выбирать ситуацию (ai, /3i) или (аг, /Зг)- Тогда средний ожидаемый выигрыш игроков будет (5/2,5/2). Однако эта точка не лежит в множестве точек, соответствующих возможным ситуациям бескоалиционной игры (рис. 3.2), т. е. не может быть реализована, если игроки выбирают смешанные стратегии независимо. Под совместной смешанной стратегией игроков будем понимать вероятностное распределение на множестве всевозможных пар (г, j) (ситуаций в чистых стратегиях), не обязательно порожденное независимыми случайными выборами чистых стратегий игроками 1 и 2. Такие стратегии могут быть реализованы посредником до начала игры. Обозначим через М совместную смешанную стратегию в игре Г(Л, В). Тогда ожидаемые выигрыши К\{М), K2{M) игроков 1 и 2 при использовании совместной смешанной стратегии соответственно равны Кг(М) = ^ <*»,/%, K2{M) = ^PijlHj, id hj где А = {otij}, В = {Pij} — матрицы выигрышей игроков, М — {/iij}> ПРИ этом uMw — 1, М > 0, и = (1,..., 1) G Ят, w = (1,...,1) G Rn. Геометрически множество точек, соответствующее множеству векторов выигрышей в совместных смешанных стратегиях, — это выпуклая оболочка множества точек возможных выигрышей в чистых стратегиях. Для игры примера 14 юно примет вид, как на рис. 3.3.
150 3. Неантагонистические игры A2j 4 3 2 i 0 L / (1,4) л \ / \ ! \ \ / I / \ / \ Л5/2,5/ y2) ) / \ \ / \ (5/4 5/4) \ / V V / > / / X / ^^ /— (4/5,4/5T^ / __^-—~"^ '-—— 1 1 1 2 i 3 \{%i) ^ 4 Ki Рис. 3.3. Выигрыши в совместных смешанных стратегиях Заметим, что совместная смешанная стратегия М* = является опти- 1/2 0 0 1/2 мальной по Парето и ей соответствует вектор выигрышей (5/2,5/2). Таким образом, М* может быть рекомендована в качестве решения игры «семейный спор». Определение. Для биматричпой (га х п)-игры Г(А,В), обозначим через М = {l^ij} совместное вероятностное распределение на парах (i,j), i = 1, , га, j = 1,...,п. Через fJLi(j) обозначим условную вероятность реализации стратегии j при условии, что реализовалась стратегия г. Аналогично, через Vj(i) обозначим условную вероятность реализации стратегии г при условии, что реализовалась стратегия j. Vi{j) = Wijl Ej=i Mij, если YJj=i l*ij ^ °> [ 0, ecnvLfiij =0, j = 1,..., n, i/j{i) /W YhLi ач?'если TJiLi % Ф o, 0, ecnnfiij — 0, г = 1,..., га. Будем говорить, что М* = {^} — ситуация равновесия в совместных смешанных стратегиях в игре Г(А, JB), если выполнены следующие неравенства: 3 = 1 3 = 1 (3.9.1) г=1 для всех г, г' G {1,2,... ,?тг} и j, j7 G {1,2,... ,n}. 3.9.2. Игру Г (А, В) в совместных смешанных стратегиях можно интерпретировать следующим образом. Пусть игроки договорились об использовании стратегии
§3.9. Равновесие в совместных смешанных стратегиях 151 М* — {}J>*j} и пусть также в результате реализации случайного механизма выпала пара (i,j), т. е. первый (второй) игрок получил номер i(j)стратегии. Заметим, что каждый из игроков знает только свою реализацию. Этот игрок, вообще говоря, может не согласиться с реализацией i (j, соответственно) совместной стратегии и выбрать стратегию if(jf). Тогда, если М* — равновесная ситуация, то каждому из игроков невыгодно отклоняться от предложенной реализации i (j, соответственно), что следует из (3.9.1), где в левой части неравенства стоит ожидаемый выигрыш игрока 1 (игрока 2) в случае согласия с реализацией i(j). Теперь предположим, что стратегия i игрока 1 такова, что /^ = 0 для всех j = l,2,...,n Тогда первое из неравенств (3.9.1), очевидно, выполняется. Аналогично, если piij = 0 для всех i = l,...,m, то второе из неравенств (3.9.1) выполняется. Подставим выражения для Hi{j) и Vj(i) через \1ц в формулы (3.9.1). Тогда получаем, что необходимым и достаточным условием равновесности ситуации М* = {/х*^} является выполнение неравенств п п m n m m Е <*и6з ^ Е<*'Л4р Е Е 6i = !' Е Mi ^ Е hi'tii' К> > 0 (3.9.2) j — 1 ,7 = 1 i=l j=l i=l i=l для всех г, г' G {1,2,... , га} и j,j' G {1,2,... , n}. Обозначим через ZC(Y) множество равновесных ситуаций в совместных смешанных стратегиях. Теорема. Справедливы следующие утверждения. 1) Множество ZC(Y) равновесных ситуаций в совместных смешанных стратегиях в биматричной (га х п)-игре Т(А,В) является непустым выпуклым компактом пространства RmXn. 2) Если (х,у) — ситуация в смешанных стратегиях игры Т(А)В), то определяемая по ней ситуация М = {f^ij} в совместных смешанных стратегиях будет равновесной тогда и только тогда, когда (ж, у) — ситуация равновесия по Нэшу в смешанных стратегиях в игре Г (А, В). Доказательство. Пусть (ж, у), х — (^i,...,^m)> У = {Vii-- - iVn) ~ ситуация в смешанных стратегиях игры Г (А, В), а М — {/J>ij} — ситуация в смешанных стратегиях игры fjiij — ^i - rjj, г = 1,... ,га, j — 1,... ,п. Необходимым и достаточным условием равновесности М является система неравенств (3.9.2), т. е. &tfi(i,y) > &ВД',2/), VjK2(xJ) > щК2{х,з'\ (3.9.3) где г, г' G {1,2,..., га}, j, j' G {1,..., п}. Если ^ = 0 (rjj =0), то неравенства очевидны. Поэтому система неравенств (3.9.3) эквивалентна следующей: Кг{цу) > Krd^y), K2(x,j) > K2(x,f), (3.9.4). г, г' G {1,..., ш}, j, j' G {1,... , п}, где i и j принадлежит спектрам стратегий х и у. Предположим, что (х, у) — ситуация равновесия по Нэшу в смешанных стратегиях в игре Г (А, В). Тогда согласно теореме п. 3.5.2 K^i.y) =Ki(x,y), Къ(х,э) = К2(х,у)
152 3. Неантагонистические игры для всех i и j из спектров оптимальных стратегий. Поэтому неравенства (3.9.4) выполнены и м е zc(T). Обратно, если (3.9.3) выполнено, то, суммируя неравенства (3.9.3) по г и по j, соответственно, и применяя теорему п. 3.5.1, получаем, что ситуация (ж, у) равновесна по Нэшу. Выпуклость и компактность множества ZC(T) следует из того, что ZC(T) — множество решений системы линейных неравенств (3.9.2), которое ограничено, а непустота — из существования ситуации равновесия по Нэшу в смешанных стратегиях (см. п. 3.4.1). Теорема доказана. " 1/2 О О 1/2 игре «семейный спор» (см. пример 1 п. 3.1.4), что просто установить проверкой неравенств (3.9.2). Отметим, что совместная смешанная стратегия М* равновесна в § 3.10. Задача о переговорах 3.10.1. Основной вопрос, который мы рассмотрим в данном параграфе, заключается в том, как разумным игрокам прийти к соглашению при совместном выборе решения в ходе переговоров. Перед тем как сформулировать задачу, еще раз вернемся к игре «семейный спор». Пример 19. Рассмотрим множество R, соответствующее возможным векторам выигрышей в совместных смешанных стратегиях для игры «семейный спор» (область, заштрихованная на рис. 3.4). Действуя совместно, игроки могут реализовать любой выигрыш в смешанных стратегиях в области R. Однако это не означает, что они мо- Л2, 4 3 2 1 0 1 е. / И 1 р / a 1 А 1, \ 4; N ) \ Q О \ .(4/5,4/5) \ к(уиЩ) = (5/2,5/2) '—"^ i 1 -——с >. (л i \ пм4'1) L-^ ь i i i 2 3 4 Кг Рис. 3.4. Выигрыши в игре «семейный спор»
§3.10. Задача о переговорах 153 гут договориться о любом исходе игры. Так, игроку 1 наиболее предпочтительна точка (4,1), а игроку 2 — точка (1,4) Ни один из игроков не согласится с результатами переговоров, если его выигрыш будет меньше максиминного значения, поскольку этот выигрыш он может получить самостоятельно (независимо от партнера). Максиминные смешанные стратегии игроков в этой игре х° — (1/5,4/5) и у0 = (4/5,1/5), соответственно, а вектор выигрышей в максиминных стратегиях (vi,v2) равен (4/5,4/5). Поэтому множество 5, возможное для переговоров, ограничено точками а, 6, с, d, e (см. рис. 3.4). Назовем его переговорным множеством игры. Далее, действуя совместно, игроки всегда могут договориться выбирать точки на отрезке аб, поскольку это выгодно обоим (отрезок ah соответствует ситуациям, оптимальным по Парето). 3.10.2. Назовем задачу выбора точки (y\,v2) из 5 в результате переговоров задачей о переговорах. Таким образом, мы пришли к следующей проблеме. Пусть для биматричной игры Т{А,В) задано переговорное множество S и вектор максиминных выигрышей {v®,v2). Требуется найти правило, решающее задачу о переговорах, т. е. необходимо найти функцию (р) такую, что ^(S,v^v°2)^(vuv2). (3.10.1) Точку {vi,v2) будем называть точкой «статус кво». Оказывается, что при некоторых разумных предположениях задача (3.10.1) разрешима в силу справедливости следующей теоремы. Теорема. Пусть S — выпуклый компакт в R2, (v^v®) — вектор максиминных выигрышей в игре Г(Л, JB). Множество S, пара (vi,v2) и функция ip удовлетворяют следующим условиям: 1) (ui,i72)>(tM). 2) (rJi,rJ2)GS. 3) Если {vi,v2) e S и (v1,v2) > {vi,v2), то {vi,v2) = (vi,v2). 4) Если (vi,v2) G S С S и (v\,v2) = Lp(S,Vi,v2), mo (vi,v2) = cp(S,Vi,v2). 5) Пусть Т получается из S с помощью линейного преобразования v[ = ai^i + f3\, v2 = a2v2^rp2; ol\ > 0, a2 > 0. Emulp{S,v\,v2) = (v^v^, то Lp{T,alv\+fЗl,a2v2Jr p2) = (aiVi-{-pua2v2 + l32). 6) Если из {v\,v2) G S следует {v2,v\) G S; v® = v2 и ip{S,v\,v2) = (v\,v2), mo vi = v2. Тогда существует единственная функция tp, удовлетворяющая 1) - 6), такая, что (p(S,Vi,v%) = (vuv2). Функция (/?, которая отображает игру с переговорами (5,Vi,v2) в множество векторов выигрышей (v\,v2) и удовлетворяет условиям 1) - б), называется арбитражной схемой Нэша [Оуэн, 1971], условия 1) - 6) — аксиомами Нэша, а вектор (vi,v2) — арбитражным вектором выигрышей. Таким образом, арбитражная схема — это реализуемый принцип оптимальности в игре с переговорами. Прежде чем перейти к доказательству теоремы, обсудим ее условия на примере игры «семейный спор» (см. рис. 3.4). Условия 1 и 2 означают, что вектор выигрышей (v\,v2)
154 3. Неантагонистические игры находится в множестве, ограниченном точками а, 6, с, d, е. Ограничение 3 показывает, что (vi,v2) лежит в множестве точек, оптимальных по Парето. Условие 4 говорит о независимости функции (р от посторонних стратегий, т. е. если (vi,v2) — арбитражный вектор выигрышей для множества S, то при расширении множества переговоров до S решением будет либо (vi,v2), либо другая точка, но не принадлежащая S. Ограничение 5 говорит о том, что если функции выигрыша отличаются лишь масштабом измерения и началом отсчета, то также отличаются и результаты переговоров. Свойство б указывает на равноправность обоих игроков. % Доказательство теоремы п. 3.10.2 основано на следующих вспомогательных результатах. 3.10.3. Лемма. Если существуют точки (v\,v2) G S, такие что v\ > v\ и V2 > v2, то существует единственная точка (yi,v2), максимизирующая функцию 0(VUV2) = {VI-Vl)(v2-V°2) на подмножестве S± С S, S\ = { (vi,v2) | {vi,v2) GS, v\ > Vi}. Доказательство. По условию S± — непустой компакт, а 9 — непрерывная функция, поэтому она достигает на нем своего максимума 9. По предположению, 9 положительно. Пусть существуют две точки максимума (v^v^) и (v", v2) функции 9 на S\. Заметим, что v[ Ф v", поскольку в противном случае из вида функции 9 следует v2 — v2. Если v[ < v", то v2 > v2. Так как множество Si выпукло, то (vi,v2) Е Si, где vi = (v[ + 0/2, v2 = {vf2 + vf2)/2. Имеем в(уъу2) = K-^) + K-^)(^-^°) + K-^Q) = = (v'1-v<{){v'2-v°) {v'l-vDW-vD K-<)K-^) 2 2 4' Каждое из первых двух слагаемых последней суммы равно 0/2, а третье слагаемое положительно, что невозможно, поскольку 9 — максимум функции 9. Таким образом, точка (yi,v2), максимизирующая функцию 9 на множестве Si, единственна. - 3.10.4. Лемма. Пусть S удовлетворяет условиям леммы п.3.10.3, a (vi,v2) — точка максимума функции 9{vi^v2) и пусть 5{vi,v2) = {V2 ~ Vi)vi + {vi - Vi)v2. Если (vi,v2) G S, то выполняется неравенство: S(vuv2) < S(vi,v2). , Доказательство. Предположим, что существует такая точка (vi,v2) Е S, что S(vi,v2) > S(vi,v2). Из выпуклости S имеем: {у[^у2) Е S, где v[ = v\ + z(v\ —v\) и и2=и2+ e(v2 — V2)) 0 < е < 1. В силу линейности S(vi — vi,v2 — ^2) > 0. Имеем Q{v'iiv2) = 0(vuv2) +e5(vi -vuv2 -v2) +е2(У1 -vi){v2 -v2). Последнее слагаемое — бесконечно малая величина порядка о(е). Поэтому при достаточно малом е > 0 получаем неравенство 9(v[,v2) > 9{v\,v2), но это противоречит максимальности 9 (v\, IJ2).
§3.10. Задача о переговорах 155 3.10.5. Перейдем к доказательству теоремы п. 3.10.2. Для этого покажем, что точка (^1,^2), которая максимизирует #(г>1,г>2), является решением задачи о переговорах. Доказательство. Предположим, что выполнены условия леммы п. 3.10.3. Тогда определена точка (^1,^2), которая максимизирует 9(vi,V2)- Можно проверить, что (v\,V2) удовлетворяет условиям 1) - 4) теоремы п. 3.10.2. Она также удовлетворяет условию 5) этой теоремы, так как если v[ = a\V\ + /3i и v2 = ol2V2 + .#2, то O'WiA) = К .- (aivi + MM ~ (<x2v%+fo)] = a1a29(vuv2), и если (vi,v2) максимизирует 9(vi,v2), то {v'^v'^) максимизирует 9,(vf1,v,2). Покажем, что (v2,Vi) удовлетворяет условию б). Пусть множество S симметрично в смысле условия б). Тогда (v2,vi) Е S и 9(v\,v2) — 9(v2,vi). Так как (vi,v2) — единственная точка, которая максимизирует 9(vi,v2) на Si, то (vi,v2) = (^2,^1), т. е. v\ — V2- Таким образом, точка {v\,v2) удовлетворяет условиям 1)- б). Покажем, что это единственное решение задачи о переговорах. Рассмотрим множество R = { (vuv2) | S(vuv2) < S(vuv2) }. (3.10.2) По лемме п. 3.10.4 имеет место включение S С R. Пусть Т получается из R с помощью преобразования vi = = б», v2 = q. (3.10.3 V\ —V\ V2 — V2 Выражая v± и v2 из (3.10.3) и подставляя в (3.10.2), получаем, что T={(v'1,v'2) \v[+vf2<2} и Vi = v2 =0. Поскольку Т симметрично, то из свойства б) имеем, что решение (если оно существует) должно лежать на прямой v[ = г>2, а согласно свойству 3) оно должно быть точкой (1,1) = <р(Т,0,0). Обращая преобразование (3.10.3) и применяя свойство 5, получаем, что (v±,V2) = (p(R,Vi,v2). Так как (yi,V2) Е S, a S С Я, на основании свойства 4 пара (^i,^) является решением для (S, v®,v2). Предположим теперь, что условия леммы п. 3.10.3 не выполнены, т. е. не существует точек (vi,v2) Е S, для которых V\ > v® и v2 > v2. Тогда возможны следующие случаи. a) Существуют точки, у которых v\ > vJ и г>2 = v2. Тогда в качестве (vi^v2) возьмем точку в S, которая максимизирует v\ при ограничении г?2 = v2. b) Существуют точки, у которых v\ = v® и г?2 > ^2- В этом случае в качестве (^1,^2) возьмем точку в S, которая максимизирует г>2 при ограничении v\ = vj. c) Переговорное множество S вырождается в точку (vi,v2) максиминных выигрышей (например, случай матричных игр). Полагаем vi = v^,V2 — v2. Непосредственно можно проверить, что эти решения удовлетворяют свойствам 1) - б), при этом из свойств 1) - 3) следует единственность. Теорема доказана. В игре «семейный спор» (см. пример 14) схема Нэша дает арбитражный выигрыш (Ui,tJ2) = (5/2,5/2) (см. рис. 3.4). 3.10.6. В этом разделе дан краткий обзор аксиоматической теории переговоров п игроков. Хотя модификации концепции решения Нэша появились вскоре после публикации работы Нэша [Nash, 1951], заметим, что до середины 1970-х годов решения Нэша часто использовалось экономистами и специалистами в области теории игр как
156 3. Неантагонистические игры главное, если не единственное, решение задачи о переговорах. Поскольку все существующие решения в действительности являются инвариантными относительно параллельного переноса, будет удобно рассматривать как допустимые только те задачи, в которых точка «статус кво» может быть без ограничения общности перенесена в начало координат. Следовательно, всегда можно считать выполненным условие v° = (v®,..., v%) = (0,..., 0) Е Rn и стандартная задача просто обозначается как 5 вместо (5,0). Кроме того, далее все задачи рассматриваются на подмножестве Щ, (вместо Rn). Это означает, что все альтернативы, которые будут приносить игроку меньше, чем он получает в точке «статус кво» v° = 0, не принимаются во внимание. Определение. Будем говорить, что определено арбитражное решение Нэша ф, если для всех выпуклых, компактных подмножеств 5 С Д+, содержащих по крайней мере один вектор с положительными координатами (обозначим 5 Е Y1 ), 0(5) совпадает с максимизирующим вектором v Е 5 в «произведении Нэша» ПГ=1 Vi>- Арбитражное решение Нэша базируется на выполнении следующих аксиом: 1°. Парето оптимальность: Если v > <p(S) и v ф ^(5), то v ^ 5 [<p(S) Е PO(S)} для всех 5 Е J^n, v Е Rn. Некоторым ослаблением этого условия является следующая аксиома: 2°. Слабая Парето оптимальность: Если v > ^(5), то v ^ 5 для всех 5 Е ][^п, veRn. Пусть Пп : {1,..., п}'—> {1,..., п} — класс перестановок порядка п. Для П Е Пп и v E Rn, положим 7v(v) = (^(i),. ..^(n)). Кроме того, пусть для 5 С Rn, выполнено тг(5) - {vf E Rn | 3v E 5 при v' = tt(v)}. 3°. Симметричность: Пусть 5 Е YT- Если для всех 7г Е Пп,7г(5) = 5, то (^?;(5) = c/?j(5) для всех i,j (отметим, что 7r(5) E ^П)- Пусть Ln : Rn —» i?n — класс положительных независимых взаимнооднозначных линейных преобразований порядка п. Каждое / Е Ln характеризуется п положительными числами oti, такими что для v E Rn,l(v) = (ai^i,... ,anvn). Далее, пусть для 5 С Дп' выполнено /(5) - {г/ Е Яп|3*; Е 5 при v' = l{v)}. 4°. Масштабная инвариантность: Для всех 5 Е ХГ и ^ ^ -^п> выполняется <p(l(S)) = l{<p(S)) [отметим, что 1{S) E ХЛ- 5°. Независимость от посторонних альтернатив: Если 5' С S и (p(S) E 5', то </?(5') = <p(S) для всех 5, 5' С ХГ- В предыдущем разделе мы доказали теорему Нэша для п = 2 и получили, что только одно решение удовлетворяет сформулированным аксиомам. Этот результат непосредственно обобщается на произвольное п. Теорема. Решение <p(S), S Е ^п удовлетворяет аксиомам 1°, 3°, 4°. 5° тогда и только тогда, когда оно является арбитражным решением Нэша. Эта теорема является основой аксиоматической теории переговоров. Она доказывает, что в каждой задаче существует единственная точка, соответствующая справедливому компромиссу. В середине 1970 годов результаты Нэша получили большую известность, и аксиомы были тщательно исследованы несколькими авторами. 6°. Сильная индивидульная рациональность: Для всех 5 Е YT ^ выполнено <p(S) > 0. Теорема. [Roth, 1977]. Решение (p(S), 5 Е ^п удовлетворяет аксиомам 3°, 4°, 5°, 6° тогда и только тогда, когда оно является арбитражным решением Нэша. Если отбросить аксиому 3° из набора аксиом в теореме 3.10.6, то появляется небольшой дополнительный набор решений.
§ 3.10. Задача о переговорах 157 3.10.7. Определение. Для a — (ai,...,an), a^ > 0, i = l,...,n, XX=i ai ~ -*-> определим асимметричное решение Нэша Na с весами а если для всех S G ][]п выполняется Na(S) = argmaxfJILi V?S v G S. Данное решение было предложено в работе [Harsanyi, Selten, 1972]. Теорема. Решение ip(S), S Е ^П удовлетворяет аксиомам 4°, 5°, 6° тогда и только тогда, когда оно является асимметричным решением Нэша. Если отказаться от аксиомы 6°, то появляется еще несколько решений. 3.10.8. Определение. Для г G {1,...,п} определим диктаторское решение D1, если для всех S G ^п,1)г(5) совпадает с максимизирующей точкой множества S в направлении г-го единичного вектора. 3.10.9. Решение Калаи-Смородинского. Новым толчком для развития аксиоматической теории переговоров послужила работа [Kalai, Smorodinsky, 1975], в которой было предложено следующее решение (см. Рис. 3.5). v2{S) Рис. 3.5. Решение Калаи-Смородинского Определение. Решение называется решением Калаи-Смородинского К, если для всех S G ^]П,К(5) является максимизирующей точкой множества S на отрезке, соединяющем изначальную точку «статус кво» (в примере (0; 0)) с идеальной точкой S, которая определяется как Vi{S) = max{vi \ v G S} для всех г. 3.10.10. Эгалитарное решение. Теперь вернемся к третьему решению, которое наиболее существенно отличается от первых двух. Определение. Эгалитарным решением Е будем называть решение, которое для всех S G YT' 1 Е{3) является максимизирующей точкой множества S среди точек с одинаковыми координатами (см. Рис. 3.6). Отличительной чертой этого решения является то, что оно удовлетворяет условию монотонности, которое является очень сильным условием. В самом деле, эта аксиома может применяться для простого определения решения. 8°. Строгая монотонность: Если S С S", то ip(S) < <p(S') для всех 5, S" G ]ГП. Теорема. Решение (p(S), S G YT удовлетворяет аксиомам 2°, 3°, 8° тогда и только тогда, когда оно является эгалитарным решением. 3.10.11. Утилитарное решение. Закончим наш обзор определением утилитарного решения.
158 3. Неантагонистические игры V2 0 X 45° y(E(S) * \. VI Рис. 3.6. Эгалитарное решение Определение. Утилитарное решение U определяется выбором для каждого S Е ^п точек, максимизирующих сумму YH=ivi для v G S (см. Рис. 3.7). V2 V1+V2 = к U(S) vi Рис. 3.7. Утилитарное решение Очевидно, все утилитарные решения удовлетворяют аксиоме 1°. Однако, никакие утилитарные решения не удовлетворяют 4°. Также никакие утилитарные решения не удовлетворяют аксиоме 5°. Утилитарное решение было введено Майерсоном (1981). Остальные решения обсуждаются в книгах [Льюис и Райфа, 1961; Perles, Mashler, 1981]. В этом разделе мы использовали работу [Thomson and Lensberg, 1990], в которой читатель может ознакомиться с доказательством теорем.
§3.11. Игры в форме характеристической функции 159 §3.11. Игры в форме характеристической функции В §3.9-3.10 на примере игр двух лиц было показано, как, используя возможность согласованного выбора стратегий, игроки могут прийти к взаимоприемлемому решению возникающего неантагонистического конфликта (стратегический подход). Теперь будем считать, что условия игры допускают совместные действия игроков и перераспределение выигрыша. Это предполагает, что полезности различных игроков могут быть оценены единой шкалой (трансферабельные выигрыши), и поэтому взаимное перераспределение выигрышей не искажает содержательной постановки первоначальной задачи. Представляется естественным, что объединение игроков в максимальную коалицию (в коалицию, состоящую из всех игроков) с целью получения максимального суммарного выигрыша приведет к наилучшим результатам также и с точки зрения каждого игрока, при этом нас будет интересовать не столько как коалиция игроков добивается своего суммарного выигрыша, сколько как он будет распределен между членами коалиции (кооперативный подход). В § 3.11-3.14 рассмотрена кооперативная теория игр п лиц. В ней исследуются условия, при которых объединение игроков в максимальную коалицию является целесообразным, а отдельные игроки не будут иметь желания создавать меньшие группировки или действовать индивидуально. 3.11.1. Пусть N = {1,... , п} — множество всех игроков. Любое непустое подмножество S С N называется коалицией. Определение. Характеристической функцией игры п лиц будем называть вещественную функцию v, определенную на коалициях S С N, при этом для любых непересекающихся коалиций Т, S (Т С N, S С N) выполняется неравенство v{T) + v{S) < v(T U S), v(0) = 0. (3.11.1) Свойство (3.11.1) называется свойством супераддитивности. Оно необходимо для содержательной интерпретации числа v(T) как гарантированного выигрыша коалиции Т в случае, когда она действует независимо от остальных игроков. При такой интерпретации неравенство (3.11.1) означает, что коалиция SUT имеет не меньше возможностей, чем две непересекающиеся коалиции S и Т, действующие независимо. Из супераддитивности v получаем, что для любых непересекающихся коалиций 5i,..., Sk справедливо п Y,v(Si)<v(N). г=1 Отсюда, в частности, следует, что не существует такого разбиения множества N на коалиции, чтобы суммарный гарантированный выигрыш этих коалиций превышал максимальный выигрыш всех игроков v(N). 3.11.2. Рассмотрим бескоалиционную игру Г = (TV, {X^}^iv, {^zbeiv)- Пусть игроки, составляющие некоторую коалицию S С N, объединяют свои усилия с целью увеличения своего суммарного выигрыша. Установим, какой наибольший выигрыш они могут себе гарантировать. Совместные действия игроков из коалиции S означают, что коалиция 5, действуя от имени своих членов как один игрок (обозначим его 1), имеет в качестве множества чистых стратегий всевозможные комбинации стратегий, составляющих ее игроков из 5, т. е. элементы декартового произведения Xs^HXi. ies
160 3. Неантагонистические игры Общность интересов игроков из S означает, что выигрыш коалиции S (игрока 1) есть сумма выигрышей игроков из 5, т. е. ies где х Е X/v, х = (#i,..., хп) — ситуация в чистых стратегиях. Нас интересует тот наибольший выигрыш, который игроки из S могут себе гарантировать. В худшем случае для S (игрока 1) оставшиеся игроки из N \S могут также объединиться в коллективного игрока 2 с множеством стратегий Xpj\s = riiG7v\5 ^ и интересом, диаметрально противоположным игроку 1 (т. е. выигрыш игрока 2 в ситуации х равен —Hs(x)). В результате таких рассуждений вопрос о наибольшем гарантированном выигрыше коалиции S превратился в вопрос о наибольшем гарантированном выигрыше игрока 1 в антагонистической игре Ts = (Xs,J&n\SiHs)- В смешанном расширении Г5 = (Xs,Xpj\s,Ks) игры Г# гарантированный выигрыш v(S) игрока 1 может разве лишь увеличиться по сравнению с игрой Ts, поэтому в дальнейшем будем рассматривать смешанное расширение игры Ts- Заметим, в частности, что при такой интерпретации v(S) совпадает со значением игры Ts (если оно существует), a v(N) — максимальный суммарный выигрыш игроков. Очевидно, что v(S) зависит в результате только от коалиции S (и еще от самой исходной бескоалиционной игры, которая в наших рассуждениях остается одной и той же), являясь ее функцией. Убедимся, что эта функция является характеристической функцией бескоалиционной игры. Для этого достаточно показать выполнение условия (3.11.1). Заметим, что для каждой бескоалиционной игры, построенной выше, г>(0) = 0. Лемма о супераддитивности. Для бескоалиционной игры Г = (TV, {Xi}iG7v, {Hi}iew), построим функцию v(S) следующим образом: v(S) = sup inf Ks{vs, vN\s), SCN, (3.11.2) US "N\S где jis G Xs, ^n\s G XN\S uTs — (Xs,Xn\s,Ks) — смешанное расширение антагонистической игры Г#. Тогда для всех SyT С N, для которых SnT = 0, имеет место неравенство: v(SnT)>v(S) + v(T). (3.11.3) Доказательство. Заметим, что v(Sl)T) = sup inf V Ki(fisuT,VN\(suT)), MSut^\(Sut).65uT где fisur ~ смешанные стратегии коалиции S U T, т. е. произвольные вероятностные меры на Xsut, ^n\(sut) ~ вероятностные меры на X/v\(Sut)> Ki — выигрыш игрока г в смешанных стратегиях. Если ограничиться только такими вероятностными мерами на Xsut, которые являются произведениями независимых распределений цз и г/т на декартовом произведении Xs х Х^, то область изменения переменной, по которой производится максимизация, сузится и супремум разве лишь уменьшится. Таким образом, имеем ^UT) > SUp SUp inf У] Ki(fIS X /XT,^N\(5UT))- „s „T »N\ISUT) .eSuT
§3.11. Игры в форме характеристической функции 161 Следовательно, v(S U Т) > inf V Ki(ns x /iT, ^tv\(5ut)) = iesuT = inf \J2 Ki^S X ^T' UN\(SVT)) + У] #t(MS X /iT, I/jv\(5uT)) Так как сумма инфимумов не превосходит инфимум суммы, имеем V(S U Т) > inf S2 Kifas X /ХТ, ^7V\(5UT)) + inf У] Ki(V>S X /XT, ^N\(SUT))- ^iV\(SuT) f—J ^\(SUT) " Минимизация первого слагаемого в правой части неравенства по /iT, а второго ^по /xs (для единообразия переименуем их соответственно тут и vs), приводит к соотношениям v(S U Т) > inf - inf V i^(/As х z/т, ^tv\(Sut)) + inf inf V Ki(vs x /xT, vN\(sut)) VT VN\(SUT) r-i, VS "N\(SUT) *—^ > inf y2Ki(iis,VN\s)+ inf YLK^t^n\t)- »n\s r~i un\t *rlL x ieS x iGT Последнее неравенство справедливо при любых значениях мер /is в первом слагаемом и \±т — во втором. Следовательно, по этим мерам можно перейти к супремумам v(SuT)>s\xp inf Y]Ki(ii,s,VN\s)+svLp inf У^(//т, i/N\T), откуда, используя (3.11.2), получаем Таким образом, супер аддитивность доказана. Заметим, что неравенство (3.11.3) также справедливо, если функция v{S) строится по правилу v(S) = sup inf Hs(xs,xN\S), S С iV, XS XN\S где xs G Xs, %n\s ^ Xn\s, Г5 = (Xs,XN\s,Hs), при этом доказательство дословно повторяет приведенное выше, т. е. если Xs,Xn\S — множества чистых стратегий коалиций S и N\S соответственно. 3.11.3. Определение. Бескоалиционная игра Г = (iV, {Xi}ieN, {Щ}^^) называется изрой с постоянной суммой, если 2~J Hi(x) — с = const ieN для всех х е Xpj, Xpj = YlieN Xi. Лемма. Пусть Г = (iV, {X^}^tv, {-Hi}ieiv) — бескоалиционная игра с постоянной суммой, функция v(S), S С N, определена, как в лемме п. 3.11.2, а игры Ts, S С N, имеют значения в смешанных стратегиях. Тогда v(N) = v(S) + v(N \ S), S С TV.
162 3. Неантагонистические игры Доказательство. Из определения игры с постоянной суммой получаем, что для всех ситуаций х в чистых и \i — в смешанных стратегиях. С другой стороны, v(S) =sup inf y2Ki(fis^N\s) =sup inf [c- V K^ns, vn\s) ) = = с - - inf sup У] Ki(fJ>s,VN\s) = c-v(N\S), что и требовалось доказать. 3.11.4. В дальнейшем под кооперативной игрой будем понимать просто пару (N,v), где v — характеристическая функция, удовлетворяющая неравенству (3.11.1), поскольку содержательная интерпретация характеристической функции, обосновывающая свойство (3.11.1), не имеет принципиального значения. Пример 20 (Игра «джаз-оркестр») [Мулен, 1985]. Директор клуба обещает 100 усл.ед. певцу 5, пианисту Р и ударнику D за совместное выступление. Дуэт певца и пианиста он оценивает в 80 усл. ед., ударника и пианиста в 65 усл. ед. и одного пианиста— в 30 усл. ед. Другие дуэты и солисты не рассматриваются, поскольку присутствие фортепиано директор клуба считает обязательным. Дуэт певец — ударник зарабатывает 50 усл. ед., а певец — в среднем 20 усл. ед. за вечер. Ударник один ничего не может заработать. Обозначая цифрами 1, 2, 3 игроков 5, Р и D соответственно, мы имеем дело с кооперативной игрой (JV», где N = {1,2,3}, и(1,2,3) = 100, и(1,3) = 50, v(l) = 20, и(1,2) - 80, и(2,3) = 65, v{2) = 30, v(3) = 0. Основная задача кооперативной теории игр п лиц заключается в построении реализуемых принципов оптимального распределения максимального суммарного выигрыша v(N) между игроками. Пусть OLi — сумма, которую получает игрок i при распределении максимального суммарного выигрыша v(N), iV = {l,2,...,n}. Определение 1. Вектор а — (ai,..., ап), удовлетворяющий условиям oil >v{{i}), ieN, (3.11.4) п Y^cii = v(N), (3.11.5) г=1 . где v({i}) — значение характеристической функции для одноэлементной коалиции S — .{г}, называется дележом. Условие (3.11.4) называется условием индивидуальной рациональности и означает, что, участвуя в коалиции, каждый игрок получает по меньшей мере столько, сколько он мог бы получить, действуя самостоятельно и не заботясь о поддержке каких- либо других игроков. Должно также выполняться условие (3.11.5), так как в случае YlieN ai < v(N) существует распределение а/, при котором каждый игрок ieN полу-' чит больше, чем его доля щ. Если же J2ieN ai > V(N), то игроки из TV делят между
§3.11. Игры в форме характеристической функции 163 собой нереализуемый выигрыш, и поэтому вектор а неосуществим. Следовательно, вектор а может считаться допустимым только при выполнении условия (3.11.5), которое называется условием коллективной (или групповой) рациональности. На основании условий (3.11.4), (3.11.5), для того, чтобы вектор a = (ai,... \otn) был дележом в кооперативной игре (Nyv), необходимо и достаточно выполнение равенства причем 7i>0, ieN, ^7г = г;(Л0-][>({г}). ieN ieN Определение 2. Игра (N,v) называется существенной, если ][>({г}) < г,(ЛГ), ieN в противном случае игра называется несущественной. Для любого дележа а будем обозначать величину ^iesai чеРез a(S), а множество всех дележей — через D. Несущественная игра имеет единственный дележ а=(«({1}),г;({2}),...,г;({п})). Во всякой существенной игре с более чем одним игроком множество дележей бесконечно. Поэтому будем анализировать такие игры с помощью отношения доминирования. Определение 3. Дележ а доминирует дележ (3 по коалиции S (обозначение s а >- /3), если сц > ft, г Е 5, a{S) = J2ai^ v^' (3.11.7) ies Первое из условий в определении (3.11.7) означает, что дележ а лучше дележа /3 для всех членов коалиции 5, а второе отражает реализуемость дележа а коалицией S (т. е. коалиция S на самом деле может предложить каждому из игроков г G S величину оц )- Определение 4. Говорят, что дележ: а доминирует дележ: /3, если существует коалиция S, для которой а >- (3. Доминирование дележа 0 дележом а обозначается как а >- (3. Доминирование невозможно по одноэлементной коалиции и множеству всех игроков N. Действительно, из а У /3 следовало бы ft < oli < v({i}), что противоречит условию (3.11.5). 3.11.5. Объединение кооперативных игр в те или иные классы существенно упрощает их последующее рассмотрение. В качестве таких классов можно рассмотреть классы эквивалентных игр. Определение. Кооперативная игра (N, v) называется эквивалентной игре (N,vf), если существует положительное число к, а также п таких произвольных вещественных чисел Ci, г G N, что для любой коалиции S С N выполняется равенство v'(S) = kv{S) + Ylci' (3.11.8) ies (3.11.6)
164 3. Неантагонистические игры Эквивалентность игр (N,v) и (N,v') будем обозначать как (N,v) ~ (N,vf) или V ~ Vr. Очевидно, что v ~ v. Чтобы убедиться в этом, достаточно положить в формуле (3.11.8) Ci — О, к — 1, v' = v. Такое свойство называется рефлексивностью. Докажем симметрию отношения, т. е. что из условия v ~ v' следует v' ~ v. Действительно, полагая к' — 1/fc, c[ = —Ci/k, получим v(S) = k'v'(S) + J2Cl, ies т. е. v1 ~ v. Наконец, если v ~ v' и v' ~ у", то v ~ г/'. Это свойство называется транзитивностью. Оно проверяется последовательным применением формулы (3.11.8). Так как отношение эквивалентности рефлексивно, симметрично и транзитивно, оно разбивает множество всех игр п лиц на взаимонепересекающиеся классы эквивалентных игр. Теорема. Если две игры v и v' эквивалентны, то отображение а —> а', где oli = ka.i -be», г е N, устанавливает таксисе взаимно однозначное отображение множества всех дележей S S игры v на множество дележей игры vf', так что из а >- J3 следует а' -< /3'. Доказательство. Проверим, что су! является дележом в игре (N,vf). Действительно, a[ = ka{ + Ci > kv({i}) + с* = v({i}), Следовательно, для о! условия (3.11.4), (3.11.5) выполнены. Далее, если а У (3, то a.i > /%, i G 5, E^i < v(5), и поэтому a- = /ca* + ъ> kj3i + с{= /3- (fc > D), S т. e. a >- p . Взаимная однозначность соответствия следует из существования обратного отображения (оно было использовано при доказательстве симметрии отношения эквивалентности). Теорема доказана. 3.11.6. При разбиении множества кооперативных игр на попарно непересекающиеся классы эквивалентности возникает задача выбора наиболее простых представителей из каждого класса. Определение. Игра (N,v) называется игрой в (0-1) - редуцированной форме, если для всех ieN v({i})=0, v(N) = l.
§3.12. С-ядро и NM-решение 165 Теорема. Каждая существенная кооперативная игра эквивалентна некоторой игре в (0-1) -редуцированной форме. Доказательство. Пусть k = v(N)-EieNv({i})>0, - (m r a-XV v'(S) = kv(S) + YiCi v({i}) ies Тогда vf({i}) = 0, v'(N) = 1. Теорема доказана. Из теоремы следует, что свойства игр, включающие понятие доминирования, можно изучить на играх в (0 - 1)-редуцированной форме. Если v — характеристическая функция произвольной существенной игры (N, г>), то ^=^"^6g^v С3-11-9) есть (0 - 1) - нормализация, соответствующая функции v. При этом дележом оказывается любой вектор a = (ai,..., ап), компоненты которого удовлетворяют условиям ai>0,ieN, ^ai = l, (3.11.10) т. е. дележи можно рассматривать как точки (п — 1) -мерного симплекса, порожденного ортами Wj — (0,..., 0,1,0,..., 0), j = 1, п пространства Rn. § 3.12. С-ядро и TVM-решение Перейдем к рассмотрению принципов оптимального поведения в кооперативных играх. Как уже отмечалось в п. 3.11.4, речь будет идти о принципах оптимального распределения максимального суммарного выигрыша между игроками. 3.12.1. Возможен следующий подход. Пусть игроки в кооперативной игре (N,v) пришли к такому соглашению о распределении выигрыша всей коалиции TV (дележу а*), при котором ни один из дележей не доминирует а*. Тогда такое распределение устойчиво в том смысле, что ни одной из коалиций S невыгодно отделиться от других игроков и распределить между членами коалиции выигрыш v(S). Это рассуждение наводит на мысль о целесообразности рассмотрения множества недоминируемых дележей. Определение. Множество недоминируемых дележей кооперативной игры (TV, v) называется ее С-ядром. Имеет место следующая теорема, которая характеризует С-ядро. Теорема. Для того чтобы дележ а принадлежал С-ядру, необходимо и достаточно выполнение для всех S С N неравенств v(S)<a(S) = J2at - (3.12.1) ies Доказательство. Для несущественных игр теорема очевидна, и в силу теоремы п. 3.11.6 достаточно провести ее доказательство для игр в (О-Т)-редуцированной форме.
166 3. Неантагонистические игры Докажем достаточность утверждения теоремы. Пусть для дележа а выполнено условие (3.12.1). Покажем, что дележ а принадлежит С-ядру. Пусть это не так. То- гда найдется такой дележ /3, что /3 У а, т. е. /3(5) > a(S) и /3(5) < v(S). Однако это противоречит (3.12.1). Покажем необходимость условия (3.12.1). Для любого дележа а, не удовлетворяющего (3.12.1), существует такая коалиция 5, что a(S) < v(S). Пусть S — такая коалиция, тогда построим вектор /3 по следующему правилу: P, = a, + v{S)-^S\ieS/ Pt~ \N\-\S\' * ' где |5| — число элементов множества S. Легко видеть, что /3(N) = 1, Д > 0 и /3 >~ а. Отсюда следует, что а не принадлежит С-ядру. Из теоремы п. 3.12.1 следует, что С-ядро является замкнутым, выпуклым подмножеством множества всех дележей (С-ядро может быть пустым множеством). 3.12.2. Пусть игроки договариваются о выборе кооперативного соглашения. Из супераддитивности v следует, что такое соглашение приводит к образованию коалиции N всех игроков. Решается вопрос о способе дележа суммарного дохода v(N), т. е. о выборе вектора a e R71, для которого YlieN ai ~ У(Ю- Минимальным требованием для получения согласия игроков выбрать вектор а является индивидуальная рациональность этого вектора, т. е. условие щ > v({i}), i G N. Пусть игроки договариваются о выборе конкретного дележа а. Против выбора дележа может возражать некоторая коалиция 5, требующая для себя более выгодного распределения. Коалиция S выдвигает это требование, угрожая в противном случае нарушить общую кооперацию (это вполне реальная угроза, так как для достижения дохода v(N) требуется единодушное согласие всех игроков). Предположим, что остальные игроки N\S реагируют на эту угрозу объединенными действиями против коалиции S. Тогда максимальный гарантированный доход коалиции S оценивается числом v(S). Условие (3.12.1) означает существование стабилизирующей угрозы коалиции S со стороны коалиции N \ S. Таким образом, С-ядром игры (N,v) является множество устойчивых в смысле коалиционных угроз распределений максимального суммарного дохода v(N). Приведем еще один критерий принадлежности дележа С-ядру. Лемма. Пусть а — дележ игры (N,v). Тогда а принадлежит С-ядру в том и только в том случае, когда для всех коалиций S С N выполняется неравенство J2®i< V(N) - V(N \ s)- (3.12.2) ies Доказательство. Поскольку YlieN ai = У(Ю^ то приведенное выше неравенство можно записать в виде ^(А^\5)< J2 а*' ieN\s Теперь утверждение' леммы следует из (3.12.1). Из условия (3.12.1) видно, что если дележ а принадлежит С-ядру, то ни одна коалиция S не может гарантировать себе выигрыш, превосходящий ^2ies аг — a(S), т. е.
§3.12. С-ядро и NM-решение 167 суммарный выигрыш, который обеспечивается членам коалиции дележом а. Это делает нецелесообразным существование коалиций 5, отличных от максимальной коалиции N. Интересное необходимое и достаточное условие непустоты С-ядра было получено О. Н. Бондаревой (см. [Бондарева, 1963]), которое теперь носит название теоремы Бондаревой-Шепли. Во многих случаях С-ядро может оказаться пустым, а в других случаях оно представляет собой множественный принцип оптимальности, и остается вопрос, какой дележ из С-ядра необходимо выбрать в конкретном случае. Пример 21. Рассмотрим игру «джаз-оркестр» (см. пример 20 п. 3.11.4). Суммарный доход трех музыкантов максимален (и равен 100 руб.) в случае их совместного выступления. Если певец выступает отдельно от пианиста с ударником, то все втроем они получают 65 Н- 20 руб., если пианист выступает один, то 30 + 50 руб. Наконец, суммарный доход равен 80 руб., если пианист и певец отказываются от участия ударника. Какое распределение максимального общего дохода следует признать разумным, учитывая описанные возможности игроков в смысле частичной кооперации и индивидуального поведения? Вектор а — (а^о^^з) в игре «джаз-оркестр» принадлежит С-ядру тогда и только тогда, когда оц > 20, а2 > 30, а3 > 0, аг + а2 + аз = 100, OL\ 4- oil > 80, ai2 + а-з > 65, а\ + аз > 50. Это множество является выпуклой оболочкой следующих трех дележей: (35,45,20), (35,50,15), (30,50,20). Таким образом, выигрыши всех игроков определяются с точностью до 5 руб. Типичным представителем ядра является центр (среднеарифметическое крайних точек) С-ядра, а именно: а* = (33.3,48.3,18.3). Для дележа а* характерно, что все двуэлементные коалиции имеют одинаковый дополнительный доход: ai+aj—v({i,j}) — 1.6. Дележ а* является справедливым компромиссом внутри С-ядра. 3.12.3. Из того, что С-ядро пусто, не следует невозможность кооперации всех игроков N. Это просто означает, что никакой дележ: не может быть стабилизирован с помощью простых угроз, описанных выше. Пустота ядра имеет место тогда, когда промежуточные коалиции слишком сильны. Это утверждение поясняется следующим образом. Пример 22 (Симметричные игры) [Мулен, 1985]. В симметричной игре коалиции с одинаковым числом игроков имеют одинаковый выигрыш. Характеристическая функция v имеет следующий вид: v(S) = f(\S\) для всех S С N, где |5| — число элементов множества S. Предположим без потери общности, что /(1) = 0 и N — {1,...,?г}. Тогда множеством дележей игры (N,v) является следующий симплекс в Rn п ^аг = f(n) = o(JV), щ > 0, г = 1,...,п. г=1 С-ядром является подмножество множества дележей, определенное линейными неравенствами (3.12.1), т. е. это выпуклый многогранник. В силу симметричности v(S) C- ядро также симметрично, т. е. инвариантно относительно любой перестановки компонент ai,... ,ап. Учитывая, кроме того, выпуклость С-ядра, можно показать, что оно
3. Неантагонистические игры Рис. 3.8. Непустое С-ядро не пусто в том и только в том случае, когда содержит центр а множества всех дележей (a* = /(n)/n, i = 1,..., п). Возвращаясь к системе (3.12.1), получаем, что С-ядро не пусто тогда и только тогда, когда для всех |5| = 1,... ,п имеет место неравенство (1/|S'|)/(|S'|) < (l/n)f(n). Таким образом, С-ядро непусто тогда и только тогда, когда Рис. 3.9. Пустое С-ядро не существует промежуточной коалиции 5, в которой средняя доля каждого игрока больше соответствующей величины в коалиции N. Рис. 3.8(3.9) соответствует случаю, когда С-ядро непусто (пусто). 3.12.4. Пример 23 [Воробьев, 1985]. Рассмотрим общую игру трех лиц в (0 - 1)- редуцированной форме. Для ее характеристической функции имеем и(0) = v(l) — v(2) = v(3) = 0, и(1,2,3) = 1, и(1,2) = с3, v(l,3) - с2, v(2,3) = сь где 0 < а < 1, г = 1,2,3.
§3.12. С-ядро и NM-решение 169 На основании теоремы п. 3.9.1, чтобы дележ а принадлежал С-ядру, необходимо и достаточно выполнение следующих неравенств: GLi+QL2> Сз, Oil + OSs > 02, OS2 + OS3 > C\ или olz < 1 — сз, 0L2 < 1 — C2, ai < 1 — ci. (3.12.3) Складывая неравенства (3.12.3), получаем a\ + a2 + аз < 3 - (ci 4- c2 + сз), или, поскольку сумма всех с^, г = 1,2,3, тождественно равна единице, С1 + С2 + сз <2. (3.12.4) Последнее неравенство является необходимым условием существования в рассматриваемой игре непустого С-ядра. С другой стороны, если (3.12.4) выполняется, то существуют такие неотрицательные ^ь&2?Сз» что з ]T(ci + &) = 2, <*+&<1, г = 1,2,3. г=1 Рис. 3.10. С-ядро игры Пусть fa = 1 — ^ — &, г = 1,2,3. Числа Д удовлетворяют неравенствам (3.12.3), так что дележ /3 = (/Зь/?2»/Зз) принадлежит С-ядру игры. Таким образом, соотношение (3.12.4) является также достаточным для существования непустого С-ядра. Геометрически множество дележей в рассматриваемой игре есть симплекс: а\ Ч-а^+^з = 1» ol% > 0, г = 1,2,3 (треугольник ABC, рис. 3.10). Непустое С-ядро представляет собой
170 3. Неантагонистические игры пересечение множества дележей (ААВС) и выпуклого многогранника (параллелепипеда) 0 < oti < 1 — a, i = 1,2,3. Это часть треугольника ABC, вырезаемая линиями пересечения плоскостей а* = 1-е*, г = 1,2,3 ' (3.12.5) с плоскостью ААВС. На рис. .3.10 через с^, г = 1,2,3 обозначена прямая, образованная пересечением плоскостей щ — 1 — с% и ai -f a<i + аз = 1. Точка пересечения двух прямых а?; и Q.J принадлежит треугольнику ABC, если неотрицательна k-я координата этой точки (к Ф г, к ф j), в противном случае она находится за пределами ААВС (рис. 3.11а, 3.116). Таким образом, С-ядро имеет вид треугольника, если совместное решение любой пары уравнений (3.12.5) и'уравнения ai+a2+^3 = 1 состоит из неотрицательных чисел. Это требование выполняется при с\ + с2 > 1, ci + с3 > 1, с2 + с3 > 1. (3.12.6) В зависимости от различных случаев (а всего их может быть восемь) С-ядро будет приобретать тот или иной вид. Например, если не выполняется ни одно из трех неравенств (3.12.6), то С-ядро оказывается шестиугольником (рис. 3.116). БА (0,0,1) (0,1,0) ai 1,0,0) а) (0,1,0) БЛ (0,0,1) (1,0,0) Рис. 3.11. Виды С-ядра 3.12.5. Другим принципом оптимальности в кооперативных играх является NM- решение. TVM-решение, так же как и С-ядро, является множественным принципом оптимальности в множестве всех дележей. Хотя элементы С-ядра и не доминируются никакими другими дележами, однако нельзя утверждать, что в С-ядре для любого наперед заданного дележа а найдется доминирующий его дележ. Поэтому оказывается целесообразной формулировка принципа оптимальности, который бы учитывал и это последнее обстоятельство. Определение. Подмножество дележей L кооперативной игры (iV, v) называется NM-решением, если: 1) из а >- /3 следует, что либо а ^ L либо /3 ^ L (внутренняя устойчивость); 2) для любого а ^ L существует такой дележ /3 G L, что /3 >- а (внешняя устойчивость).
§3.12. С-ядро и NM -решение 171 К сожалению, применение понятия TVM-решения на практике не легко. Оно несет скорее философский, нежели практический смысл. Между С-ядром кооперативной игры и ее TVM-решением имеется известная связь. Например, если С-ядро не пусто и TVM-решение существует, то оно содержит С-ядро. Действительно, пусть дележ а принадлежит С-ядру; тогда, если бы он не принадлежал iVM-решению L, то согласно свойству 2) нашелся бы такой дележ а', что а! >- а. Однако это противоречит принадлежности а С-ядру как множеству недоминируемых дележей. Теорема. Если для характеристической функции игры (N,v) в (0-1)- редуцированной форме (\N\ = n) выполняются неравенства v(S) < г n-I5I + 1' где \S\ — число игроков в коалиции S, то С-ядро этой игры не пусто и является ее NM-решением. Доказательство. Возьмем произвольный дележ а, лежащий вне С-ядра. Тогда существует непустое множество коалиций S, по которым можно доминировать а, т. е. это те и только те коалиции, для которых a(S) < v(S). Множество {S} частично упорядочено по включению, т. е. S\ > S2, если 52 С S\. Возьмем в нем какой-нибудь минимальный элемент 5о, который, очевидно, существует. Пусть к — число игроков в коалиции Sq. Очевидно, что 2 < к < п — 1. Построим дележ /3 следующим образом: Л п — к Так как /3(So) = v(5o), Pi > с^, г Е 5о, то /3 доминирует а по коалиции So- Докажем, что /3 содержится в С-ядре. Для этого достаточно показать, что /3(5) > v(S) при произвольном 5. Пусть сначала \S\ < к. Заметим, что /3 не доминируется по 5 С So, поскольку рг > c*i (i G So) и не может доминироваться ни по какой коалиции, так как So — минимальная коалиция, по которой молено доминировать а. Если же хоть один игрок из 5 не содержится в So, то R(Q\ -> 1 ~V(So) ^ 1 ~ n-fc+1 1 ^ 1 ^ ,/т «*) * ~^k~ * п„к =;г=ТТ1 ~ n-|s| + i -v{s)' Таким образом, /3 не доминируется ни по какой коалиции, содержащей не более к игроков. Пусть теперь |5| > к. Если So С 5, то (\S\-k)(l-v(So))+ ^Q)>Mz* п — к п — к 151-fc + fc-|5| + l 1 - п - к + к - \S\ + 1 п - \S\ + 1 - [ >' Если же 5 не содержит So, то число игроков множества S, не содержащихся в Sq, не меньше \S\ — к + 1; следовательно, (|5|-fc + l)(l-^(5o)) |g|-fc + l l > _
172 3. Неантагонистические игры Таким образом, /3 не доминируется ни по какой коалиции 5. Следовательно, /3 содержится в С-ядре. Кроме того, /3 доминирует а. Итак, доказано, что С-ядро непусто и удовлетворяет свойству 2, характеризующему множество iVM-решений. Свойству 1 С-ядро удовлетворяет автоматически в силу определения. Теорема доказана. 3.12.6. Определение. Игра (N,v) в (0-1)-редуцированной форме называется простой, если для любых S С N v(S) принимает лишь одно из двух значений О или 1. Кооперативная игра называется простой, если проста ее (О -1)-редуцированная форма. Пример 24 [Воробьев, 1985]. Рассмотрим простую игру трех лиц в (0-1)- редуцированной форме, в которой коалиция, состоящая из двух и трех игроков, выигрывает {у(S) = 1), а коалиция, включающая только одного игрока, проигрывает {v({i}) — 0). Для этой игры рассмотрим три дележа: а12 = (1/2,1/2,0), а13 = (1/2,0,1/2), а23 = (0,1/2,1/2). (3.12.7) Ни один из этих трех дележей не доминирует никакого другого. Множество дележей (3.12.7) имеет и следующее свойство, любой дележ (кроме трех дележей а^) доминируется одним из дележей ац. Чтобы это проверить, рассмотрим какой-нибудь дележ а = (ai,a2,a3). Так как мы рассматриваем игру в (0 - 1)-редуцированной форме, то cti > 0 и а\ + а2 + #з = 1. Следовательно, не более двух компонент вектора а могут быть не меньше 1/2. Если их действительно две, то каждая из них равна 1/2, в то время как третья равна 0. Но это означает, что а совпадает с одним из ац. Если же а— какой-нибудь иной дележ, то он имеет не более одной компоненты, не меньшей чем 1/2. Значит, по крайней мере две компоненты, например, с^ и а^ (г < j), меньше 1/2. ij Но в этом случае сац >- а.Таким образом, три дележа (3.12.7) образуют TVM-решение. Но это не единственное iVM-решение. Пусть с — любое число из отрезка [0,1/2]; легко проверить, что множество ^з,с = {(&> 1 — с — а, с) | 0 < а < 1 — с} также является TVM-решением. Действительно, в это множество входят дележи, при которых игрок 3 получит постоянную с, а игроки 1 и 2 делят остаток во всевозможных пропорциях. Внутренняя устойчивость следует из того, что для любых двух дележей а и /3 из этого множества имеем: если а\ > /3i, то а2 < /?2- Однако доминирование по коалиции, состоящей из единственного участника, невозможно. Чтобы доказать внешнюю устойчивость 1/з,с> возьмем какой- либо дележ /3 $- Ьз,с- Это означает, что либо /?з > с либо /% < с. Пусть /Зз > с, например, /Зз = с + г. Определим дележ а следующим образом: oil = Pi + е/2, а2 = /32 + е/2, а3 = с. Тогда а Е 1/з,с и а У- /3 по коалиции {1,2}. Пусть теперь j33 < с. Ясно, что либо /3i < 1/2 либо /32 < 1/2 (ибо в противном случае их сумма была бы больше 1). Пусть f)\ < 1/2. Положим а = (1 — с, 0, с). Так как 1 — с > 1/2 > /?i, то а >- /3 по коалиции {1,3}. Очевидно, что a G 1/з,с. Однако, если /32 < 1/2, то можно аналогично показать, что 7 >- /5, где 7 = (0,1 — с, с). Итак, кроме симметричного iVM-решения, рассматриваемая игра имеет еще целое семейство решений, при которых игрок 3 получает фиксированное количество с из отрезка 0 < с < 1/2. Эти TVM-решения называются дискриминирующими; говорят, что игрок 3 при этом дискриминирован. В случае множества L3yo говорят, что игрок 3 полностью дискриминирован или исключен.
§3.13. Вектор Шепли 173 Из соображений симметрии очевидно, что существуют также два семейства NM- решений, Li5C и L<i,c, в которых дискриминируются игроки 1 и 2 соответственно. Предшествующий пример показывает, что у игры может быть чрезвычайно много iVM-решений. Совершенно неясно, какое из них следует выбрать. Когда же NM- решение выбрано, остается непонятным, какой из него выбрать дележ. Более подробно с TVM-решением и его свойствами можно ознакомиться в [Дюбин, Суздаль, 1981]. В теории кооперативных игр важную роль играют одноточечные решения. Это прежде всего вектор Шепли и его различные обобщения, TV-ядро, различные виды пропорциональных решений и др. (см. [Печерский, Яновская, 2004]). Далее мы подробно остановимся на векторе Шепли. § 3.13. Вектор Шепли 3.13.1. Множественность рассмотренных ранее принципов оптимальности С-ядра и iVM-решения в кооперативных играх, а также жесткие условия существования этих принципов стимулируют попытки поиска принципов оптимальности, существование и единственность которых были бы обеспечены в каждой кооперативной игре. К таким принципам оптимальности относится вектор Шепли. Вектор Шепли определяется аксиоматически. Определение 1. Носителем игры (Nyv) называется такая коалиция Т, что v(S) — v(S Г)Т) для любой коалиции S С N. Содержательно определение утверждает, что любой игрок, не принадлежащий носителю, является «болваном», т. е. не может ничего внести ни в какую коалицию. Рассмотрим произвольную перестановку Р упорядоченного множества игроков N — {1,2, ...,п}. С этой перестановкой связана подстановка 7г, т. е. такая взаимно однозначная функция 7г : N -» iV, что для i G N значение 7г(г) G N представляет собой элемент из 7V, в который переходит г Е N в перестановке Р. Определение 2. Пусть (N,v) — игра п лиц, Р — перестановка множества N, а 7Г — соответствующая ей подстановка. Тогда через (N, тту) обозначим такую игру (N, и), что для любой коалиции S С N, S = {ii, 22,..., is} ifc({7r(zi),7r(i2),... ,7г(гв)}) = v(S). По существу игра (N,irv) отличается от игры (N^v) лишь тем, что в последней игроки поменялись ролями в соответствии с перестановкой Р. С помощью этих определений можно изложить аксиоматику Шепли. Сначала заметим, что так как кооперативные игры п лиц, в сущности, отождествляются с вещественными (характеристическими) функциями, то можно говорить о сумме двух или большего числа игр, а также о произведении игры на число. 3.13.2. Поставим в соответствие каждой кооперативной игре (N,v) вектор <p(v) — (^i[t>],... ,</9п[г>]), компоненты которого будем интерпретировать как выигрыши, полученные игроками в результате соглашения или решения арбитра. При этом будем считать, что указанное соответствие удовлетворяет следующим аксиомам. Определение 3. Аксиомы Шепли. 1. Если S — любой носитель игры (N,v), то ]Гуф] =v(S).
174 3. Неантагонистические игры 2. Для любой подстановки тт и i E N 3. Если (N,u) и (NjV) — две любые кооперативные игры, то ipi[u + v\ = (pi[u] +<Pi[v]. Определение 4. Пусть (р — функция, ставящая в соответствие согласно аксиомам 1—3 каждой игре (iV, v) вектор <p[v]. Тогда (p[v] называется вектором значений или вектором Шепли игры (N,v). Оказывается, что этих аксиом достаточно для определения единственным образом значения для всех игр п лиц. Теорема. Существует единственная функция (р, определенная для всех игр (ЛГ, у) и удовлетворяющая аксиомам 1—3. 3.13.3. Доказательство теоремы опирается на следующие результаты. Лемма. Пусть для любой коалиции S С N игра (N,ws) определяется следующим образом: Тогда для игры (N,ws) аксиомы 1, 2 однозначно определяют вектор ip[ws]-' «М - {^* (ЗЛ3.2) где s = \S\ — число игроков в S. Доказательство. Ясно, что S — носитель ws, как и любое множество Т, содержащее множество S. Тогда по аксиоме 1, если S С Т, то Y^<Pilws] = 1. Но это означает, что (fi[ws] — 0 при г ^ S. Далее, если 7г —любая подстановка, которая переводит S в себя, то ttws = ws- Следовательно, в силу аксиомы 2 для любых i,jES имеет место равенство (pi[ws] = ^Pj[ws\- Так как этих величин всего s = |5|, а сумма их равна 1, то <-Pi[ws] = 1/s, если г Е S. Игра с характеристической функцией ги$, определяемой (3.13.1), называется простой игрой п лиц. Таким образом, лемма утверждает, что для простой игры (N,ws) вектор Шепли определяется формулой (3.13.2). Вектор Шепли для игры (N,ws) определяется единственным образом. Следствие. Если с>0, то \c/s,ieS, <*[ca*1 = \o,i*S. Доказательство очевидно. Таким образом, ip[cws] = с<р[ги$] при с > 0.
§3.13. Вектор Шепли 175 Теперь покажем, что если ]Г)5 csws является характеристической функцией, то Ч>% ( Y2CsWs ) = Y^ <Pi(csws) = ^2 csVi{ws). (3.13.3) ^ S ' S S В случае cs > 0 первое равенство в (3.13.3) постулируется аксиомой 3, второе следует из следствия. Далее, если u,v ии — v — характеристические функции, то согласно аксиоме 3 имеем tp[u — v] = <p[u) — <p[v]. Отсюда следует справедливость (3.13.3) для любых cs- Действительно, если Ylscsws ~ характеристическая функция, то v = Y^csws= Yl °sws- Y2 (-cs)ws, S S\cs>0 S\cs<0 поэтому ф\ = ч>\ Y2 csws^ ~ v[ Yl (-cs)ws\ = S\cs>0 S\cs<0 = y^ cs<p[ws} - Y^ (~c^)^m = Ylcs^ws^ S\cs>0 S\cs<0 S 3.13.4. Лемма. Пусть (N,v) — любая игра, тогда найдутся 2П —1 вещественных чисел cs, таких что v=Yl csws> (3-13-4) SCN где ws определены (3.13.1), а суммирование ведется по всем подмножествам S множества N, исключая пустое множество. При этом представление (3.13.4) единственно. Доказательство. Положим T\TCS (здесь t — число элементов в Т). Покажем, что эти числа cs удовлетворяют условиям леммы. Действительно, если U — произвольная коалиция, то Y2 csws{U) = Y2 cs S\SCN S\SCU S\SCU XT\TCS y T\TCU E Е^гчо = E E (-D :icrrr WiTrc ' т,\пгг-тт l-eirrr-Qr-тг S\TCSCU v(T). Рассмотрим теперь величину в квадратных скобках в последнем выражении. Для каждого значения s между t и и имеется C^Zt таких множеств S с s элементами, что Т С S С U. Следовательно, выражение в скобках можно заменить следующим выражением: Ё<та-1г* = Ёс;=*(-1)' s=t
176 3. Неантагонистические игры но это биномиальное разложение (1 — 1)и ь. Следовательно, для всех t < u оно равно О, а для t = и равно 1. Поэтому для всех U С N ]Г csws(U) = v(U). S\SCN Докажем единственность представления (3.13.4). Любой характеристической функции v соответствует элемент пространства R2 _1. Действительно, упорядочим коалиции Т С U. Тогда каждой непустой коалиции Т С U соответствует компонента вектора, равная v(T). Эти векторы будем обозначать, как и функции, через v. Очевидно, что простейшим характеристическим функциям ws соответствуют векторы, у которых компоненты равны либо нулю, либо единице. Докажем, что простейшие характеристические функции (точнее, соответствующие им векторы) линейно независимы. Действительно, пусть ^2 ^sws{T) = 0 для всех Т С N. SCN Тогда для Т = {г} имеем ws{{i}) = 0, если S ф {г}, и ws{{i}) = 1, если S = {г}. Следовательно, А^} = 0 для всех г С N. Продолжим доказательство методом индукции. Пусть А 5 = 0 для всех S С Т, S фТ. Покажем, что Хт = 0. Действительно, 5^ Xsws{T) = 53 Xsws(T) = XT = 0. SCN SCT Таким образом, мы имеем 2П — 1 линейно независимых вектора в R2 _1, поэтому любой вектор, а значит и любая характеристическая функция v единственным образом выражается в виде линейной комбинации (3.13.4) простейших характеристических функций ws. Лемма доказана. 3.13.5. Перейдем к доказательству теоремы п. 3.13.2. Лемма п. 3.13.4 показывает, что любая игра может быть представлена в виде линейной комбинации игр ы$, причем представление (3.13.4) единственно. Согласно п. 3.13.3, функция <p[v] единственным образом определяется соотношениями (3.13.2), (3.13.3). Пусть (N,v) — произвольная игра. Получим теперь выражение для вектора <p[v]. Согласно п.3.13.3, 3.13.4, S\SCN S\iZCN но cs определены формулой (3.13.5). Подставляя (3.13.5) в это выражение, получаем <Pi[ T\TCS *м = Е (v*) Е (-i)'_t«m = Е Е (-1)-*(1/в)«(т) T\TCN LS\TUiCSGN S\iCSGN Положим 7i(T)= Y, (-^(l/s)- (3-13.6) S\TL!iCSCN Если i 0 T' и T — T' U {г}, то ji(Tf) = —7ДТ). Действительно, все члены в правой части (3.13.6) в обоих случаях одни и те же, и только t = t' + 1; следовательно, они отличаются лишь знаком. Таким образом, имеем ViH= E li{T)[v{T)-v(T\{i})\- T\ieTcN
§ 3.13. Вектор Шепли 177 Далее, если г G Т, то существует ровно C^Ztt таких коалиций S с s элементами, что Т С 5. В результате получаем хорошо известный определенный интеграл: 7,(Т) = &-1)-'СХ1\(1/з) = iti-iy-'CZl tx-^dx = ,=t s=t J0 = t D-l)'-^**-1^ = f x*-1 ^(-1)в-*С'1*хв-*^ = Таким образом, имеем (бета-функция) 7i(T) = (t-l)!(n-t)!/(n!) и, следовательно, Vi[v]= J2 {t~l)^"t)l[v(T)-v(T\{i})]. (3.13.7) T\iZTCN Формула (3.13.7) определяет компоненты вектора Шепли в явном виде. Это выражение удовлетворяет аксиомам 1-3 п. 3.13.2. Заметим, кроме того, что вектор cp[v] всегда является дележом. Действительно, в силу супераддитивности функции г>, г ^ ,гоч V- (t-l)\(n-t)\ (fi[v] > v{{i}) 2^ ~\ = T\iCTcN = «(f.))Ecr_i^i§^^((.}). t=l 3.13.6. Если отвлечься от аксиоматического определения, то вектору Шепли, выраженному формулой (3.13.7), можно дать следующее содержательное истолкование. Предположим, что игроки (элементы множества N) решили встретиться в определенном месте в определенное время. Естественно, что из-за случайных отклонений все они будут прибывать в различные моменты времени; однако предполагается, что все порядки прибытия игроков (т. е. их перестановки) имеют одну и ту же вероятность, а именно 1/{п\). Предположим, что если игрок г, прибывая, застает на месте членов коалиции Т \ {г} (и только их), то он получает выигрыш г;(Г) — v(T \ {г}); иначе говоря, его выигрышем является предельная величина, которую он вносит в коалицию. Тогда компонента вектора Шепли <pi[v] представляет собой математическое ожидание выигрыша игрока г в условиях этой рандомизационной схемы. 3.13.7. Для простой игры (п. 3.11.6), формула для вектора Шепли особенно наглядна. Действительно, v(T) — v(T\{i}) всегда равно либо 0, либо 1, причем это выражение равно 1, если Т — выигрывающая коалиция, а коалиция Т\ {%} не является выигрывающей. Следовательно, имеем у>,[„] = 2>-1)!(п-«)!/п!,
178 3. Неантагонистические игры где суммирование распространяется на все такие выигрывающие коалиции Т D г, для которых коалиция Т \ {г} не является выигрывающей. Пример 25 (Игра с главным игроком) [Воробьев, 1985]. В игре участвуют п игроков, один из которых называется «главным». Коалиция S выигрывает 1, если она либо содержит главного игрока и хотя бы одного кроме него, либо всех п — \ «неглавных». Если главный игрок имеет номер п, то характеристическая функция этой игры записывается в следующем виде: Г1, S D {г,п}, гфп, v(S) = < 1,SD {l,...,n-l}, I 0, в остальных случаях. Ясно, что для всякой коалиции Т D {п} условия v(T) = 1и v(T \ {?г}) = 0 выполняются тогда и только тогда, когда 2 < \Т\ < п — 1. Следовательно, ^ (t-l)!(n-t)! n-2 t=2 Поскольку игра имеет (0 - 1)-редуцированную форму, п-1 ]Г iPi[v] = 1 - <pn[v] = 2/n. г=1 Все неглавные игроки равноправны, поэтому в силу симметрии 2 <Pi[v] = ~7 7Т> * = 1,..-,^- 1. га(п - 1) Таким образом «монопольное» положение главного игрока обеспечивает ему в (п — 1)(п — 2)/2 раз больший выигрыш, чем «рядовым» участникам игры. 3.13.8. Пример 26 («Помещик и батраки») [Воробьев, 1985]. Предположим, что имеются п — 1 батраков (игроки г = 1,..., п — 1)и помещик (игрок п). Помещик, наняв к батраков, получит от урожая доход f(k) (f(k) монотонно возрастает), а батраки сами дохода получить не могут. Это описывается следующей характеристической функцией: v(5)==MlS|-i),WeS, 1 0, в противном случае. Здесь для всех Т э {n}, \T\ > l,v(T)-v(T\{n}) = f{t- 1), где t = |Т|,ииз (3.13.7) следует *.М - ±oi-\{t-^rtyf(t -.) - i't'/W. t=2 П' П t=l На основании условия эффективности и симметрии всех батраков ^M = ^LT(/(n-l)--^/W), i = l,...,n-l. n — 1 п ^—f
§3.14. Вектор Шепли и потенциал 179 § ЗЛ4. Вектор Шепли и потенциал 3.14.1. Как и ранее, рассмотрим кооперативную игру п лиц с трансферабельны- ми выигрышами в форме характеристической функции. Мы рассматривали различные решения (или различные принципы оптимальности) игры. Как было показано, некоторые из них являются подмножествами множества дележей (как, например, С-ядро и iVM-решение), а вектор Шепли представляет собой принцип оптимальности, состоящий из единственного дележа. В данном параграфе, следуя Харту и Мас-Колеллу [Hart, Mas-Colell, 1988], мы введем число, описывающее кооперативную игру. Используем принцип «маргинальных вкладов» и введем вектор выигрышей, состоящий из маргинальных вкладов игроков. 3.14.2. Кооперативной игрой с трансферабельными выигрышами называется пара (iV, г>), где N — конечное множество игроков, a v : 2N —> R - характеристическая функция, удовлетворяющая условию г>(0) = 0. Подмножество S С N называется коалицией, a v(S) — доходом коалиции S. Рассмотрим игру (N,v) и коалицию S С N. Через (5, v) обозначим подыгру, полученную сужением v на множество S (и его подмножества), то есть, область определения функции v сужается на 2s. 3.14.3. Обозначим через Г множество всех игр. Рассмотрим функцию Р : Г —> R, ставящую в соответствие каждой игре (N,v) вещественное число P(N,v). Маргинальным вкладом игрока г в игру (N,v) будем называть D^iN.v) = P{N,v) - P{N\{i},v), где г G N. Здесь игра (N \ {i}jv) представляет собой сужение (N,v) на (N \ {г},г>).) Функция Р : Г -» R такая, что Р(0, v) = 0, называется функцией потенциала , если она удовлетворяет следующему условию: YJDiP(N,v)=v{N) (3.14.1) для всех игр (N,v). Таким образом, для функции потенциала вектор маргинальных вкладов игроков всегда эффективен, т. е. сумма его компонент равна доходу максимальной коалиции, состоящей из всех игроков. 3.14.4. Теорема. Существует единственная функция потенциала Р. Для любой игры (N,v) вектор маргинальных вкладов (D%P(N,v))izN совпадает с вектором Шепли. Кроме того, потенциал игры (N,v) единственным образом определяется соотношением (3.14-1), примененным к самой игре (N,v) и ее подыграм (S,v)y S С N. Доказательство. Равенство (3.14.1) можно переписать в виде P(N, *) = Щ Un) + J2P(N\ (О, «)). (3.14.2) Начиная с равенства Р(0,г>) = 0, соотношение (3.14.2) рекурсивно определяет значение P(N,v). Это доказывает существование и единственность функции потенциала Р, а также то, что P(N,v) единственным образом определяется соотношением (3.14.1) (или (3.14.2)), примененным к (5, г») для всех 5 С N. Остается показать, что DlP(N,v) = Shl(N,v) для всех игр (N,v) и всех игроков г G iV, где Р — (единственная) функция потенциала, a Shl(N,v) — компонента вектора Шепли для игрока г в игре (N,v). Для этого покажем, что DlP удовлетворяет
180 3. Неантагонистические игры всем аксиомам, однозначно характеризующим вектор Шепли. Эффективность следует из (3.14.1); выполнение остальных трех аксиом — фиктивного (нулевого) игрока, симметричности и аддитивности, — докажем при помощи индукции по числу игроков, используя (3.14.2). В самом деле, пусть игрок i является нулевым игроком в игре (N,v) (т. е., v(S) = v(S \ {%}) для всех S). Покажем, что P(N,v) = P(N \ {г}, и), а, следовательно, и DlP(N,v) = 0. Предположим, что утверждение верно для всех игр с числом игроков, меньшим \N\; в частности, P(N\{j},v) = P(N\{j, i},v) для всех j ф %. Теперь вычтем равенство (3.14.2) для N\{i} из того же равенства (3.14.2) для N. Мы получим \N\[P(N, v) - P(N \ {i},v)} = [v(N) - v{N \ {i})} + + Y,lP(N \ Ш, *) - P(N \ tf> <}, v)] = 0. Теперь предположим, что игроки г и j взаимозаменяемы в игре (N,v). Из этого следует, что P(N \ {г},г>) — P(N \ {j},v) (с помощью (3.14.2) и того факта, что % и j взаимозаменяемы в подыграх (N \ {k},v) для всех к Ф i,j). Таким образом, DlP(N,v) = DiP(N,v). Кроме того, при помощи (3.14.2) до индукции можно доказать, что Р(АГ, v + w) — P(N, v) + P(N, w), откуда следует аддитивность. Рассмотрим другой подход к интерпретации понятия «потенциал». В общем случае в игре (N,v) распределение маргинальных вкладов (т. е., v(N) — v(N \ {%}) для игрока г), не является эффективным. Одним из путей решения возникшей проблемы является добавление игрока, например, игрока 0, и расширение игры Nq = N U {0} таким образом, чтобы распределение маргинальных вкладов в расширенной игре являлось эффективным. Формально, пусть (Nq,vo) — расширение игры (N,v) (т. е., vo(S) = v(S) для всех SciV). Тогда условие эффективности можно записать следующим образом: vo(N0) = Y, Ы^о) ~ vo(N0 \ {%})] = iGN0 = [v0(N0) - v(N)} + $>o(Wo) - vQ(N0 \ {%})]. (3.14.3) Упрощая, получаем v(N) = ^KW) - vo(N0 \ {*})]. (3.14.4) iGN С учетом этого можно переформулировать результат теоремы п. 3.14.4. 3.14.5. Следствие. Существует единственное расширение vo характеристической функции v, при котором распределение маргинальных вкладов всегда эффективно (точнее, (З.Ц.З) выполняется для игры и всех подыгр) и оно задается следующим образом: vq{S U {0}) = P(S,v) для всех S С N, где Р - функция потенциала. Здесь P(S, у) = щ (v(S) + J2P(S\ «, v)) - Отметим, что выигрыши первоначальных игроков (из коалиции N) в сумме дают v(N) (3.14.4); они равны компонентам вектора Шепли. Игрока 0, чей выигрыш равен остатку P(NJv) — г?(AT), можно рассматривать как «скрытого игрока». Выражения (3.14.1) и (3.14.2) задают потенциал только неявным образом. Получим формулы в явном виде. Рассмотрим простейшую игру ит (где Т — непустое конечное
§3.14. Вектор Шепли и потенциал 181 множество), определяемую как ut(S) = 1 если S D Т, и ut(S) = 0 в противном случае. Известно, что такие игры составляют линейный базис для Г: каждая игра (N,v) имеет единственное представление (см. [Shapley, 1953] и п. 3.13.4). и § 3.8) TCN где для всех Т С N имеет место aT = aT(N,v)= ]Г(-1)1ТН^(5). (3.14.5) SCT 3.14.6. Теорема. Функция потенциала Р удовлетворяет равенству p(n,v)= J2w\aT TCN ' ' для всех игр (iV, v), где ат задается (3.14-5). Доказательство. Обозначим правую часть в предыдущей формуле через Q(N,v). Тогда Q((d,v) = 0, и Q(N,v) — Q(N \ {i},v) — Z^gt0^/!^!- Суммируя по г, получаем, что Q удовлетворяет (3.14.1). Поэтому, по теореме п. 3.11.4, Q совпадает с единственной функцией потенциала Р. Число 8т = ат/\Т\ называется дивидентом каждого члена коалиции Т и 5/iz(7V, v) = Лгет^т [Harsanyi, 1963]. 3.14.7. Теорема. Функция потенциала Р может быть вычислена по формуле P(N,v)=-Z{S~mrS)l^ ' . Z—' п\ SCN где n= \N\, a s = |5|. Доказательство. Нетрудно видеть, что вектор маргинальных вкладов для функции в правой части совпадает с вектором Шепли. Для интерпретации последней формулы рассмотрим следующую вероятностную модель выбора случайной непустой коалиции S С N. Сначала выберем размер коалиции s = 1,2,... ,п = |АГ| равновероятно (т. е. с вероятностью 1/п каждый). Затем выберем подмножество S размерности 5, снова равновероятно (т. е. каждое из С^ подмножеств имеет одинаковую вероятность). Или, что эквивалентно, выберем случайный порядок следования п элементов из iV (с вероятностью 1/п! каждый), а затем выберем граничную точку s (1 < s < п), а коалицией S будут первые s элементов. Вероятность выбора множества S при | -S'l = s равна s\(n-s)l s (s-l)!(n-s)! ks = j— = ; n - n\ n nl Следовательно, формула из п. 3.14.7 может быть переписана в виде P(N,v)= Tns-viS) L ' S SCN >> (3.14.6) где Е обозначает математическое ожидание S в вышеупомянутой вероятностной модели.
182 3. Неантагонистические игры §3.15. Упражнения и задачи 1. Два объединения производят разведку полезных ископаемых на га месторождениях. Фонды средств на разведку у 1-го и 2-го объединения составляют а и /3 соответственно. Прибыль от добычи полезных ископаемых на г -м месторождении равна 7г > 0, она распределяется между объединениями пропорционально доле средств, которые они вложили в г месторождение. При этом если в г месторождение обоими не вложено никаких средств, то и прибыли, полученные обоими объединениями на г-м месторождении, также равны нулю. (a) Описать указанный конфликт в виде игры двух лиц, считая выигрышем каждого объединения суммарную прибыль, полученную от добычи полезных ископаемых на всех месторождениях. (b) Найти ситуацию равновесия по Нэшу. Указание. Воспользоваться вогнутостью функций Hi no x и Нъ по у. 2. В экологически значимом районе имеется га промышленных предприятий, на каждом из которых один источник загрязнения. Значение концентрации ^ вредной примеси, выбрасываемой г-м предприятием, пропорционально величине выброса 0 < Xi < сц, г = 1 га, этого предприятия. Потери г-го предприятия складываются из расходов на переработку отходов производства {Л(#г)) и налога за загрязнейие, который пропорционален суммарной концентрации q вредной примеси от выброса всех предприятий. Величина 0 не должна превышать q — значения предельно допустимой концентрации вредной примеси. В противном случае г-е предприятие дополнительно платит штраф Si. Описать указанный конфликт в виде бескоалиционной игры п лиц, считая проигрышем каждого предприятия суммарные затраты на природоохранные мероприятия. Указание. Воспользоваться результатом примера 5, п.3.1.4. 3. Найти множества всех ситуаций равновесия по Нэшу (в чистых стратегиях) в следующих (га х га)-биматричных играх с матрицами А — {&ij} и В — {Pij}. (а) Матрицы А и В — диагональные и положительные, т. е. га — га, atj = Pij — 0, г Ф j и an > 0, Ргг > 0, г — 1,..., га, j (Ь) 1,... ,га. (с) А = А = 5 3 -1 2 3 В = В 4. Показать, что в биматричной игре с матрицами 1 2 О 1 3 1 2 2 1 В = 3 4 0 13 2 1 3 О ситуация (2, 2) является равновесной. Является ли она сильно равновесной? 5. В биматричной игре с матрицами 4 2 6 1 0 7 5 0 1 , в = 0 5 7 0 2 6 6 2 1 найти все ситуации, оптимальные по Парето в чистых стратегиях. Есть ли в этой игре равновесные ситуации в чистых стратегиях? 6. Изобразить графически в координатах (К1,Къ) множество всевозможных векторов выигрышей в смешанных стратегиях в игре «семейный спор» (см. п. 3.1.4).
§3.15. Упражнения и задачи 183 Указание. Произвольные смешанные стратегии х и у игроков 1 и 2 соответственно могут быть записаны в виде х — ($,1 — 0» У — (^Д "~ 7?)? ^V ^ [0,1]. Записывая функции выигрыша Кг и Кг в смешанных стратегиях и исключая один из параметров, получаем однопарамет- рическое семейство отрезков, объединение которых и есть искомое множество (см. рис. 3.2). Криволинейная часть границы представляет собой огибающую этого семейства отрезков и является частью параболы: ЬК* + ЬК\ — IOK1K2 — 18(jKi + K2) + 45 = 0. 7. В биматричной игре с матрицами А = 6 0 2 0 4 3 7 0 0 В- 6 0 7 0 4 0 2 3 0 найти вполне смешанную ситуацию равновесия по Нэшу. Имеет ли эта игра еще ситуации равновесия в смешанных стратегиях? Указание. Найти сначала вполне смешанную ситуацию равновесия (х,у), х — ($ъ$2,$з), у = (771,772,773)) затем такую равновесную ситуацию, для которой $i = 0 и т. д. 8. «Игра на оригинальность» [Воробьев, 1984]. Рассматривается бескоалиционная игра п лиц Г = (N,{Xi}ieN,{Hi}ieN), где Xt = {0,1}, Я4(0,... ,0||,1) = <?г > 0, Я*(1,..., 1||«0) = Нг > 0, Нг(х) = 0в остальных случаях, где ||г означает, что замена производится на г-м месте. (a) Интерпретировать игру в терминах рекламного дела. (b) Найти вполне смешанную ситуацию равновесия. 9. В п. 1.10.1 было показано, что игры двух лиц с нулевой суммой можно решать методом «фиктивного разыгрывания». Рассматривая биматричную игру показать, что этот метод не может быть использован для нахождения ситуаций с матрицами А = 2 0 1 1 2 0 0 1 2 В = 1 0 2 2 1 0 0 2 1 равновесия в биматричных играх. 10. Игра «музыкальные стулья» [Мулен, 1985]. Имеются два игрока и три стула, помеченные цифрами 1, 2, 3. Стратегия игрока состоит в выборе номера стула. Оба игрока несут потери при выборе одного и того же стула. Если лее их выборы различны, то тот игрок г, чей стул следует сразу за стулом игрока j, выигрывает вдвое больше, чем игрок j (предполагается, что стул 1 следует за стулом 3). Получаем биматричную игру Г(Л, В), (А, В) (0,0) (1,2) (2,1) (2.1) (0,0) (1,2) (1.2) (2,1) (0,0) (a) Показать, что единственное вполне смешанное равновесие по Нэшу состоит в равновероятном выборе стульев каждым игроком. (b) Показать, что равновесие в совместных смешанных стратегиях имеет вид L(i,j) = 1/6, еслиг ф j, 0, ее лиг = j. (с) Показать, что выигрыши в ситуации равновесия по Нэшу не являются оптимальными по Парето, а равновесие в совместных смешанных стратегиях приводит к выигрышам (3/2,3/2), оптимальным по Парето. 11. Равновесие в совместных смешанных стратегиях не обязывает игроков придерживаться чистых стратегий, реализовавшихся в результате принятой совместной смешанной стратегии (см. определение п. 3.9.1). Если же мы обязаны придерживаться результатов конкретной ре-' ализации совместной смешанной стратегии, то можно обобщить «равновесие в совместных
184 3. Неантагонистические игры смешанных стратегиях». Для всех i G N обозначим через [a(N\ {i}) сужение распределения \х на множество Х^\^у = Пгелг\ш ^г' а именн0 для всех х Е ]fJiGiV Xi. Будем говорить, что fi есть слабое равновесие в совместных смешанных стратегиях, если выполнены следующие неравенства для всех i E N и гц G Хг'. Y, щх)Ф) > ]г H(xbi)v(N \ ш *еп* x^YlteN Хг (a) Доказать, что всякое равновесие в совместных смешанных стратегиях является слабым равновесием в совместных смешанных стратегиях. (b) Пусть \i — (/xi,... ,/in) — векторная ситуация в смешанных стратегиях в игре Г. Показать, что вероятностная мера /I = riigiv ^г на множестве X = Пгедг -^ является слабым равновесием в совместных смешанных стратегиях и равновесием в совместных стратегиях тогда и только тогда, когда ситуация fi = (/11,..., /хп) равновесна по Нэшу. 12. (а) Доказать, что в игре, сформулированной в упр. 10, множество ситуаций равновесия по Нэшу, множество ситуаций равновесия в совместных стратегиях и множество ситуаций слабо равновесных в совместных смешанных стратегиях различны и не совпадают между собой. (Ь) Показать, что множество вектор-выигрышей, оптимальных по Парето среди выигрышей в ситуации равновесия в совместных смешанных стратегиях, покрывает отрезок [(5/3,4/3), (4/3, 5/3)], а выигрыши, оптимальные по Парето среди слабо равновесных в совместных смешанных стратегиях, покрывают отрезок [(2,1), (1, 2)]. 2 -1 В = 13. Найти арбитражное решение биматричной игры с матрицами А — используя схему Нэша. -1 1 1 -1 -1 2 14. Рассмотрим биматричную (2 х 2)-игру с матрицей C*i OL2 Л " (1,1) (2Д) А (1,2) (-5,0) (А,В) = Это модификация игры «перекресток» (см. пример 2 п. 3.1.4), отличие которой заключается лишь в следующем. Водитель легкового автомобиля (игрок 1) и грузового (игрок 2) по-разному оценивают результаты аварии (ситуация (c*2,ft)). Показать, что анализ игры в стратегиях угроз предписывает ситуацию (c*i,/32), т. е. грузовому автомобилю «ехать», а легковому — « остановиться ». 15. Пусть ядро имеет непустое пересечение со всеми гранями Хг — v({i}) множества дележей. Показать, что в этом случае оно является единственным iVM-решением. 16. Для кооперативной игры (N, v) определим полудележ как вектор a — (ai,..., ап), для которого ai > v({i}) и Y27=i ai — V(N). Показать, что если L является iVM-решением игры (N,v), a a — полудележ, не принадлежащий L, то существует такой дележ /3 Е L, что Р > а. 17. Для игры (N,v) определим ft равенством ft = max [v(S U {i}) - v(S)}. SCN\{i}1 L J/ Ч /J Показать,.что если найдется г, для которого щ > ft, то дележ а не может принадлежать ни ядру, ни одному из NM-решений. 18. Пусть (N,v) — простая игра в (0 -1)-редуцированной форме (см. п. 3.10.6) Игрок г называется «вето»-игроком, если v(N \ {г}) = 0.
§3.15. Упражнения и задачи 185 (a) Доказать, что для того, чтобы С-ядро в простой игре было непустым, необходимо и достаточно, чтобы в игре существовал хотя бы один «вето»-игрок. (b) Пусть S — множество всех «вето»-игроков. Показать, что дележ a = (ai,..., an) принадлежит С-ядру, если Y2ies &i = 1, cti > 0 для г Е S и оц = 0 для г ^ S. 19. В игре (N,v) под квазидележом будем понимать вектор a = (c*i,..., ап), такой, что J2i^N ai = V{N)- Для каждого е > 0 определим строгое г-ядро Ce(v), как множество квазидележей, таких что для каждой коалиции ]Га:» >v(S)-s. (a) Показать, что если е < е\ то Ce(v) С Се/(г>). (b) Показать, что существует наименьшее число, для которого Ce(v) Ф 0. При таком е множество Ce(v) называется минимальным е-ядром и обозначается через МС(у). (c) Найти минимальное е-ядро в игре (N,v), где N = {1,2,3}, v({i}) — 0, г>({1,2}) = 50, и({1,3}) = 80, ^({2,3}) = 90, v({N}) = 100. (d) Пусть (N,v), (iV, г/) — две кооперативные игры и для некоторых е и. ef выполняется равенство Ce(v) = Ce'(v') ф 0. Показать, что в этом случае справедливо Ce-s(v) = Ce'-sW) для всех 8 > 0, 6 < тт[е,е']. 20. Показать, что если (N,v) — игра с постоянной суммой (см. п. 3. 9.3), то вектор Шепли Sh определяется по формуле Shi(v) = 2 ]Г s-.scN, tes 21. Игра (N,v) называется выпуклой, если для всех 5, Т С iV v(S U T) + v(S П Г) > v(S) + v(T). (a) Доказать, что выпуклая игра имеет непустое С-ядро и вектор Шепли принадлежит С-ядру. (b) Показать, что (N, v) — выпуклая игра, если v(S) = (Y/mi)2, SCN, a m = (mi,..., mn) — неотрицательный вектор. 22. Рассмотрим простую игру (iV, v) в (0-1)-редуцированной форме. Под «скачком» игрока i будем понимать такое множ:ество S С N', для которого v(S) = 1 и v(S \ {г}) = 0. Обозначим через 0г число скачков игрока г в игре. Тогда вектор /3(v) = (j3i(v),... ,/Зп(г>)), где /3i(f) = 0i/ Xl?=i ® j называется вектором Банзафа для простой игры. (a) Показать, что 0i = б, 02 — вз = 04 = 2, и, следовательно, /3(v) = (1/2,1/6,1/6,1/6) для простой игры четырех лиц (N,v), в которой коалиция S выигрывает, если она состоит либо из двух игроков и игрока {1} Е S , либо из трех игроков или четырех игроков. (b) Показать, что /3(v) совпадает с вектором Шепли. 23. Пусть (N, v) — простая игра трех лиц, в которой коалиции (1,2), (1,3), (1,2,3) являются единственными выигрывающими коалициями. Показать, что в этой игре Gi = 3, 02 — 0з = 1, и, следовательно, вектор Банзафа имеет вид 0(v) — (3/5,1/5,1/5), а вектор Шепли равен 5%] = (2/3,1/6,1/6). (n-s)!(s-l)! v(S) -v(N).
186 3. Неантагонистические игры 24. Рассмотрим неотрицательный вектор р = (я-!,... ,7гп) и число 0 > 0. Пусть 0 < 0 < ЕГ=1 к*- Взвешенной игрой большинства будем называть простую игру (N,v), в которой характеристическая функция v определяется по правилу Пусть 0 = 8 и р — (4,3,3,2,2,1), п = 6. Вычислить вектор Шепли и вектор Банзафа для простой взвешенной игры большинства.
Глава 4 Многошаговые игры §4.1. Определение динамической игры с полной информацией 4.1.1. Ранее нами рассматривалась игра в нормальной форме. К такой форме в принципе может быть сведен динамический (т. е. происходящий в течение некоторого промежутка времени) конфликтно-управляемый процесс формальным введением понятия чистой стратегии. В тех немногочисленных случаях, когда мощность пространства стратегий невелика и имеется возможность численного нахождения решений, такой подход является вполне допустимым. Однако в большинстве задач поиска оптимального поведения участников конфликтно-управляемого процесса переход к нормальной форме, т. е. сведение задачи к однократному выбору чистых стратегий как элементов пространств больших размерностей или функциональных пространств, не приводит к эффективным способам нахождения решений, хотя и позволяет наглядно иллюстрировать те или иные принципы оптимальности. В ряде случаев общие теоремы существования решения для игр в нормальной форме не позволяют находить или даже конкретизировать оптимальное поведение в играх, нормализацией которых они являются. Как будет показано ниже, в «шахматах» существует решение в классе чистых стратегий. Однако этот результат невозможно получить непосредственным исследованием матричной игры. Еще более наглядно это обстоятельство проявляется при исследовании дифференциальных HFp, для которых в ряде случаев удается находить решения в явной форме. Однако нормальная форма дифференциальной игры является настолько общей, что получение конкретных результатов оказывается практически невозможным. 4.1.2. Математические модели конфликтов, учитывающие динамику, исследуются в теории позиционных игр. Наиболее простым классом позиционных игр является класс конечношаговых игр с полной информацией. Для определения конечношаговой игры п лиц с полной информацией потребуются элементарные сведения из теории графов. Пусть X — некоторое конечное множество. Правило /, ставящее в соответствие каждому элементу х Е X элемент f(x) G X, называется однозначным отображением X в Хп или функцией, определенной на X и принимающей значения в X. Многозначное отображение F множества X в X - это правило, которое каждому элементу х Е X ставит в соответствие некоторое подмножество Fx С X (при этом не исключается возможность Fx = 0). В дальнейшем для простоты будем употреблять термин «отображение», понимая под ним «многозначное отображение».
188 4. Многошаговые игры Пусть F — отображение X в X, и А С X. Под образом множества А будем понимать множество F(A) = (J Fx. хел Полагаем Р(0) = 0. Можно убедиться в том, что если A^Cl, г = 1,..., тг, то п п п п F{\J А,) = (J FiAi), F(f] А,) с fl F{M). г=1 г=1 г=1 г=1 Определим отображения Р2, Р3,..., Fk,..., следующим образом: *? = F(Fa), Fl й F(F?), ...,F*U FiFt1), - - - Отображение P множества X в X называется транзитивным замыканием отображения Р, если ^-{ж}и^и^2и...и^.... Отображение Р-1, обратное отображению Р, определяется как F-1 = {х\у G Fx}. Другими словами, F~l — это множество тех точек х, образ которых содержит точку у. Аналогично отображению Fx определяется отображение (Р"1) : {F-% = F-\{F-\), (F~X = F^((F-'fy),..., (F~X = F-1 ((О*-1). Если В С X, то полагаем Определение. Пара (X, Р) называется графом, если X — некоторое конечное множество, a F — отображение X в X. Граф (X, Р) будем обозначать символом G. В дальнейшем элементы множества X будем изображать точками на плоскости, а пары точек х и у, для которых у G FX) соединять непрерывной линией со стрелкой, направленной от х к у. Тогда каждый элемент множества X называется вершиной или узлом графа, а пара элементов (ж, у), в которой у G Fx — дугой графа. Для дуги р = (х,у) вершины х и у называются граничными вершинами дуги, причем х — начало, а у — конец дуги. Две дуги р и q называются смежными, если они различны и имеют общую граничную точку. Множество дуг в графе будем обозначать Р. Задание множества дуг в графе G = (X, Р) определяет отображение F и, наоборот, отображение F определяет множество Р. Поэтому граф G можно записывать как в виде- G = (X, Р), так и в виде G = (X,P). Путем в графе G = (X,F) называется такая последовательность р — (pi, V2, - - - ,Pk> - - -) Дуг, что конец каждой предыдущей дуги совпадает с началом следующей. Длина пути р = (pi,... ,Pfc) есть число 1{р) = к дуг последовательности. В случае бесконечного пути р полагаем 1(р) = оо . Ребром графа G = (X, Р) называется множество из двух элементов х,у Е X, для которых или (х,у) Е Р, или (у,х) G Р. В отличие от дуги в ребре ориентация роли не играет. Ребра будем обозначать буквами р, с/, а множество ребер — Р. Под цепью будем понимать последовательность ребер (pi,P2>---)» в которой у каждого ребра р&
§4.1. Определение динамической игры 189 одна из граничных вершин является также граничной для Pk-i, а другая — граничной длярь+1. Цикл — это конечная цепь, начинающаяся в некоторой вершине и оканчивающаяся в той же вершине. Граф называется связным, если любые две его вершины можно соединить цепью. Дерево или древовидный граф, по определению, есть конечный связный граф без циклов, имеющий не менее двух вершин, в котором существует единственная вершина то, такая, что FXQ — X. Вершина xq называется начальной вершиной графа G. 4.1.3. Пусть z G X. Подграфом Gz древовидного графа G = (X, F) называется граф вида (Xz, Fz), где Xz = FZJ a Fzx = Fx П Xz. В древовидном графе для всех х G Xz множество Fx и множество Fzx совпадают, т. е. отображение Fz является сужением отображения F на множество Xz. Поэтому для подграфов древовидного графа будем использовать обозначение Gz — (XZ,F). 4.1.4. Перейдем к определению многошаговой игры с полной информацией на древовидном конечном графе. Определение. Пусть G = {X,F) — древовидный граф. Рассмотрим разбиение п+1 множества вершин X на п + 1 множество Х\,..., Хп, Хп+\, |J Xi = X, Xk ПХе — 0, г=1 к ф I, где Fx = 0 для х G Хп+\. Множество Х{, г = 1,..., п называется множеством очередности игрока г, а множество Xn+i — множеством окончательных позиций. На множестве окончательных позиций Xn+i определены п вещественных функций Н\(х),..., Нп(х), х 6 Xn+i. Функция Hi(x), г — 1,..., п, называется выигрышем игрока г. Игра происходит следующим образом. Задано множество iV игроков, перенумерованных натуральными числами 1, 2,..., г, ..., п (в дальнейшем iV= {1,2,...,п}). Пусть xq e Xix, тогда в вершине (позиции) хо «ходит» игрок i\ и выбирает вершину х\ G FXo. Если х\ G Xi2, то в вершине х\ «ходит» игрок %2 и выбирает следующую вершину (позицию) Х2 G FXl, и т. д. Таким образом, если на к-м шаге вершина (позиция) Xk-i G Xik, то в ней «ходит» игрок %k и выбирает следующую вершину (позицию) из множества FXk_1. Игра прекращается как только достигается окончательная вершина (позиция) х\ G Xn+i, т. е. такая, для которой Fx\ — 0. 4.1.5. В результате последовательного выбора позиций однозначно реализуется некоторая последовательность хо,... ,ж^,... ,ж/, определяющая путь в древовидном графе G, исходящий из начальной позиции Xq и достигающий одной из окончательных позиций игры. Такой путь в дальнейшем будем называть партией. Из-за древовидно- сти графа G каждая партия заканчивается в окончательной позиции х\ и, наоборот, окончательная позиция х\ однозначно определяет партию. В позиции х\ каждый из игроков г = 1, 2,..., п получает выигрыш Hi(xi). Будем предполагать, что игрок г при совершении выбора в позиции iGlj знает эту позицию ж, а следовательно, из-за дре- вовидности графа G может восстановить и все предыдущие позиции. В таком случае говорят, что игроки имеют полную информацию. Примером игр с полной информацией служат шахматы и шашки, поскольку в них игроки могут записывать ходы и поэтому можно считать, что они знают предысторию игры при совершении каждого очередного хода. Определение. Однозначное отображение щ, которое каждой вершине (позиции) х G Xi ставит в соответствие некоторую вершину (позицию) у G Fx, называется стратегией игрока г.
190 4. Многошаговые игры Множество всевозможных стратегий игрока % будем обозначать через Щ. Таким образом, стратегия игрока % предписывает ему в любой позиции х из множества его очередности Xi однозначный выбор следующей позиции. Упорядоченный набор и = (щ,... , г^,... ,wn), где щ G Щ, называется ситуаци- п ей в игре, а декартово произведение U = П Ui — множеством ситуаций. Каж- г=1 дая ситуация и — {и\,..., щ,... ,ип) однозначно определяет партию игры, а следовательно, и выигрыши игроков. Действительно, пусть Xq G Xix. Тогда в ситуации и — (tii,... ,Uj,... ,ип) следующая позиция х\ определяется однозначно по правилу и%Ахъ) — х\. Пусть теперь х\ Е Х{2. Тогда х<2 определяется однозначно по правилу Щ2{х\) — х2> Если теперь на к-м шаге реализовалась позиция Xk-i G Xik1 то Xk определяется однозначно по правилу Xk — Щк(хк-г) и т. д. Пусть ситуации и = (щ,... ,щ,... ,ип) в указанном смысле соответствует партия xq,Xi, ... ,х/. Тогда можно ввести понятие функции выигрыша Ki игрока г, положив ее значение в каждой ситуации и равным значению выигрыша Hi в окончательной позиции партии хо, #i,..., xi, соответствующей ситуации и= (iii,..., ип), т. е. Ki{u\,...,щ,... ,ип) = Hi(xi), г = 1,...,п. Функции К^ г = 1,...,п, определены п на множестве ситуаций U — ]\Щ. Таким образом, мы получаем некоторую игру в г=1 нормальной форме Г = (iV, {Ui}ieN, {Ki}ieN), где N = {1,... , г,..., п} — множество игроков, Ui — множество стратегий игрока г, Ki — функция выигрыша игрока г. § 4.2. Равновесие по Hsiny 4.2.1. Повторим определение п. 1.5.2, сформулировав его в обозначениях, принятых в теории динамических игр с полной информацией. Ситуация и* = (гл|,..., w*,..., it*) называется равновесием по Нэшу, если имеет место неравенство Ki{u\,..., <_b <Х+1, ...,<)> Ki(u*,..., <_1? гх», <+1,..., О для всех щ е Щ, i e N. Для дальнейшего исследования игры Г необходимо ввести понятие подыгры, т. е. игры на подграфе графа G основной игры. Пусть z Е X. Рассмотрим подграф Gz — (Xz, F), с которым свяжем подыгру Yz следующим образом. Множество очередности игроков в подыгре Yz определяется по правилу Y? — Xi П Xz, г = 1,2,..., п, множество окончательных позиций Y^+i = Xn+i П Xz, выигрыш Щ(х) игрока г в подыгре полагается равным Щ(х) = Щх), х е ynz+1, г = 1,..., п. В соответствии с этим стратегия и\ г-го игрока в подыгре Vz определена как сужение стратегии щ игрока г в игре Г на множество У/, т. е. и\ — щ(х), х Е Y* = Xi flXz, г = 1,..., п. Множество всех стратегий i-го игрока в подыгре обозначается через Щ. В результате с каждым подграфом Gz мы связываем подыгру в нормальной форме Tz = (iV, {Uf}, {К?}), где функции выигрыша К?, г — 1,... , п, определены на п . декартовом произведении Uz — Ц f/f. г=1
§4.2. Равновесие по Нэшу 191 .Определение. Ситуация равновесия по Нэшу основной игры и* — (wj,... ,w*) называется ситуацией абсолютного равновесия по Нэшу в игре Т, если для любого z G X ситуация (u*)z = {(и\У,..., {u^)z), где (w*)z — сужение стратегии и* на подыгру Yz, является ситуацией равновесия по Нэшу в подыгре Tz. Имеет место следующая основная теорема. Теорема. В любой многошаговой игре с полной информацией на конечном древовидном графе существует ситуация абсолютного равновесия по Нэшу. Прежде чем перейти к ее доказательству, введем понятие длины игры. Под длиной игры Г будем понимать длину наибольшего пути в графе G = (X, F). Доказательство проведем индукцией по длине игры. Если длина игры Г равна единице, то может ходить лишь один из игроков, который, выбирая следующую вершину из условия максимизации своего выигрыша, будет действовать согласно стратегии, образующей абсолютное равновесие по Нэшу. Пусть теперь игра Г имеет длину к и xq G Х^ (т. е. в начальной позиции xq ходит игрок ii). Рассмотрим семейство подыгр Г2, z G FXo, длина каждой из которых не превосходит к — 1. Предположим, что теорема справедлива для всех игр, длина которых не превосходит к — 1, и докажем ее для игры к. Поскольку подыгры Tz, z G FXQ, имеют длину не более к — 1, по предположению индукции для них теорема справедлива и тем самым существует ситуация абсолютного равновесия по Нэшу. Обозначим для каждой подыгры Г2, z G FXo эту ситуацию через (йУ = [(щУ,...,(йпу]. (4.2.1) Используя ситуации абсолютного равновесия в подыграх 1\, построим ситуацию абсолютного равновесия в игре Г. Пусть щ(х) — (щ(х))г для х G ХгП Xz, z G FXo,i = 1,..., n, щх (xq) = z, где z находится из условия КЩйУ] ^ max К^ЦйУ] zeFXQ Функция щ определена на множестве Х{, г = 1,..., п очередности г-го игрока, а при каждом фиксированном х Е Xi значение щ(х) G Fx. Таким образом, щ, г = 1,... ,?г, является стратегией i-го игрока в игре Г, т. е. щ G U{. По построению, сужение (щ)г стратегии щ на множество Х\ П Xz является стратегией, входящей в абсолютное равновесие по Нэшу игры Г2, z G FXo. Следовательно, для завершения доказательства теоремы достаточно показать, что стратегии, щ, г — 1,... , п, образуют ситуацию равновесия по Нэшу в игре Г. Пусть г ф %\. По построению стратегии щ1, после выбора игроком %i позиции z на первом шаге игра Г переходит в подыгру Г^, поэтому К^и) = К*{(й)*} > Щ{(Щ\щУ} = КМщ), (4.2.3) щ eUu г = l,...,n, г Ф гь так как (u)z — ситуация абсолютного равновесия в подыгре IV Пусть щг G U^ — произвольная стратегия игрока %\ в игре Г. Обозначим zq = щ1(хо). Тогда Kh(u) = <{(«)*} = max Щ^йУ) > Щ°{{йУ°} > (4.2.4) >K«>{(u\\uhy»} = Kh(u\\uil). Утверждение теоремы следует теперь из (4.2.3), (4.2.4). (4.2.2)
192 (1.6) (1-7)< Д2.5) ,2\3 (1.4) -5 1(2.6) /О ,(1.5) (2.1) -2 4. Многошаговые игры 4N 3\ 4/ 1(2.7) (1-8) 1(2.4) ,(2.3) (1.2) (2.2) -5 6 XQ (1.1) Рис. 4.1. Игра с полной информацией на древовидном графе 4.2.2. Пример 1. Пусть игра Г происходит на графе, изображенном на рис. 4.1, и пусть множество N состоит из двух игроков: iV = {1,2}. На рис. 4.1 определим множества очередности. Изобразим вершины множества Х\ в виде кружков, а вершины множества Х^ — в виде квадратиков. Выигрыши игроков записаны в окончательных позициях. Перенумеруем двойными индексами позиции, входящие в множества Х\ и Хг, а дуги, выходящие из каждой вершины, — одним индексом. Выбор в вершине х эквивалентен выбору следующей вершины х' е Fx, поэтому будем предполагать, что стратегии указывают в каждой вершине номер дуги, по которой следует двигаться дальше. Например, стратегия iti = (2, 1, 2, 3, 1, 2, 1, 1) игрока 1 предписывает ему выбор дуги 2 в вершине 1, дуги 1 — в вершине 2, дуги 2 — вершине 3, дуги 3 — в вершине 4 и т. д. Так как множество очередности первого игрока состоит из восьми вершин, то его стратегия представляет собой восьмимерный вектор. Аналогично любая стратегия игрока 2 представляет собой семимерный вектор. Всего у первого игрока 864 стратегии, а у второго игрока — 576 стратегий. Таким образом, соответствующая нормальная форма оказывается биматричной игрой с матрицами размера 864 х 576. Естественно, что решение таких биматричных игр достаточно сложно. Вместе с тем рассматриваемая игра проста, и ее можно решить.
§4,2. Равновесие по Нэшу 193 Действительно, обозначим через v\{x), ^(ж) выигрыши в подыгре Тх в некоторой фиксированной ситуации абсолютного равновесия. Сначала решаем подыгры 1\б, Г^, Г2,7- Как легко убедиться, i>i(1.6) = 6, v2(1.6) = 2, vi(1.7) = 2, v2(1.7) = 4, vi(2.7) = 1, v2(2.7) = 8. Далее решаем подыгры Г2,5> Г2,65 Г^. В подыгре Г2.5 два равновесия по Нэшу, поскольку игроку 2 безразлично, какую альтернативу выбрать. Вместе с тем его выбор оказывается существенным для игрока 1, поскольку при выборе игроком 2 левой дуги первый игрок выигрывает +1, а при выборе игроком 2 второй дуги +6. Отметим это обстоятельство и предположим, что игрок 2 «благожелателен» и выбирает в позиции (2.5) правую дугу. Тогда v\{2.b) — Vi(1.6) = 6, v2(2.5) = v2(1.6) = 2, ui(2.6) - vi(1.7) = 2, v2(2.6) = v2(1.7) = 4, vi(1.8) = 2, v2(1.8) = 3. Далее решаем игры 1\з, Г1}4, Г2>з, Г1,5, Г2|4. В подыгре 1\з два равновесия по Нэшу, поскольку игроку 1 безразлично, какую альтернативу выбрать. Вместе с тем его выбор оказывается существенным для игрока 2, так как при выборе игроком 1 левой альтернативы он выигрывает 1, а при выборе правой — 10. Предположим, что игрок 1 «благожелателен» и выбирает в позиции (1.3) правую альтернативу. Тогда i>i(1.3) = 5, v2(1.3) = 10, vi(1.4) = гл(2.5) = 6, w2(1.4) = v2(2.5) - 2, гл(1,5) = гл(2.6) - 2, v2(1.5) - ^(2.6) = 4, ui(2.3) - 0, v2(2.3) = 6, ^(2.4) = 3, v2(2A) - 5. Далее решаем игры Г2Д, Г1>2, Г2,2: гл(2.1) = ui(l,3) = 5, v2(2.1) - v2(1.3) = 10, гл(1.2) - гл(2.4) = 3, v2(1.2) - v2(2A) = 5, ^i(2.2) — —5, г;2(2.2) — 6. Теперь решаем игру Гхд. Здесь vi(l.l) = vi(2.1) = 5, v2(l.l) = v2(2.1) = 10. В результате получаем ситуацию абсолютного равновесия по Нэшу (г^,г/2), где ч\ = (1,2,2,2,2,3,2,1), ^* - (1,3,2,2,2,1,2). (4.2.5) В ситуации (u^u^) игра развивается по пути (1,1), (2.1), (1.3). В процессе построения было замечено, что стратегии и*, г = 1,2 «доброжелательны» в том смысле, что игрок г при совершении своего хода, будучи в равной степени заинтересован в выборе последующих альтернатив, выбирает ту из них, которая более благоприятна для другого игрока. В игре Г существуют ситуации абсолютного равновесия, в которых выигрыши игроков будут, другими. Для построения таких равновесий достаточно снять условие «доброжелательности» игроков и заменить его обратным условием «недоброжелательности». Обозначим через Vi(x), у2(х) выигрыши игроков в подыгре Тх при использовании игроками «недоброжелательного» равновесия. Тогда имеем i?i(1.6) = Ui (1.6) = б, U2(1.6) = jJ2(1.6) = 2, гл(1.7) - ^(1.7) = 2, г;2(1.7) = г72(1.7) = 4, ^(2.7) = -2, г>2(2.7) = г^2(2.7) = 8. Как уже отмечалось, в подыгре Г2,5 два равновесия по Нэшу. В отличие от предыдущего случая предположим, что игрок 2 «недоброжелателен» и выбирает ту из вершин, в которой при его максимальном выигрыше выигрыш игрока 1 минимален. Тогда ^(2.5) = 1, г72(2.5) = 2, tJi(2.6) = vi(1.7) = 2, г72(2.6) = г;2(1.7) = 4, tJi(1.8) = vi(1.8) = 2, tJ2(1.8) = v2(1.8) = 3. Далее ищем решение игр Г\3, Г\4, 1\5, Г2,з, Г2)4- В подыгре Гх5з два равновесия по Нэшу. Как и в предыдущем случае, выберем «недоброжелательные» действия игрока 1. Тогда имеем: tJi(1.3) = i?i(1.3) = 5, г>2(1.3) = 1, ui(1.4) = 2, г72(1.4) = 3, T7i(1.5) - гл(2.6) - гл(1.5) - 2, г72(1.5) - v2(2.6) - v2(2.6) = 4, vi(2.3) = vi(2.3) - 0, г72(2.3) = v2(2.3) - 6, tJi(2.4) = гл(2.4) = 3, г72(2,4) - v2(2.4) = 5. Далее решаем игры Г2д, 1\2, Г2)2. Имеем tJi(2.1) = tJi(1.5) = 2, г>2(2.1) = г?2(1.5) = 4, ui(1.2) - ui(2.4) - 3, г72(1.2) = г72(2.4) = 5, г72(2.2) = v2(2.2) - 6, ^(2.2) = Ui(2.2) = -5. Теперь решаем игру Г = Гхд. Здесь tJi(l.l) = v\(1.2) = 3, tJ2(l.l) — v2(1.2) = 5.
194 4. Многошаговые игры Таким образом, получена новая ситуация равновесия по Нэшу й\ = (2,2,1,1, 2, 3, 2,1), й* - (3,3,2,2,1,1,3). (4.2.6) Выигрыши обоих игроков в ситуации (4.2.6) меньше таковых в ситуации (4.2.5). Ситуация (4.2.6), так же как и ситуация (4.2.5), является ситуацией абсолютного равновесия. §4.3. Основные функциональные уравнения 4.3.1. Рассмотрим многошаговые антагонистические игры с полной информацией. Если в условиях определения §4.1. множество игроков состоит из двух элементов N = {1,2} и Я2(х) = —Hi(x) для всех х е Х$ (Хз — множество окончательных позиций в игре Г), то Г = (iV, [7^, JQ) оказывается антагонистической многошаговой игрой с полной информацией. Очевидно, что этим же свойством обладают и все подыгры Tz игры Г. Так как из условия #2(#) — —Н\(х) немедленно следует, что ^2(^1^2) = —^1(^1,^2) для всех и\ Е U\, U2 G U2, то в ситуации равновесия по Нэшу (it*,U2) выполняются неравенства /^(г/ьЦ) < К^и^и^) < Ki(u*,U2) для всех Щ Е f/i, U2 Е U2- Пару (г^'Ц) в этом случае будем называть ситуацией равновесия или седловой точкой, а стратегии, образующие ситуацию равновесия, оптимальными. Значения функции выигрыша в ситуации равновесия обозначим v и назовем значением игры Г. Из п. 4.2.1 следует, что в антагонистической многошаговой игре с полной информацией на конечном древовидном графе существует ситуация абсолютного равновесия, т. е. такая ситуация (и^и^), сужение которой на любую подыгру Tz игры Г образует в Tz ситуацию равновесия. Для любой подыгры Гу можно также определить число v(y), представляющее значение функции выигрыша в ситуации равновесия этой подыгры и называемое значением подыгры Гу. Можно легко показать, что значение антагонистической игры (т. е. значение функции выигрыша игрока 1 в ситуации равновесия) определяется единственным образом, поэтому функция v(y) определена для всех у Е Х\, у Е X2 и является однозначной функцией. 4.3.2. Выведем функциональные уравнения для вычисления функции v(y). Из определения v(y) следует, что v(y)=к\{{и\)\ ю*) = -щкг, («$)»), где ((и*)у, (uffi) — ситуация равновесия в подыгре Гу, являющаяся сужением ситуации абсолютного равновесия (и^и^)- Пусть у Е Х\ и z Е Fy. Тогда имеем v(y) = moxKf((ul)z, (u*2)z) = тахф). (4.3.1) z G Fy z G Fy Для у E X2 аналогично получаем v(y) = -КШи1)УЛи*2)у) = -тжЩ((и*1У,(и*2У) = zeFy = — max(—v(z)) = min v(z) zeFy z^Fy (4.3.2)
§4.3. Основные функциональные уравнения 195 Из (4.3.1) и (4.3.2) окончательно имеем v(y) —maxv(z), у е Х\\ (4.3.3) zeFy v(y) = min v(z)y у е Х2. (4.3.4) zeFy Уравнения (4.3.3), (4.3.4) решаются при граничном условии г;Ы|уеХз=Я1(у). (4.3.5) Система уравнений (4.3.3), (4.3.4) с граничным условием (4.3.5) позволяет осуществить попятную рекуррентную процедуру нахождения значения игры и оптимальных стратегий игроков. Действительно, пусть значения всех подыгр Tz длиной l(z) < к — 1 известны и равны v(z), пусть Ту — некоторая подыгра длиной 1(у) = к. Тогда, если у е Xi, то v(y) определяется по формуле (4.3.3), если же у Е Х2, то v(y) находится по формуле (4.3.4). При этом значения функций v(z) в формулах (4.3.3), (4.3.4) известны, поскольку соответствующие подыгры имеют длину не более чем к — 1. Эти формулы указывают способ построения стратегий игроков. Действительно, если у G Xi, то игрок 1 (максимизирующий) должен выбрать в точке у вершину z G Fy, для которой значение следующей подыгры максимально. Если же у G Х2, то игрок 2 (минимизирующий) должен выбрать позицию z G Fy, для которой значение следующей подыгры минимально. В случае, когда выборы игроков в антагонистической многошаговой игре чередуются (поочередная игра), уравнения (4.3.3), (4.3.4) могут быть записаны в виде одного уравнения. Действительно, рассмотрим подыгру Тх и пусть, для определенности, х G Х\. Тогда в следующей позиции ходит игрок 2 или эта позиция является (игра поочередная) окончательной, т. е. Fx С Х2 U Х%. Поэтому можно записать v(x) = maxv(y), x G Х\\ (4.3.6) yeFx v(y) = min v(z), yGFxcX2D X3. (4.3.7) zeFy Подставляя (4.3.7) в (4.3.6), получаем v(x) = max[min v(z)], x G X\. (4.3.8) yeFx zeFy Если ж G I2, то аналогично имеем v(x) = mm[maxv(z)]. (4.3.9) yeFx zeFy Уравнения (4.3.8), (4.3.9) эквивалентны и должны рассматриваться с начальным условием v(x)\xeXs =Нг(х). 4.3.3. Теорема п. 4.2.1 о существовании абсолютного равновесия по Нэшу, рассматриваемая применительно к антагонистическим поочередным многошаговым играм, позволяет утверждать существование ситуации равновесия в «шахматах», «шашках», в классе чистых стратегий, а уравнения (4.3.8), (4.3.9) показывают путь для нахождения значения игры. Вместе с тем очевидно, что никогда в обозримом будущем решение
196 4. Многошаговые игры указанных функциональных уравнений для нахождения значения игры и оптимальных стратегий не будет реализовано на ЭВМ и мы так и не узнаем, может ли какой- либо игрок, «белый» или «черный», гарантировать победу в любой партии или всегда возможна «ничья»? Однако в шахматах и шашках делаются небезуспешные попытки построения приближенно оптимальных решений путем создания программ, думающих на несколько шагов вперед, и использования всевозможных (полученных, как правило, эмпирическим путем) функций оценки текущих позиций. Такой подход возможен и при исследовании общих антагонистических многошаговых игр с полной информацией. Последовательное итерирование оценочных функций на несколько шагов вперед может привести к желаемым результатам. § 4.4. Иерархические игры Важнейшим подклассом неантагонистических многошаговых игр являются иерархические игры. Иерархические игры моделируют конфликтно-управляемые системы с иерархической структурой. Такая структура определяется последовательностью уровней управления, следующих друг за другом в порядке определенного приоритета. В математической постановке иерархические игры классифицируются по числу уровней и характеру вертикальных связей. Простейшей из них является двухуровневая система, схема которой изображена на рис. 4.2. Рис. 4.2. Древовидная структура управления 4.4.1. Двухуровневая конфликтно управляемая система функционирует следующим образом. Управляющий (координирующий) центр Ло, находящийся в первом уровне иерархии, выбирает вектор и— (и\,..., ип) из заданного множества управлений U', где щ — управляющее воздействие центра на подчиненные ему подразделения В^ г = 1,..., п, находящиеся на втором уровне иерархии. В свою очередь, В{, г — 1,..., п выбирают управления Vi E У{(щ), где У{(щ) — множество управлений подразделения Bi, предопределенное управлением и центра Д>. Таким образом, управляющий центр имеет право первого хода и может ограничивать возможности подчиненных ему подразделений, направляя их действия в нужное русло. Цель центра Aq заключается в максимизации по и функционала Kq(u, fi,..., г»п), а подразделения Б;, г = 1,..., п, обладая собственными целями, стремятся максимизировать по vi функционалы Кг(щ,Уг). 4.4.2. Формализуем эту задачу как бескоалиционную игру (п + 1)-го лица Г (административного центра Ао и производственных подразделений J5i,..., Вп) в нормальной форме.
§4.4. Иерархические игры 197 Пусть игрок Л о выбирает вектор u G С/, где п [У = [и — (ui,... ,гхп) : г^ > 0, щ G R1, % = 1,... , n, yj^ < ^}> 6 > О г=1 — множество стратегий игрока Aq в игре Г. Вектор щ будем интерпретировать как набор ресурсов I наименований, выделяемых центром Aq для г-го производственного подразделения. Пусть в исходной задаче п. 4.4.4 каждый из игроков В^ зная выб*ор Aq, выбирает вектор Vi G \Ъ(щ), где Уг{щ) = {vi G Rm : ViAi <щ + ah Vi > 0}. (4.4.1) Вектор Vi, интерпретируется как производственная программа г-го производственного подразделения по различным видам продукции; А{ — производственная или технологическая матрица г-го производственного подразделения (Ai > 0); с^ — вектор наличных ресурсов г-го производственного подразделения (щ > 0). Под стратегиями игрока Bi в игре Г будем понимать множество функций г^(-), ставящих в соответствие каждому элементу щ : (щ,..., щ,..., ип) G U вектор у^щ) G Vi(ui). Множество таких функций будем обозначать через Vi, г = 1,..., п. Определим функции выигрышей игроков в игре Г. Для игрока А0 функция выигрыша имеет вид п К0(и, vi(-),..., vn(-)) = ]Гам(щ), где ^ > 0, ai G Rm — фиксированный вектор, г = 1,...,п; а а^(щ) — скалярное произведение векторов а$ и Уг(щ). Функцию выигрыша игрока Bi полагаем равной Ki(u,Vi(-)> . . . , Vn(-)) = CiVi(Ui), где Ci > 0, Ci G Rm — фиксированный вектор, г — 1,..., п. Таким образом, игра Г имеет вид Г = (U, V\,..., Vn, К§,К\,..., Кп). 4.4.3. Построим ситуацию равновесия по Нэшу в игре Г. Пусть у*(щ) G Vi(ui) — решение задачи параметрического линейного программирования (параметром является вектор щ) max CiVi = CiV*(ui), г = 1,..., п, (4.4.2) vieVi(ut) и пусть и* е U — решение задачи тах^оК^(-), ...,<('))- (4.4.3) Для простоты предполагаем, что максимумы в (4.4.2) и (4.4.3) достигаются. Заметим, что (4.4.3) — задача нелинейного программирования с существенно разрывной целевой функцией (максимизация ведется по г/, и у*(щ), вообще говоря, — разрывные функции параметра щ). Покажем, что точка (u*,v\(-),...,v^(-)) является ситуацией равновесия в игре Г. Действительно, Ко(«,,^('),...,<('))>Щ«,^а...,<0)) ueU.
198 4. Многошаговые игры Далее, при всех i = 1,..., п справедливо неравенство Щи*, «?(-), ...,<(-)) =Ci<«) >CiVi(u*) = = Ki(u*,v*1(-),...,v*_1(-),viC), <+1(-),---,<(-)) для любой Vi(-) G V$. Таким образом, никому из игроков Aq, Si,..., Вп невыгодно в одностороннем порядке отклоняться от ситуации (ii*,t>i(-),... ,?;*(-)), т. е. она является равновесной. Заметим, что эта ситуация также устойчива против отклонения от нее любой коалиции S С {В\,... ,БП}, поскольку выигрыш Кг г-го игрока не зависит от стратегий Vj(-)^ j G {1,..., n}, j ^ i. §4.5. Иерархические игры (кооперативный вариант) В этом параграфе рассматривается кооперативный вариант ряда простейших иерархических игр (в том числе игры, определенной в п. 4.5.1, 4.5.2). Строятся характеристические функции и исследуются условия существования непустого С-ядра. 4.5.1. Исходя из содержательного смысла задачи п. 4.4.1, 4.4.2 и с использованием стратегией, образующих равновесие по Нэшу, для каждой коалиции S С N = {Aq, 2?ь ..., Вп} определим ее гарантированный доход v(S) следующим образом: Г 0, при S = {Л0}, v(S) = I Ei:Bies с^*(0), при А0 # 5, (4.5.1) [ Ш^Х{иеи:Т:г:В.е3иг=Ь} EiiB^sK + С*КЫ, ПРИ ^0 <Е 5, где у*(щ), г = 1,... ,п — решение задачи параметрического линейного программирования (4.4.2). Первое из (4.5.1) имеет место, поскольку коалиция {J3i,... ,Вп} может добиться получения нулевого выигрыша игроком Aq, выбирая все V{ = 0, г = 1,... ,п; второе справедливо, так как игрок Aq всегда может гарантировать для S выигрыш не более чем ErB esc^*(0)> направляя каждому Bi G S нулевой ресурс; третье равенство (4.5.1) имеет место, поскольку коалиция 5, содержащая в своем составе Aq, всегда может обеспечить распределение всего ресурса только между своими членами. Пусть S — произвольная коалиция, содержащая Aq. Обозначим через us — (uf,..., u%) вектор, доставляющий максимум в задаче нелинейного программирования v(S) = max Y^ (ai + Ci)v*(ui) (для г : Bi ^ S выполнено условие uf = 0). Тогда для любой коалиции S С S, S ^ Aq, Ао G S справедливо следующее неравенство: 5] К + ф?(и?) > J2 (di + CiX(uf) = i:BieS i:BteS\S
§4.5. Иерархические игры (кооперативный вариант) 199 Пусть S, R С N, S П fi = 0 и Ло ^ S т^ А)- Тогда Ао 0 i?. Принимая во внимание УСЛОВИЯ (Li > О, Ci > 0, ^г > 0, % — 1, . . . , 71, ИМввМ г;(5иЛ)= Е (<*+<*К(«.?иЛ) > Е К + c,K(Uf) = ^ (а, + CiK(«f)+ + J2 {ai + Ci)vi(0)=v(S)+v(R)+ J2 WiW>v{S)+v(R), i:BzeR i:Bi,eR ГДе Ег-в-бЯа^*(0) — 0 — выигрыш центра Ао от «нефинансируемых» предприятий. В случаях Aq ^ S U R или S = Ао & R неравенство v(S U R) > v(S) + v(R) очевидно. Таким образом, функция v(S), определяемая (4.5.1), супераддитивна и можно рассмотреть кооперативную игру {{Ао,В\,..., Bn}yv) в форме характеристической функции. 4.5.2. Рассмотрим (п + 1)-мерный вектор п ^(^^(^г)^!^^!),...,^^^)), (4.5.2) г=1 где й = uN. Вектор ^ является дележом, поскольку выполнены следующие соотношения: 71 71 Х) ^& = ^(аг + Сг)у?(щ)=у(МУ, k=0 г=1 п 2) ео = Х^*^)^0 = ^А°)' г=1 & = с^*(^) > Сг<(0) = г;(Бг), г = 1,... ,п. Напомним условие принадлежности дележа С-ядру. Согласно теореме п. 3.12.1 необходимым и достаточным условием принадлежности дележа (СсьСъ - - - >^п) С-ядру является выполнение неравенства ^i>v(S) (4.5.3) для всех коалиций S С {Ао, J3i,..., Вп}. Выведем условие, при котором дележ ^ принадлежит С-ядру. Если S = {А0} или 5 С {J5i,..., Бп}, то условие (4.5.21) выполнено, поскольку 71 *=1 Е& = Е <**(«<)> Е ^4*(0)=«(5). гб5 i:BieS i:BzeS Если Ао G 5 ^ Аь то условие (4.5.21) можно записать в виде 71 ^а*г>*(г^)+ ^ с^*(^) = ]Г а*<(гц) + ]Г с*<(г^)+ г=1 i:Bq.eS i:BzeS i:BteS + 53 а»<(гГ»)> J2 (ai + Ci)v*(uf). i:BigS i:BzeS
200 4. Многошаговые игры max max ueu vkevk(uk) Следовательно, дележ (4.5.2) принадлежит С-ядру, если для всех S : Ло e 5, выполнено неравенство ]Г а^1(щ) > Y^ (ai + °i)[vZ(uf) - V*(Ui)]. i:Bt&S i:BiZS Заметим, что в данном случае мы определили характеристическую функцию игры, используя выигрыш в ситуации равновесия по Нэшу, и величина v(N) = maxu X^ILi(a«+ Ci)v*(ui), вообще говоря, меньше максимального суммарного выигрыша всех игроков, равного Г п 1 rP(afc + ck)vk(uk) , (в этом отличие от принятого в гл. 3 определения характеристической функции). 4.5.3. Характеристическую функцию игры можно построить и обычным способом, а именно: для каждой коалиции S определить ее как значение антагонистической игры между этой коалицией и коалицией остальных игроков N \ S. Построим теперь характеристическую функцию именно таким образом. При этом несколько обобщим предыдущую задачу, введя в рассмотрение произвольные функции выигрышей участников игры. Как и ранее, будем предполагать, что центр Л о распределяет ресурсы между подразделениями В\,..., Вп, которые используют эти ресурсы для производства продукции. Выигрыши управляющего центра Ло и «производственных» подразделений jBi, ..., Вп зависят от продукции, производимой J5i,..., Вп. Вектор ресурсов, имеющийся в распоряжении центра Ло, обозначим через Ъ. Центр (игрок) Aq выбирает систему п векторов u = (iti,... ,ип) из множества п U = {u = (tfci,...,wn) : ик > 0,ик G Rl,^2uk < Ь, к = 1,... ,п}. fc=i Здесь ик интерпретируется как вектор ресурса, выделяемый центром Aq производственному подразделению Вк. Возможности предприятия (игрока) Вк определяются ресурсом ик, получаемым от Л о, т. е. предприятие Вк выбирает свою производственную программу хк из множества Вк(ик) С Rm неотрицательных векторов. Будем предполагать, что множества Вк(ик) при всех ик содержат нулевой вектор и монотонно возрастают по включению, т. е. из и'к > ик следует Вк{и'к) D Вк{ик). Кроме того, выполнено условие Вк(0) — 0 (невозможность производства при отсутствии ресурсов). Пусть х = (xi,... ,хп). Выигрыш игрока Ло определяется с помощью неотрицательной функции 1о(х) > 0, а выигрыши игроков Вк полагаем равными 1к{хк) > 0, к — 1,..., п (выигрыш игрока Вк зависит лишь от производственной программы). Для простоты будем считать, что выигрыш центра Л о удовлетворяет условию 1о(х) = Х^(Ж/с)' к=1 где слагаемое 1(хк) интерпретируется, как выигрыш игрока Ло, получаемый от игрока Вк. Предположим также, что 1(хк) > 0 для всех хк G Вк{ик) и ^(0) = 0, /(0) = 0, А; = 1,... ,п. Подобно тому, как это сделано в § 4.5, представим иерархическую игру п. 4.5.3 в виде бескоалиционной игры (п + 1) лица в нормальной форме, где стратегиями игрока
§4.5. Иерархические игры (кооперативный вариант) 201 Aq будут векторы u G J7, а стратегиями игроков Б^ — функции из соответствующих множеств. Построим характеристическую функцию г;(-) этой игры, следуя п. 3.11.2. Для каждого подмножества S игроков v(S) будет равно значению (оно существует в условиях п. 4.5.3) антагонистической игры между коалициями S и N \ 5, в которой выигрыш коалиции S определяется как сумма выигрышей, принадлежащих множеству S игроков. Пусть N = {Ло, JBi,..., Вп}. Тогда v(N) = sup sup \Y2iKxk) + h(xk)] >. {ueU:J27k=i Uk=b} xkeBk(uk), k=l,...,n l^^ J Заметим, что для всех S С {JBi,... ,'J5n}, v(S) — 0, поскольку игрок Aq всегда может распределить весь ресурс b среди членов коалиции N \ 5, в которую он входит, лишив, таким образом, коалицию 5 ресурсов (т. е. Л о всегда может положить Uk = 0 для к : Bk G 5, что приводит к jB^(O) = 0 для всех Bk G 5). Рассуждая аналогично, имеем г;(Ао) = 0, поскольку игроки JBi,..., jBn всегда могут сделать выигрыш центра Ао равным нулю, полагая Xk — 0 для к = 1,... ,п (не производя продукции). В том случае, когда коалиция S содержит центр Д), очевидно, что Aq будет распределять весь ресурс среди членов коалиции. Это соображение приводит к следующей формуле: v(S)= sup sup I ^2 [Kxk) + h(xk)]\ {ueU:J2k:Bkesub=b}xkeBk(uk), k:Bktslk:BkeS ) для S : A0 G 5. Можно показать, что при таком определении характеристической функции, С-ядро множества дележей п {а = (a0,o;i,...,Q;n) : а» > 0,г = 0,1,... ,n,^a» = v(A^)} г=0 всегда непусто. 4.5.4. Иерархические системы с подразделениями двойного подчинения называются ромбовидными (рис. 4.3). Управление подразделения двойного подчинения С зависит от управления В\ и от управления f?2. Ао Рис. 4.3. Ромбовидная структура управления Можно представить ситуацию, в которой центр В\ представляет интересы отрасли, а В2 — региональные интересы, включающие вопросы охраны окружающей среды. Простая ромбовидная система управления является примером иерархической системы
202 4. Многошаговые игры с тремя уровнями принятия решений. На высшем уровне находится административный центр, располагающий материальными и трудовыми ресурсами. Он воздействует на деятельность двух подчиненных ему центров, принадлежащих следующему уровню. От решений, принимаемых этими центрами, зависит объем производства предприятия, находящегося на последнем уровне иерархической системы. Будем рассматривать этот процесс принятия решений, как некоторую игру четырех лиц. Обозначим ее через Г. Переходя к игровой постановке, условимся считать, что на 1-м шаге ходит игрок Aq и выбирает элемент (стратегию) и = (tti, г^) из некоторого множества {/, где U — множество стратегий игрока А$. Элемент и G U ограничивает возможности выборов игроков В\ и Въ на следующем шаге. Другими словами, множество выборов игрока В\ оказывается функцией параметра и\ (обозначим его через В\(и\)), и, аналогично, множество выборов игрока В2 оказывается функцией параметра щ (обозначим его через ДДг^)). Через ьо\ G В\{и\) и и)2 ^ B^iu^) обозначим элементы множества выборов игроков В\ и В2 соответственно. Параметры оо\ и и)2, выбираемые игроками В\ и Z?2, задают ограничения на множество выборов игрока С на 3-м шаге игры, т. е. это множество оказывается функцией параметров ьо\ и 0)2- Обозначим его через С (0)1,0)2), а элементы этого множества (производственные программы) — через г>. Пусть выигрыши всех игроков Aq, jBi, jE?2, С зависят только от производственной программы г?, выбираемой игроком С, и равны соответственно h(v), l2(v),h(v)ih(v)i где 1{(у) > 0. Такую иерархическую игру можно представить как бескоалиционную игру четырех лиц в нормальной форме, если считать стратегиями игрока Aq элементы и — (u\,U2) Е U, а стратегиями игроков В\, B2 и С — функции о)\(и\), ^2(^2) и ^(^ь^г) со значениями в множествах В\(и\), #2(^2), С (0)1,0)2), соответственно (обозначим множества таких функций через В±,В2, С) которые каждому возможному выбору игрока (или игроков), находящегося на более высоком уровне, ставят в соответствие выбор данного игрока. Полагая Ki(u,0)1('),0)2('),v(')) = li(v(uJ1(u1),U)2(u2)), 2=174, получим нормальную форму игры Г T = (U,B1,B2,C,K1,K2,KS,KA). 4.5.5. Будем искать ситуацию равновесия по Нэшу в игре Г. Для этого выполним вспомогательные построения. Для каждой фиксированной пары (0)1,0)2), (^1,^2) ^ \JueuBi{ui) х B2{u2) обозначим через у*(о)1,о)2) решение параметрической экстремальной задачи max l4(v) = U(v*(l>i,cj2))' (4.5.4) (Считаем, что максимум в (4.5.4) достигается.) Решение v*(-) = v*(0)1,0)2) задачи (4.5.4) оказывается функцией параметров oji,oj2 и v*(m) ^ С. Рассмотрим вспомогательную параметрическую (с параметрами ui,u2) неантагонистическую игру r'(tfci,ifc2) = {Bi(ui),B2(u2)MM}, где l2 = h(v* (0)1,0)2)), h = ^з(^*(^?1,^2))- Стратегиями игрока JBi ъТ'(и\,и2) являются элементы о)\ (Е В\(и{), стратегиями игрока Б2 являются элементы о;2 Е B2(u2). Предположим, что в игре Т'(и\, U2) существует ситуация равновесия по Нэшу, которую обозначим (o)i(u\), 0)2(1*2))- Отметим, что о)*(-) является функцией параметра щ и о)*(-) G Bi, i = 1,2. Пусть, далее, и* — (u\,U2) — решение следующей экстремальной задачи: maxZi(?;*(a;J(tfci), u)2(u2)))- (4.5.5) uGU
§4.5. Иерархические игры (кооперативный вариант) 203 Лемма. Совокупность (и*,бс;^(-),^(О?г?*(*)) является ситуацией равновесия по Нэшу в игре Г. Доказательство. Согласно определению и* из (4.5.5) следует соотношение ^(u'.wJO.t^O,«'(О) = max^*K(wi),<4(«2))) > uGU > h(v*(L0l(Ul),C0*2M)) = ^lKWl*(.),w2(.),«*(-)) для всех и G U. Поскольку ujI(u\),uj^u^) образуют ситуацию равновесия по Нэшу во вспомогательной игре Г^,^), для любой функции u)i(-) G jBi, uji(u*) = cDi G J3i(it*) выполняются соотношения ^2(«»,WJ(-),W5(.),W*(-)) = i2(w*K(til),w5(«2))) > >fe(«*(w1(«j),w5(«5))) = ir2(«*,w1(.),w5(.), «*(-)) Аналогичное неравенство справедливо и для игрока #2- По определению функции v* из (4.5.4) имеем: К4(гЛ^(0^2*(-)Х(-)) = «4ККМ,^М)) = = „, J?^ ., Mv)>Ia{v) = Ka{u\^1('),ujI('),v{-)) veC(u*{ut),u*(u*)) для любой функции v(-) G С, ^(<*;*(гл*),с^2(Ц)) = ^ G C(^i(ui)^(Ц))- Лемма доказана. 4.5.6. Применяя максиминный подход, для каждой коалиции 5 С {Ао,-ВьД2,С} определим v'(S) как наибольший гарантированный выигрыш S в антагонистической игре между коалицией 5, выступающей в качестве максимизирующего игрока, и коалицией Sf — {Ло, JBi, #2, С} \ 5. Предположим, что существует такое vo G С(ш\,L02) для всех cji,o;2, что /i(^o) = 0, г — 1,2,3,4. Будем различать два вида коалиций: 1) 5 : С 0 5; 2) 5 : С G 5 . В первом случае S С {Д^-Вь-Вг} и игрок С, являющийся членом коалиции N \S, может выбрать стратегию vq : k(vo) — 0, i — 1,2, 3,4. Поэтому г/(5) = 0. Во втором случае определим характеристическую функцию v'(S) следующими равенствами: а) 5 = {С} v'(S) = min min min max h(v), uGU wieBi(ui) lo2^B2{u2) vGC(wi,W2) (здесь и далее предполагаем, что все max и min достигаются); 6)S = {A0,C} v'(S) = m&x min min max (l\(v) + U(v)); ueU wiGBi(ui) 0)2662(^2) v6C(wi,w2) b)5 = {Bi,C} г>'(5) — min max min max (h(v) + h(v))i uGU 0JieBi(ui) ш2еВ2(и2) veC(oJi,u)2) r)S = {S2,C} v'(S) — min max min max (h(v) + /4(f)); uGU u>2eB2(u2) wiGBi(ui) vGC(o;i,W2)
204 4. Многошаговые игры д)5 = {ВьВ2,С} v'(S) e)S = {A0,BuC} t/(S) 3)S = {AbBi,B2,C} 4 г/(5) = max max max max /ц(^)« u^C/ cjiGBi(ui) W2eB2(u2) ^C(wi,W2) T""f г=1 При таком определении характеристическая функция обладает свойством супераддитивности, т. е. для любых S, R С {Ло, i?i, -В25 С}' Для которых SC\R = 0, имеет место неравенство г>(5 U Я) > г;(5) + v(jR). § 4.6. Многошаговые игры с неполной информацией 4.6.1. В предыдущих параграфах рассматривались многошаговые игры с полной информацией, определенные на конечном древовидном графе G = (X, F), в которых каждый из игроков в момент совершения своего хода точно знал, в какой позиции или в какой вершине дерева он находится. Именно поэтому удалось ввести понятие стратегии игрока г, как однозначной функции щ(х)у определенной на множестве очередности Xi со значениями в множестве Fx. Однако если попытаться исследовать многошаговую игру, в которой игроки при совершении своих выборов не знают точно позиции, в которой они совершают ход, или могут лишь предполагать, что эта позиция принадлежит некоторому подмножеству А множества очередности Х^то реализация стратегии игрока как функции от позиции х G Xi окажется невозможной. Таким образом, желание усложнить информационную структуру игры неизбежно приводит к изменению понятия стратегии. Для точных формулировок необходимо в первую очередь формализовать понятие информации в игре. Важную роль здесь играет понятие информационного множества. Проиллюстрируем это на нескольких простейших, ставших классическими в учебной литературе по теории игр, примерах [Мак—Кинси, I960]. Пример 2 (Игра антагонистическая). Делая 1-й ход, игрок 1 выбирает число из множества {1,2}. Второй ход делает игрок 2. Зная выбор игрока 1, он выбирает число из множества {1,2}. Третий ход опять делает игрок 1. Зная выбор*игрока 2 и помня свой выбор, он выбирает число из множества {1,2}. На этом игра прекращается, и игрок 1 получает выигрыш Н (игрок 2 получает выигрыш (—#")> т. е. игра антагонистическая). min max max max V^ h(v)\ г=2,6Л max max min max \ h(v)] ueU wiejBi(ui) W2GB2(u2) vGC(wi,w2) . ~L , 1=1,2Л max max min max V^ h{v)\ ueU u2eB2(u2) wiGBi(wi) уеС(и)г,со2) J_7*i d
§4.6. Многошаговые игры с неполной информацией 205 Функция Н определяется следующим образом: #(1,1,1) = -3, Я(2,1,1)=4, (4.6.1) #(1,1,2) = -2, Я(2,1,2) = 1, (4.6.2) Я(1,2,1) = 2, Я(2,2,1) = 1, (4.6.3) Я(1,2,2) - -5, Я(2,2,2) - 5 (4.6.4) Граф G = (X, F) игры изображен на рис. 4.4. Кружками на графе изображены позиции, в которых ходит игрок 1, а квадратиками — позиции, в которых ходит игрок 2. Рис. 4.4. Дерево антагонистической игры Если множество Х\ обозначить через X, множество Х^ — через Y и элементы этих множеств соответственно — через х G X, у (Е Y^ то стратегия игрока 1, wi(-), задается пятимерным вектором U\{-) = {u\{xi),Ui{x2),^1(2:3),ui{x^)^ui(x5)}, предписывающим выбор одного из двух чисел {1,2} в каждой позиции множества X. Аналогично стратегия U2(-) игрока 2 представляет собой двумерный вектор U2(-) = {u2(yi),U2{y2)}, предписывающий выбор одного из двух чисел {1,2} в каждой из позиций множества У. Таким образом, у игрока 1 в этой игре 32 стратегии, а у игрока 2 — 4 стратегии. Соответствующая нормальная форма игры имеет матрицу размера 32x4, которая однако (это следует из теоремы п. 2.1), имеет ситуацию равновесия в чистых стратегиях. Можно убедиться, что значение рассматриваемой игры равно 4. Игрок 1 имеет четыре оптимальные чистые стратегии: (2, 1, 1, 1, 2), (2, 1, 2, 1, 2), (2, 2, 1, 1, 2), (2, 2, 2, 1, 2), у игрока 2 — две оптимальные стратегии: (1, 1), (2, 1). 4.6.2. Пример 3. Несколько изменим информационные условия примера 2. Игра антагонистическая. Делая первый ход, игрок 1 выбирает число из множества {1,2}. Второй ход делает игрок 2. Зная выбор игрока 1, он выбирает число из множества {1,2}. Третий ход делает игрок 1. Не зная выбора игрока 2 и забыв свой выбор, он выбирает число из множества {1,2}. На этом игра прекращается и выигрыш определяется по формуле (6.1), так же как и в игре примера 2. Граф G — (X, F) игры не изменяется, однако, находясь в узлах Х2,жз,Х4,Ж5 (на 3-м ходе игры), игрок 1 не может определить, в каком из этих узлов он на самом деле
206 4. Многошаговые игры находится, но, зная очередность хода (3-й ход), он может быть уверен, что не находится в узле х\. На графе G мы обведем узлы #2,#з, 24,^5 пунктирной линией (рис. 4.5). Рис. 4.5. Дерево игры примера 3 В результате узел х\ оказался обведенным кружком, что можно интерпретировать как точное знание игроком 1 этого узла, когда он в нем находился. Узлы yi,t/2 обведены квадратиками, что также означает, что игрок 2, находясь в одном из них, при совершении своего хода может отличить его от другого. Объединяя узлы Ж2,#з,Ж4,Ж5 в одно множество, мы иллюстрируем факт их неразличимости для игрока 1. Множества, на которые разбиты узлы, будем называть информационными множествами. . Перейдем теперь к описанию стратегий. Состояние информации игрока 2 не изменилось, поэтому множество его стратегий то же, что и в примере 2, т. е. оно состоит из четырех векторов (1, 1), (1, 2), (2, 1), (2, 2). Информационное состояние игрока 1 изменилось. На 3-м шаге игры он знает лишь номер этого шага, но не знает позиции, в которой находится. Следовательно, он не может реализовать выбор следующей вершины (или выбор числа из множества {1,2}) в зависимости от позиции, в которой находится на третьем шаге. Поэтому на 3-м шаге ему остается независимо от в действительности реализовавшейся позиции выбирать одно из двух чисел {1,2}. Поэтому его стратегия представляет собой пару чисел (г, j), i,j (E {1,2}, где число г выбирается в позиции #i, а число j на 3-м шаге одинаково во всех позициях #2,х'з, ж4^5- Таким образом, выбор числа j оказывается функцией множества и может быть записан как u{x2iX3,X4,Xb} — j. В данной игре у обоих игроков по четыре стратегии и матрица игры имеет вид (1.1) (1.2) (2.1) (2.2) (1.1) Г -3 -3 2 2 1 (1.2) -2 -2 -5-5 (2.1) 4 1 4 1 ' (2.2) [ 1 5 1 5 J В этой игре нет ситуации равновесия в чистых стратегиях. Значение игры равно 19/7, оптимальная смешанная стратегия игрока 1 есть вектор (0,0,4/7,3/7), а опти-
§4.6. Многошаговые игры с неполной информацией 207 мальная смешанная стратегия игрока 2 равна (4/7,3/7,0,0). По сравнению с примером 2 гарантированный выигрыш игрока 1 уменьшается. Это вызвано ухудшением его информационного состояния. Интересно заметить, что матрица игры примера 3 имеет размер 4 х 4 , в то время как матрица игры примера 2 имеет размер 32 х 4.Таким образом, уменьшение доступной информации уменьшает размер матрицы выигрышей, следовательно, и облегчает решение самой игры, что противоречит распространенному мнению о том, что уменьшение информации приводит к усложнению принятия решений. Изменяя информационные условия, можно получить другие варианты игры, описанной в примере 2. 4.6.3. Пример 4- Делая первый ход, игрок 1 выбирает число из множества {1,2}. Второй ход делает игрок 2, который, не зная выбора игрока 1, выбирает число из множества {1,2}. Далее, совершая 3-й ход, игрок 1 выбирает число из множества {1,2}, зная выбор игрока 2 и помня свой выбор на первом шаге. Выигрыш определяется так же, как и в примере 2 (рис. 4.6). Поскольку при совершении третьего хода игрок знает позицию, в которой он находится, позиции третьего уровня обведены кружками, два узла, в которых ходит игрок 2, мы обвели штриховой линией, включив их в одно информационное множество. Рис. 4.6. Дерево игры примера 4 Пример 5. Делая первый ход, игрок 1 выбирает число из множества {1,2} Второй ход делает игрок 2, не зная выбора игрока 1. Далее, совершая третий ход, игрок 1 выбирает число из множества {1,2} , не зная выбора игрока 2 и не помня свой выбор на 1-м шаге. Выигрыш определяется так же, как в игре из примера 2 (рис. 4.7). Здесь стратегия игрока 1 состоит из пары чисел (i,j>), где г— выбор на 1-м шаге, a j; — на 3-м шаге игры. Стратегия игрока 2 есть выбор числа j на 2-м шаге игры. Таким образом, у игрока 1 — четыре стратегии, а у игрока 2 — две стратегии. Игра в
208 4. Многошаговые игры Рис. 4.7. Дерево игры примера 5 нормальной форме имеет матрицу размера 4x2: 1 2 (1.1) Г -3 2 1 (1.2) -2 -5 (2.1) 4 1 ' (2.2) [ 1 5 J Значение игры равно 19/7, оптимальная смешанная стратегия игрока 1 (0,0,4/7,3/7), оптимальная стратегия игрока 2 (4/7,3/7). В этой игре значение оказалось таким же, как и в игре из примера 3, т. е. оказалось, что ухудшение информационных условий игрока 2 не улучшило состояние игрока 1. Это обстоятельство в данном случае носит случайный характер и вызвано спецификой функции выигрыша. 4.6.4. Пример 6. В предыдущем примере игроки не различают позиции, находящиеся на одном уровне дерева игры, однако они все таки знают, какой ход совершают. Молено построить игру, в которой игроки проявляют большее незнание. Рассмотрим антагонистическую игру двух лиц, в которой игрок 1 — один человек, а игрок 2 — команда из двух человек А и В. Все трое изолированы друг от друга (находятся в изолированных помещениях) и не могут общаться между собой. В начале игры посредник входит в помещение, где находится игрок 1, и предлагает ему выбрать число из множества {1,2}. Если игрок 1 выбирает 1, то посредник заходит сначала в помещение, где находится А, и предлагает ему выбрать число из множества {1,2}, затем заходит к В и предлагает ему сделать выбор из множества {1,2}. Если же игрок 1 выбирает 2, то посредник предлагает игроку В сделать выбор первому. После того как три числа выбраны, игрок 1 выигрывает величину K(x,y,z), где ж, у, z — выборы игрока 1 и членов команды 2 А и Б, соответственно. Функция K(x,y,z) определяется следующим образом: #(i;i,i) = i, #(1,1,2) = з,
§4.6. Многошаговые игры с неполной информацией 209 #(1,2,1) = 7, #(1,2,2)-9, #(2,1,1) -5, #(2,1,2) = 1, #(2,2,1) =6, #(2,2,2)-7. Из правил игры следует, что, когда одному из членов команды А или В предлагается сделать выбор, он не знает, совершает ли он выбор на 2-м или 3-м шаге игры. Структура игры изображена на рис. 4.8. II Рис. 4.8. Дерево игры примера 6 Таким образом информационные множества игрока 2 содержат вершины разного уровня, что соответствует незнанию номера хода в игре. Здесь игрок 1 имеет две стратегии. Игрок 2 имеет четыре стратегии, они состоят из всевозможных комбинаций выборов членов команды А и Б, его стратегии суть пары (1,1), (1,2), (2,1), (2,2). Для того чтобы понять, как определяются элементы матрицы выигрышей, рассмотрим ситуацию (2, (2,1)). Так как игрок 1 выбрал 2, то посредник идет в комнату к jB, который согласно стратегии (2,1) выбирает 1. Далее он идет к А, который выбирает 2. Таким образом, выигрыш в ситуации (2,(2,1)) равен #(2,1,2) = 1. Матрица выигрышей для игры в нормальной форме имеет вид (1.1) (1.2) (2.1) (2.2) 13 7 9 5 б 1.7 Значение игры равно 17/5, и оптимальные смешанные стратегии игроков 1 и 2 соответственно равны (2/5,3/5), (3/5,0,2/5,0). Заметим, что в многошаговых играх с полной информацией (см. теорему §4.2) существует ситуация равновесия по Нэшу в классе чистых стратегий, а в случае антагонистических многошаговых игр — просто ситуация равновесия в чистых стратегиях. Вместе с тем во всех играх с неполной информацией, рассмотренных в примерах 2-6, ситуации равновесия в чистых стратегиях не существует.
210 4. Многошаговые игры 4.6.5. Дадим теперь формальное определение многошаговой позиционной игры. Определение [Kuhn, 1953]. Многошаговая позиционная игра п лиц определяется: 1) Заданием древовидного графа G — (X,F) с начальной вершиной Xq, называемой начальной позицией игры. 2) Разбиением мнооюества всех вершин X на 77. -Ь 1 мноснсество Х\, Х2-,. -., Хп, Хп+\, где множество Xi называется множеством очередности г-го игрока, г = 1,...,п, a множество Xn+i = {х : Fx = 0} — множеством окончательных позиций. 3) Заданием вектор-функции К(х) = (К\(х),... ,Кп(х)) на множестве окончательных позиций х G Хп+\; функция Ki(x) называется выигрышем г-го игрока. 4) Подразбиением каждого множества Xi, г = 1,... ,п на*непересекающиеся подмножества Х\, называемые информационными множествами г-го игрока. При этом для любых позиций одного и того же информационного множества множество следующих за ними вершин должно содержать одно и то же число вершин, т. е. для любых ж, у G Xl\Fx\ ~ \Fy\ (\FX\ — число элементов множества Fx), и никакая вершина информационного множества не должна следовать за некоторой другой вершиной этого же множества, т. е. если х G Х\, то не существует другой вершины у G Х\ такой, что у G Fx. Определение многошаговой игры с полной информацией отличается от приведенного здесь лишь условием 4, где вводятся дополнительные разбиения множеств очередности игроков Xi на информационные множества. Как видно из примеров, содержательный смысл такого разбиения заключается в том, что при совершении своего хода в позиции х G Xi, игрок в условиях неполной информации не знает самой позиции ж, а знает лишь принадлежность некоторому множеству Х\ С Xi (x G XI). На информационные множества игрока условие 4 накладывает определенные ограничения. Требование \FX\ — \Fy\ для любых двух вершин одного информационного множества вводится для того, чтобы вершины х,у G Xf, были неразличимы. Действительно, при \FX\ Ф \Fy\ игрок г мог бы различить между собой вершины х,у G Х\ по числу выходящих из них дуг. Если бы в одном информационном множестве существовали две такие вершины х, у, что у G Fx , то это означало бы, что партия игры может пересекать дважды одно информационное множество, а это, в свою очередь, равносильно тому, что игрок j не помнит номера своего хода в данной партии, что трудно пред ставимо в реальной игре. §4.7. Стратегия поведения Продолжим исследование многошаговой игры с неполной информацией и покажем, что в случае полной памяти у всех игроков она имеет ситуацию равновесия в стратегиях поведения. 4.7.1. Для дальнейшего исследования необходимо ввести ряд дополнительных понятий. Определение. Альтернативами в вершине х, т. е. {(х,у) : у G Fx}, называются дуги, инцидентные с вершиной х G X. Если \FX\ — /с, то в вершине х имеется к альтернатив. Будем считать, что если в х имеется к альтернатив, то они нумеруются целыми числами 1,..., /с, причем вершина х обходится по часовой стрелке (рис. 4.9). В вершине xq первая альтернатива может быть указана произвольно. Если некоторая вершина х ф xq обходится по часовой стрелке, то
§ 4.7. Стратегия поведения 211 первой альтернативой в х считается та, которая следует за единственной дугой (Fx , ж), входящей в х. Рис. 4.9. Альтернативы в вершине х Будем считать, что в игре Г все альтернативы перенумерованы указанным способом. Пусть Ak— множество всех вершин х G X, имеющих ровно к альтернатив, т. е. Ak = {х : \FX\ — к}. Пусть Д = {X? : Х\ С Xi} — множество всех информационных множеств игрока г. Под чистой стратегией игрока г будем понимать функцию щ, отображающую I* в множество положительных чисел так, что щ(Х() < /с, если Х\ С Ak. Будем говорить, что стратегия щ выбирает альтернативу / в позиции х G Х\, если щ(Х\) = /, где / — номер альтернативы. Так же как это было сделано в п. 4.1.4— 4.1.5, можно показать, что каждой ситуации и(-) = (ui(-),..., un(-)) единственным образом соответствует партия cj, следовательно, и выигрыш в окончательной позиции этой партии. Пусть х е Xn+i —~ некоторая окончательная позиция и со — единственный путь (F — дерево), ведущий из хо в х. Условие принадлежности позиции у пути и будем записывать в виде у G и или у < х. Определение. Позиция х G X называется возможной для щ(-), если существует ситуация и(-), содержащая щ(-), такая, что в ситуации х реализуется путь си, который содержит позицию х, т. е. х G и. Информационное множество Х\ называется существенным для щ(-), если некоторая позиция х G Х\, возможна для щ(-). Множество позиций, возможных для щ(-), обозначим через Possui(-), а семейство информационных множеств, существенных для щ(-) — через Relui(-). Лемма. Позиция х G X возможна для щ(-) тогда и только тогда, когда щ(-) выбирает альтернативы, лежащие на отрезке партии сох от xq до х во всех своих информационных множествах, пересекающих сох. Доказательство, Пусть х G Possui(-). Тогда существует ситуация и(-), содержащая щ(-), такая, что партия cj, реализовавшаяся в этой ситуации, проходит через ж, а это и означает, что на своих информационных множествах, пересекающих отрезок партии сох, стратегия щ(-) выбирает альтернативы (дуги), принадлежащие сих. Пусть теперь щ(-) выбирает все альтернативы игрока г в сох. Для того чтобы доказать возможность х для щ(-), необходимо построить ситуацию и(-), содержащую щ(-), в которой партия проходила бы через х. Для игрока к ф г построим стратегию г^(-), которая на информационных множествах Х3к, пересекающих отрезок пути сох, выбирает альтернативы (дуги), лежащие на этом пути, а в остальном произвольна. Поскольку каждое информационное множество пересекает путь и лишь однажды, это всегда можно сделать. В полученной ситуации и(-) партия со обязательно пройдет через х. Следовательно, мы показали, что х G Possui(-).
212 4. Многошаговые игры 4.7.2. Смешанные стратегии в многошаговой игре с неполной информацией Г определяются так же, как и в п. 1.4.2 для конечных игр. Определение. Смешанной стратегией \ii игрока г называется вероятностное распределение на множестве чистых стратегий игрока г, которое каждой его чистой стратегии щ(-) ставит в соответствие вероятность qu%{') (в дальнейшем для простоты будем писать просто quJ. Ситуация \i = (дх,... ,дп) в смешанных стратегиях определяет распределение вероятностей на всех партиях и (следовательно, и на окончательных позициях Хп+\) по формуле и где Ри(ш) — 1, если партия и реализуется в ситуации и(-) и Pu(lj) = 0 в противном случае. Лемма. Обозначим через Рц{х) вероятность реализации позиции х в ситуации /л. Тогда имеет место формула п {u(-):xZ:Possut('),i=l,...,n} i=l {ui\x^Possu%} Доказательство этого утверждения непосредственно следует из леммы п. 4.7.1. Математическое ожидание выигрыша Ег(ц) игрока г в ситуации /i равно где Рц(х) вычисляется по формуле (4.7.1). Определение. Позиция х G X называется возможной для \1г,если существует ситуация /л в смешанных стратегиях, содержащая /^ такая, что Pfl{x) > 0. Информационное множество Х\ игрока г называется существенным для \ii если некоторое х G Х\ является возможным для fa. Множество возможных для /^ позиций обозначим через Possfii, а множество существенных для jjii информационных множеств — через Relfa. ,4.7.3. Исследуя многошаговые игры с полной информацией, мы показали, что выбор стратегии может осуществляться на каждом шаге в соответствующей позиции игры, а при решении конкретных задач необязательно (да и практически невозможно) определять заранее стратегию, т. е. полный набор рекомендуемого поведения во всех позициях (информационных множествах), поскольку такое правило (см. пример п. 4.2.2) «страдает сильной избыточностью». Можно ли сделать аналогичное упрощение в играх с неполной информацией, т. е. строить стратегию не как заранее фиксированное правило выбора во всех информационных множествах, а формировать ее по мере попадания в соответствующее информационное множество? Оказывается, что в общем случае этого сделать нельзя. Однако существует класс игр с неполной информацией, где такое упрощение возможно. Для этого введем понятие стратегии поведения. Определение. Под стратегией поведения /3?- игрока г будем понимать правило, которое каждому информационному множеству Х\ С А\~ игрока г ставит в соответствие систему из к чисел b(Xf,u) > 0, v — 1,..., к, таких что к ]Г)Ь(Х/,|/) = 1, где Ak = {x:\Fx\ = k}.
§ 4.7. Стратегия поведения 213 Числа Ъ(Х1, v) могут интерпретироваться как вероятности выбора альтернативы v в информационном множестве Х\ С А *., каждая позиция которого содержит ровно к альтернатив. Любой набор /3 = (ft,...,/Зп) стратегий поведения для п игроков определяет вероятностное распределение на партиях игры и окончательных позициях следующим образом: p0(oj)= n hW^- (4-7-3) Здесь произведение берется по всем Х\, v таким, что Х\ Uo; ф 0 и выбор в точке Х^ Па; альтернативы с номером i/ приводит в позицию, принадлежащую пути и. В дальнейшем под понятием «путь» удобно подразумевать не только набор составляющих его позиций, но и набор соответствующих альтернатив (дуг). Ожидаемый выигрыш JE7^(/3) в ситуации /3 = (ft,... ,/Зп) в стратегиях поведения определяется как математическое ожидание W)= ^ ВД%)п = 1г..,5 где а;^ — партия, завершающаяся позицией х Е Хп+\. АЛЛ. Каждой смешанной стратегии \ц можно сопоставить некоторую стратегию поведения ft. Определение. Стратегией поведения ft, соответствующей смешанной стратегии \ii — {qU2} игрока г, называется стратегия поведения, определенная следующим образом: Если Х\ е RelfAi, то t-j{ui:XizRelui}Qut Если Х\ 0 RelfjLi, то на множестве Х\ стратегию ft можно определить произвольным, отличным от (4-7.4) образом. В случае Х\ 0 Relni знаменатель в выражении (4-7.4) обращается в нуль. Для определенности в этом случае будем полагать b(X{,u)= Y, ««.' (47-5) {щ:иг(Х^)=и} Приведем без доказательства следующий результат. Лемма. Пусть ft — стратегия поведения игрока i, а Цг — {qUi} смешанная стратегия, определяемая формулой <bt = l[b(xiMxi))- Тогда ft — стратегия поведения, соответствующая \±i. 4.7.5. Определение [Kuhn, 1953]. Игра Г называется игрой с полной памятью для г-го игрока, если для любых щ(-),Х^х из условий Х\ G Relui и х G Х\ следует, что х е PossUi.
214 4. Многошаговые игры Из определения следует, что в игре с полной памятью для i-го игрока любая позиция из существенного для щ(-) информационного множества является возможной для щ(-). Термин «полная память» подчеркивает то обстоятельство, что очутившись в любом своем информационном множестве, г-й игрок может точно восстановить, какие альтернативы (т. е. номера) он выбирал во всех своих предыдущих ходах (в силу однозначного соответствия). Игра с полной памятью для всех игроков превращается в игру с полной информацией, если все ее информационные множества содержат по одной вершине. 4.7.6. Лемма. Пусть Г — игра с полной памятью для всех игроков; со — некоторая партия в Г. Пусть х G Х\ — последняя позиция в пути со, в которой ходит игрок г, и пусть он выбирает в х дугу v. Положим Т,{со) = {щ : Х\ G Reluu щ(Х?) = и}. Если в со нет позиций из Xi, то через Ti(co) обозначим множество всех чистых стратегий игрока г. Тогда партия со реализуется в тех и только тех ситуациях и(-) — (^i(-),..". ,ип(-)), для которых щ G Ti(co). Доказательство. Достаточность. Достаточно доказать, что если щ G Ti(co), то стратегия щ выбирает все дуги (альтернативы) игрока г, входящие в партию со (если, конечно, игрок г вообще имеет ход в со). Однако, если щ G ТДо;), то Х\ G Ле1щ, и поскольку игра Г имеет полную память, то х G Possuj, (x G и). Значит, согласно лемме п. 4.7.1, стратегия щ выбирает все альтернативы игрока г, входящие в партию и. Необходимость. Предположим, что партия со реализуется в ситуации и(-), у которой щ $l Ti(co) для некоторого г. Поскольку Х\ G 11е1щ, то это означает, что щ(Х?) Ф v. Но тогда путь со не реализуется. Полученное противоречие завершает доказательство леммы. 4.7.7. Лемма. Пусть Г — игра с полной памятью для всех игроков. Пусть v — альтернатива (дуга) в партии со, инцидентная xGl^ где х G со, и следующая позиция игрока г (если она существует) в пути со есть у G Х^. Рассмотрим множества S иТ, где в = {щ: Х( G Reluu Щ{Х1) = i/}, Г - {щ : X* G RelUi}. Тогда S — T. Доказательство. Путь щ G S. Тогда X\ G RelUi, и поскольку Г имеет полную память, то х G Possui. Следовательно, по лемме п. 4.7.1 стратегия щ выбирает все дуги, инцидентные к позициям игрока г на пути от xq до ж, и щ(Х?) = v. Таким образом щ выбирает все дуги, инцидентные к позициям игрока г на пути от xq до у, т. е. у G Possui, X? G RelUi ищеТ. Пусть щ G Т. Тогда Х^ G Relui, и поскольку Г имеет полную память, то у G Possui. Однако это означает, что х G Possui и щ(Х?) = v, т. е. щ G S. Лемма доказана. 4.7.8. Теорема. Пусть В — ситуация в стратегиях поведения, соответствующая ситуации в смешанных стратегиях \i в игре Г (в которой все позиции имеют по крайней мере две альтернативы). Тогда для того чтобы EiW^Eifa), i = l,...,n, необходимо и достаточно, чтобы Г была игрой с полной памятью для всех игроков.
§ 4.7. Стратегия поведения 215 Доказательство. Достаточность. Пусть Г — игра с полной памятью для всех игроков. Фиксируем произвольное \±. Достаточно показать, что Рр{со) — Рц(ш) для всех партий со. Если в со существует позиция игрока г, принадлежащая несущественному для fii информационному множеству, то найдется Х\ G Rel\x^ Х\ П со Ф 0 такое, что для стратегии поведения ft, соответствующей /^ выполняется равенство b(X^u) = О, где v G со. Отсюда имеем Рр(оо) = 0. Справедливость соотношения Р^{со) = 0 в этом случае очевидна. Будем теперь считать, что все информационные множества г-го игрока, через которые проходит партия со, существенны для /^, % — 1,2,... ,п. Пусть игрок ъ в партии со ходит по порядку в позициях, принадлежащих множествам Х\,..., X? и выбирает в множестве Х\ альтернативу Uj, j = 1,..., s. Тогда согласно формуле (4.7.3) и лемме п. 4.7.7 имеем f[b(X{,Vj)= J2 W j=i щетъ(ш) Действительно, поскольку в партии со игрок г свой 1-й ход делает из множества X/, оно является существенным для всех щ(-), поэтому знаменатель в формуле (4.7.4) для b{X},vi) равен единице. Далее в силу леммы п. 4.7.7 в формулах (4.7.4) числитель Ъ{Х1, Vj) равен знаменателю Ь{Х\+ , г/j+i), г — 1,..., s. Согласно формуле (4.7.3) окончательно получим п ^и = П Е ««.- г=1 игеТг(ш) где Ti(oj) определено в лемме п. 4.7.6. В то же время на основании леммы п. 4.7.6 РЛШ) = Ylq^'" QvnPu(u) = Yl QU!"- Qun , u(-) u:u,GTt(w), г=1....,п т. е. P^{co) = Р/з(со) и достаточность доказана. Необходимость. Пусть Г не является игрой с полной памятью для всех игроков. Тогда существуют игрок г, стратегия щ, информационное множество Х\ G КеХщ и две позиции ж, у G X? такие, что х G Роввщ, у 0 Роввщ. Пусть iij — стратегия игрока г, для которой у G Possu^ и cj — соответствующая партия, проходящая через у в ситуации и1'. Обозначим через \ii смешанную стратегию игрока г, которая предписывает с вероятностью 1/2 выбирать стратегию щ или и[. Тогда Ри'\\^%{у) = ри'\\цъ(ш) — 1/2 (здесь u'Wiii — ситуация, в которой чистая стратегия v!i заменена на смешанную \х$). Из условия у qL PossUi следует, что путь со, реализующийся в ситуации и'\\щ не проходит через у. Это означает, что существует Xf такое, что Х^ П со = Xf П со ф 0 и щ(Х%) ф и^(Х^). Отсюда, в частности, следует X? G Де^, Xf G Relu\. Пусть ft - стратегия поведения, соответствующая /^. Тогда 6(X^,ii^(X^)) — 1/2. Не ограничивая общности, можно считать, что щ[Х\) ф и\{Х\). Тогда Ь(Х^и[(Х^)) = 1/2. Обозначим через /3 ситуацию в стратегиях поведения, соответствующую ситуации в смешанных стратегиях и'||/^. Тогда Рр(со) < 1/4, в то время как Ри>\\^г(ио) = 1/2. Теорема доказана. Из теоремы п. 4.7.8 следует, что для нахождения ситуации равновесия в играх с полной памятью достаточно ограничиться классом стратегий поведения.
216 4. Многошаговые игры §4.8. Функциональные уравнения для одновременных многошаговых игр Теорема о стратегиях поведения, доказанная в предыдущем параграфе, в общем случае не дает возможности непосредственно решать многошаговые игры с полной памятью. Однако при простой структуре информационных множеств она обосновывает вывод функциональных уравнений для значения игры и основанные на этих уравнениях методы нахождения оптимальных стратегий. Наиболее простыми играми с полной памятью, не считая игр с полной информацией, являются так называемые одновременные многошаговые игры. Выведем функциональное уравнение для значения таких игр и рассмотрим несколько широко известных [Дюбин, Суздаль, 1981; Оуэн, 1971] примеров, где эти уравнения поддаются решению. 4.8.1. Содержательно одновременная многошаговая игра представляет собой антагонистическую многошаговую игру, в которой на каждом шаге игры игроки 1 и 2 выбирают свои действия одновременно, т. е. не имея информации о выборе противником позиции в этот момент. После того как выборы сделаны, они становятся известными обоим игрокам, и игроки вновь совершают одновременный выбор и т. д. Условно такую игру будем изображать с помощью графа, имеющего одно из двух представлений а) или Ь) рис. 4.10. Рис. 4.10. Дерево одновременной многошаговой игры Граф изображает поочередную игру с четным числом ходов, в которой информационные множества игрока, совершающего первый ход, являются одноэлементными, а информационные множества другого игрока двухэлементными. В такой игре Г оба игрока обладают полной памятью, поэтому в ней согласно теореме п. 4.7.8 при отыскании ситуации равновесия можно ограничиться классом стратегий поведения. Пусть, для определенности, в игре Г первым ходит игрок 1. С каждой вершиной х Е Х\ связывается подыгра Тх с той же информационной структурой, что и игра Г. Нормальная форма любой антагонистической конечно-шаговой игры с неполной информацией представляет собой матричную игру, т. е. антагонистическую игру с конечным числом стратегий. Поэтому во всех подыграх Гх, х Е Х\ (включая игру Г = ТХо) существует ситуация равновесия в классе смешанных стратегий. Согласно теореме п. 4.7.8 такая ситуация равновесия существует и в классе стратегий поведения и значе- j ния игр (т. е. значения функции выигрыша в ситуации равновесия в классе смешанных ] стратегий и в классе стратегий поведения) равны между собой. |
§4.8. Функциональные уравнения для одновременных игр 217 Обозначим значение игры Гх через v(x), x G Х\ и составим функциональные уравнения для v(x). Для каждого х G Х\ следующая позиция х'', в которой ходит игрок 1 (если таковая вообще существует), принадлежит множеству F%. Позиция х' реализуется в результате двух последовательных выборов: игроком 1 — дуги, инцидентной к вершине ж, и игроком 2 — дуги в позициях у G Fx, образующих информационные множества игрока 2. Поэтому можно считать, что позиция х' получается в результате отображения Тх, зависящего от выборов а, /3 игроков 1 и 2, т. е. x'=Tx{arf). Поскольку число различных альтернатив а и /3 конечно, то можно рассмотреть для каждого х G Х\ матричную игру с матрицей выигрышей Ах = {v[Tx(a,/3)}}. Пусть 8j(x) = {b*j(x,a)}, (3jj(x) = {Ь|7(ж,/3)} — оптимальные смешанные стратегии в игре с матрицей Ах. Тогда имеет место следующая теорема о структуре оптимальных стратегий в игре Тх. Теорема. В игре Г оптимальная стратегия поведения игрока 1 в точке х (каждое информационное множество игрока 1 в игре Г состоит из одной позиции х G Х\) предписывает каждой альтернативе а вероятность в соответствии со смешанной оптимальной стратегией игрока 1 в матричной игре Ах — {v(Tx(a,/3))}, т. е. bi(x,a) — Щ[х,а). Оптимальная стратегия поведения {^(Х^, /3)} игрока 2 в игре Г предписывает каждой альтернативе /3 вероятность в соответствии с оптимальной смешанной стратегией игрока 2 в игре с матрицей Ах, т. е. Ь2(Х1р) = Ь*П(х,р), где х = F~l, если у G Х32. Значение игры удовлетворяет следуюш)ему функциональному уравнению: v(x) = Val{v[Tx(a, /3)]}, х G Хъ (4.8.1) с граничным условием v(x)\xeX3=H(x). (4.8.2) Здесь запись ValА обозначает значение игры с матрицей А. Доказательство проводится по индукции и вполне аналогично доказательству теоремы п. 4. 2.1. / 4.8.2. Пример 7 (Игра инспектирования) [Дюбин, Суздаль, 1981]. Игрок Е (Нарушитель) хочет совершить некоторое запрещенное действие. Имеется N периодов времени, в которые это действие может быть осуществлено. Игрок Р (инспектор), желающий предотвратить это действие, может провести только одну инспекцию в любой из этих периодов времени. Выигрыш игрока Е равен 1, если запрещенное действие произошло и осталось необнаруженным, и равен (—1), если нарушитель пойман (это будет в том случае, когда для совершения действия он выбирает тот же самый период времени, что и инспектор для проверки); выигрыш равен нулю, если нарушитель не действует вовсе. Обозначим такую TV-шаговую игру через IV.
218 4. Многошаговые игры В первом периоде (на 1-м шаге) каждый игрок имеет две альтернативы. Игрок Е может предпринимать действие или не предпринимать его; игрок Р может инспектировать или не инспектировать. Если игрок Е действует и игрок Р инспектирует, то игра заканчивается и выигрыш равен — 1. Если игрок Е действует, а игрок Р не инспектирует, то игра заканчивается и выигрыш равен 1. Если игрок Е не действует, а игрок Р инспектирует, то игрок Е может предпринять действие в следующий период времени (в предположении, что N > 1) и выигрыш также равен 1. Если игрок Е не действует и игрок Р не инспектирует, то переходят к следующему шагу игры, который отличается от предыдущего только тем, что до конца игры остается меньшее число периодов времени, т. е. попадают в подыгру IV-i- Следовательно, матрица для 1-го шага игры выглядит следующим образом: 1 VN-1 Уравнение (4.8.1) в этом случае принимает вид Val vN -1 1 1 VN-i (4.8.3) (4.8.4) Здесь v(x) одинаково для всех позиций игры одного уровня и поэтому зависит только от числа периодов до конца игры. Поэтому вместо v(x) записано г>дг. Далее будет показано, что v^-i < 1, следовательно, матрица в (4.8.4) не имеет седловой точки, т. е. игра с матрицей (4.8.4) является вполне смешанной. Отсюда получаем (см. п. 1.9.1) рекуррентное уравнение VN~1 + l (Л Q К\ vN = — —, (4.8.5) -^Аг_1 + 3' которое вместе с начальным условием Vi = Val -1 1 О О = 0 (4.8.6) определяет г>д/-. Преобразуем уравнение (4.8.5) с помощью подстановки tN = v1—. Получим новое рекуррентное уравнение tjq = In-i ~ 1/2, t\ = — 1. Это уравнение имеет очевидное решение t^ = — (N + 1)/2, откуда имеем vN = iV + 1' (4.8.7) Теперь можно вычислить оптимальные стратегии поведения на каждом шаге игры. Действительно, матрица игры (4.8.4) принимает вид 1 1 [N-2]/N и оптимальные стратегии поведения таковы: 1 N bf = N + V N + 1 hN - 1 TV N + V N + 1 Пример 8 (Теоретико-игровые особенности оптимального расхода ресурса). Пусть первоначально игроки 1 и 2 имеют соответственно г и R — r единиц некоторого ресурса,
§ 4.8. Функциональные уравнения для одновременных игр 219 а также по две чистые стратегии. Допустим, что если игроки выберут одинаковые по номеру чистые стратегии, то ресурс игрока 2 уменьшится на единицу. Если же игроки выберут разные по номеру чистые стратегии, то на единицу уменьшится ресурс игрока 1. Игра заканчивается после того, как ресурс одного из игроков станет равным нулю. При этом игрок 1 получает выигрыш, равный 1, если ресурс игрока 2 станет равным нулю, и выигрыш —1, если станет равным нулю его собственные ресурс. Обозначим через 1\/ многошаговую игру, в которой игрок 1 имеет к (к = 1,2,..., г) единиц, а игрок 2 — 1 (I — 1,..., R — г) единиц ресурса. Тогда ValT кЛ Val VaWk,i-i ValTk и VaWk-U ValTkj-г где ValTktQ - 1, ValTQti = -1. Рассмотрим 1-й от конца шаг, т. е. когда у обоих игроков осталось по одной единице ресурсов. Очевидно, что на этом шаге разыгрывается следующая матричная игра: Гм ^1,1 -1 1 Vl,l -1 1 vu J Vl,l 1 _ Vl,l - 1 _ 1 2 ~~ 2' 1 Vi,i + 1 1 J ~ 2 ~ 2 Игра Гхд и является симметричной, ее значение, которое мы обозначим через г>хд равно нулю, а оптимальные стратегии игроков совпадают и равны (1/2,1/2). На 2-м от конца шаге, т. е. когда у игроков осталось три единицы ресурсов, разыгрывается одна из двух матричных игр: Т\^ или Ггд. При этом vl2 = VaWh2 = Val v2A = ValT2li = Val На 3-м от конца шаге (т. е. когда у игроков имеется в общей сложности четыре единицы ресурса) разыгрывается одна из следующих трех игр: 1\з, Гг,2> Г*зд. При этом vh3 = ValTh3 = Val v22 = ValY2,2 = Val vSii = ValTSii = Val Продолжая аналогичные вычисления далее до TV-го шага от конца, получим следующее выражение для значения исходной игры: г>1,2 -1 У2Л V\,2 1 _ v2yi -1 1 Vl,2 J ^1,2 1 ^2,1 J V2.1 1 ^1,2 ~ 1 3 ~ 2 ~~4 ^2,1+^1,2 n 2 U 1 _ ^2,1 + 1 _ 3 J ~ 2 ~ 4* г>г,я-г — ValTr^R_r = Val Vr,R-r-l Vr-i^R-r Vr-l,R-r Vr,R-r-l В силу симметричности матрицы выигрышей игры Гг?я-г имеем Vr,R~r = ^(УгЯ-r-l +^г-1,Я-г),
220 4. Многошаговые игры оптимальные стратегии поведения игроков на каждом шаге совпадают и равны (1/2,1/2). Пример 9. В шуточной игре играют две команды: игрок 1 (mi женщин и 777,2 кошек) и игрок 2 (п\ мышей и n<i мужчин). На каждом шаге каждый из игроков выбирает своего представителя. Один из двух выбранных представителей «устраняется» согласно следующим правилам: женщина «устраняет» мужчину; мужчина «устраняет» кошку; кошка «устраняет» мышь; мышь «устраняет» женщину. Игра продолжается до тех пор, пока в одной из групп не останутся игроки только одного типа. Когда группа не имеет больше выбора, другая группа, очевидно, выигрывает. Обозначим значение исходной игры i>(rai,ra2,ni,ri2). Будем полагать i>(mi,m2,ni,0) = i>(rai,га2,0, пъ) — 1, при ш^тг > 0. (4.8.8) V(mi,0,ni,ri2) = V(0,777,2, П\,П2) = — 1, При 77,1,77,2 > 0. (4.8.9) Введем следующие обозначения: v(mi — l) = ^(777,1 — 1,777,2,77,1,722), v(777,2 — 1) = ^(777,1,777,2 — 1,77,1*, П2), v(rti — 1) = V(mi, 777,2, П\ — 1,П2), 7j(^2 — 1) = 7j(777,i, 777,2,711,^2 ~ 1)- Согласно теореме п. 1.9.1 справедливо соотношение v (mi, 777,2, ^1,^2) = Val v(mi — 1) г>(п2 — 1) v(ni — 1) 7j(777,2 — 1) Можно показать, что рассматриваемая игра является вполне смешанной. Согласно теореме п. 1.9.1 имеем / ч v(mi — l)v(rri2 — 1) - v(ni - l)v(ri2 - 1) ?j(777,i, 777,2, ^1, П2) ~ V(mi — 1) 4" 7j(777,2 — 1) — V(ni — 1) — V(ri2 ~ 1) ' Учитывая граничные условия (4.8.8), отсюда получаем 7j(777,i — 1) + 1 ?j(777,i, 1,1,1) у(тгы - 1) +3 и ?j(l, 1,1,1) = 0. Но эти уравнения совпадают с уравнениями (4.8.5), (4.8.6), следовательно, 7j(777,, 1,1,1) = (ттт, — 1)/(га + 1) и оптимальные стратегии в этом случае также совпадают с приведенными в примере 8. 4.8.3. Повторяющиеся эволюционные игры. Для определения повторяющихся эволюционных игр необходимо определить понятие симметрии для позиционных игр. Мы ограничимся изучением игр двух лиц с полной памятью. Следуя [Selten (1983)], симметрия игры Г определяется как отображение (-)т из множества альтернатив на множество альтернатив со следующими свойствами. Пусть Mi обозначает множество альтернатив (выборов) игрока г в игре Г. ЕСЛИ 777, G М^ ТО 777,Т G Mj (i ф j G {1, 2}), (тТ)Т = ттт, для всех га. Для каждого информационного множества и существует такое информационное множество ит, что любая альтернатива из и отображается на выбор в ит, а для каждой конечной точки х G Xn+i существует такая конечная точка хт G Xn+i, что если х достигается последовательностью 777,1,777,2,... ,гап, то хт достигается (перестановкой) raf,raj,..., 777,j[, и выигрыши равны Н\(х) — Н2(хт) для каждой конечной точки х G -Xn+i, xT G Хп+1-
§4.8. Функциональные уравнения для одновременных игр 221 Симметричная позиционная игра задается парой (Г, Т) где Г — позиционная игра, а Т — симметрия в игре Г. Если Ь — стратегия поведения игрока 1 в (Г,Т), то симметричный образ Ь является стра^гией поведения Ьт игрока 2, которая определяется как bl(m) = bUT(mT) (u eUume Mu). Если 61,62 — стратегии поведения игрока 1, то вероятность того, что конечная точка х достигается при использовании стратегий (б^б^) равна вероятности того, что хт достигается при использовании (&25^Г)- Следовательно, ожидаемый выигрыш игрока 1 при использовании стратегий (bi,^) равен ожидаемому выигрышу игрока 2 при использовании стратегий (&2»bf): Е1(ъиъ%) = Е2(ъ2,ъ'[). Это уравнение определяет симметричную игру в нормальной форме при ограничении, что в игре (Г, Т) используются только чистые стратегии. Следуя [van Damme, 1991], определим эволюционно устойчивую стратегию (ESS) в игре (Г, Т) как стратегию поведения Ъ игрока 1, которая удовлетворяет условию: Ei(6,6T)=maxEi(6,6T), bGBi _ -т Т и если Ъ е В2,Ь ф Ъ и Е\{Ъ,Ъ ) = Ei(b,b ), то Е1(6,6Т)<Е1(6,ЬТ). Здесь Bi — множество стратегий поведения игрока г). В работе [van Damme, 1991] отмечалось, что во многих играх интуитивно приемлемые решения не будут удовлетворять указанному выше условию ESS. Далее мы приведем некоторые модификации этого определения, которые не будут исключать интуитивно приемлемые решения. Сначала рассмотрим следующий пример. 4.8.4. Пример 10 (Повторяющаяся игра Ястреб-Голубь). Данная биматричная игра задается следующими матрицами: Н D H D 1/2(7-С) 0 1 V 1/2F J * Если v > с, то (Н, Н) является эволюционно устойчивой стратегией ESS в заданной биматричной игре Г. Дерево игры представлено на рис. 4.11. Для игры с двумя шагами стратегией игрока 1(2) является правило, которое определяет выбор Н или D в каждом из информационных множеств игрока. Игрок 1(2) имеет пять информационных множеств, таким образом он имеет 32 стратегии, которые представляют собой последовательности вида (H,H,D,H,D). Обозначим стратегию игрока через и(-). Рассмотрим стратегию и(-) = (Н,Н,Н,Н,Н), которая сформирована из ESS стратегий (v > с) в каждой подыгре (одношаговой игре). Было бы хорошо, если бы эта А = Н D 1/2(V - С) О V 1/2V Лт = Я D
222 4. Многошаговые игры Рис. 4.11. Дерево игры Ястреб-Голубь стратегия была ESS стратегией в двухшаговой игре Г. К сожалению, это не следует из определения эволюционно устойчивых стратегий (ESS) для позиционных игр. Нетрудно заметить, что первое условие для эволюционной устойчивости стратегии выполнено, поскольку и(-) является равновесием по Нэшу в игре Г. Но имеется стратегия v(-) = (H,H,D,D,D), для которой выигрыш (в чистых стратегиях ожидаемый выигрыш Е совпадает с функцией выигрыша К) K(v(-),u(-)) равен выигрышу К(u(-), u(-)), поскольку Выигрыш K(v(-),v(-)) также равен K(u(-),v(-)), поскольку K(v(-),v(-)) = K(u(-),v(-))=v-c и второе условие для эволюционной устойчивости не удовлетворяется. Этот неестественный результат следует из неудачного определения эволюционно устойчивой стратегии для позиционных игр. Дадим другое определение ESS. Определение. Стратегию и(-) будем называть эволюционно устойчивой стратегией (ESS), если выполнены следующие условия: 1. К(и(-),и(-)) > K(v(-),u(-)) для всех v(-). 2. Если у{-) — такая, что в ситуации (u(-),u(-)), (г>(-),и(-)) реализовавшиеся пути Г различны (окончательные позиции в игре Г различны), то выполнено условие: если К{и('),и(-)) = K(v{-),u{-)), то K(v(-),v(-))<K(u(-),v(-)). По этому определению стратегия и(-) = (Я, Я, Я, Я, Я) является эволюционно устойчивой, поскольку стратегия v(-) — (Я, Я, D, D, D), дающая такой же выигрыш против и(-) как сама и(-), исключается свойством 2 рассматриваемого определения. Небольшая модификация этого определения для игр со случайными ходами (как в примере [van Damme, 1991]) показывает, что ситуация, которая естественно понимается как эволюционно устойчивая, на самом деле является эволюционно устойчивой стратегией в нашем понимании.
§4.9. Построение единственного равновесия по Нэшу 223 §4.9. Построение единственного равновесия по Нэшу Как и прежде, пусть N — множество игроков, Х\,..., Хп — множества очередности и Хп+\ — множество окончательных позиций. Для каждого i G N определим вектор предпочтений г-го игрока Fi — {/г0')}, j Е ^\{г} таким образом, что ?г-мерный вектор {\fi(j)\}, j Е N представляет собой перестановку чисел 1,... ,п. Можно представить себе следующую интерпретацию вектора предпочтений ft(j), j G N\{i}, i G N: если fi(j) = к > 0, тогда игрок j является «другом» игрока i уровня /с, если fi(j) = к < О, тогда игрок j является «врагом» игрока i уровня к и fi{i) — 1. Каждый вектор Fi определяет отношение игрока i к другим игрокам или «тип» игрока (здесь мы используем терминалогию, впервые введенную в [Dresner, 1961], из- за некоторой отдаленной аналогии). Предположим, что абсолютное равновесие в игре Г найдено методом математической индукции. Сначала рассмотрим подыгры наименьшей длины Г (одношаго- вые подыгры). Далее разбиваем Г на подыгры меньшей длины, предполагая, что в подыграх используются равновесные по Нэшу стратегии. При построении равновесия по Нэшу может случиться, что в некоторой подыгре Гж, х е Xi игры Г игрок г, совершающий выбор в ж, обнаруживает, что его выигрыш (при условии продолжения игры в соответствии с данным равновесием по Нэшу в подыграх) не зависит от того, какую альтернативу в ж он выберет. В этом случае, используя вектор предпочтений, он обратит внимание на игрока j, для которого |/z(j)| = 2. Если fi(j) > 0, он выберет альтернативу в х так, чтобы максимизрфовать выигрыш игрока j, а если fi(j) < 0, — так, чтобы его минимизировать. Если выигрыш игрока j во всех подыграх, непосредственно следующих из Гж, один и тот же, то игрок i смотрит на игрока j, для которого \f%{j)\ = 3, и ведет себя аналогичным образом, и т. д. Стратегию, включающую такой способ поведения, будем называть тип-стратегией. Абсолютное равновесие, получаемое методом динамического программирования с использованием тип-стратегий, назовем равновесием по Нэшу в тип-стратегиях. Обозначим его через Т — (7\,... ,ТП) и через Ki(T), г Е N, соответствующие выигрыши. Дадим определение равновесия по Нэшу в тип-стратегиях индукцией по длине I дерева игры. Обозначим через х(к; у) позицию, непосредственно следующую за у, если в у выбрана альтернатива (дуга) к (рис. 4.12). Если I = 1, то в игре Г имеется только один ход в xq, который заканчивается окончательной позицией. Пусть жо Е Х^. Выигрыши игроков hi{x(k; .то)}, г = 1,..., п, определены в окончательных позициях х(к;хо) G Хп+\. ж(1;2/), ..., х(к;у), ..., х(ту\у) У Рис. 4.12. Альтернативы в позиции у
224 4. Многошаговые игры Пусть F(ii) — вектор предпочтений игрока %\. Введем последовательность гьг2,...,гп таким образом, что \fix(%k)\ = 1 + \fiAik-i)l fc = 2,...,n (fi^h) = 1). Обозначим через cp(j) = sign/^ (гД j = 1,..., п. Тогда /^ (ifc) = A^sign/^ (г*)]. Определим семейство множеств Aix[<p(j)], j = 2,...,nno правилу: Ail[y>(l)]=axg max^i{^(^;^o)} ^ifo>(j)] = arg arg max hi.{x(k;x0)} min hi,{x(k:xo)} , если ^(j) > 0, , если cp(j) < 0. Отсюда Ai^cpij)} С AiJ<p(j - 1)], n G iV. n Обозначим Л*х = р| А^[ср^)]. В одношаговой игре Г в жо G Х^ тип-стратегия Tit выбирает любую альтернативу /с G А* , т. е. Г41(а;о) = Л, fee 4ч Лемма. Для всех к\, &2 G Л* имеем hj{x(ki;x0)} = ^{х(/с2;ж0)}, j = 1,...,п. (4.9.1) (4.9.2) Доказательство. Предположим, что (4.9.2) не выполняется для некоторого j G N. Тогда существует j, такое, что hi.{x(ki;x0)} = Ы.{х(к2]х0)}, ij < ij, /ii7Mfci;x0)} 7^ Ы {x(k2;x0)}. (4.9.3) (4.9.4) Поскольку fci, k2 G A*, fci,fc2 G%(j)] = arg arg max_ hi-{x(k;xo)} keAi^U-i)} 3 min_ hi-{x(k;xo)} kZA^lipti-l)] ° если ip(j) > 0, , если <p(j) < 0. (4.9.5) В (4.9.5) max (min) функции /ц_ определен на одном множестве A^[^(j — 1)]. Пусть ^(i) > 0 5 тогда по определению max h^{x(k; x0)} = ^{^(fci; ж0)} = h^{x(k2; ж0)}, что противоречит (4.9.3)—(4.9.4). Так же можно рассмотреть и случай </?(j) < 0. Лемма доказана. Следствие. Из леммы §4-9. следует, что в случае I = 1 в любых двух ситуациях в тип-стратегиях Т[г, Т"2 соответствующие вектор-выигрыши совпадают.
§4.9. Построение единственного равновесия по Нэшу 225 Пусть в Г .то ^ Xiu Все подыгры Гж, начинающиеся из вершин (позиций), непосредственно следующих за хо, имеют длину < I. Пусть тип-стратегии уже определены по индукции в подыграх. Для каждого х зафиксируем ситуацию Тх — (Tf,... Дх) в тип-стратегиях в Тх. Пусть v(x) — (^i(x),... ,vn(x)) — соответствующий вектор выигрышей вГжв ситуации Тх. Если вершина х соответствует альтернативе к в жо, то будем писать v(x) = v{x(k;x0)}, vi(x) = Vi{x(k;x0)}, г = 1,...,п. Определим семейство множеств А^ [<p(j)], j = 2,..., n, Ail[^(l)]=arg тахг?г1{ж(/с;жо)} к АгЛ<РШ = { arg arg max vii{x(k;x0)} min Vi.{x{k\xo)} , если cp(j) > 0, , если cp(j) < 0. Обозначим A*x = Q A^[(^(j)]. Определим тип-стратегию в игре Г: i=i 71, (хо) = *, * е А*г, ?Ш - 7? (у) при у е X?v где Хж = {Xf,..., X?,..., Xх} — множество очередности в подыгре Гж, начинающейся с позиции ж, непосредственно следующей за жо: Ti(y) = Tf(y) для j/eXf, *^*i. Доказательство следующей леммы полностью повторяет предыдущее, если мы заменим hi{x(k;xo)} на ^{ж(/с;жо)}. Лемма. Для всех fci,&2 G А* имеет место: Vj{x(ki\x0)} = Vj{x(k2;x0)}, j = l,...,n. (4.9.6) Теорема, #сли игрокам известны свой тип и типы остальных игроков, и все об этом знают, то в каждой игре Г существует абсолютное равновесие по Нэшу в тип-стратегиях, и в любых различных ситуациях Т — (7\,..., Тп), Т' — (Т{,..., Т^) в тип-стратегиях выигрыши игроков совпадают, т. е. Ki(Ti,.-.,Tn) = Ki(r1,...,rn), ietf. (4.9.7) Доказательство. Рассмотрим две различные ситуации в тип-стратегиях Т (Ti,...,Tn), Т" = (Т{,... Дп)- Из построения Т (Т") следует, что она образует ; солютное равновесие в Г. Предположим, что (4.9.7) не выполняется при некотором i\ Е N: Кн(Тг,...,Тп)фК^Т[,...,Т^. (4.9.8)
226 4. Многошаговые игры Рассмотрим два различных случая: l.Til{x0)=T!l(x0) = k; 2.Til(x0)^T!1(x0). В случае 1 в ситуациях Т и Т' после выбора в позиции жо игроки попадают в одну и ту же подыгру Гж, где х = х{к\х0). По рекуррентному построению ситуаций Т, Т" выигрыши в подыгре Тх в этих ситуациях соответственно равны: К?(Т?,... ,Г„*) = Щ{ТХ\ ...Xх) = Vi(k;x0), (4.9.9) i = 1,..., п, где Tf {Ttx) — след стратегии Т^ (Т/) в подыгре Тх. Однако в случае 1 ЩТЪ..., Тп) = tff(rf,..., Г*), Ki{T[, ...,Ю = Щ{Т[\ ..., Т'п% (4.9.10) i = 1,..., п, и теорема следует из (4.9.9), (4.9.10). Пусть в случае 2 Т^(ж0) = fci, Т/Джо) = /с2 (fci ^ ^) и xi = x(fci;o?o), ^2 = ж(/с2;жо). Тогда по лемме 2 if?1(I?1,--.,r*1)=Vi(*i;x0) = -^(fc2;a:o)=^r(r;:!:2,...,T;a;2), i = l,...,n. (4.9.11) Однако Ki(T1,...,Tn) = K?{T?\...,TZ>), (4.9.12) клт1,...Л) = к?Чтх*\...,тп*>), г = 1,... ,п, и в случае 2 теорема следует из (4.9.11), (4.9.12). Положение намного сложнее, если игроки не знают типов протршника или знают лишь некоторые вероятностные распределения на типах. Пример 11. Рассмотрим игру двух лиц (рис. 4.13). Элементы множества Х\ обозначим кружками, а множества Х2 — квадратиками. Вершины дерева игры перенумерованы двойными индексами. В позициях (1.2) и (1.3) оба выбора игрока 1 приводят к одинаковому для него выигрышу. В то же время, если /i(2) = 2 (игрок 2 «друг» игрока 1), то он выберет альтернативу 2 в позиции (1.2) и альтернативу 1 в позиции (1.3). Если /i(2) = —2 (игрок 2 «враг» игрока 1), он выберет 1 в позиции (1.2) и 2 в позиции (1.3). В случае F\ = (1,2) (/i(2) = 2) единственное абсолютное равновесие по Нэшу будет {(2,2,1,1,1), (2,1)}с выигрышами (2,1), если оба игрока знают вектор предпочтений F\. Если это не имеет места, то положение усложняется. Пусть игрок 2 думает, что вектор предпочтений 1 есть F\ = (1, —2) (/i(2) = —2) (хотя в действительности /i(2) = 2), и игрок 1 знает о мнении игрока 2 о себе. Тогда, используя метод динамического программирования, мы получим пару стратегий {(1,2,1,1,1), (1,1)} с выигрышами (5,4), что не есть равновесие по Нэшу. Если игрок 1 не знает мнение игрока 2 о себе, решение будет другим. Также интересно отметить, что в случае, когда вектор F\ известен обоим игрокам и /i(2) — —2, единственное равновесие по Нэшу в тип-стратегиях будет {(1,1,2,1,1), (1,1)} с выигрышами (5,3). Это довольно необычно, так как оказывается, что дружеские отношения между игроками могут иногда приводить к меньшим выигрышам для обоих игроков, чем враждебные.
§4.10. Структура множества абсолютных равновесий по Нэшу 227 С) С) (i) (1) С) (?) 0) С) Рис. 4.13. Пример, когда выигрыши в «благожелательном» равновесии меньше, чем в « неблагожелательном » §4.10. Структура множества абсолютных равновесий по Нэшу 4.10.1. В п. 4.2.1 была доказана теорема о существовании ситуации абсолютного равновесия по Нэшу в конечной игре с полной информацией в чистых стратегиях. В данном параграфе впервые дается полное конструктивное описание всех ситуаций абсолютного равновесия по Нэшу в играх с полной информацией на древовидном графе [Мамкина, Петросян, 2004]. Для этого построен специальный класс абсолютных равновесий по Нэшу в конечной игре с полной информацией в стратегиях поведения, предусматривающих возможность случайного выбора альтерантив, и показано, что любая ситуация абсолютного равновесия принадлежит данному классу. Пусть задана многошаговая позиционная игра с полной информацией на конечном древовидном графе (см. определение п. 4.1.4). Для упрощения дальнейшего изложения введем некоторые дополнительные обозначения. Пусть ж — некоторая вершина (позиция), G(x) — дерево подыгры Гж, т. е. поддерево дерева игры G с началом в вершине ж. Обозначим через Z(x) множество вершин, непосредственно следующих за ж, Z(x) = Fx. Альтернативами в вершине х называются вершины.?/, следующие за х (у G Z (ж)). Игрока г, принимающего решение в позиции х (выбирающего следующую альтернативу в вершине ж), будем обозначать через г (ж). Обозначим выбор игрока г (ж) в позиции ж через ж G Z(x), а подыгру Гх для удобства через Г(ж). Нам также удобнее будет в этом параграфе множества Х{ обозначить через Pi (Xi = Pi), i — 1,... ,n -f 1 (см. определение п. 4,1.4). Заметим, что для простоты изложения в этой главе мы рассматриваем лишь игры с терминальным выигрышем. Однако все
228 4. Многошаговые игры результаты могут быть перенесены и на игры, выигрыши в которых определены во всех позициях дерева G. Обычные стратегии, определенные в п. 4.1.5, будем называть чистыми стратегиями, т. е. чистой стратегией игрока % как и ранее называется однозначное отображение щ (-), которое каждой позиции ж Е Pi ставит в соответствие некоторую альтернативу у G Z(x). Множество всех чистых стратегий игрока i будем обозначать через Щ. 4.10.2. Определение. Стратегией поведения игрока г называется однозначное отображение bi (-), которое каждой позиции ж G Pi ставит в соответствие некоторое вероятностное распределение Рх=рХ1 (у),---,Рхтх)1 Ы, Pxfc(2/)>0,l<A;<|Z(x)| и Y, p*k (у)= г yez(x) на множестве альтернатив Z (х) (здесь \Z(x)\ — число элементов множества Z(x)). Множество всевозможных стратегий поведения игрока г будем обозначать через Б^. Введение класса стратегий поведения позволяет удобным образом описать множество всех ситуаций абсолютного равновесия в конечной игре с полной информацией. В данном параграфе мы построим специальный класс абсолютных равновесий по Нашу в конечной игре с полной информацией в стратегиях поведения и покажем, что любая ситуация абсолютного равновесия принадлежит данному классу. 4.10.3. Под длиной игры Г(жо) будем понимать длину наибольшего пути (число вершин содержащихся в пути) на дереве G (xq). Пусть длина игры Г (жо) равна T-fl. Рассмотрим разбиение множества всех позиций дерева игры G (xq) на Т+1 множество Хо,Х\,..., Хт — {^о}, где множество Xt состоит из позиций, достигаемых из начальной позиции жо в точности за, T — t ходов. Обозначим множество позиций, принадлежащих Х^ через xt, t — 0,... ,Т. При построении абсолютного равновесия по Нэшу методом обратной индукции может случиться, что в некоторой подыгре Г (ж) на поддереве G (ж) игрок г (ж), совершающий выбор в позиции ж, обнаруживает, что при продолжении игры выбором некоторых альтернатив у G Z (ж) его выигрыш, при условии что игроки и далее будут придерживаться данного фиксированного абсолютного равновесия по Нэшу, принимает равные значения (т. е. для игрока г (ж) выбор любой из таких альтернатив представляет одрша- ковый интерес). Именно это обстоятельство и приводит к множественности ситуаций абсолютного равновесия по Нэшу в конечных играх с полной информацией. Следующее определение вполне аналогично определению п. 4.2.1 и приводится для стратегий поведения. Определение. Ситуация равновесия по Нэшу в стратегиях поведения Ъ{-) = (Ъ\ (-),..., Ьп (-)) называется абсолютным равновесием в игре Г (жо), если ее сужение в любой подыгре Г (ж) является ситуацией равновесия в этой подыгре. 4.10.4. Приведем алгоритм построения ситуации абсолютного равновесия по Нэшу в стратегиях поведения ((6i (-),..., Ьп (-)) — Ь (-) для конечной игры с полной информацией и покажем, что любая ситуация абсолютного равновесия в Г (жо) может быть получена с помощью этого алгоритма.
§4.10. Структура множества абсолютных равновесий по Нэшу 229 Рассмотрим множество позиций Xq. Так как длина игры равна Т + 1, то Xq С Pn+i и выигрыши игроков уже определены и равны соответственно hi (жо), хо G Хо, г = 1,... ,п. Шаг 1. Перейдем от позиций Xq к позициям х\ G Х\. Если х\ ф Рп+ъ TO B позиции х\ ходит игрок г{х\). Алгоритм предписывает игроку г (х\) выбрать любую из позиций (альтернатив) х G Z (х±) из условия: max hi{xi){x) = hi(xi)(x0). (4.10.1) xGZ{xi) Однако, максимум в (4.10.1) может достигаться не в одной точке. Обозначим через Zi(Xl)(xi) =arg max ft* (ж), 4** (*i) = { У' h^ (») = -Л&) ki^ (X0) } - (4Л0-2) В позиции x\ G Xi стратегия поведения ЬцХ1) игрока г (х\) предписывает выбор любой из альтернатив множества у G 2{, ^ (xi) с некоторыми вероятностями рХ1 (у) > 0, 5Z Pxi (у) — 1? которые определяются стратегией ЬцХ1у Если максимум (4.10.1) достигается в единственной точке жо, т. е. \ЙцХ1) (xi) — 1, то стратегия поведения ЬцХ1) игрока i(x\) в х\ предписывает ему выбор точки жо G Z (х\) с вероятностью 1. При этом выигрыши игроков г = 1,..., п равны Y2 Pxi Ы) Ы (х0). *oeZ.(xi)(a:i) Если х\ G Рп+ъ то выигрыши игроков уже определены и равны соответственно hi(xi), г = 1,...,п. Заметим, что из-за возможного попадания игрока г{х{) в вершину xi G Zi(Xl) (xi)\ > 1, предполагаемая схема выбора не определяет путь (дугу) однозначно, и мы получим некоторое «поддерево» дерева G(x\). В случае если ^(Ж1) (xi) = 1, то «поддерево» будет стоять из единственной дуги (или одной вершины, если х\ G Pn+i)- . Применяя аналогичные рассуждения, можно построить «поддерево» с началом в Х\ G Х\ для каждой позиции х\ G Х\. Таким образом, на каждом поддереве G{x\), Х\ G Х\ фиксируется позиция хо, являющаяся предполагаемой окончательной позицией строящегося «поддерева» игры Г(жо), или вероятностное распределение на Z^Xl) (xi), если pi(xi) (xi)\ > 1- Поэтому, зная поведение игроков на поддеревьях G{x{), x\ G Xi, мы можем ввести аналог функций Беллмана Hi :Xi-^ Л1,г = 1,...,п. Здесь Hi — ожидаемый выигрыш игрока г в- позиции х\ G Xi, в предположении, что на поддереве G{x{) игроки действуют согласно предложенному алгоритму: ( hi (xi), если xi G Pn+i, Н}Ы) = \ v- /Un * v (4.10.3) L Pxi\y)hi{y), если Ж1^РП+Ь [ ye|2Ti(a:i)(a:i)|
230 4. Многошаговые игры где Е р* (у) =L (4-10-4) Стратегии bi (-) строим в позиции Xi E Xif]Pi по правилу: f z0,z0Garg max hi(xi)(y), |Zi(a:i)(xi)| = 1, Ь*(') = < yez(a:i)^ _ (4.10.5) l P*i = {РхЛу),У ^ ^oOl)}, |Zi(iBl)(xi)| > 1. Здесь ]Г рЖ1 (у) = 1, pXl (у) > 0 — некоторое фиксированное вероятностное 2/GZi(aJl)(a;i) распределение на множестве альтернатив Z^Xl^ (xi). Предположим, что функции H\(xi) и стратегии 5^ (-), г G N построены для всех I <Ь Рассмотрим шаг t. Предположим, что при движении к корню игры мы достигли позиции xt G Xt. Пусть функции определяют, какие выигрыши получают игроки i e N в подыгре Г (xt-i) после выбора ими в позиции xt G Xt, I < t предложенных нами решений. Шаг t. Пусть далее Zi{xt) (xt) = argmax^"1 (у). (4.10.6) yez(Xl) В позиции xt G Xt стратегия поведения bi (xt) игрока i (xt) выбирает любую из альтернатив множества у Е Z, ч (xt) с некоторыми вероятностями l\Xti) Pxt (У) >0, Yl Pxt (У) = 1- y^\Zi(Xl)(^i)\ При этом выигрыши игроков г G N в подыграх Г (xt)> xt G Xt равны Y^ ^t(xt_1)Я^1(xt_1),гGiV. Xt-^i(xt)(Xl) . Понятно, что если максимум (4.10.6) достигается в единственной точке ж4, то &г(^) выбирает эту точку с вероятностью 1. Если xt G Рп+ъ то выигрыши игроков уже определены и равны соответственно hi(xt), г = 1,...,п. Функции Н\ (xt) : Xt —> R1 i E N зададим следующим образом: Г Ы (xt), если xt G Рп+ь Я"/ (я*) = < V- / ч L / n w о ' (4.10.7) г v ; ] _ Е рЯ4 (у) hi (у) > если ** ^ pn+i- v ; [ ye\zi(xt)(xt)\
§4.10. Структура множества абсолютных равновесий по Нэшу 231 Стратегии Ъ^ (-) строим в позиции xt G Xt f)Pi, i G N по правилу: Г xt_bxt_i Garg max hi(xt)(y), \Zi(Xt)(xt)\ = 1, bi(-) = < *G?(*'> _ (4.10.8) I pXt = {Pxt(y),y e zi(:Et)(xt)}, |Zi(:Et)(xt)| > l. Здесь _ 53 paJt (y) = 1, pXt (y) > 0. ytZi(xt){xt) Обозначим через bXt (-) = (Ь** (-)»--- >&п' (')) ситуацию в подыгре Г(хг), построен- , ную на первых t шагах алгоритма. Продолжая спускаться по дереву игры Г (хо) к начальной позиции О и последовательно определяя выборы игроков в оставшихся множествах Хг, т = t + 1,... , Т, мы построим поддерево, соответствующее ситуации 6,т° (-) = (Щ0 (-),... ,Ь^° (-)) = Ь(-), и соответствующие выигрыши, которые реализуются в игре Г(хо). 4.10.5. Теорема. Построенная ситуация Ь (-) = (bj (-),..., 6П (-)) образует ситуацию абсолютного равновесия по Нэшу в Г (хо). Доказательство теоремы вполне аналогично доказательству теоремы п. 4.2.1 и при первом чтении может быть опущено. Доказательство. Обозначим через математическое ожидание выигрышей игроков г G N в подыгре Г (х) в ситуации (bf (-),..., 6^ (-)) = Ьж (-) в стратегиях поведения. Тогда, по определению, в ситуации {Ъ\* (-),..., Ьпь (-)) = bXt (-) имеет место равенству #< (х; 5я* (-)) - Я? (xt), г G iV, xt G Xt. Для доказательства теоремы достаточно показать, что *i {х; 5" (.)) > ^ (а*; 6Ж' (-) ||Ь? (-)) (4-10.9) для всех Xt G Xt, i G А/", Ь?* (-) G jB^fc. Здесь jB^* — множество стратегий поведения игрока г в подыгре Г (xt), представляющее сужение множества Bi на позиции подыгры r(xt). Проведем доказательство индукцией по длине игры. Если длина игры равна 1, то теорема справедлива, поскольку все позиции в игре окончательные и игроки в них ходов не делают. Пусть теперь игра Г имеет длину Т. Рассмотрим семейство подыгр Г (xt-i) на поддереве G (xt_i), xt-i G Z (xt). Длина каждой из этих подыгр не превосходит Т—1. Предположим, что теорема справедлива для всех игр, длина которых не превосходит Т — 1, и докажем ее для игры длины Т. Пусть г — г (хт). Поскольку Щт~г (-) по индукционному предположению есть ситуация абсолютного равновесия в T(xt-i), to имеем: KiM (хт; У* (-)) = Н1{хт) (хт) = max tf^1 (xT_0 = = Н1*т) (2t-i) ^ Я*У) (*t-i) = Ki{XT) (xT-i;bZr) (0) > > Ki{xT) (хт^Ь^-! (-)\\bi{XT) (-)) = Ki{XT)(xT;b*T(-)\\bi(xT)(-))
232 4. Многошаговые игры Если i ф i (хт), то Ki (arr-i; Vs* (-)) = Е Рхг (У) #Г* (У) = = . Е РхтЫ^(хг-1;5»(-))> > _Е Т Рхт Ы^^т-!;^ (-) ЦЬ*Ы) = = ^(xT;5^(.)||bi(-)) и теорема доказана. 4.10.6. Докажем теперь в некотором смысле обратное утверждение, а именно, докажем следующую теорему. Теорема. Любая ситуация абсолютного равновесия по Нэшу в Г (х0) может быть получена в результате реализации построенного алгоритма при соответствующим образом выбранных вероятностных распределениях Рх(у)>0, xePi, Y1 Рх(у) = 1- (4.10.10) VZZx{x){x) Доказательство. Обозначим через I?* множество всевозможных ситуаций абсолютного равновесия по Нэшу в Г (хо). И покажем, что В* С В. Пусть b* G В*. Покажем, что существует такая ситуация в стратегиях поведения b e В, предписывающая поведения Рх (у) > 0, х G Ри ^2 Р* (У) = М е N, чтоб* = 5; здесь В — класс абсолютных равновесий по Нэшу в Г (хо), полученный в результате реализации предложенного алгоритма. Обозначим через BXt и В* сужение множества Bi и В* соответственно на позиции подыгры Г (xt). Рассмотрим семейство подыгр Т{х\). Пусть b* G В* и пусть не существует Ь G J3, порождающей поведения (вероятностные распределения), определенные формулой (4.10.10) для позиции х\\ b* ~ b, b G В. Так как длина игры Г (х\) не превышает 2, то в игре Г (х\) ходит только один игрок г (xi). Следовательно, ситуации b*Xl и bXl отличаются разве лишь стратегиями игрока i(x\) ЪЪ } (х±) и ЬцХ1) (xi) соответственно, т. е. bXl может быть представлено как Ь*Х1\\ЬцХ1) для некоторого ЬцХ1) (хг) = bi{xi) (xi). Так как Ь* — ситуация абсолютного равновесия по Нэшу в Г(жо), то ее сужение на любую из подыгр игры Г (xq) также является ситуацией абсолютного равновесия в соответствующей подыгре. Поэтому Ki(Xl) (an;6**1 (-)) > Ki(xi) (хцЪ*** (-) ||^Xi) (-)) = Ki(xi) (an; ft*1 (-)) - (4-Ю.11) Если L^On) (xi) ~ \% (xi)|j T05 очевидно, что в этих позициях Ь* имеет структуру Ь, т. е. b* G В. Пусть существует х G Z (х\): х ф Zi(Xl) (xi)- Если b*Xl не имеет структуры
§4.10. Структура множества абсолютных равновесий по Нэшу 233 6, то это означает, что вероятности рх (у), порожденные b*Xl^ должны предписывать положительную меру вершинам х Е Z(xi), x ф Z^Xl-j (х\). Тогда КцХ1) (xi; Ь*1 (.)) - НI } (xi) = max fti(a;i) (х) > > Е Р*1 (y)hi(Xl)'(y) = Ki(xi) (хг;Ъ*Х1 (-)). Из (4.10.11) и последней цепочки равенств и неравенств следует, что наше утверждение неверно и b*Xl — bXl для некоторого b е В. Рассмотрим семейство подыгр Г(жг). Мы показали, что b*Xl = bXl для некоторого Ъ Е В. Следовательно, ситуации Ь*Х2 и ЪХ2 отличаются разве лишь стратегиями игрока г{х2) в позиции х%. Ki{x2) (х2;Ъ**> (-)) > Ki{x2) (х2;Ь*х' (-) ||Ь^а) (-)) = ККхл) (х2;Ь*> (-)) , (4.10.12) так как б*^2 является ситуацией абсолютного равновесия в Г (жг). Если pi(a;i) (xi)\ — \Z (x±)\, TO утверждение теоремы тривиально. Пусть существует х Е Z {х^) : х ^ ^(z2) (х2)- Если Ь*Х2 не имеет структуры 5, то это означает, что вероятности рх (у), порожденные 6*Х2, должны предписывать положительную меру вершинам х Е Z(x2), x ф ^(z2) (жг). Тогда ^i(xa) (а*;^ (-)) = %2) (х2) = jnax ) tf*^ (х) > (4 10 13) > ]Г рЯ2(у)я1(Я2)Ы = ^2)(^;Ь*ЯВ2(-))- yez{x2) Это противоречит тому, что b* Е Б*. Из (4.10.12) и (4.10.13) следует, что 6*Ж2 = ЬХ2 для некоторого вероятностного распределения, определенного условием (4.10.10) для позиции Х2 (для некоторого b E В). Предположим, что утверждение теоремы справедливо для всех подыгр длины fc, т. е. существует вероятностное распределение, определенное условием (4.10.10) для всех позиций х/г, такое что b*Xk = bXk. Рассмотрим семейство подыгр r(x/e+i) и покажем, что b*Xk+1 = 5:Efc+1 для некоторого b е В. Пусть это не так. Тогда имеем: кЦхк+1) (хк+1;г*ы (-)) > ^(Ж(!+1) (xfc+i;6-^ (.) ць^;+1)(-)) = = Ki(Xk+l){xk+1;bx*+4-))- Пусть существует х Е Z(x/c+i), x ^ Z^Xk+1^ (x^i), которое выбирается с положительной вероятностью стратегией 6*:Efc+1: Ki(Xk+l) (хк+1; Ъ^ (-)) = Я^+1) (*fc+1) = xgmax+i) Я*^ (*) > > 51 p**+i(j/)^,fc(Xfc+l)(s/) = ^(*fc+I)(^+i;^+1(-))- yGZ(xk+1) Но это противоречит тому, что Ь* Е 5*. Поэтому 6*Ж/0+1 = S31^1 для некоторого b E Б. Для случая, когда p^Ofc+i) (#fc+i) — |^(#fc+i)| утверждение теоремы тривиально.- Теорема доказана.
234 4. Многошаговые игры §4.11. Индифферентное равновесие в позиционных играх 4.11.1. Как мы видели ранее в § 4.9—4.10, в позиционных играх ситуация абсолютного равновесия по Нэшу может не являться единственной и зависит от «доброжелательности» игроков в ,том смысле, что один из игроков, будучи в равной степени заинтересован в выборе последующих альтернатив, может выбрать любую из таких вершин, руководствуясь своими личными соображениями. Например, в случае «доброжелательности», игрок во множестве своих личных позиций, в которых выбор последующих альтернатив принесет ему одинаковый максимальный выигрыш, выбирает из них ту, которая более благоприятна для другого игрока, или же ту, которая является неблагоприятной для какого-либо из игроков (см. § 4.9). В настоящем параграфе мы предложим другой подход выделения абсолютного равновесия по Нэшу, которое может быть получено только при использовании смешанных стратегий. Пример 12. На рис. 4.14 представлена позиционная игра двух лиц с полной информацией на древовидном графе. Выигрыши игроков записаны в окончательных позициях. Причем, выигрыш первого игрока соответствует верхнему числу, второго — нижнему. 10 Рис. 4.14. Дерево игры Множество очередности игрока 1 представляет собой множество Р\ — {хо>#з>яе}, второго игрока — Р2 — {^1,^2}, множество окончательных позиций равно Рз = {x4,X5,X7,X8,X9,Xio}. В позиции хз ходит игрок 1. Поскольку максимум max h\ (х) xGZ(x3) достигается в 2-х точках, построим множество Zl (х3) = argmax/n (х) = {х7,х&} . xez(x3)
§4.11. Индифферентное равновесие в позиционных играх 235 Предположим, что игрок 1 настроен доброжелательно по отношению к игроку 2. Это означает, что в позиции Хз он выбирает позицию х$ G Z\ (хз), которая является более благоприятной для игрока 2, чем позиция х7 Е Z\ (хз). Тогда выигрыши игроков в позиции х3 в подыгре Г (х3) составят Н (ж3) = (3,6)*. В позиции xq ходит игрок 1. Поскольку максимум max hi (x) — 1 xez(xe) достигается в xg, следовательно, в позиции xq игрок 1 выберет альтернативу xg. Тогда в подыгре Г (xg) выигрыши игроков составят Н (х$) = (1,1)*. В позиции х\ ходит игрок 2. Так как максимум max ]%2 (х) = б xez(Xl) достигается в хз, следовательно, в позиции Х\ игрок 2 выберет альтернативу х$. Тогда в подыгре Г (xi) выигрыши игроков составят Я0п) = (з,б)*. В позиции Х2 ходит игрок 2. Максимум выигрыша второго игрока max /12 (х) = 2 xez(x2) достигается в х&. Поэтому в позиции Х2 игрок 2 выберет альтернативу Х5. Тогда в подыгре Г(х2) выигрыши игроков составят Н (х\) = (1,2)*. Рассмотрим позицию Хо- В позиции хо ходит игрок 1 и выбирает альтернативу х\ Е Z (хо) из условия max h\ (x) = 3. xGZ(xq) Тогда выигрыш игроков во всей игре Г (хо) составит Н (хо) = (3,6)*. Заметим, что в позиции хз множество Z\ (хз) состоит более чем из одного элемента, что порождает неоднозначность выбора альтернативы в позиции хз- Выше мы строили абсолютное равновесие по Нэшу в предположении «доброжелательности» первого игрока. Рассмотрим случай, когда игрок 1 настроен «недоброжелательно» по отношению к игроку 2. Это означает, что в позиции хз игрок 1 выбирает позицию х7 G Z\ (хз), Zx (х3) = argmax/i! (х) = {х7,х8}, xGZ(x3) которая является менее благоприятной для игрока 2, чем позиция xg G Z\ (хз). Тогда выигрыши игроков в позиции хз в подыгре Г (хз) составят Н (хз) = (3, 2)*. В позиции Хб ходит игрок 1. Так как максимум max hi (x) = 1 xez(xe) достигается в хд, то в позиции Хб игрок 1 выберет альтернативу xg. Тогда в подыгре Г (хб) выигрыши игроков составят Н (х$) = (1,1)*. В позиции х\ ходит игрок 2. Так как максимум max /12 (х) = 3 i6Z(n)
236 4. Многошаговые игры и достигается в х±, следовательно, в позиции х\ игрок 2 выберет альтернативу х±. Тогда в подыгре Г (xi) выигрыши игроков составят Я(ая) = (4,3)*. В позиции Х2 ходит игрок 2. Максимум выигрыша второго игрока max /12 (х) = 2 xez(x2) достигается в х$. А значит, в позиции Х2 игрок 2 выберет альтернативу х&. Тогда в подыгре Г(жг) выигрыши игроков составят Н (х\) — (1,2)*. Рассмотрим позицию xq. В позиции Xq ходит игрок 1 и выбирает альтернативу Х\ G Z (xq) из условия max hi (x) = 4. xgz(x0) Тогда выигрыш игроков во всей игре Г (хо) составит Н (хо) = (4,3)*. 4.11.2. Как видно из рассмотренного примера, при различном настрое одного из игроков (доброжелательном и недоброжелательном) абсолютные равновесия в игре Г (хо) и соответствующие им выигрыши различны. Как было упомянуто ранее, при построении абсолютного равновесия по Нэшу методом обратной индукции, в подыгре может случиться, что один из игроков обнаруживает, что его выигрыш (при условии продолжения игры в соответствии с данным равновесием по Нэшу в подыграх) не зависит от того, какую альтернативу он выберет. Для устранения проблемы многозначности абсолютных равновесии по Нэшу введем понятие индифферентного равновесия, отражающее «безразличие» при выборе альтернативы в указанных позициях. В позициях х G G (хо), в которых принимающему решение игроку г (х) безразлично, какую из альтернатив у G %мх\ (х) выбрать, предпишем игроку г (х) выбрать вершины у G ^Ы (х) с Равными вероятностями, т. е. вероятность выбора каждой из альтернатив yk G ^(х) (х)> & = 1>- - - >\%г(х) {х)\ в позиции х G G (xq) равна — \Zi(x) (ж) Процедура построения индифферентного равновесия по Нэшу отличается от классического построения абсолютного равновесия методом обратной индукции только выбором стратегий и определением выигрыша игрока в позициях у G %^х\ (х). А именно, yezi(x)(x) где Hi (у), у G Z-/ ч (х) — выигрыш игрока г G 7V в подыгре Г (у). Очевидно, что если Ztf. (x) состоит из одного элемента, то выбор альтернативы у G Z^s(x) осуществляется с вероятностью 1 и процедура построения индифферентного равновесия в позициях, в которых %) (х) 1, совпадает с классической процедурой построения абсолютного равновесия по Нэшу методом обратной индукции.
§4.12. Стратегии наказания и «народные теоремы» 237 4.11.3. Вернемся к примеру 12 (рис. 4.14) и найдем для него индифферентное равновесие. В позиции хз Zx (#з) = {x>7,xg}. Согласно предложенному выше алгоритму, альтернатива из Zx (хз) в Х'з выбирается с равными вероятностями. И выигрыши игроков в хз составят Н(х)= (i(3 + 3),i(2 + 6))* = (3,4)* . В позиции xq ходит игрок 1. Поскольку максимум max hi (х) = 1 xez(xe) достигается в хд, то \Z1 {xq)\ = 1, и в позиции xq игрок 1 выберет альтернативу хд с вероятностью 1. Тогда в подыгре Г (xq) выигрыши игроков составят Н (xq) — (1,1)*. В позиции х\ ходит игрок 2. Так как максимум max H2 (х) = 4 xez{xx) достигается в хз, то Zx (xx) = 1, и в позиции х\ игрок 2 выберет альтернативу хз с вероятностью 1. Тогда в подыгре Г (х\) выигрыши игроков составят Н (х\) = (3,4)*. Аналогично в позиции Х2 выигрыши игроков составят Н (х\) — (1,2)*. И выигрыш игроков во всей игре Г (хо) составит Н (xq) = (3,4)*. Как видно из примера 2, выигрыши игроков при индифферентном равновесии отличны от выигрышей в рассмотренных нами выше других равновесиях. Вернемся к описанному нами в параграфе § 4.10 классу всех абсолютных равновесий по Нэшу. Полагая в нашем примере вероятности на Z\ (хз) равными рХз (xg) = 1, Рх3 (х7) — 0? получим абсолютное равновесие по Нэшу при «благоприятном» настрое игрока 1. Полагая рХз (xg) = 0, рХз (х^) = 1 получим абсолютное равновесие по Нэшу при «неблагоприятном» настрое игрока 1. В случае, когда pXz (xg) = рХз {xj) = \ мы получим индифферентное равновесие в стратегиях поведения. Понятно, что результаты § 4.10—4.11 сохраняют силу и для случая, когда выигрыши игроков заданы не только в окончательных позициях, но и во всех вершинах дерева игры и суммируются вдоль партии игры. §4.12. Стратегии наказания и «народные теоремы» 4.12.1. В п. 4.2.1 доказана теорема о существовании ситуации абсолютного равновесия (по Нэшу) в многошаговых играх с полной информацией на конечном древовидном графе. В то же время при исследовании конкретных игр этого класса можно обнаружить целое семейство ситуаций равновесия, сужения которых необязательно являются ситуациями равновесия во всех подыграх исходной игры. К числу таких ситуаций равновесия относятся равновесия в стратегиях наказания. Проиллюстрируем это понятие на примере. Пример 13. Пусть игра Г происходит на графе, изображенном на рис. 4.15. Множество N — {1,2} состоит из двух игроков. Кружками изображены вершины, составляющие множество Xi, квадратиками — множество Х^ Вершины графа перенумерованы двойными индексами, дуги — одинарными.
238 4. Многошаговые игры G) (I) G) (0 (о) С) С) СО Рис. 4.15. Абсолютное равновесие и стратегии наказания Нетрудно убедиться в том, что ситуация и\ = (1,1,2,2,2), и\ = (1,1) является абсолютно равновесной в игре Г. При этом выигрыши игроков равны 8 и 2 соответственно. Рассмотрим теперь ситуацию Щ = (2,1,2,1,2), Щ = (2,2). В этой ситуации выигрыши игроков равны соответственно 10 и 1, тем самым игрок 1 получает больше, чем в ситуации (u|,U2). Ситуация (Щ^Щ) является равновесной в игре Г, но не является абсолютно равновесной. Действительно, в подыгре Г^ сужение стратегии Щ диктует игроку 1 выбор левой дуги, что не является для него оптимальным в позиции (1.4) Такое действие игрока 1 в позиции (1.4) можно интерпретировать как угрозу «наказания» игрока 2, если он отклонится от желательного для игрока 1 выбора дуги 2 в позиции (2.2), лишив тем самым игрока 1 максимального выигрыша, равного 10. Однако по существу такую угрозу «наказания» едва ли следует считать действенной, поскольку наказывающий игрок при этом сам может потерять в выигрыше 5 единиц (действуя неоптимально в игре Г 1,4). 4.12.2. Дадим строгое определение стратегий наказания. Для простоты ограничимся случаем неантагонистической игры двух лиц. Пусть задана неантагонистическая игра двух лиц г = (и1,и2,к1,к2). С игрой Г свяжем две антагонистические игры Т\ и Г2 следующим образом. Игра Гх — это антагонистическая игра, построенная на основе игры Г, в которой игрок 2 играет против игрока 1, т. е. К^ = —К\. Игра Г2 — это антагонистическая игра, построенная на основе игры Г, в которой игрок 1 играет против игрока 2, т. е. К\ = —К2< Графы игр Г*1, Гг, Г и множества стратегий в них совпадают. Обозначим через (^11,^21) и (^12^22) ситуации абсолютного равновесия в играх 1\ и Г2 соответственно. Пусть ГЧя, ^2х — подыгры игр Г*1, Г2; vi(x), V2(x) — значения этих подыгр. Тогда ситуации {u\ix,U2\X} и {u\2x,U22X} являются равновесными в играх Т\х, Т2х соответственно и vi(я) = К?КЛ^*), v2(x) = Щ{ч12х,и*22х).
§4.12. Стратегии наказания и «народные теоремы» 239 Рассмотрим произвольную пару (и 1,1x2) стратегий в игре Г. Разумеется, эта пара стратегий является таковой и в играх Ti, Г2. Пусть Z — (xq = zq,z\, ..., z{) — путь, реализуемый в ситуации (ui,U2). Определение. Стратегия й\{-) называется стратегией наказания игрока 1, если: ui(zk) = zk+i для zkeZnXu ui(y) = ul2(y) для уеХъ у ф Z. Стратегия ib(-) называется стратегией наказания игрока 2, если: U2(zk) = zk+i для zk e ZCi X2, и>2(у) == U2i(y) для уеХ2, у ф Z. (4.12.1) (4.12.2) Из определения стратегий наказания сразу получаем следующие свойства: 1. Xi(ui(.),u2(-)) = #i(zc), JC2(5i(.),tZ2(.)) - H2(ze). 2. Пусть один из игроков, например игрок 1, используя стратегию wi(-), для которой позиция zk G Z П Х\ является первой в пути Z, где ^i(-) диктует выбор следующей позиции z'k+v отличной от выбора, диктуемого стратегией ui(-), т. е. zk+1 ф zk+\. Тогда из определения наказывающей стратегии v,2{-) следует, что ^i(txi(-),22(-))<vi(^)- (4Л2-3) Аналогично, если игрок 2 использует стратегию U2(-), для которой позиция zk G ZnX2 является первой в пути Z, где U2{-) диктует выбор следующей позиции z'k+l, отличной от диктуемой стратегией Й2(-), т. е. z'k+1 ф zk+\, то из определения наказывающей стратегии и\{-) следует, что K2(u1(-),M-))<V2(zk). (4.12.4) Отсюда, в частности, получаем следующую теорему. Теорема. Пусть (ui(-)yU2(-)) — ситуация в стратегиях наказания. Для равновесности ситуации (ui(-),й2(-)) достаточно, чтобы для всех fc = 0,l,...,/ — l выполнялись неравенства /fi(2i(.),52(-)) > *>i(*fc), К2(щ('),Ы-)) > v2(zk), (4.12.5) где zo,zi,... ,zi — путь, реализовавшийся в ситуации (ui(-), йгО))- 4.12.3. Пусть wj!(-) и г^22(') — оптимальные стратегии игроков 1 и 2 во вспомогательных антагонистических играх Г\ и Г2 соответственно и Z = {зоДъ... ,~z{\ — путь, соответствующий ситуации (и^-) > u^i-)) - Предположим, что стратегии наказания ui(-) и U2(-) таковы, что uii^zk) = ul^Jk) Для ^ G Z П Ii и U2^zk) = ^22(zfc) для Zfc G Z П Х2. Тогда ситуация (ui(-),U2(-)) образует ситуацию равновесия по Нэшу в стратегиях наказания. Для доказательства этого утверждения достаточно показать, что ^lKl(')^22(-)) = *l(5i(-),ti2(-)) > Vi(zfc), i2 ^2(uIi(-),^2(.)) = lf2(Si(.),22(-))>i;2(zfc), A;-0j^~T, и воспользоваться теоремой из предыдущего пункта. Неравенства (4.12.6) следуют из оптимальности стратегий гх*1(-) и u^i') B ИГРах Г*1 и Г2 соответственно, их обоснование предлагаем в качестве упражнения. Таким образом, получена следующая теорема.
240 4. Многошаговые игры Теорема. В игре Г всегда существует ситуация равновесия в стратегиях наказания, в которой выигрыши равны ^(^иО^^О))? где ^п(') и г^О ~~ оптимальные стратегии игроков 1 и 2 во вспомогательных антагонистических играх Т\ и Г 2 соответственно. 4.12.4. Смысл стратегий наказания заключается в том, что игрок заставляет партнера придерживаться определенного пути в игре (определенных выборов), используя постоянную угрозу переключения на стратегию, оптимальную в антагонистической игре против партнера. Множество ситуаций равновесия в классе стратегий наказания достаточно представительно, однако эти стратегии не следует считать очень «хорошими», поскольку, наказывая партнера, игрок может еще сильнее наказать самого себя. Пример Ц. Рассмотрим игру N лиц, изображенную на рис. 4.16. В этой игре игроки ходят один за другим по одному разу, имея возможность в каждой позиции выбрать одну из двух альтернатив: А или D. Выигрыши игроков записаны в окончательных позициях. Легко убедиться, действуя по индукции с конца игры, что ситуация и* = А, г = 1,..., N, и* — (А, А,..., А) является ситуацией равновесия по Нэшу и абсолютно равновесной ситуацией с выигрышами (2,2,..., 2). Действительно, пусть игрок г выбирает щ = D. Тогда в ситуации (и*\щ) — (u*\D) = (А, А,..., A, D, А,..., А) выигрыши всех игроков равны соответственно (1/г,1/г,...,1/г), т. е. 2 = Ki(u*)>Ki{u*\ui = D) = \, г и и* есть равновесие по Нэшу. Очевидно, что это же рассуждение можно провести для любой подыгры, начиная с шага к. В то же время эта ситуация не является устойчивой в том смысле, что при большом числе игроков нельзя быть уверенным (первым игрокам), что какой-то из игроков не «ошибется» и вместо А выберет D. Тогда все игроки (не только тот, который «ошибся») потеряют в выигрыше. D D п - 1 А D D (2,2,...,2) Рис. 4.16. Множественность равновесий по Нэшу в простейшей игре с двумя альтернативами у каждого игрока В игре имеется богатое множество ситуаций равновесия в стратегиях наказания. Ситуация, в которой первый и любой другой игрок выбирает D, является ситуацией равновесия по Нэшу, т. е. равновесной оказываются ситуации вида гГ=(ДД...,Д...,А). (с D на первом месте и еще одним D на любом другом). Выигрыши во всех таких ситуациях одни и те же и равны (1,1,..., 1). Действительно, пусть в ситуации й~ второй игрок, выбирающий D, имеет номер к > 1, если игрок г > 2 выбирает щу отличную от той, которая входит в ситуацию й, то
§4.13. Кооперация в многошаговых играх 241 выигрыши игроков не меняются, так как выбор игроком 1 на первом шаге альтернативы D гарантирует завершение игры на этом шаге, при котором все игроки получают выигрыш 1. Если игрок i = 1 выбирает вместо D альтернативу Д то благодаря наличию в ситуации й~ еще одного игрока, выбирающего D (игрока с номером fc), выигрыш игрока 1 уменьшится и станет равным 1/к. Выигрыши в ситуации и, конечно, меньше выигрышей в ситуации и* = (А, А,..., А), но не зависят от ошибок большого числа игроков. §4.13. Кооперация в многошаговых играх 4.13.1. Рассмотрим игру Г с полной информацией на конечном графе, как определено в §4.1 и в обозначениях этого параграфа. Здесь будет незначительное различие в определении выигрышей игроков. В §4.1 предполагалось, что выигрыши определены только на множестве Хп+\ окончательных позиций игры. Здесь будем предполагать, что для каждого х G X определены п действительных чисел hi(x), i = 1,..., п, и для каждого пути игры z = (zq,z\, ... ,zi), z\ G Xn+\ выигрыш г-го игрока определяется как i fc=0 Если hi(x) = 0, x e Xi, i = 1,... , n, то мы имеем в точности игру, определенную в §4.1. Как принято в теории классических кооперативных игр, предполагаем, что перед началом игры игроки соглашаются выбрать такой n-мерный вектор стратегий w(.) = (ui(-),...,Wi(-),...,un(-)), который максимизирует сумму выигрышей игроков (см. §3.11). Если ~z = fzo».. - ,z&,... ^i),zi G Xn+i — путь (траектория), реализованный ситуацией и(-) = (wi,... ,щ,... ,йп), то по определению ситуации й(-) имеем п I п I тах ЕЕ/1^) = ЕЕЛ*^)' (4.13.1) г=1 к=0 г=1 к=0 Кооперативная игра Г развивается вдоль траектории ~z = (zo,...,^,... ,z/), которую мы будем называть оптимальной траекторией. Ясно, что в игре Г мы можем иметь целое семейство «оптимальных траекторий», каждая из которых дает одинаковый максимальный общий выигрыш. В этом параграфе для простоты предполагаем также, что в игре Г оптимальная траектория единственна. Определим в игре Г характеристическую функцию (см. п. 3.11.1).
242 4. Многошаговые игры 4.13.2. Характеристическая функция может быть введена аксиоматически или как значение игры с нулевой суммой, происходящей между коалициями S С N и N \ S. Как известно, важным является выполнение условия п I V(N) = Е ЕЬ(?к), N = {l,...,n}, (4.13.2) г=1 fc=0 и для Si С N, S2 С N, Si П S2 - 0 V(S! U 52) > V(Si) + К(52), V(0) - 0. Если характеристическая функция определена, то мы можем определить множество дележей п С = {? = &) : $> = У(ЛГ)' & ^ У(«)> * = 1, - - - ,п}, г=1 С-ядро М = {^ = (6) : Х> > ^(S), 5 С TV} С С, вектор Шешга и другие принципы оптимальности классической теории кооперативных игр. В дальнейшем будем обозначать через М С С любой из этих принципов оптимальности. 4.13.3. Предположим, что в начале игры игроки соглашаются использовать принцип оптимальности М С С как основу для выбора «оптимального» дележа ^ Е М. Это означает, что, играя кооперативно, выбирая стратегии, максимизирующие общий выигрыш, игроки ожидают, что каждый из них получит доход ^ из оптимального дележа ^ (Е М после окончания игры (после того как максимальный общий выигрыш V(N) действительно будет получен всеми игроками). Но когда игра Г действительно развивается вдоль оптимальной траектории ~z — (zo,^i,... ,2/с,... ,z/), в каждой вершине Ik игроки находятся в новой многошаговой игре с полной информацией Т-%к, к = 0,...,/, которая является подыгрой исходной игры Г, начинающейся из вершины ~Zk с выигрышами / Hi(zk) -]Г/ц(^), /ц>0, г = 1,...,п. Важно заметить, что для выражения (4.13.1) принцип оптимальности Беллмана выполняется и часть ~zk — (г/с,..., Jj,..., 2/) траектории z, начинающейся с ~z^, максимизирует сумму выигрышей в подыгре Г^, т. е. п I п I Zk^lzi Е E biz,) = Е Е ъ{щ). (4.13.3) г=1j=k i=lj=k Это означает, что траектория ~zk — (z^,...,^-,... ,z/) также «оптимальная» в подыг- Перед попаданием в подыгру Г^ каждый из игроков г уже заработал выигрыш /с-1 fff*=5>(Z,-). (4-13.4)
§4.13. Кооперация в многошаговых играх 243 В то же время в начале игры Г = Г(жо) — Г(^о) игрок г стремился получить доход ^ — г-ю компоненту «оптимального» дележа ^ Е М С С. Отсюда следует, что в подыгре Т-%к он ожидает получить доход, равный ?«-Я**=?*\ * = 1,...,п, (4.13.5) и тогда возникает вопрос, останется ли новый вектор ^ = (^ ',... , ^ ,... , ^ ) оптимальным в том же смысле в подыгре Г^,, как вектор ^ был в игре Г(^о). Если нет, это будет означать, что игроки в подыгре Г^ не будут ориентироваться на тот же принцип оптимальности, что и в игре Г(^о), что может побудить их выйти из кооперации изменением выбора кооперативных стратегий щ(-), г — 1,... ,п, и, следовательно, изменением оптимальной траектории ~zk в подыгре Ггк. Постараемся теперь обосновать справедливость этих доводов. 4.13.4. Введем в подыгре Р^., к = 1,...,/, характеристическую функцию V(5;z/c), 5 С ЛГ, таким же образом, каким она была введена в игре Г = T(zo). Основываясь на характеристической функции V(S;'Zk)i можно ввести множество дележей п СШ = {$ = (6) : Х> = V(N'M& ^ V({i};zk),i = 1,... ,n}, г=1 ядро М = tf = fe) :Y,ti> V(S;zk), S С N} С C(**)> вектор Шепли и другие принципы оптимальности классической теории игр. Обозначим через M(z/c) С C(zk) принцип оптимальности М С С (который был выбран игроками в игре Г(го)), рассмотриваемый в подыгре Г^. Если мы предположим, что игроки в игре Г(го), двигаясь вдоль оптимальной траектории (Jo,. - -, 2fc,... , zj), следуют одинаковой идеологии оптимального поведения, то вектор ^ * = ^ — HZk должен принадлежать множеству M(z/c) — соответствующему принципу оптимальности в кооперативной игре Т^к, к — 0,..., I. Ясно видно, что очень трудно найти игры и соответствующие принципы оптимальности, для которых это условие выполняется. Постараемся проиллюстрировать это на следующем примере. Предположим, что в игре Г 1ц(г) ф 0 только для z Е Xn+i (игра Г — игра с терминальным выигрышем из §4.1). Тогда последнее условие дает ^ = ^ к Е М(^), к — О,..., /, откуда получается tenlk=0M(zk). (4.13.6) Для к ,— I имеем ^ Е M{z{). Но M(zi) = C{z\) — {/ц(г/)}, и это условие должно иметь место для всех дележей множества M(~zq) и для всех принципов оптимальности M(zq) С C(zo), это означает, что в кооперативной игре с терминальным выигрышем единственно разумным принципом оптимальности будет ^ = {/ц(г/)} — вектор выигрыша, получаемый в конечной точке кооперативной траектории в игре T(zq). В то же время простейшие примеры показывают, что включение (4.13.78), кроме случая «болванов», не имеет место для игры с терминальными выигрышами. 4.13.5. Как же преодолеть эту трудность? Правдоподобным способом является введение специального правила выплат (пошаговая плата) на каждом шаге игры таким образом, чтобы выплаты на каждом шаге не превышали общей суммы, заработанной
244 4. Многошаговые игры игроками на этом шаге, и выплаты, получаемые игроками, начиная с шага к (в подыгре r^fc), принадлежали бы тому же принципу оптимальности, что и дележ ^, на который игроки согласились в игре TZo в начале игры. Является это возможным или нет, об этом и пойдет речь ниже. Введем понятие процедуры распределения дележа. Определение. Предположим, что % = {Сь ---»&»-- - >Cn} ^ M(zq). Всякая матрица /3 = {Pik}, i = 1,..., п, к = 0,..., I, такая, что I & = X>iib, fe>0, (4.13.7) fc=0 называется процедурой распределения дележа (ПРД). fc-i Обозначим Pk = (/8i/c,...,/3nfc)> /3(fc) = ^ /3m. Интерпретация ПРД j3 следующая: m=0 Рж — выплата игроку i на шаге к игры Г2о, т. е. на первом шаге подыгры Г^. Из определения (4.13.7) следует, что в игре VZQ каждый игрок г получает доход ^, г — 1,... ,п, который он ожидает получить как г-ю компоненту оптимального дележа & Е M(z0) вигреГ2о. Интерпретация @г(к) следующая: /3i(k) — сумма, получаемая игроком г на первых к шагах игры VZo. 4.13.6. Определение. Принцип оптимальности M(zq) называется динамически устойчивым, если для каждого % ^ M(zq) существует ПРД /3, такая, что Zk=Z- P(k) G M{zk), k = 1,..., I. (4.13.8) Определение. Принцип оптимальности M{zq) называется сильно динамически устойчивым, если для каждого % E.M(zo) существует ПРД /3, такая, что (3(к) 0 M(zk) С Лфо), fc = l,...,Z, гдеа®А = {а + а' : а' е A,aGRn,Ac Rn}. Динамическая устойчивость принципа оптимальности M{zq) подразумевает, что для каждого дележа ^ (Е М существует такая ПРД /3, что если выплаты в каждой позиции z/c на оптимальной траектории ~z будут сделаны игрокам в соответствии с —к ПРД /3, то в каждой подыгре I\fc игроки могут ожидать выплат ^ , которые являются оптимальными в подыгре Tjk в том же смысле, в каком они были оптимальными в исходной игре TZo. Сильная динамическая устойчивость означает, что если выплаты сделаны в соответствии с ПРД /3, то, заработав на первых к шагах сумму /?(&),- игроки (если они ориентировались в подыгре Г^ на тот же принцип оптимальности, что и в Гго), пересматривая оптимальный дележ в этой подыгре (заменяя один оптимальный дележ другим), все равно получат в результате в игре TZo выплаты в соответствии с некоторым дележом, оптимальным в предыдущем смысле, т. е. дележом, принадлежащим множеству M{zq). 4.13.7. Если мы опустим условие неотрицательности /3ik > 0, налагаемое на компоненты ПРД /3, то для любого принципа оптимальности M(zq) С C(zq) и для каждого ^ е M(zq) можно определить /3^ по следующим формулам: Vi"-tfH+1 = fa, tl =0u, i = l,...,n, k = 0,...,l-l. (4.13.9)
§4.13. Кооперация в многошаговых играх 245 Из определения следует, что i i-i Е^ = Е(^'-?Г+1)+?Г=^°=ёг- k=0 fe=0 В то же время ^ — (3(к) = %Zk е М(^), к — 0,...,L Последнее включение может означать динамическую устойчивость M(zq), если мы будем уверены, что Pik=tk -tk+1 >0, г = 1,...,п, к = 0,...,г. (4.13.10) К сожалению, последнее неравенство не может быть гарантировано даже в простейших случаях. Можно убедиться в этом, рассматривая игры с терминальными выигрышами. Для таких игр условие (4.13.10) практически никогда не выполняется. Если же рассмотреть свойство сильной динамической устойчивости, то оно более сильное. Для него мы не можем даже вывести формулу типа (4.13.10). 4.13.8. Проведем регуляризацию (улучшение) классических принципов оптимальности, которая приведет нас к сильной динамической устойчивости. Более того, регуляризация порождает динамическую устойчивость новых принципов оптимальности. Рассмотрим следующие функции: (4.13.11) & " V(N;zQ) ' ^ S СЫ> A-~vwi0~~' ^ (l)' Pi " V(N,zk) ' * S C(Zfc)' Pi- v{N-t) - $ ecuo- fc Д. Определим ПРД /3 = {/?f, г = 1,..., n}, fc = 0,..., I. Легко видеть, что /? > 0. Рассмотрим формулу (4.13.11). Для различных дележей %к е C{zk) получаем разные значения $\ и, следовательно, разные /?. Пусть Вк — множество всевозможных /? для всех ^GC(zfe),fc = l,...,/. Рассмотрим множества С(г0) = {^ : ^ = X^fc=o ^ > ^ ^ ^} и ^(^fe) = {? : ? =: EUfXeB»}. Множество С(^о) называется регуляризованным принципом оптимальности (ПО) C(zo) и, соответственно, C{zk) ~ регуляризованный ПО С(г&). Будем считать C(zo) новым принципом оптимальности в игре Г(го). Теорема. Если ПРД (3 определена как /3, к — 1,..., I, то всегда выполняется /?(fc)0 C(z/c) С С(^о), т. е. /70 (5(zo) — сильно динамически устойчивый (/3(fc) = Y1 & ) - V m=o / Здесь множество 0(k)^C('Zk) есть множество всех векторов /3(к)+% > г^е С ^ C(^fc)-
246 . Доказательство. Пусть ^ е (3(к) 0 C{zk), тогда ^ = % к + ]Г /3 для некоторых Рш eBm, m = *;,...,г. — /с—1 - Но Г" - Е /5/т Для некоторых /?'т ЕБт,т = 0,...Д-1. Рассмотрим ( оП\т _ \ Р » 771 = 0, . . . , л — 1, 1/3 } -\ /Зт, т = к,...,1, 4. Многошаговые игры /с-1 Е т=0 тогда (/3")m G Бт, ^ = ]Г (/3")т и, следовательно, ^ е C(zo). Теорема доказана. т=0 Мы имеем также: ]T/tf = X>(z*)> к = 0,...,1, г=1 г=1 и, следовательно, при 0 < 0 < п п G Е# = Е5>(**), (4.13.12) fe=0 г=1 fe=0 что является действительным выигрышем, который можно распределить между игроками на первых 0 + 1 шагах и, как это видно из (4.13.12), в точности равен сумме, заработанной ими на этих шагах. 4.13.9. Пример 15. Рассмотрим игру трех лиц Г, изображенную на рис. 4.17. В данном пункте исследуем динамическую устойчивость одного классического принципа оптимальности вектора Шепли. Не вдаваясь в подробную интерпретацию этого принципа оптимальности, отметим только, что это дележ:, определяемый по формуле (s-l)\(n-s)\ Shi = 6 = Е S:ScN,{i}GS п\ V(S)-V(S\{i}) где s — число элементов множества 5. (3,3,3) А (3,3,3) А (3,3,3) а (3,3,3) Хо 1 В XI 2 В Х2 3 В хз (6,6,6) (3,3,3) (2,2,2) Г- Г- Г- Г- *- xq J- х\ *- Х2 *- а^з Рис. 4.17. Простейшая игра, в которой выигрыши накапливаются в процессе игры Здесь в скобках записаны выигрыши игроков 1, 2, 3 в каждом из узлов графа, TV = {1,2,3}. Множества стратегий игроков Х\ — Х2 = Х$ = {А, В} состоят из дву> элементов А и В.
§4.13. Кооперация в многошаговых играх 247 Выигрыши игроков равны Hi(A,A,A) = Н2(А,А,А) = Щ(А,А,А) = (12,12,12); Н1(В,х2,х3) = Н2(В,х2,хз) = #з(В,Ж2,.т3) = (9,9,9) при любых х2 G Х2, х3 <Е Х3; Я^А, Б, х3) = Н2(А, В, х3) = Я3(Д Я, х3) - (9,9,9) при любых х3 еХ3; НХ{А, А, В) = Я1(ДДБ)=Я1(ЛДБ)-(11,11,11). Правила вычисления выигрыша можно проследить, используя рис. 4.18. Если реализована последовательность А, А, А, то выигрыш игрока равен сумме его выигрышей в каждой вершине графа; если реализованный путь включает выбор В одним из игроков, то выигрыш каждого игрока равен сумме выигрышей вдоль пути, заканчивающегося первым выбором стратегии В. Вычислим значения характеристической функции У. Здесь возможны следующие коалиции: {1,2,3}, {1,2}, {1,3}, {2,3}, {1}, {2}, {3}; У({1,2,3}) = 36, так как, выбирая А, каждый игрок получает 12 (а вся коалиция 12 х 3 - 36). У ({1,2}) = 22, так как игроки 1, 2, выбирая А, могут обеспечить себе в худшем случае 22. Худший случай имеет место, если игрок 3 выберет В. У({1,3}) = 18, так как игрок 1, выбирая А, может обеспечить себе и игроку 3 в худшем случае выигрыш 18. Худший случай имеет место, если игрок 2 выберет В. У({2,3}) = 18, так как игрок 1, выбирая Я, всегда может сделать так, что выигрыш игроков {2,3} будет не превосходить 18. При другом выборе игрока 1 игроки {2,3}, очевидно, получат больший выигрыш. У({1}) = 9, этот выигрыш достигается выбором В игроком 1 и выбором В игроком 2. Очевидно, что выбором В игрок 2 ограничивает выигрыш игрока 1 числом 3. У({2}) = 9, здесь игрок 1, выбирая Я, ограничивает выигрыш игрока 2 числом 9. При другом выборе игрока 1 выигрыш игрока 2 может быть больше. У({3}) =9, этот случай подобен предыдущему. Вычислим вектор Шепли: Shi = 76/6, Sh2 = 76/6, SI13 = 64/6, т. е. вектор Шеп- ли предписывает одинаковые выигрыши игрокам 1 и 2. 4.13.10. Пример 16. Найдем характеристическую функцию для примера, изображенного на рис. 4.18 (здесь выигрыши игроков заданы в окончательных позициях). (0,0,0) А (0,0,0) А (0,0,0) А С1'1»1) (iU) (§>Ы) 1 Х(л -I- Х\ гг (2,2,2) Хо ' 1 В 1 Xi ' 2 В ' х2 ' 3 В 1 хз Рис. 4.18. Кооперативный вариант простейшей игры с двумя альтернативами у каждого игрока Характеристическая функция имеет вид У({1,2,3})=6, V({1,2})=2, F({1,3}) V({1}) = 1, V({2})=1-, V({3})=1- 2, V({2,3}) 1 = 2,
248 4. Многошаговые игры Для вектора Шепли получаем: Shi = 26/12, Sh2 - 23/12, Sh3 - 23/12. Данный пример используем для иллюстрации последующих результатов. Рассмотрим позиции игры Г вдоль оптимальной траектории х (траектории, максимизирующей суммарный выигрыш игроков), т. е. подыгры Г = Г^Х,Г^2,... ,Г^Г Очевидно, что отрезок траектории х вида хк = (х^,... ,х^,... ,х/), рассмотренный в подыгре Г^к, является оптимальной траекторией в этой подыгре (принцип оптимальности Беллмана). Обозначим через V(5, fc), S С iV, характеристическую функцию в подыгре T^fc. В частности, V(S,0) — V(S), S С N, есть характеристическая функция игры Г. Зная характеристические функции подыгры, можно построить вектор Шепли для подыгры T^fc. Обозначим его через Sh(fc) = {Sh^fc), i — 1,...,п}. Предположим, что в кооперативной игре ГХо = Г в качестве принципа оптимальности выбран вектор Шепли. Это означает, что игроки, договорившись о выборе набора стратегий й = (ui,... ,гц,... ,йп), гарантирующего максимальный суммарный выигрыш игроков, расчитывают получить выигрыши, определяемые вектором Шепли для игры ГХо. Именно это и служит основой для их кооперации. В ситуации й игра развивается вдоль оптимальной траектории х — (хо,х\,... ,х/). После первого шага игра переходит в вершину ~х\, и фактически игроки играют в новую игру Гж1? которая является подыгрой игры ГХо. Вектор Шепли в этой подыгре Sh(l) отличается, вообще говоря, от вектора Шепли Sh(0) = Sh в игре ГХо. Поэтому, если мы желаем произвести выплаты в ГХо согласно Sh(0), что являлось основой для кооперации в ГЖо, то в TXl для сохранения кооперации игроки должны ожидать получение выигрышей в соответствии с Sh(l) — вектором Шепли, расчитанным для Г^. Вопрос заключается в том, можно ли, осуществляя выплаты на каждом шаге игры, добиться того, чтобы оставшиеся выплаты представляли собой компоненты вектора Шепли для подыгры, начинающейся с данного шага. Предыдущие определения ПРД п. 4.13.5 и динамической устойчивости п. 4.13.6 для вектора Шепли примут следующий вид (заметим, что из единственности вектора Шепли следует, что понятие динамической устойчивости и сильной динамической устойчивости совпадают). Определение. Вектор /Зг = (/%, /3|,..., /?[_i, /3[), i = 1,..., п, называется процедурой распределения вектора Шепли (ПДРШ), если п 1. 53^ = Shi(0) = Shi, (4.13.13) 2. pi(k) + Shi{k) = Sbi(0), (4.13.14) где ?{k) = Е1 PL- Определение. Вектор Шепли в игре Г называется динамически устойчивым (состоятельным во времени), если существует неотрицательная процедура распределения вектора Шепли. Таким образом, если вектор Шепли динамически устойчив, то осуществляя на каждом шаге траектории выплаты игрокам в соответствии с ПДРШ (т. е. выплачивая на шаге к игроку г сумму /3|.), можно добиться того, чтобы вектор Шепли для подыгры r^fc как раз соответствовал выигрышам, которые игрокам осталось получить в подыгре
§4.13. Кооперация в многошаговых играх 249 Гхк. Если не требовать неотрицательности /3^,, % — 1,..., п, к = 1,..., /, то соотношение (4.13.8) всегда может быть выполнено, однако отрицательные j3lk не имеют экономического смысла, так как игроки едва ли согласятся отдавать средства во имя кооперации. 4.13.11. Пример 17. Рассмотрим игру Г из примера 16 как многошаговую игру с полной информацией. Здесь V(N) = 36, й — (А, А, А) и оптимальная траектория имеет вид (хо,Х1,Х2,хз) = х. Характеристическая функция для игры Г — Г*Жо была найдена в примере 16: К({1,2,3},0) = 36, У({1,2},0) = 22, У({1,3},0) = 18, У({2,3},0) = 18, П{1}.0) = 9, У({2},0) = 9, У({3},0) = 9. Вектор Шепли имеет вид Sh(0) = {76/6,76/6,64/6}. Характеристические функции для игр Г^1, Тщ, Г^3 вычисляются аналогично и равны соответственно V({1,2,3},1)=27, V({1,2},1) = 16, V({1,3},1) = 12, V({2,3}, 1) = 18, V({1}, 1) = 6, V({2}, 1) = 8, V({3}, 1) = 6. V({1,2,3},2) = 18, V({1,2},2) = 10, V({1,3},2) = 12, У({2,3},2) = 12, V({1},2)=5, F({2},2) = 5, V({3},2) = 6; Sh(l) = {|,y,|}, Sh(2) = {5i,5^,7}, Sh(3) = {3,3,3} Sb(0) = (f,^)+Sh(l),Sh(l)=(H,|,|)+Sh(2), Sh(2) = (2^,2^,4) +Sh(3), Sh(3) = (3,3,3), т. е. /3^>0, г = 1,2,3, fc = 1,2, 3, и вектор Шепли в Г является динамически устойчивым. Следующий пример показывает, что это далеко не всегда имеет место. Пример 18. Рассмотрим игру из примера 16 как многошаговую игру с полной информацией. Здесь V(N) — б, и = (А, А, А) и оптимальная траектория, как и в предыдущем случае, имеет вид (хо,Ж1,Х2,жз) = х. Характеристическая функция для игры Г = Г^0 была найдена в примере 8: У({1,2,3},0) = 6, У({1,2},0)=2, V({1,3},0) = 2, V({2,3},0) = 2, V({1},0) = 1, У({2},0) = 1/2, У({3},0) = 1/2. Вектор Шепли имеет вид Sh(0) = (26/12,23/12,23/12). Характеристические функции для игр Гж!, Г^2, Г^з вычисляются аналогично и равны соответственно П{1,2,3},1) = 6, К({1,2},1) = 1, У({1,3},1) = 1, У({2,3},1) = 4, У({1},1) = 1/3, У({2},1) = 1/2, У({3},1) = 1/2. Sh(l)= { 34/36, 91/36, 91/Зб}, У({1,2,3},2) = 6, V({1,2},2) = |, У({1,3},2) = 4,
250 4. Многошаговые игры V({2,3},2) = 4, V({1},2) = ^ П{2},2) = |, У({3},2) - 2, Sh(2) = {||,||,||}, Sh(3) = {2,2,2}, Sh(2) = (_H,_l|,g) +Sh(3), Sh(3) = (2,2,2). В данном примере вектор Шепли динамически неустойчив, так как среди величин Р1 имеются отрицательные. Как мы замечали ранее, это обстоятельство является типичным для игр с терминальными выигрышами, т. е. когда игроки получают выигрыши лишь в окончательных позициях игры. В данном параграфе невозможно охватить все вопросы, связанные с динамической устойчивостью принципов оптимальности. Заметим только, что понятие динамической устойчивости решений дифференциальных игр было впервые введено и исследовано Л.А. Петросяном в работах [Петросян, 1977, 1979, 1992, 1993, 1997]. Ф. Кидланд и Е. Прескотт [Kidland, Prescott, 1977] обратили внимание на данное свойство в экономическом контексте и предложили назвать его time-consistency (состоятельность во времени). Невыполнение динамической устойчивости вектора Шепли делает невозможным реальное применение этого принципа дележа в динамической кооперативной игре, оказывается невозможным организовать пошаговые выплаты игрокам таким образом, чтобы они могли рассчитывать на справедливое распределение выигрышей (распределение в соответствии с вектором Шепли, который они выбрали в качестве принципа оптимальности) в каждой текущей подыгре. К сожалению, многие из принципов оптимальности классической кооперативной теории оказываются динамически неустойчивыми. Важнейшей проблемой современной теории динамических игр является построение и исследование новых динамически устойчивых принципов оптимальности. §4.14. Кооперативные стохастические игры 4.14.1. Пусть задан древовидный бесконечный граф G — (X, F), где X — множество вершин графа, a F — точечно-множественное отображение, заданное на множестве X, со значениями в множестве подмножеств множества X, то есть F(x) С Х,(х G X). Предполагаем, что число элементов множества F(x) равномерно ограничено некоторым числом М > 0. Вершина хо — начальная вершина древовидного графа G. Древовидный граф с начальной вершиной Xq будем обозначать через G(xq). Пусть в каждой вершине х G X графа G(xo) задан игровой элемент — одновременная игра п лиц в нормальной форме Г(х) = {М,Щ,...,Щ,Щ,...,К%), где N = {1,2, ...,п} — множество игроков, одинаковое для всех вершин х G. X; Uf — множество стратегий г-го игрока в вершине ж, предполагаем, что оно конечно для любых х е X и i e N, Kf(uf,..., 4%) — функция выигрыша игрока % (г е N,uf <E Щ). Набор стратегий их = (uf,... ,г^), uf G C/f, г G N называется ситуацией в игровом
§4.14. Кооперативные стохастические игры 251 элементе Г(ж), ux G Ux = П Uf — множество ситуаций в одновременной игре Г(ж). Предполагается, что Kf(ux) ^ 0 для всех х G X, ux G Vх и любого игрока i G. N. Для каждой вершины х G X в зависимости от ситуации их, реализовавшейся в игровом элементе Г (ж), определены вероятности перехода в следующие вершины у G F(x) графа G(xq) р(х, у; uf,..., <) = р(х, у; ux) ^ О, J2 р(х,у;их) = 1, 2/eF(a:) где р(х,у;их) — вероятность того, что реализуется игровой элемент Г(у) (у е ^(^О), если на предыдущем шаге (в одновременной игре Г (ж)) реализовалась ситуация г^ — (uf,...,<). ' Кроме того, в каждой вершине х G X задана вероятность qk того, что игра закончится на шаге fc, 0 < <& < 1, шаг к в вершине х G X определяется из условия xeFk(xQ). __ Определение. Стохастической игрой G(xq) со случайной продолжительностью будем называть систему (N, GOo), {Г(х)}хех, te}b=o» Ых> 2/5 ux)}xex,yeF(xy,uxeu*) , где Хо — начальная вершина древовидного графа G{xq). Из определения стохастической игры со случайной продолжительностью понятно, что считается заданным изначально древовидный граф G(xq) и множество игровых элементов {Т(х)}х^х> а случайными в описанной структуре стохастической игры G(xo) являются переходы из одних вершин графа G(xq) в другие, а также момент окончания игры. Стохастическая игра со случайной продолжительностью G(xq) происходит следующим образом. 1) В вершине Xq графа G(xq) осуществляется игровой элемент Г(а?о). Пусть в нем реализуется некоторая ситуация их° G Ux°. Далее игра G(xq) либо прекращается с вероятностью qo, 0 < qo < 1, либо с вероятностью (1 — до) игра G(xo) продолжается и переходит в вершину у G F(xo) графа G(xq) с вероятностью р(хо,у;их°), зависящей от ситуации их°, реализовавшейся в игровом элементе Г(жо). 2) Предположим, что на fc-ом шаге игровой процесс находится в вершине х^ G X, где задан игровой элемент Г(ж&), и в этом игровом элементе реализуется ситуация uxk ^ JJXk. Далее игра либо заканчивается с вероятностью ^, 0 < qk < 1, либо с вероятностью 1 — qk продолжается и переходит в вершину графа ж&+1 G F(xk) с вероятностью p(xk,Xk+i] иХк), зависящей от ситуации иХк, реализовавшейся в игровом элементе Г(ж^). 4.14.2. Обозначим через G(x) подыгру игры G(a?o), берущую начало в вершине х G X графа G(xq) (игрового элемента Г(ж)), которая естественно также является стохастической игрой со случайной продолжительностью. Получим основные функциональные уравнения для стохастической игры со случайной продолжительностью. Предположим, что в стохастической игре со случайной продолжительностью G(xq) реализовалась последовательность ситуаций ux°,uXl,... ,uXl,
252 4. Многошаговые игры гдеих° Е Ux«, uXl Е Ux\ ...,uXl Е UXl, ..., хх е F(x0), х2 Е F(a:i), ..., х{ Е F(xi-i), а F(xi) = 0. Тогда выигрыш г-го игрока определяется следующим образом: оо 3=0 ( \ Ш1-?*) V fc>0 X; щт {пхт) . / Vm=0 Введем определение стратегии г-го игрока в стохастической игре со случайной продолжительностью G(xq), которую обозначим через щ(-), т. е. щ(-) — это стратегия г-го игрока в игре G(xq) или правило, по которому для каждого игрового элемента Г(х) (х Е X) определяется, какую стратегию в игровом элементе Г (ж) выбрать, щ(х) = их для всех х Е X, a ux Е Щ. Если щ(-) — стратегия г-го игрока в игре G(xo), то усечение этой стратегии, рассмотренное на подграфе G(x) графа G(xq), которое обозначим через их(-), будет стратегией г-го игрока в подыгре G(x) игры G{xq). Пусть u(-) = (wi(-),...,wn(-)) — ситуация в игре б?(ж0), ъих(-) = {их (-),. -_^<(-)) ~ ситуация в подыгре G(x), являющаяся сужением ситуации гл(-) на подыгру G(x). Так как игра имеет стохастическую структуру, то в качестве выигрыша необходимо рассматривать математическое ожидание выигрыша: Ег{хоМ-))=Е(Щх0)М'))- Здесь Ki(xo,u(-)) = Ki(xo) есть функция выигрыша игрока % в ситуации и(-). Математическое ожидание выигрыша г-го игрока E^Xq) удовлетворяет функциональному уравнению Щх0,ч(-)) = д0к*°(их°) + (1-до) Uro(^°)+ E р(^о,у;^°)^(у,^(-)) L yZF(xo) yeF(rro) где Ei(y,uy(-)) — математическое ожидание выигрыша г-го игрока в подыгре G(y), начинающейся в вершине у Е X, у Е F(xq), графа G(a?o) ПРИ условии реализации ситуации uv{-). Предположим, что Ei(x,u(-)) конечно для любой вершины х Е X и 'и(-) Е С/(-), и равномерно ограничено. Пусть ж Е Ffc(^o), то есть игровой процесс на fc-м шаге попадает в вершину х Е X. Тогда для математического ожидания выигрыша г-го игрока в подыгре G{x) справедлива формула Ei(x,ux(-))=qkKf(ux(-)) + (l-qk) #?(«*(-)) + ^ р(х,у;их(-))Щу,и^-)) I yeF(x) = Kf(ux(-)) + (l-qk) 53 Р(*,У;их(-))Шиу(-))- yeF(x)
§4.14. Кооперативные стохастические игры 253 В стохастической игре со случайной продолжительностью G{xq) в качестве смешанных стратегий игроков рассмотрим стратегии поведения. В кооперативной теории стратегии игроков используют лишь для нахождения кооперативного пути, то есть пути, который максимизирует суммарный выигрыш игроков. В случае стохастических игр это поддерево с заданными вероятностями перехода, на которых достигается максимум математического ожидания суммарного выигрыша игроков. Однако, максимум математического ожидания суммарного выигрыша игроков в классе смешанных стратегий поведения равен максимуму математического ожидания суммарного выигрыша игроков в классе чистых стратегий поведения, поэтому для нахождения кооперативного поведения в стохастической игре можно ограничиться классом чистых стратегий. 4.14.3. Построим кооперативный вариант стохастической игры со случайной продолжительностью. Обозначим через u(-) = (щ (-),...,йп(-)) ситуацию в чистых стратегиях поведения в стохастической игре G(xo), которая максимизирует сумму математических ожиданий выигрышей игроков V(iV, xo) = max u(-) ^2Ei(x0,u(')) .itN Назовем такую ситуацию кооперативным решением. Можем определить кооперативное решение для любой подыгры G(x), x G X, начинающейся с игрового элемента Г (ж) (см. [Петросян, Баранова, Шевкопляс, 2004; Petrosyan, 2006]). Для определения кооперативного варианта стохастической игры необходимо определить характеристическую функцию для каждого подмножества S (коалиции) множества игроков N. Характеристическую функцию, вычисленную для подыгры G(x) (х G X), обозначим через V(S,x), где S С N. Сначала найдем максимум суммарного выигрыша ^коалиции N в стохастической игре G(xq). С этой целью выпишем уравнение Беллмана для максимума суммы математических ожиданий выигрышей игроков: V(N,x0)=m8x Y^K*°(ux°) + (1 - q0)J2 p(x0,y;ux°)V(N,y) eN yeF(xo) ^Xf°(^°) + (i-<7o) ]T p(*o,y;tz*°)Ww) iZN yeF(xo) (4.14.1) с граничным условием V(N,x) = max ^ tf?(u% x e {x : F(x) = 0} . (4.14.2) В дальнейшем, в этой главе, для определенности будем предполагать, что х G Fk(xo).
254 4. Многошаговые игры Для подыгры G(x) (х e X) уравнение (4.14.1) с начальным условием (4.14.2) принимает вид: V (iV, х) = max itN ^ #?(«*)+ (l-9fc) J2 P(x,y,ux)V(N,y) ieN yeF(x) = ]Г^?(Г) + (1-%) ]Г P(x,y,ux)V(N,y) ieN yeF(x) с граничным условием V(N,x)= тж^Щ(пх), xe{x:F(x) = ®}. (4.14.3) (4.14.4) Ситуация в чистых стратегиях гГ(-) = (wi(-),... ,т7п(-)) в стохастической игре G(xq) порождает вероятностные распределения на множестве X вершин графа G(xq). Определение. Подграф графа G(xq), который состоит из вершин х Е X графа G(xq), имеющих положительную вероятность реализации, порожденную ситуацией и(-) (кооперативным решением), назовем кооперативным поддеревом и обозначим через G(xo). Очевидно, что подграф G(xq) является древовидным графом. Множество вершин в графе G(xq) обозначим через СХ С X. 4.14.4. Определим кооперативную стохастическую игру со случайной продолжительностью, построенную на основе стохастической игры со случайной продолжительностью G(xq), описанной выше. Для этого, для каждой вершины х G СХ определим вспомогательную игру с нулевой суммой, которую обозначим через Gs{x). Это антагонистическая игра между коалицией S С N, выступающей в качестве максимизирующего игрока, и коалицией N \ 5, выступающей в качестве минимизирующего игрока, где выигрыш коалиции S определяется как сумма выигрышей игроков, входящих в коалицию S. Тогда значение характеристической функции V(S,x) заладим как нижнее значение антагонистической игры Gs(x) в чистых стратегиях (аналогично нижнему значению матричной игры). Функция V(S, ж), х Е СХ, удовлетворяет функциональному уравнению V(S,x) = max min US^US UXN\S^UN\S 52к?("%>иМ+ (4.14.5) ACS +(l-qk) Yl P(x,y;uxs,uxN^s)V(S,y) yeF(x) с граничным условием V(S,x)= max min Y, K?(us' uN\s), x Z {x : F(x) = $} , (4.14.6) где игроки ii, Z2,..., %k ^ S, uxs = (ихг,..., uxr)~ стратегия коалиции 5, а Щ = Yl Ux — множество стратегий коалиции 5, игроки ir+i,...,in образуют коалицию N\S
§4.14. Кооперативные стохастические игры 255 ({н,г2,...,гг} U {гг+1,...,гп} = N), и uxN^s = (wfr+1,... ,wfn)— стратегия коалиции ЛГ\5, а ?7^ч s — П ^? ~~ множество стратегий коалиции N\S. j=r-\-l,n Для всех х G СХ естественно предположить, что У(0,ж)=О. (4.14.7) Таким образом, для каждой подыгры G(x), x G СХ, мы определили характеристическую функцию V(S,x), S С iV, V(5, x) определяется уравнением Беллмана (4.14.3) с граничным условием (4.14.4), а также уравнением (4.14.5) с граничным условием (4.14.6) и уравнением (4.14.7). Характеристическая функция У(5,ж), определенная формулами (4.14.3), (4.14.4), (4.14.5), (4.14.6) и (4.14.7), супераддитивна по 5. Определение. Кооперативной стохастической игрой со случайной продолжительностью G{xq), основанной на стохастической игре G(xq), назовем пару (N,V(S,xq)), где V(S,Xq) — характеристическая функция, определенная по формуле (4.14-1) с граничным условием (4-14-2) для коалиции N, no формуле (4-14-5) с граничным условием (4-14-6) для коалиции S ф 0 и для коалиции S — 0 по формуле (4-14-V- Определение. Дележом в кооперативной стохастической игре G(xq) будем называть вектор ^(#о) — (^i(^o)» - - - »Сп(#о))> удовлетворяющий свойствам: 1) ZSi(*o)=V(N,x0), iGN 2) &(жо) ^ У({'0>жо), для всех г <Е N. Множество дележей в кооперативной стохастической игре G(xq) обозначим через /(so)- Определение. Решением кооперативной стохастической игры G(xo) будем называть любое фиксированное подмножество C(xq) множества дележей I(xq). 4.14.5. Предположим, что решение C(xq) кооперативной стохастической игры G(xq) является непустым подмножеством множества дележей I(xq). Кооперативной подыгрой G(x), x G X, кооперативной стохастической игры G(xq), основанной на подыгре G(x) стохастической игры С(жо), будем называть пару (N,V(S,x)), где V(S,x) — характеристическая функция, определенная по формуле (4.14.3) с граничным условием (4.14.4) для коалиции iV, по формуле (4.14.5) с граничным условием (4.14.6) для коалиции S Ф 0 и для коалиции S = 0 по формуле (4.14.7). Определение. Дележом в кооперативной подыгре G{x) будем называть вектор %(х) = (Ci(^),... ,Сп(#))> удовлетворяющий свойствам: 1) Е Ых) = V(N,x), 2) &(#) ^ ^(W»^)» для всех г <Е N. Множество дележей в кооперативной подыгре G(x) обозначим через 1(х). Определение. Решением кооперативной подыгры G(x) будем называть любое фиксированное подмножество С(х) множества дележей 1{х). Предположим, что решение С(х) кооперативной подыгры G(x) является непустым подмножеством множества дележей 1(х) для всех х G СХ. Если С(х'о) — решение кооперативной стохастической игры G(xo), то далее под решением С(х) кооперативной подыгры G(x) будем понимать решение, построенное
256 4. Многошаговые игры по тем же правилам, что и C(xq). Например, если C(xq) — вектор Шепли для стохастической игры G(#o), то С(х) — вектор Шепли, вычисленный для кооперативной подыгры G(x). Предполагается, что игроки выбирают для себя какое-то фиксированное подмножество множества дележей, обладающее «оптимальными» для них свойствами, т. е. игроки, объединившись в коалицию 7V, собираются следовать некоторому правилу распределения выигрышей в течение всего игрового процесса. 4.14.6. Далее будем предполагать, что С(х) является непустым подмножеством множества 1(х) для любого х G СХ, то есть для каждой вершины х G СХ существует по крайнем мере один дележ «W = Ki(i) ШеС(1)с/(4 Определение. Вектор-функцию (3(х) = (/?i(x),... ,(3n(x))f где х G СХ, назовем кооперативной процедурой распределения дележа (ПРД) в вершине х [Петросян, 2004], если где йх = (йх,... ,и%) — ситуация в игровом элементе Т(х), реализовавшаяся при кооперативном решении и = (tZi(-),... ,tZn(-)). Определение. Путем в стохастической игре будем называть последовательность ситуаций ux°,uXl,... ,uXl, ..., где иХг — это ситуация, реализовавшаяся в игровом элементе T(xi), Xi G F(xi-\), г = 1,..., Z, — Пусть х G СХ и х G Fk(xo). В любой кооперативной подыгре G(x) игрок может связать с отрезком пути йх,й~у,... = их*у'"', реализовавшимся при кооперативном решении и = (wi(-),... ,ип(-)) (очевидно, что все ж,у,... G СХ, так как СХ — множество вершин кооперативного поддерева, и ситуация и фиксирована), случайную величину — сумму величин /%(#), вычисленных вдоль этого отрезка пути uXtV>—. Будем предполагать, что игрок i на каждом шаге игры, то есть в каждой вершине пути, получает выплаты /Зг(ж),Pi(y), Математическое ожидание сумм таких выплат, посчитанных вдоль такого отрезка пути йх'у'"' в кооперативной подыгре G(x), обозначим через Bi(x). Величины Bi(x) удовлетворяют следующему функциональному уравнению: Bi{x) = Pi(x) + (1 - qk) J2 v{x^ux)Bi{y) (4.14.9) yeF(x) с граничным условием В{(х) - Pi(x) для х G {х : F(x) - 0}. (4.14.10) 4.14.7. Для каждой кооперативной подыгры G(x) {x G СХ) составим функциональное уравнение для компонент &(ж) дележа ^(х) G С(х) С 1(х). Определим величины ъ(х) из уравнения Ш=ъ(х) + (1-Як) Y, ?(х^иХ)Ш, (4.14.11) yZF(x) где %(у) = (^i(y),... ,^п(у)) ~~ некоторый дележ, принадлежащий решению С (у) кооперативной подыгры G(y).
§4.14. Кооперативные стохастические игры 257 Лемма. Вектор т(х) — (7i(#)> --- >7п(#))> определяемый формулой (4.14.11), лв- ляется кооперативной процедурой распределения делеоюа. Доказательство. Из (4.14.11) выразим величины 7г(ж) и суммируем их по i Е N, получаем Е ъ(*) = Е ш - а - ы Е ( Е *(*»^«х)ш) - <4-14-12) «GAT iGN iGN yyGF(rr) / Так как ах) = Ых),--чЫх))еС(х)с1(х), Ш = йЫ Ш)еС(»)сДу), то из (4.14.12) получаем ^7г(х)-У(А^,х)-(1-Ы ]Г р(я,2/;и*)У(ад. (4.14.13) гсЕЛ/" yZF(x) Из (4.14.13) и (4.14.3) следует, что 53 7г(#) = S Щ^х) Для ситуации гг* = ieN ieN (иi у ..., г^), которая реализовалась в игровом элементе Т(х) при использовании игроками кооперативного решения и = {u\(-)i. - - ,ип(-)). Получается, что ji(x) удовлетворяет условию (4.14.8), то есть лемма доказана. Игроки перед началом игры приходят к соглашению о кооперации, то есть договариваются максимизировать математическое ожидание суммарного выигрыша и рассчитывают получить дележ %(xq) Е C(xq). Развитию игры во времени соответствует движение вдоль вершин кооперативного поддерева G(xo). Однако, поскольку стохастическая структура игры подразумевает неоднозначность в реализации вершин кооперативного поддерева, то движение вдоль некоторого пути, то есть вдоль вершин кооперативного поддерева, еще не обеспечивает сохранение кооперации. Действительно, при движении вдоль пути игроки попадают в кооперативные подыгры с текущими начальными состояниями, в которых один и тот же игрок, имеет различные возможности. Это является вполне естественным обстоятельством, поскольку со временем изменяются условия конфликта и возможности участвующих в нем сторон. То есть, в некоторый момент времени, в вершине х Е СХ, сумма оставшихся выплат для игрока % может не равняться г-ой компоненте дележа из решения С(х) кооперативной подыгры G(x), являющегося решением подыгры G{x). Следовательно, в вершине х Е СХ перед игроком % может встать вопрос о целесообразности придерживаться далее намеченного перед началом игры соглашения действовать «совместно оптимально», то есть игрок % может пожелать отклониться от договоренного кооперативного решения и получить больший выигрыш. Если такое отклонение будет выгодно хотя бы для одного из игроков, то это и будет означать позиционную несостоятельность дележа %(хо) Е C(xq) и, соответственно, самого движения вдоль вершин кооперативного поддерева. 4.14.8. Определение. Дележ, %(хо) Е C{xq) называется позиционно состоятельным в кооперативной стохастической игре G(xq), если для каоюдой вершины х Е СХ Г) Fk(xo) существует неотрицательная ПРД j3(x) = (/3i(x),...,/Зп(ж)) такая, что Ш = &(*) + (1 - Qk) E Р(х>У>и")Ш> (4.14.14)
258 4. Многошаговые игры и &{х) = А (ж), хе{х: F{x) = 0} , (4.14.15) где х G Fk(xo), %{у) — (&(у)> - - - ?Сп(у)) ~ некоторый дележ, принадлежащий решению С (у) кооперативной подыгры G(y). Определение. Будем говорить, что кооперативная стохастическая игра со случайной продолжительностью G(xq) имеет позиционно состоятельное решение C(xq), если являются позиционно состоятельными все дележи ^(а?о) ^ C(xq). Отсюда получаем, что если дележ ^(#о) позиционно состоятелен в игре G(xo), T0 ПРД может быть определена для всех х G СХ и таких, что х ^ {х : F(x) = 0} по формуле &(*)=&(*)-(!-<?*) Е Р(*,^Х)Ш, (4.14.16) а для jg{i: F(x) = 0} по формуле (4.14.15). Однако из (4.14.16) следует, что в общем случае невозможно гарантировать неотрицательность Р%{х) для всех вершин х Е СХ. Найдем значения величин Bi(x) для всех х Е СХ, то есть математические ожидания сумм fii(x) из (4.14.9) и (4.14.10), х G СХ, вдоль путей, реализовавшихся в кооперативной подыгре G(x) игры G(xq) (вдоль путей подграфа G(xo)) при использовании игроками кооперативного решения гх(-). Лемма. Имеет место равенство Bi(x) = &(х) для всех х G СХ и всех г G N. Доказательство. Доказательство является очевидным и следует из того, что Bi(x) и &(ж) удовлетворяют одним и тем же функциональным уравнениям (4.14.9) и (4.14.14) с одними и теми же граничными условиями (4.14.10) и (4.14.15). Если выплаты игрокам производить не в соответствии с их выигрышами в игровых элементах, по которым проходит кооперативный путь, а в соответствии с кооперативной процедурой распределения дележа /3(ж) = (/?i(x),... ,/Зп(ж)), определенной формулами (4.14.14), (4.14.15) для всех х G СХ, где Рг{х) — это выплата г-му игроку в вершине х G СХ, то математическое ожидание всех выплат г-му игроку будет совпадать с математическим ожиданием г-ой компоненты выбранного игроками дележа из решения, что следует из леммы §4.14.. Таким образом, игроки могут пойти и на получение в каких-то вершинах отрицательных выплат, чтобы гарантировать сохранение коалиции на протяжении всей игры и получение компонент заранее выбранного дележа ^(xq), принадлежащего решению C(xq) кооперативной стохастической игры G(xo). Предлагаемый способ реализации дележа обладает важным свойством: в каждой вершине пути игроки ориентируются на один и тот же «принцип оптимальности» и, в этом смысле, не имеют оснований для нарушения ранее принятого кооперативного поведения, то есть реализации кооперативного решения. В случае, когда нельзя гарантировать неотрицательность Pi(x) для всех вершин х G СХ, можно пойти по пути построения нового позиционно состоятельного решения на основе решения из классической теории кооперативных игр. Покажем, как это делается, когда в качестве решения рассматривается множество С(#о) С I(xq). Заметим, что данная процедура может быть применена для дележей, известных в классической статической кооперативной теории (С-ядро, N-ядро, вектор Шепли и т. д.). Для всех вершин х G СХ определим новую ПРД по формуле
§4.14. Кооперативные стохастические игры 259 где %(х) = (Ci(x)i... ,Cn(^)) ^ C(x), a ux = (uf,... ,u%) — реализация кооперативного решения и — (u\(-),... ,tZn(-)) в вершине х G СХ, максимизирующего сумму математических ожиданий выигрышей игроков в стохастической игре G(xq), V(N, x) — значение характеристической функции для коалиции N, вычисленное для кооперативной подыг- ры G(x). Поскольку Ki(ux) ^ 0 для всех вершин х G. СХ и всех i Е iV, то /3?;(ж) ^ 0 для любой вершины х <Е СХ. Из того, что Е &(ж) = ^(^,:г), и из (4.14.17) следует также, что текущая выплата Р%(х) игроку i в игровом элементе Т(х) должна быть пропорциональна г-ой компоненте дележа t;(x) G С(х) в кооперативной подыгре G(x) стохастической игры Определим компоненты нового дележа в кооперативной подыгре G(x), где х G СХ, и х G Fk(xo) на основе «старого» дележа ^(х) как решение функционального уравнения Ш = *уШ , 6(») + (l-gfc) E К^^Ш (4-14.18) с граничным условием Е ^(^) Ш = ^(ад &(*) - &(*) (4.14.19) для xg{i: F(x) = 0}. Построим новую характеристическую функцию V(S,x) для каждой кооперативной подыгры G{x) для всех х G СХ, используя функциональное уравнение Е к{(ь*) eN V{N,x) V(S9x)=*" V(S,x) + (l-qk) ]Г Р&У'^МЬу) (4.14.20) ytF(x) с граничным условием V(S, х) = V{S, х) для хе{х: F(x) = 0} . (4.14.21) Функции V(S,x) и У(5,ж) супер аддитивны, и F(7V, ж) = V(N,x). Для всех позиционно несостоятельных дележей %(х) G. С(х) для всех х Е СХ вычислим регуляризированные дележи %(х) и найдем множество С(х) следующим образом: Е Щи*) С(х) = Шх) : 1(х) = Щ——Ь(х) + (1 - дк)^ pfav&Mv) (4.14.22) с граничным условием &(х) — &(#) Для х е {х : F(x) = 0}, где %(х) е С(х)}. Множество С(хо), определенное формулой (4.14.22), назовем регуляризованным решением кооперативной стохастической игры со случайной продолжительностью G(xq). Таким образом, у игроков есть возможность регуляризовать выбранное ими в начале игры решение, чтобы в каждой вершине стохастической игры G(xq) «новое» решение
260 4. Многошаговые игры C(xq) было позиционно состоятельным. Но дележ, принадлежащий новому регуляризо- ванному решению C(xq), вообще говоря, не будет являться дележом для кооперативной игры с характеристической функцией У(5,жо), определенной по формулам (4.14.5), (4.14.6), а будет являться дележом для кооперативной стохастической игры с новой характеристической функцией V(S, хо), построенной по формулам (4.14.20), (4.14.21). 4.14.9. Теорема. Дележ %(х) — (t;i(x),... ,!;п(х)), определенный формулой (4.14.18) с граничным условием (4.14.19), является позиционно состоятельным дележом в кооперативной игре (N, V), где характеристическая функция V(S,x) задана функциональным уравнением (4.14.20) с граничным условием (4.14.21). Доказательство. Позиционная состоятельность следует из построения «нового деле- жа» %(х). Для доказательства необходимо показать неотрицательность г^щ^- х^ а это очевидно, поскольку в определении стохастической игры было задано условие: *f(«?,...X)>o для всех х Е X и любого игрока i & N. Теперь покажем, что %(х) = (^i(rc),..., ^п(я)) обладает свойствами дележа для кооперативной игры с характеристической функцией V(S,x), которая задана функциональным уравнением (4.14.20) с граничным условием^ (4.14.21). Для этого необходимо показать свойства: 1) ZU*) = V(N,x), ieN 2) $i{x)>V{{i},x) для любого игрока г Е iV и любой вершины х Е СХ. Первое свойство очевидно для вершин х Е {х : F(x) = 0} и таких, что х Е СХ. Теперь докажем его для вершин х Е {х : F(x) Э у и F(hj) — 0} и таких, что х Е CZ. Е Кг(Ъ*) V(N,x) < Е ^{v?) ieN у ' > ieN yeF(x)\ ieN / ieN V(N,x) + (l-qk) Y, (p(x,y;ux)V(N,x)) = V(N,x) v ' ; yeF(x) = V(N,x) = V(N,x), т. к. вершина у Е {у : ^(у) = 0}-.
§4.15. Марковские игры 261 Второе свойство также очевидно для вершин х & {х : F(x) = 0}. Для вершин х Е {х : F(x) Э у и -Р(у) = 0} покажем, что &(ж) — У({г},х) ^ 0, используя формулы (4.14.20) и (4.14.18): Е Щи*) 1(х) - v({i},x) = «у &(s) + (1 - qk) E р(*.у;^)Ш- Е ^г(^) *^__V({t},a;) + (l-gfc) J2 Р&У^МШ) [ ' j yeF(x) Е *»(#*) = Т(агх) (&(*)-^({<}. *)) + (!-?*) E р(^у;^)(Ш-^({^у))>о. Первое слагаемое неотрицательно, поскольку %(х) является дележом кооперативной подыгры G(x), а второе слагаемое неотрицательно, потому что вершина у Е {у : F(y) = 0}. Используя метод математической индукции, свойства 1 и 2 могут быть доказаны для всех вершин. §4.15. Марковские игры 4.15.1. Пусть задано конечное множество одновременных игр п лиц в нормальной форме (игровых элементов) {Г1,..., Г*}: r1 = {N,U{,...,Ui,Ki,...,KSn), - где N— множество игроков, одинаковое для всех игр Г3;, j = 1,..., t, Uf (i = 1,..., n) — множество стратегий г-го игрока в игре Г3\ множество Щ конечно для любого игрока i Е N и любого игрового элемента Т3\ j = 1,..., t, K\ ( u\,..., u3n J — функция выигрыша г-го игрока в игре V3. Причем, К\ [и\,... ,v?n J ^ 0 для всех г & N, для любого j = 1,..., t и любого u\ G Щ. Набор стратегий и3 — (и{,..., и3п ] называется ситуацией в игре Г3. Предполагаем также, что множество стратегий каждого из игроков конечно для всех игровых элементов из множества {Г1,... ,Г*}. Для каждого игрового элемента Г3, j = 1,..., t, в зависимости от ситуации и3\ реализовавшейся в этом игровом элементе, определены вероятности перехода в следующие игровые элементы Г1,..., Г*: p(j,k-u3) >0, t ^Tp(j,k;vP) = 1, fc=i где p(j, к; и3) — вероятность того, что состоится одновременная игра Г*, если на предыдущем шаге (в игровом элементе Г3) реализовалась ситуация и3 = (и{,..., и3п). Задана вероятность окончания игры на каждом шаге — q (0 < q < 1). Также будем считать, что задан вектор 7Г = (щ,... ,7ГП) начального распределения вероятностей на
262 4. Многошаговые игры множестве игровых элементов {Г1,... ,Г*}, где 7Tj (j = 1,..., t) — вероятность того, что на «нулевом» шаге (то есть перед началом игрового процесса) «случай» выбирает t игровой элемент Г-7, ^ 7Tj — 1. j=i _ Определение. Марковской игрой G со случайной продолжительностью называется следующий набор G=(N,{Tj}*,q,ir,{p(j,k]Uj)} _ _ п V (4.15.1) Марковская игра G происходит следующим образом. 1) Перед началом игры «случай» выбирает игровой элемент в соответствии с вектором начального распределения вероятностей 7Г. Другими словами, с вероятностью 7Ti марковская игра G начнется с игрового элемента Г1, с вероятностью 7Г2— с игрового элемента Г2 и так далее. Пусть реализуется вероятность 7Tj, to есть «случай» выбрал игровой элемент Г-7 Е {Г1,... ,Г*}, 2) Пусть на первом шаге марковской игры G в игровом элементе Г-7 реализуется си- п туация v? Е W: = П Щ. Далее стохастическая игра с конечным числом игровых _ fc=i элементов G либо прекращается с вероятностью <7, 0 < q ^ 1, либо с вероятностью (1 — q) переходит на следующий шаг. 3) На втором шаге игры G происходит одна из одновременных игр Г1,... ,Г* с вероятностями p(j, 1; ui),... ,p(j, t\ ui) соответственно. Далее игра G может прекратиться с вероятностью q, 0 < q < 1, либо с вероятностью (1 — q) переходит на третий шаг. 4) Аналогично предыдущему реализуется третий шаг и т. д. Подыгру стохастической игры с конечным числом игровых элементов, начинающуюся с fc-го шага, обозначим через G(k). 4.15.2. Замечание. Марковская игра, рассматриваемая в данном параграфе, является частным случаем игры, рассматриваемой в параграфе §4.14, поскольку в данной постановке задачи предполагается, что множество игровых элементов конечно. Марковская игра G представляет собой марковскую цепь с конечным числом состояний и вектором начального распределения 7Г, конечным множеством состояний {Г1,...,!^} и матрицей вероятностей перехода, состоящей из элементов Щи) = {р^к;^)}.^^^^ . 4.15.3. Выпишем основные функциональные уравнения для марковской игры. Так как игра G имеет стохастическую структуру, поэтому в качестве выигрышей игроков будем рассматривать математическое ожидание выигрышей. Для математического ожидашш выигрыша г-го игрока в игре G имеет место формула Ei = 7TiEi + . - . + ЩЕ% = ТгЕг, где Ei = (Е\,..., Е\), а Е\ (j — 1,..., t) — математическое ожидание выигрыша г-го игрока в подыгре G(l) при условии, что игра начинается с игрового элемента Г-7.
§4.15. Марковские игры 263 Для условного математического ожидания выигрыша игрока i будет верна формула Eliv?) = KfivP) + (l-q) J2p(J> к;ч*)ЕЧ{ик), (4.15.2) fc=l П где ui G UJ' = Yl Щ~ ситуация, которая реализовалась в игровом элементе Г;, uk G fc=i Uk— ситуация, которая реализовалась в игровом элементе Тк. Стратегия rji(-) г-го игрока в игре G — это правило, по которому для каждого игрового элемента Г^ G {Г1,..., Г*} (j — l,t) определяется, какую стратегию в одновременной игре Г-7 выбрать. Определение марковской игры предполагает, что игровой процесс на каждом шаге может попадать в одни и те же игровые элементы, поэтому в данной постановке стохастической игры целесообразно использовать класс стационарных стратегий. Определение. Стратегия rji(-) игрока % в игре G называется стационарной, если выбор стратегии в каждом игровом элементе из множества {Г1,..., Г*} на каждом шаге зависит только от того, какой игровой элемент реализуется на этом шаге, то есть В марковской игре, рассматриваемой в классе стационарных стратегий, выбор игроками стратегии в игровых элементах не зависит от ситуаций, реализовавшихся на предыдущих шагах, а зависит только от самого игрового элемента, в котором на данном шаге игра G находится. Марковская игра G рассматривается в классе стационарных стратегий, и множество одновременных игр {Г1,...,Г*} конечно, поэтому достаточно рассмотреть t подыгр игры G, обозначенных через G ,..., G , начинающихся с игровых элементов Г1,..., Г* соответственно. Пусть г}(-) = (rji(-),... ,^n(*)) ~ ситуация в стационарных стратегиях, такая что rji(T^) = и\ G Щ где j = l,...,t, г G N. Так же, как и в предыдущем параграфе, будем рассматривать класс чистых стационарных стратегий. 4.15.4. Множество чистых стационарных стратегий г-го игрока в марковской игре G обозначим через 5$. Очевидно, что стационарная стратегия г-го игрока в игре G будет являться стационарной стратегией в любой подыгре G ,..., G . Рассмотрим матрицу вероятностей перехода из одних игровых элементов в другие, которая зависит от ситуации в стационарных стратегиях ту(«), реализовавшейся в марковской игре G: (р{1Л;и1) ... p(l,W)\ p(2,l;u2) ... р%Р,и2) п(ч(-)) (4.15.3) \р(г,1-У) ... p{t,t>M)) где 77(-) = M')>--->?7n(-))> ^Vi(') : ^(Г1) = wfjE U},... ,гл{Тг) = и\ G Щ, а ситуация, реализовавшаяся в игровом элементе Г^, (j = 1, it), — это ситуация и3 = (и{,..., и3п). Тогда можно записать формулу для вычисления математического ожидания выигрыша г-го игрока в любой подыгре марковской игры G при реализации ситуации в чистых стационарных стратегиях rj(-) G П Е^, описанной выше. Имеет место формула ЕМ')) = ЗДО) + (1 - дакдам-)), (4.15.4)
264 4. Многошаговые игры где Ei(r)(')) = [Е\ (г)(- )),... ,Ej(r)(-))) a Ef(-) — математическое ожидание выигрыша г-го игрока в подыгре G , то есть подыгре, начинающейся с игрового элемента Г-7', Ki(r}('))=(Kl(u1),... ,К\{и1)), где Щ{и^) — это выигрыш г-го игрока в игровом элементе Г-7 при условии, что в этом игровом элементе реализовалась ситуация v? G UK Если det(E - (1 - <2)П(77(-))) ^ 0, то из (4.15.4) получаем ЕМ')) = (Я - (1 - ^ПМ-)))-1 i^(-))- (4-15-5) Формула (4.15.5) позволяет в явном виде вычислять математическое ожидание выигрыша для любой подыгры марковской игры G для каждой ситуации rj(-) Е П 2$. __ i iGiV Для марковской игры G математическое ожидание выигрыша г-го игрока обозначим через Ei(rj(')), оно зависит от вектора начального распределения вероятностей 7Г и математического ожидания выигрышей г-го игрока Е\(-),..., Е\{-) в подыграх G ,..., G соответственно, и может быть найдено по формуле Щт,(-)) = жЕЫ-)) = тг (Я - (1 - дЩ^.)))-1 КМ-)). (4.15.6) 4.15.5. Построим кооперативный вариант марковской игры. Обозначим через rj(-) = (771 (-)э - - - iVn(')) ситуацию в чистых стационарных стратегиях, максимизирующую сумму математических ожиданий выигрышей игроков в марковской игре G, то есть max 5^(4(0) = Е^Ш)- (4-15.7) Будем называть ситуацию ?7(-) кооперативным решением. Определим характеристическую функцию V(N) в марковской игре G следующим образом. Сначала определим значения характеристической функции для каждой подыгры G ,..., G марковской игры G. Сформируем вектор, состоящий из значений характеристических функций для коалиции N для подыгр игры G: V(N) = (У1 (AT),..., Vb(N)), где Vi(N) — максимальный суммарный выигрыш коалиции N в подыгре G , j = 1,..., t. Для вектора V(N) уравнение Беллмана принимает вид: V(N) = max ^ед.)) + (1-«)п(ч(-)т ieN ieN где r/(-) — ситуация в чистых стационарных стратегиях, которая удовлетворяет условию (4.15.7). Если det(E - (1 - q)IL(ri(-))) ф 0, то V(N) = (Е - (1 - д)Щ^(-)))-1 Е ВД(-)). (4.15.8) Для стохастической игры с конечным числом игровых элементов G максимальный суммарный выигрыш коалиции N обозначим через V(N) и вычислим по формуле: V(N) = nV(N) = тг (Е - (1 - дЩЩ-)))-1 Е К<Ш- (4-15-9) ieN
§4.15. Марковские игры 265 Для каждой подыгры G (j — 1,..., t) марковской игры G определим вспомогательную марковской игру с нулевой суммой Gs между коалицией S С N, выступающей в качестве максимизирующего игрока, и коалицией N\S, выступающей в качестве минимизирующего игрока. Значение функции V^(S) для подыгры G зададим как ниж- нее значение антагонистической марковской игры Gs, наиденное в чистых стратегиях (фактически как нижнее значение матричной игры): V'(S)=max mm TEi(Vs(-),m\s(-))J =T7t, (4.15.10) r)s(-)r)N\s(')j^ V(9) = o, где пара {tjs(')->Vn\s(')) образует некоторую ситуацию в чистых стационарных стратегиях, a rjs(-) — iVixi*), - - - ? Vir(')) ~ вектор стационарных стратегий игроков ii,..., ir G г S, h\J...[Jir = S, rjs(-) G П ^ij ~ множество чистых стратегий коалиции 3 = 1 S С N, a tjn\s{') ~~ вектор стационарных стратегий игроков гг+1,...,гп & N\S, п V+i U - - - U ^п — N\S, П "^ij ~~ множество чистых стратегий коалиции N\S. Обозна- чим через V(S) вектор (V1(S),..., У*(5)), где все VJ'(5), j = l,...,t, удовлетворяют условию (4.15.10). Тогда значение характеристической функции для коалиции S для марковской игры G обозначим через V(S) и вычислим по формуле: V(S)=7rV{S), (4.15.11) F(0) - 0. Определение. Кооперативной марковской игрой, основанной на игре G, называется кооперативная игра G = (N, V), где N— это множество игроков, aV : S —> R — характеристическая функция, определенная по формулам (4.15.9) и (4.15.11). Определение. Кооперативной марковской подыгрой, основанной на подыгре G , —j назовем кооперативную игру G — (N,V), где N — это множество игроков, а V : S —> R — характеристическая функция, определенная по формулам (4.15.8) и (4.15.10). _ Характеристическая функция V(S), определяемая формулами (4.15.9) и (4.15.11), и функция V(S), определенная формулами (4.15.8) и (4.15.10), являются супераддитивными характеристическими функциями. 4.15.6. Определение. Дележом в кооперативной марковской игре G будем называть вектор С = (Ci,... ,^п), удовлетворяющий свойствам: ieN 2) Ь > V({i}), i G N. Множество дележей в кооперативной марковской игре G обозначим через /. Определение. Решением кооперативной марковской игры G будем называть любое фиксированное подмножество С множества дележей I.
266 4. Многошаговые игры Решением может быть одно из классических решений статической теории кооперативных игр (С-ядро, iV-ядро, вектор Шепли). Предположим, что решение С кооперативной марковской игры G является непустым подмножеством множества дележей /. Вектором Шепли кооперативной марковской игры G будем называть вектор 5ft = (5ft 1,..., 5ftn), где элемент Shi вычисляется по формуле Shi=J2 (|5|~1)!(,n~|S|)! (V(S) - V(S \ {г})), SCN П* S3i г Е AT и \S\ — мощность множества 5. Определения дележа, множества дележей, решения, вектора Шепли для любой кооперативной подыгры G (j = l,...,i) кооперативной марковской игры G вводятся аналогичным образом, только в качестве характеристической функции выступает соответствующая функция, определенная формулами (4.15.8) и (4.15.10). Обозначим через Shi вектор (5ft*,..., 5ft*), i G N. Для игрока i вектор Shi, состоящий из г-ых компонент векторов Шепли, рассчитанных для кооперативных подыгр G ,..., G соответственно, и г-ая компонента вектора Шепли 5ft, рассчитанного для марковской игры G связаны следующим соотношением Shi = -к Shi. 4.15.7. Определение. Вектор-функцию /?-7 = f fi{,...,/% К j — l,...,t7 назовем кооперативной процедурой распределения дележа (ПРД) в игровом элементе Г-7, если ^Pi = Y.Ki^- --'<)> (4Л5Л2) где выражение в правой части — суммарный выигрыш игроков в игровом элементе Г-7, вычисленный при реализации кооперативного решения rj(-) в чистых стационарных стратегиях, удовлетворяющего условию (4.15.7) и такой, что ^(Г-7) — v?, j = 1,..., t. Определение. Путем в кооперативной марковской игре G будем называть последовательность реализовавшихся ситуаций и{1), ..., u(j),..., где u(j) — это ситуация, реализовавшаяся на j-ом шаге игры. Пусть й~ — это путь в игре G, полученный при реализации кооперативного решения ту(-), определенного формулой (4.15.7)..В любой марковской подыгре G (j = l,t) путем будет являться усечение последовательности й~. Так как множество игровых элементов конечно, и марковская игра G рассматривается в классе стационарных стратегий, то —j для подыгры G (начинающейся с одновременной игры Г-7) путем при условии, что игроки придерживаются кооперативного решения ту(-), будет последовательность ситуаций, которую обозначим через й^К Предположим, что игрок г в подыгре G вдоль пути и? получает некоторые выплаты — /3^, — Тогда в кооперативной марковской подыгре G , j = 1,..., t, игрок г может связать с реализовавшимся путем и^ в ситуации fj(-) = (rji(-),... ,Vn(')) случайную величину — сумму величин Д, вычисленных вдоль этого пути. Математическое ожидание таких fa, посчитанных вдоль пути й^^ в кооперативной подыгре G , обозначим
§4.15. Марковские игры 267 через В\. Величины В\,..., В\, вычисленные для подыгр G ,..., G соотвехственно, образуют вектор Bi = (В\,..., В\), и Bi удовлетворяет следующему уравнению В{=& + (1-д)ЩгЦ.))Вь где ^ = (/?/, ...,/?|), а /3? — это выплата г-му игроку на том шаге игры, на котором реализуется игровой элемент Г-7. Если det(E — (1 — q)IL(r}(-))) ф О, то можно йаписать: Bi = (E-(l- дЩгК.)))-1^. (4.15.13) Математическое ожидание суммы выплат г-му игроку, посчитанной вдоль пути й в кооперативной марковской игре G обозначим через Bi, для этой величины верна формула: В{ - TrBi = тг(Е - (1 - ^ЩгК-)))"1 А- (4.15.14) Определим вектор 7г — (lh - - - »т!) из уравнения Shi = 7i + (l-q)Tl(ri(.))Shi. ' (4.15.15) Лемма. Вектор 7г = (7г*»--ч7|)> определяемый формулой (4.15.15), состоит из г-ых компонент ПРД игровых элементов Г1,... ,Г* соответственно. Доказательство. Для доказательства достаточно проверить выполнение неравенства (4.15.12). Из уравнения (4.15.15) следует: 7; = (Я-(1-<7)П(77(-)))^. Суммируя эти равенства по всем игрокам г G N, получаем J2li = (E-(l-q)Ti(rj(-)W(N). Учитывая равенство (4.15.8), получаем ]Г Ъ = (Е - (1 - 9ЩШ)) (Е ~ (1 - вЩШ))-1 Е ВД(0). следовательно, верно равенство: что и доказывает лемму. 4.15.8. Игроки перед началом игры договариваются о выборе набора стратегий, гарантирующего максимальный суммарный выигрыш и рассчитывают.получить компоненты вектора Sh = (Shi,... ,Shn), Shi — к Shi. Развитию игры во времени соответствует движение вдоль некоторого случайного пути й, который получается при реализации кооперативного решения fj(-). После первого шага игра переходит в новое состояние, являющееся начальным для подыгры, начинающейся со второго шага, то есть, фактически, игроки попадают в новую стохастическую игру, которая является подыгрой игры G. Для сохранения кооперации на этом шаге игроки должны ожидать получение выигрышей в соответствии с вектором Шепли, рассчитанным для этой
268 4. Многошаговые игры подыгры (фактически, рассчитанным для одной из подыгр {G ,...,(? }). К сожалению, осуществляя выплаты на каждом шаге игры в соответствии с выигрышами в игровых элементах, реализовавшихся на этих шагах, невозможно добиться того, чтобы оставшиеся выплаты представляли собой компоненты вектора Шепли для подыгры, начинающейся с данного шага. Это и есть проявление позиционной несостоятельности вектора Шепли. Требуется перераспределять выигрыши игроков в каждом игровом элементе, чтобы позиционная несостоятельность вектора Шепли была преодолена. Определение. [Baranova, Petrosjan, 2006]. Вектор Шепли Sh = {Sh\,... ,Shn), Shi — nShi (i G N) назовем позиционно состоятельным в марковской игре G, если для каждого игрового элемента Г3 (j — 1,... , t) существует неотрицательная ПРД Р3 — (Р{ ? - - - > /%) такая, что БЫ = fa + (1 - q)IL(jK-))Shi (4.15.16) для любого г Е N. Здесь Shi = (Sh],..., Shi), fa = (/?*,..., f3\) и $\ — это %-й элемент кооперативной процедуры распределения дележа для игрового элемента Г3, П(г/(-)) ~ матрица вероятностей перехода/ построенная согласно (4.15.3), rj(-) — кооперативное решение, удовлетворяющее условию (4.15.7). Если вектор Шепли позиционно состоятелен, то осуществляя на каждом шаге пути выплаты игрокам в соответствии с их ПРД, можно добиться того, чтобы эти выплаты были неотрицательными и чтобы математическое ожидание вектора Шепли, вычисленного для кооперативной марковской подыгры G , (j = 1,..., t), совпадало бы с математическим ожиданием выигрышей, которые игрокам осталось получить в подыгре G марковской игры G. Если Aet{E — (1 — q)U(rj('))) ф 0, то формула (4.15.16) примет вид БЫ = (Е - (1 - qMfJi-)))-1^ (4.15.17) Это уравнение имеет единственное решение относительно /3», если det(E — (1 — q)U(rj(-))) ф 0. Получаем формулу для вычисления величин выплат ft г-му игроку, ft = (E - (1 - 9)П(ч(-)))5Л<. (4.15.18) В общем случае невозможно гарантировать неотрицательность элементов вектора fa = (/?/,...,/?!), таким образом невозможно гарантировать позиционную состоятельность вектора Шепли Sh в кооперативной стохастической игре G. Лемма. Имеют место равенства Bi — Shi, Bi = Shi для 'всех г G N. Доказательство аналогично доказательству леммы п. 4.14.7. Лемма п. 4.15.9 говорит о том, что математическое ожидание сумм fa, рассчитанных вдоль пути и^} для подыгры G , j — 1,..., t, равное В\, где fa представляет собой г о =3 вектор выплат игроку г, производимых вдоль реализовавшегося пути vS3* подыгры G , когда игроки придерживаются кооперативного решения ту(-), равно математическому ожиданию выигрыша г-го игрока в этой подыгре (то есть г-ой компоненте вектора Шепли Sh3). Таким образом, представлен конструктивный способ построения реальных выплат игрокам на каждом шаге игры, причем, исходя из леммы §4.15., можно утверждать, что игроки заинтересованы в перераспределении своих выигрышей, так как, получая /?*,..., /?| в игровых элементах Г1,..., Г* соответственно, игрок г в игре G получит столько же (с точки зрения математического ожидания), сколько и планировал
§4.15. Марковские игры 269 получить в начале игры (то есть Shi), и оставшиеся выплаты будут соответствовать тому же «принципу оптимальности» (в нашем случае, вектору Шепли). Это означает, что на каждом шаге игры G оставшиеся выплаты будут рассчитаны по тем же «правилам», что и в начале игры (в нашем случае, по аксиомам Шепли). 4.15.10. Пример 19. Рассмотрим кооперативную игру передачи данных в беспроводных сетях [Sagduyu, Ephremides, 2006; Michiardi et al., 2003; Srinivasan et al., 2003]. Беспроводная сеть представлена на рис. 4.19. Вершина 1 (Игрок 1) Вершина 3 Вершина 2 (Игрок 2) Рис. 4.19. Простая схема беспроводной сети Рассмотрим систему, в которой приемники (вершины 1 и 2) независимо генерируют пакеты данных на каждом промежутке времени с вероятностями а\ и а<2соответственно. Пакет данных может появиться в вершине 1 (2) с вероятностью а\ (аг) только, если в конце предыдущего временного промежутка очередь в вершине 1 (2) пуста. Сделаем некоторые предположения: 1) вершины 1 и 2 (игроки 1 и 2 соответственно) стремятся послать пакеты данных, скопившихся у них, в конечный пункт назначения - вершину 3; 2) максимальная емкость буфера каждой вершины равна единице. Вершина 3 не может принять одновременно два пакета данных в один промежуток времени. В данной постановке исключается многопакетная передача данных, а также исключается одновременное отправление и принятие пакетов никакой из вершин в любой промежуток времени; 3) если игроки одновременно пересылают пакеты в вершину 3, то эти пакеты отклоняются и возвращаются в начальные вершины, таким образом, в следующий промежуток времени ни один новый пакет не может появиться в вершинах 1 и 2; 4) все пересылаемые пакеты данных имеют одинаковый размер, и доставка одного пакета данных из одной вершины в другую, которые имеют прямое соединение друг с другом, занимает один промежуток времени; 5) игрок 1 (вершина 1) выбирает одну из двух стратегий: переслать пакет данных напрямую в вершину 3 или переслать этот пакет в вершину 2, чтобы тот послал этот пакет в вершину 3 в следующий промежуток времени; 6) если игрок 1 (вершина 1) пересылает пакет данных игроку 2, который уже имеет в данный промежуток времени пакет в своей очереди, игрок 2 отклоняет переданный ему пакет. В противном случае игрок 2 решает принять или отклонить пакет, переданный ему игроком 1. Предположим, что в вышеописанной системе передачи данных введена следующая схема поощрений и наказаний: 1. величина / ^ 0 — это премия, которую получает игрок 1 или 2 за каждую успешную передачу одного пакета данных в вершину 3;
270 4. Многошаговые игры 2. игрок 1 получает премию в размере с ^ 0 от игрока 2 за передачу одного пакета данных игроку 2, который, в свою очередь, может рассчитывать на премию размером / только после успешной передачи этого пакета в конечный пункт (вершину 3) в следующий промежуток времени; 3. задержка пакета данных в вершине 1 или 2 на один промежуток времени приносит игроку, находящемуся в этой вершине, издержки в размере d ^ 0, независимо от того, по какой причине произошла задержка; 4. величина D^ — это издержки по пересылке одного пакета данных из вершины % в вершину j, которые несет игрок г. ' Процесс передачи данных может, остановится в любой промежуток времени с вероятностью 0 < q < 1. Вероятность q, по сути, является дисконт-фактором. Модель передачи данных в беспроводных сетях может быть представлена марковской игрой. Игроки, находящиеся в вершинах 1 и 2, стремятся максимизировать ожидаемый суммарный выигрыш с последующим разделом этого выигрыша с помощью вектора Ше- пли. Обозначим через (Qi, Q2) состояние в беспроводной сети, где Qi — это число пакетов данных, находящееся в очереди игрока i = 1,2. Число Qi может принимать значения 0 или 1, если ни одного или один пакет данных находится в данный промежуток времени в очереди игрока г, соответственно. В марковской игре передачи данных в беспроводных сетях возможно 4 состояния: Г = {(0,0);(0,1);(1,0);(1,1)}. Предположим, что игроки имеют информацию о состоянии не только своей очереди, но и очереди другого игрока. Это предположение разумно, поскольку мы пытаемся найти кооперативное решение, которое подразумевает совместные действия, включая обмен информацией о состоянии очередей обоих игроков. Определим, исходя из условия задачи игровые элементы во всех состояниях системы. 1. Игровой элемент Г(0,0). У игрока 1 имеется одна стратегия W (ожидать), у игрока 2 — одна стратегия W (ожидать). Выигрыши игроков будут (0,0). 2. Игровой элемент Г(0,1). з У игрока 1 имеется одна стратегия W (ожидать), у игрока 2 — одна стратегия —> (послать пакет в вершину 3). Выигрыши игроков будут следующими: (0,/ — Дгз)- 3. Игровой элемент Г(1,0). 3 2 Игрок 1 имеет две стратегии: 1) —> (послать пакет в вершину 3), 2) —> (послать пакет в вершину 2); игрок 2 имеет две.стратегии: 1) Ас (принять пакет от игрока 1), 2) Rej (не принять пакет от игрока 1). Выигрыши игроков будут следующими: (/-Аз.О) (/-D13,0)\ (c-Dia.-c) (-d-Di2,0)J- 4. Игровой элемент Г(1,1). о Игрок 1 имеет две стратегии: 1) —> (послать пакет в вершину 3), 2) W (ожидать); з игрок 2 имеет две стратегии: 1) —> (послать пакет в вершину 3), 2) W (ожидать). Выигрыши игроков будут следующими: f(-d-D13:-d-D23) (f-D13,-d)\ V (-dJ-D23) (-d,-d) )'
§4.15. Марковские игры 271 Без потери общности прибавим число z = тах{0, / - J9i3, / - Дгз, с - D12, -с} ко всем выигрышам игроков во всех игровых элементах, чтобы сделать все выигрыши неотрицательными,. Будем решать описанную выше марковскую игру в классе стационарных стратегий. Обозначим через Xi множество смешанных стационарных стратегий игрока г, г — 1,2. В соответствии со структурой марковской игры передачи данных в беспроводной сети смешанная стационарная стратегия игрока 1 диктует ему выбрать стратегию W с вероятностью 1 в состояниях (0,0), (0,1), стратегию —> с вероятностью рц в состоянии о (1,0), и стратегию —> с вероятностью р\% в состоянии (1,1). Смешанная стационарная стратегия игрока 2 диктует ему выбрать стратегию W с вероятностью 1 в состояниях (0,0), стратегию —> в состоянии (0,1), стратегию Ас с вероятностью p2i B состоянии о (1,0), и стратегию —> с вероятностью Р22 в состоянии (1,1). Обозначим через щ = (рц,р%2) смешанную стационарную стратегию игрока г и множество смешанных стационарных стратегий игрока г через Щ, г = 1,2. Получаем ситуацию в стационарных стратегиях u = (wi,^) = (pn,Pi2>P2bP22)- Матрица переходных вероятностей в ситуации в стационарных стратегиях и будет следующей: П(т*) = /«11 «12 OL\z «н\ «21 «22 «23 «24 «31 «32 «33 «34 \а41 #42 «43 «44/ где an = (l-ai)(l-a2), «12 = (1 -ai)a2, «13 = ai(l -^2), «14 = aia2, a2i = (1 -ai)(l-a2), a22 = (1 - ai)a2, а2з = ai(l ~a2), «24 = &1&25 «31 =Pu(l -ai)(l -^2), «32 =Pii(l -ai)a2 + (l -Pn)p2i(l -ai), «33 = Piiai(l - a2) + (1 - Pii)(l - P2i)(l - a2), «34 = Piidia2 + (1 - Pn)p2i^i + (1 - Pn)(l ~ P2i)a2, «41 = 0, «42 =Pi2(l -P22XI -ai), «43 = (1 -Pl2)P22(l -^2), «44 =Pl2P22 + (l -Pl2)(l -P22) +Pl2(l -^22^1 + (1 -^12^22^2.
272 4. Многошаговые игры Если в описанной выше марковской игре реализуется ситуация в стационарных стратегиях w, выигрыши игрока 1 в соответствующих состояниях будут следующими: / tfi(u) \ Pu(z + / - D13) + (1 - pu)P2i(z + с - Du)+ +{l-Pii)(l-P2i){z-d-Du) Pl2P22(z -d- Dl3) + V +P12(1 - P22){Z + f~ D13) ,+ (1 - P12)(Z -d)J у игрока 2 будут следующими: / K2(u) \ z + f-D23 О- ~ Pu)P2l{z - С) P12P22(Z ~ d - D23) + V+(l - P12)P22{Z + f - D23) + (1 - P22)(Z - d)J Кооперативную игру передачи данных в беспроводной сети будем рассматривать в классе чистых стационарных стратегий. Обозначим через Е< множество чистых стационарных стратегий игрока г, г = 1,2. Например, чистая стационарная стратегия о 77i = (1,0) игрока 1 диктует ему выбирать стратегию —> в состоянии (1,0) и стратегию W в состоянии (1,1). Каждый игрок имеет 4 чистых стационарных стратегии, т. е. мы получаем 16 ситуаций в чистых стационарных стратегиях. Для ситуации в чистых стационарных стратегиях rj = (771,772) можно записать в упрощенном виде матрицу переходных вероятностей П(г/). Например, для ситуации г}1 = (1,1,1,1) матрица переходных вероятностей будет иметь вид: Щт?1) = ({I - ai){l - a2) (l-ai)a2 ai(l-a2) axa2\ (l-ai)(l-a2) (l-ai)a2 ах(1-а2) а^а2 (l-ai)(l-a2) (l-ai)a2 ai(l-a2) axa2 V 0 0 0 1/ Для каждой ситуации в чистых стационарных стратегиях г) G S = П ^г мы можем г=1 посчитать математическое ожидание выигрышей игроков для каждой подыгры, начинающейся с определенного состояния: Ei (Е{0'°\ Е{0,1\ Е(1,0) Е{1Л)) Математическое ожидание выигрышей игрока % для подыгр можно рассчитать по следующей формуле: вд^Е-а-^щг,))-1/^), где Ki(rj), П(т/) определены выше. Математическое ожидание выигрыша игрока i во всей марковской игре, включая ход «случая» (т. е. выбор начального состояния) может быть рассчитано по формуле: ад = тгвд,
§4.15. Марковские игры 273 где 7г = (7Г(о}о)> я"(ол)> тг(1,о)? ^(М)) ~ вектор начальных вероятностей, и 7г& — вероятность того, что первое состояние в марковской игре будет k Е Т. Для кооперативного решения этой марковской игры необходимо найти кооперативной решение rj = (rj11rj2), т. е. ситуацию в чистых стационарных стратегиях такую, что У2 ^(77) = max У2 Ei(ri). ге{1,2} ге{1,2} Значение характеристических функций для подыгр V(S) = (V^°\S),V^1\S)Mm(S),V^1)(S)) можно рассчитать по формуле (4.15.10), а для всей марковской игры — по формуле (4.15.11). Кооперативной марковской игрой передачи данных в беспроводной сети будет пара ({1,2},7(Я)),7(0) = Ои7({1,2})= Е Щч). »е{1,2} В качестве дележа максимального суммарного математического ожидания выигрыша игроков рассмотрим вектор Шепли. Обозначим через Sh = (STii, 5/12), гДе 5Л, = (5Л|°-0),5Л|0'1>,5Л|1'0>,5Л<1Д)) вектор Шепли, рассчитанный для подыгр и через 5/i = (Shi, SI12) вектор Шепли, рассчитанный для всей марковской игры. Игроки перед началом игры договариваются о кооперации и ожидают получить совместный выигрыш У({1,2}) и соответствующие компоненты Shi и 5^2 вектора Шепли. Было бы естественно, если выплаты игрокам в игровых элементах, соответствующих состояниям марковской игры, были бы равны выигрышам игроков в одновременных играх, что эквивалентно условию: 5Л4 = ^(т7) + (1-д)П(т7)5Л». Но это условие не всегда выполняется, поэтому используем кооперативную процедуру распределения дележа A = (i8<0l0)J)8|0'1),A(1'0),A(1,1))- Это вектор реальных выплат игроку % в состояниях (0,0), (0,1), (1,0), (1,1), соответственно, такой, что г=1 i^N для любого к е {(0,0), (0,1), (1,0), (1,1)}. Посчитаем вектор ft по формуле (4.15.18). Можно потребовать, чтобы выплаты г-му игроку /?f были неотрицательными для любого состояния к G К и любого игрока i G N, что эквивалентно тому, чтобы система уравнений относительно ft = (pi , p\ , р\- , щ ' ) Shi = (E-(l-q)IL(fi(-)))-1l3i имела бы неотрицательное решение. Тем самым мы проверяем условие позиционной состоятельности вектора Шепли.
274 4. Многошаговые игры Далее рассмотрим численный пример кооперативной игры передачи данных в беспроводной сети, поскольку в общем виде представить расчеты матрицы (Е — (1 — ^Щт/))""1 в книге не имеется возможности. Пусть параметры игры принимают следующие значения: 9 = 0.01, / = 1, d = 0.1, с = 0.3, 1111 7Г = (4'4'4'4) Таблица 4.1 показывает для каждой ситуации в чистых стационарных стратегиях г) рассчитанные значения математических ожиданий. Здесь Ei(rj) = (Щ ' (г}),Е[ ' \г}),Е[ ' \rj),E[ ' (77)) — вектор математических ожиданий выигрышей игрока 1 в подыграх; -#2(?7) = (Щ ' \П)^Щ ' (v)^2 (v)^2 vi)) ~~ вектор математических ожиданий выигрышей игрока 2 в подыграх; 7г J2 Ei{v) ~ математическое ожидание суммарного выигрыша игроков. <е{1,2} Таблица 4.1. Ожидаемые значения V ту1 = (1,1,1,1) V2- (1,1,1,0) г/3 = (1,0,1,1) V4 = (1,0,1,0) v5 = (1,1,0,1) г/6 = (1,1,0,0) вд 14.75966387 14.75966387 15.15966387 0 89.80000000 89.80000000 90.20000000 90.20000000 88.22724883 88.22724883 88.62724883 88.30952131 64.67563026 64.67563026 65.07563026 60. 14.75966387 14.75966387 15.15966387 0. 89.80000000 89.80000000 90.20000000 90.20000000 E2(V) 45.70756302 46.50756302 45.70756302 40. 76.24887286 77.04887286 76.24887286 76.71127141 77.92000000 78.72000000 77.92000000 78.72000000 62.34621849 63.14621849 62.34621849 60. 45.70756302 46.50756302 45.70756302 40. 76.24887286 77.04887286 76.24887286 76.71127141 тг(Е1(т/) + Я2(77)) 55.65042017 166.56447240 166.66781694 125.56638655 55.65042017 166.56447250 ai = 0.5, а2=0.1, 012 = 0.1, D13 = 0.6, 023 = 0.2,
15, Марковские игры Окончание таблицы 4.1 V г/7 = (1,0,0,1) г/8 = (1,0,0,0) V9 = (0,1,1,1) г/10 = (0,1,1,0) г/11 = (0,0,1,1) ту12 = (0,0,1,0) ту13 = (0,1,0,1) г]ы = (0,1,0,0) 1 г?15 = (0,0,0,1) г/16 = (0,0,0,0) ВД 88.22724883 88.22724883 88.62724883 88.30952131 64.67563026 64.67563026 65.07563026 60. 3.870077599 3.870077599 2.815688411 0. 85.30045000 85.30045000 85.58955000 85.78955000 75.28276807 75.28276807 75.40659007 75.23559576 60.82133034 60.82133034 60.70655852 60. 7.05150332 7.05150332 6.42201835 0 76.00869440 76.00869440 76.06878134 76.68178956 69.01980198 69.01980198 69.01000000 68.91000000 61.00735762 61.00735762 60.91743119 60. E2(V) 77.92000000 78.72000000 77.92000000 78.72000000 62.34621849 63.14621849 62.34621849 60. 41.81391498 42.61391498 41.29388792 40. 82.15225000. 82.95225000 82.29775000 82.49775000 93.56491025 94.36491025 93.89870345 94.52135936 60.79766590 61.59766590 60.59084462 60. 43.1004887Р 43.90048870 42.75229358 40. 75.10793102 75.90793102 75.07981035 75.59292249 77.92000001 78.72000001 77.92000000 78.72000000 61.08577346 61.88577346 60.91743119 60. 7T(Ei(77)+E2(T/)) 166.66781694 125.56638655 44.06939037 167.97000000 169.38940133 121.33384890 47.56957398 151.61413864 147.30990100 121.70528113 В примере 19 п. 4.15.10 кооперативным решением будет ситуация mi = ((^дЛ,П(^Л^с,Л)).
276 4. Многошаговые игры Максимум математического ожидания суммарного выигрыша игроков в этой марковской игре будет следующим: maxVSifa) = 169.39. Значения характеристических функций для подыгр будут следующими: У({1}) = (64.68,64.68,65.08,60), V{{2}) = (61.09,61.89,60.92,60), V{{1,2}) = (168.85,169.65,169.31,169.76), и для всей марковской игры: 7({1}) = 63.61, V({2}) = 60.97, 7({1,2}) = 169.39. Компоненты вектора Шепли, рассчитанного для подыгр марковской игры передачи данных, будут следующими: Shi = (86.22,86.22,86.73,84.88), Sh2 = (82.63,83.43,82.57,84.88). Компоненты вектора Шепли, рассчитанного для всей марковской игры передачи данных, будут иметь значения: 5fti = 86.01, ~Sh2 = 83.38. Процедуры распределения дележа для игроков будут иметь следующие значения: рх = (0.7,0.7,2.04,-0.8), & = (0.7,1.5,-0.74,2.9). Если игроки в каждый промежуток времени хотят в оставшейся части игры передачи данных в беспроводной сети получать компоненты вектора Шепли, то выплаты игрокам должны быть « в состоянии (1,0): 2.04 игроку 1 вместо 0.9, —0.74 игроку 2 вместо 0.4, « в состоянии (1,1): —0.8 игроку 1 вместо 0.6, 2.9 игроку 2 вместо 1.5. В нашем численном примере марковской игры передачи данных вектор Шепли Sh — (86.01,83.38) не является позиционно состоятельным.
§4.16. Упражнения и задачи 211 §4.16. Упражнения и задачи 1. Найти все ситуации абсолютного равновесия по Нэшу в примере п.4.2.1. 2. Доказать, что в неантагонистической конечношаговой игре двух лиц с полной информацией выигрыши во всех «благожелательных» («неблагожелательных») ситуациях равновесия по Нэшу равны между собой. 3. Пусть vi(x),V2(x),..., vn(x) — значения функций выигрыша игроков 1,2,...,пв подыгре Га; в ситуации абсолютного равновесия в игре Г. а) Показать, что функции Vi(x), г — 1,2,... ,га, удовлетворяют следующей системе функциональных уравнений: Vi(x) = max Vi(x'), x G Xi, г = 1, 2,... ,ra, (4.16.1) при граничном условии Vi(x)\xeXn+1 = Щ(х). (4.16.2) б) Привести пример игры, в которой выигрыши игроков в ситуации равновесия в стратегиях наказания не удовлетворяют системе функциональных уравнений (4.16.1) при граничном условии (4.16.2). 4. Построить пример неантагонистической многошаговой игры двух лиц, в которой в ситуации равновесия в «стратегиях наказания» наказывающий игрок при наказании противника за отклонение от выбранного пути еще сильнее наказывает самого себя. 5. Построить Парето-оптимальные множества в игре из примера п.4.2.1. 6. Построить пример многошаговой неантагонистической игры, в которой ни одна из ситуаций равновесия по Нэшу не приводит к Парето-оптимальному решению. 7. Построить отображение Т, которое каждой подыгре Г2 игры Г ставит в соответствие некоторое подмножество ситуаций Uz в этой подыгре. Пусть Т(Г) = UXQ - Будем говорить, что отображение Т динамически устойчиво, если из и(-) 6 UXQ следует, что uZk(-) e UZ]6, где uZk{-) — (ulk (-),..., Unk (-)) — сужение ситуации и(-) на подыгру T2fc, ujq = {а?о, 2i,..., Zk] — партия, реализовавшаяся в ситуации u(-) E UXQ. Показать, что если отображения Т каждой подыгре Г2/е ставит в соответствие множество Парето-оптимальных ситуаций Ux , то оно динамически устойчиво. 8. Отображение Т, определенное в упр. 7, называется сильно динамически устойчивым, если для любой ситуации u(-) G Uxcn любого Zk G {^г} = w, где {zt} = uj — партия в ситуации и(-), ситуации uZk(-) G UZk существует ситуация u(-) G UXQ) для которой ситуация uZk{-) является ее сужением на позициях игры Г2/г и позиция Zk возмож:на в ситуации й(-). Показать, что если отображение Т каждой подыгре Г2/с ставит в соответствие множество ситуаций равновесия по Нэшу, то оно сильно динамически устойчиво. 9. Построить пример, когда отображение Т, ставящее в соответствие каждой подыгре Г2 множество Парето-оптимальных ситуаций равновесия, сильно динамическим не является. 10. Для каждой подыгры Г2 введем в рассмотрение величины v({i},z), г = 1,... ,п, представляющие собой гарантированный выигрыш г-го игрока в подыгре Г2, т. е. v({i},z)— значение антагонистической игры, построенной на графе подыгры Г2 между игроком г и игроками N \ г, действующими как один игрок. При этом множество стратегий коалиции игроков N \ г есть декартово произведение множества стратегий каждого из игроков к G {iV, г}, ^{^,г} ^ П ui>-> Функция выигрыша игрока г в ситуации (щ,им\г) определяется как ke{N,i} Hi(ui)UN\i)i а функция выигрыша коалиции N \ г полагается равной —Hf(ui,uN\i). 11. Показать, что если в некоторой многошаговой неантагонистической игре Г с неотрица- п тельными выигрышами (Hi > 0, г = 1,..., n), v({i}, z) — 0 для всех г = 1,..., га, и z 6 |J X{, г=1 то любая партия мож:ет быть реализована в некоторой ситуации равновесия в стратегиях наказания.
278 4. Многошаговые игры 12. Формализовать /с-уровневую древовидную систему управления в виде иерархической игры, в которой управляющий центр, находящийся на г-м уровне (г — 1,..., fc—1), распределяет ресурсы между подчиненными ему управляющими центрами следующего уровня при г < к — 1 и между подчиненными ему производственными подразделениями при i = к + 1. Выигрыш каждого производственного подразделения зависит только от своего производства, а выигрыш управляющих центров — от подчиненных им производственных подразделений. 13. Найти ситуацию равновесия по Нэшу в построенной в упр. 12 /с-уровневой иерархической древовидной игре. 14. Показать, что вектор выигрышей a — {v(N), 0,..., 0} принадлежит С-ядру двухуровневой иерархической древовидной игры с характеристической функцией v(S). Показать, что ситуация равновесия, построенная в двухуровневой древовидной иерархической игре, является также ситуацией сильного равновесия. 15. В ромбовидной иерархической игре построить характеристическую функцию, используя ситуацию равновесия по Нэшу. 16. Описать множество всех ситуаций равновесия по Нэшу в двухуровневой древовидной иерархической игре. Учесть возможность «наказания» центра Ао игроками В\,..., Вп (например, прекращение выпуска продукции при распределении ресурсов, не отвечающих интересам игрока г). 17. Построить матрицу выигрышей игроков в игре примера б п. 4.7.1. Найти оптимальные чистые стратегии и значение получившейся матричной игры. 18. Привести к матричной форме и решить игру из примера 8 п. 4.7.1. 19. Рассмотрим следующую антагонистическую многошаговую игру с задержкой информации о местоположении одного из игроков. Имеются два игрока: мишень Е и стрелок Р. Мишень может двигаться только по точкам оси Ох с координатами 0,1,2,..., причем если игрок Е находится в точке г, то в следующий момент времени он может переместиться только в точки г + 1, г — 1 или остаться на месте. Стрелок Р имеет j патронов, j = 0,1,..., и может производить не более одного выстрела в каждый момент времени. Считается, что стрелок попадает в ту точку, в которую целится. В каждый момент времени игрок Р знает только точное местоположение игрока Е на предыдущем шаге, т. е. если Е находился на предыдущем шаге в точке г, то игроку Р необходимо целиться в точки г+1,гиг — 1. Игрок Е знает количество патронов, которые имеет игрок Р в каждый момент времени, но не знает, куда целится игрок Р. Выигрыш стрелка Р равен числу попаданий в мишень. Таким образом, цель стрелка Р — максимизировать количество попаданий в мишень Е до того, как она достигнет «бункера». Цель мишени противоположна. Здесь под «бункером» понимается точка О, в которой мишень недостижима для стрелка Р. Обозначим символом Г(^) описанную выше игру при условии, что мишень Е в начальный момент времени находилась в точке с координатой г, а стрелок Р имел j патронов. Символом v(i,j) обозначим значение игры Г(^) (если оно существует). Нетрудно заметить, что г>(г,0) = 0, г = 1,2,... ,v = (1, j) = 0, j = 1, 2, — На каждом шаге игры I\j,z = 2,3,...,j = 1,2,..., стрелок имеет четыре стратегии (на самом деле больше, но они неразумны), а игрок Е — три стратегии. Стратегии стрелка Р таковы: выстрелить в точку г — 1, выстрелить в точку г, выстрелить в точку г + 1, не стрелять на данном шаге. Стратегии мишени: передвинуться в точку г — 1, оставаться в точке г, передвинуться в точку г+ 1. Следовательно, на каждом шаге игры разыгрывается матричная игра с матрицей выигрышей Г l + v(i- 1J - 1), v(i,j-l), v(z + l,j-l), 1 А=\ v(i-l,j-l), l + v(z,j-l), v(z+l,j-l), v(i-lj -1), v(i,j-l), l + v(i + l,j - 1), [ v(i-lj), v(i,j), v(i + l,j) J Символами xi(i,j),X2{i,j),X3(i,j),X4(i,j) обозначим вероятности, с которыми стрелок Р использует свои 1, 2, 3 и 4-ю стратегии, а символами yi(i, j),y2(i,j),y3(i,j) — вероятности,
§4.16. Упражнения и задачи 279 с которыми мишень Е использует свою 1, 2, и 3-ю стратегии (стратегии поведения игроков РиЕ, соответственно, есть функции информационных множеств {i,j}). а) Показать, что значение игры v(i,j) и оптимальные стратегии поведения стрелка P(#i(z,;?)>#2(г, j),x3(i, j),X4(i, j)) и мишени E(yi(i, j) ,y2(i, j) ,уз(г, j)) связаны между собой следующими соотношениями: (1 + v(i- 1,7 - 1))хг +v(i- 1,7 - l)x2 + v(i- 1,7 - l)x3 + v(i- 1,7)04 > v(i,j), v(ij - l)zi + (1 +v(ij - l))x2 + v(i,j - l)x3 + v(ij)x4 > v(i,j), v(i + 1J - l)zi +v(i + 1,7 - l)x2 + (1 + v(i+ l,j - l))x3 +v{i + 1,7)2:4 > v(i,j), xi + X2 + жз + X4 = 1, xi > О, Х2 > 0, #3 > 0, a?4 > 0; (l + v(i~ 1J- 1))уг + v(ij - l)y2 + v(i + lj - l)ys < v(ij), v(i- 1J- l)yi + (l + v(i,j - l))y2 + v(i + lj - 1)2/з < v(ij), v(i - 1, j - 1)^/1 + v(i,j - 1)г/2 + (1 + v{i + 1,7 - l))y3 < v(ij), v(i- l,j)2/i +v(i,j)y2 + v(i+ l,i)2/3 < v(i,j), 2/1 4- 2/2 + 2/3 = 1, yi < 0,2/2 < 0,2/3 < 0. Указание. Трудность решения этой игры состоит в том, что для определения v(i,j) необходимо знать v(i+l,j), для определения v(z-f 1, 7) необходимо знать г>(г+2, j) и т. д. В приводимых ниже упражнениях дано решение игры Г(^) и приводятся некоторые его свойства. б) Пусть ф(г^),г = 1, 2,... ,7* = 0,1,... — двойная последовательность, определяемая соотношениями ф({, 0) = 0, i = 1,2,... ;0(1,Я = 0, j = 1,2,..., 0(г,Я - тгп{{1 + ф(г - 1, j - 1) + 0(г, j - 1) + 0(г + 1, j - l))/3, (1 + 0(* - 1,7 - 1) + 0(г,7 - 1))/2}- 1) Доказать, что v(i,j) = $(г,7*)> и если v(i,j) = (Ц-г»(г —l,j —l)+t»(z,j —l)+v(z+l, j —1))/3, то xi(i,7") = v(i, j) - v(z - l,j - 1), ж2(г,7) = v(i,j) - v(i,j - 1), x3(ij) = v(ij) - v(i + 1,7 - 1), x*(i,j) = 0, yi(i,j) = 2/г(г,7") = 2/з(г,7') = 1/3; 2) Доказать, что v(i,j) = ф(г^), и если v(i,j) = (1 + v(i — l,j — 1) + v(i,j — l))/2, то Жг(г,7*) = v(i,7) - v(z - 1,7 - 1), жг(г,7) = v(i,j) - v(i,j - 1), x3(ij) = ж4(г,7) = 0, 2/i (г, 7) = 2/2(г, j) = 1/2; 2/з(м) = °- в) Доказать, что при любом j' = 0,1, 2,... справедливы следующие соотношения: 1) v(m)=7'/3, г = j + 1,7 + 2,...; 2)г;(г,7)<г;(г + 1,7), г-1,2,...; 3)v(i,7)<v(i,7 + l), г = 2,3,...; 4) v(i,j) + v(i + 2J) <2v(i+l,7), г =1,2,...; г) Доказать, что: 1) lim v(iyj) = 7*/3 при любом фиксированном j = 0,1,2,...; jf—>+00 2) lim v(i,j) = г — 1 при любом фиксированном 7 = 1,2,...; j—> — оо 20. Рассмотрим обобщение игры о стрелке и мишени, когда мишень Е, занимая положение г, может из него передвинуться максимум на к единиц вправо или влево, т. е. перейти в каждую из следующих точек г — к, г — /с+1,...,г,г + 1,...,г + &. Остальные цели и возможности стрелка Р и мишени Е остаются прежними с учетом нового определения стратегии игрока Е. Символом G(i,j) обозначим игру при условии, что мишень в начальный момент времени занимает г- ю точку, а стрелок имеет j патронов. Символом v(i,j) обозначим значение игры G(i,j). Из определения G(i,j) имеем v(i,0) = 0, г =1,2,..., v(i9j) = Q, г = 1,2,..., k\j = 1,2,.... На каждом шаге игры G(i,j), г — /с+1,..., j = 1,... стрелок Р имеет 2к + 2 чистые стратегии, а мишень Е(2к + 1) — чистую стратегию. Чистыми стратегиями игрока Р являются: стрельба в точку г — к, стрельба в точку г — к +1,..., стрельба в точку г + /с, отказ от выстрелов на данном шаге. Стратегиями Е являются: перемещение в точку г — /с, перемещение в точку г — к + 1,..., перемещение в точку г + к.
280 4. Многошаговые игры Таким образом, на каждом шаге игры разыгрывается игра с матрицей {&mn(hj)} размера (2/с + 2)х(2/с + 1), где {0Lmn{i,j)} = 1 + v(i + n — к — l,j — 1), если т = п = 1,..., 2/с + 1, v(i + п — к — 1, j — 1), если m Ф щ т,п = 1,..., 2/с + 1, v(i + п — к — 1, j), если га = 2/с + 2,п = 1,... ,2/с + 1 а) Показать, что игра G(i,j) имеет значение, равное г>(г, j), в том и только в том случае, если существуют (xi,x2,... ,ж2/с+2), (2/1,2/2, - -. ,2/2fc+i) такие, что: 2fc+2 У^ amn(ij)xm > v(i,j), п = 1,... , 2/с + 1, 7П=1 2/с+2 V^ жт = 1, жт > 0, т = 1,..., 2/с + 2, га=1 2fc+l У^ amn(ij)yn < v(i,j), га = 1,...,2/с + 1, га=1 2/с+1 5^ 2/n = l,2/n >0, n = l,...,2fc+l. га=1 Указание. Обозначим символами жх(г, j),X2(i, j),..., Ж2Ь+2(г, j) оптимальные стратегии поведения (если они существуют), с которыми стрелок Р использует свои 1-ю, 2-ю, ..., (2/с + 2)-ю стратегии в информационном состоянии (i,j), а символами yi(i,j),y2(hj), - - - ,2/2fc+i(^,i) — оптимальные стратегии поведения, с которыми мишень Е использует свою 1-ю, 2-ю, ..., (2/с+1)-ю стратегии в информационном состоянии (i,j). В упражнениях ниже приведено решение игры G(i,j) и его свойства. б) Символом ф(ъ, j), j = 0,1,...;г = 1, 2,..., обозначим следующую двойную последовательность: </>(г,0) = 0, г = 1,2,...; 0(i,i) = O, i = l,2,...,fc; j = l,2,...; </>(г, j) = minr=i5...,fc+i'((l + Et=i * + Ы* + t - /с - 1, j - 1))/(/с + 2)), г = /с + 1, /с + 2,..., j = 1, 2,..., (4.16.3) Доказать, что 1) v(i,j) = ф[г,з)\ 2) при г = /с + 1,... ;j — 1,2,..., имеем xm(i,j) = v(i,j) — v(i + m — /с — 1, j — 1) при m = 1,... ,/c + г*, иначе xm(i,j) — 0,2/n(^, j) = l/(/c + г*) при n = 1,... ,/c + г*, иначе yn = 0. Здесь r = r* — точка, в которой достигается минимум в (4.16.3). в) Доказать, что при j = 0,1,...: l)t;(t,j)>0, i = 1,2,...; 2) v(i,j) = j/(2/c +1), i = /cj + 1, /cj + 2,...; 3)«(i,j)<v(i+l,i), i = 1,2,...; 4) v(i,j) <v(i,i + l), г = /с+1,/с + 2,...; 5) v(hj + 1) < ?;(г, j) + l/(2/c +1), г = 1,2,...; г) Игра (7(г, со). Доказать, что lim v(i,j) = w(i) при каждом г = 1,2,..., где w(i) — решение линейного разностного уравнения kw(i) - J2(P = l)(k)w(i - р) = 1, г = /с + 1, /с + 2,... с начальными условиями: w(l) = w(2) = ... = w(fc) = 0.
§4.16. Упражнения и задачи 21. Задана стохастическая игра G(zo) на графе G(zo), который имеет вид: ZQ 281 Zl Z2 Z3 Z4 -^ ZQ Zb Множество вершин графа G{zq)\ Z — {zq,..., ze}. Множество игроков N = {1,2}. В каждой вершине графа G(zo) задан игровой элемент - одновременная игра двух лиц T(z), z G Z. Игровые элементы: Г(гв) Г(гз) Г(%) (5,5) (8,0) (1.И) (1,3) (5,5) (1,6) (0,8) (1,1) (4,2) (1,1) (6,1) (6,6) Г(22) Г(г4) Г(гв) (3,0) (5,6) (1,1) (2,0) (4,2) (5,6) (М)> (2,2), (0,2)> (1,2), (3,4)^ (1,5), /(0,0) (1,0Г чг1Ь V(1,0) (0,1) Вероятности перехода определены следующим образом. Если в игровом элементе Г(го) реализуется ситуация (2,2), игра G(zo) переходит в вершину «2 с вероятностью -ив верши- о 2 ну zz с вероятностью —, если реализуется ситуация, отличная от (2,2) (стрелка =>- означает о детерминированный переход), то игра G(zo) переходит в вершину z\. Если в игре Г(«з) реализуется ситуация (2,2), то стохастическая игра G(zo) переходит в вершины 25 и ze с равными вероятностями —, из остальных ситуаций совершается переход с вероятностью 1 в вершину Z4,. Вероятности qk того, что игра закончится на к-м шаге: q\ = g,<72 = 0,g3 = 1. Найти вектор Шепли в стохастической игре G(zo) и проверить, является ли он позиционно состоятельным. В случае отсутствия позиционной состоятельности провести его регуляризацию. 22. Стохастическая игра G(zo) задана на графе G(zq), который имеет вид: Множество вершин графа G(zo): Z = {zo,..., zg}. Множество игроков N = {1,2}. В каждой вершине графа G(zo) задан игровой элемент - одновременная игра двух лиц F(z), z 6 Z.
282 4. Многошаговые игры Игровые элементы: Г(го)Л(8,0) (2,2),)' r(Z2)4(4,7) (2,2) /(1,12) (4,2)\ /(1,1) (1,2) [Z3h\(2,3) (l,!))' l(Z7> -{(3,0) (1,2) IY*,W(4'6) (6,1Л TY*,W(4'2> (3'4) (Z8> - ^(i,6) (7,6);' i (Z9> - we,6) (i,7) r(ft),rW,r(ft),r(«,):(jJJj jJ^J Вероятности перехода определены следующим образом. Если в игровом элементе T(zo) реализуется ситуация (2,2), то игра G(zo) переходит в вершину z^ с вероятностью - и в вершину 3 zz с вероятностью -, если же реализуется ситуация, отличная от (2,2) (стрелка => означает детерминированный переход), то игра G(zo) переходит в вершину z\. В вершинах zi, Z2 при реализации любой ситуации стохастическая игра G(zo) переходит в вершины z± и Zb соответственно. Если в одновременной игре Г(гз) реализуется ситуация (2,2), то стохастическая игра G(zo) переходит в вершины гви^с равными вероятностями -, а если в игре Г(яз) реализуется ситуация (2,1), то игра с вероятностью 1 перейдет в вершину Z7, из остальных ситуаций совершается переход в вершину zq с вероятностью 1 (стрелка => означает детерминированный переход). Вероятности qk того, что игра закончится на к-м шаге qi=zh q2 = m q3 = h Найти iV-ядро в стохастической игре G(zo) и проверить, является ли оно позиционно состоятельным. В случае отсутствия позиционной состоятельности провести его регуляризацию. 23. Стохастическая игра G(zq) задана на графе G(zo), который имеет вид: Множество вершин графа G(zo): Z = {го,..., гз}. Множество игроков N = {1,2}. В каждой вершине графа G(zo) задан игровой элемент - одновременная игра двух лиц T(z), z G Z. Игровые элементы: гы rf2lV /(10.3) (0.8А /(2,0) (7,3)\ ГЫ,Г(г1)Л(8,0) (1,1))'Цг2>-{(5,8) (3,1);- /(1,12) (3,3)\ l[Z3)-{(2,2) (1,0); Вероятности перехода определены следующим образом. Если в игровом элементе T(zo) реализуется ситуация (2,2), то игра G(zo) переходит в вершину z\ с вероятностью - и в вершину 5 4 Z2 с вероятностью -, если же реализуется ситуация, отличная от (2,2) (стрелка => означает 5 детерминированный переход), то игра G(zq) переходит в вершину z$. Вероятности qk того, что игра закончится на к-м шаге Qi = ±> 92 = 1.
§4.16. Упражнения и задачи 283 Найти С-ядро в стохастической игре G(zq) и проверить, является ли оно позиционно состоятельным. В случае отсутствия позиционной состоятельности провести его регуляризацию. 24. Марковская игра G задана следующим образом. Множество игроков N = {1,2}. Множество игровых элементов {Г1}, где !./(5,5) (0,10) Л(Ю,0) (2,2) Первый игрок в одновременной игре Г1 имеет две стратегии, т. е. Х\ = {жь жг}, второй игрок — также две стратегии, т. е. Х\ = {2/1,2/2}. Вероятность окончания игры G на каждом шаге равна q — \. В этом случае марковская игра представляет собой повторяющуюся игру с постоянным дисконтированием. Найти С-ядро и проверить его на позиционную состоятельность. В случае отсутствия позиционной состоятельности провести его регуляризацию. 25. Марковская игра G задана следующим образом. Множество игроков N = {1,2}. Множество игровых элементов {Г1, Г2}, где , /(6,6) (0,9)\ Г2.А2,0) (7,4) Л(9,0) (2,2)J' - V(6,5) (3,2) Первый игрок в одновременной игре Г1 имеет две стратегии, т. е. Х\ — {ж^жг}, а в игре Г2 - ' Х\ — {ai,a2}. Второй игрок в одновременной игре Г1 имеет две стратегии, т. е. Х\ = {2/1,2/2}, а в игре Г2 — Х\ = {61,62}. Вектор начального распределения вероятностей (1;0). Вероятность окончания игры G на каждом шаге равна q = |. Вероятности перехода: Pi(zi,2/i) = Pi (21,2/1) = Pi (яг,2/1) = Pi (X2, 2/l) = 1 2' 1 2' 5 6' 1 6' Pi (xi, 2/2) = Pi(xuy2) = Pi (X2, 2/2) = Р?(ж2,2/2) = 1 6' 5 6' 1 3' 2 3' plfaiM) = P2(ai,6i) = pl(a>2,bi) = pi (02,61) = 1 3' 2 3' 1 2' 1 2' P2 (01,62) = P2(ai,62) = P2(02,62) = pi(a2,62) = 1 2' 1 2' 2 3' 1 3' Найти вектор Шепли и проверить его на позиционную состоятельность. В случае отсутствия позиционной состоятельности провести его регуляризацию. 26. Найти iV-ядро в кооперативной игре из примера 3.10.1 в случае, когда параметры игры следующие: аг = 0.7, q = 0.001, a2 = 0.2, / = 1, #12 = 0.1, d = 0.1, Di3 = 0.5, с = 0.3, #23=0.1, 7Г= (1,0,0,0). Проверить iV-ядро на позиционную состоятельность. В случае отсутствия позиционной состоятельности провести его регуляризацию.
Глава 5 Антагонистические дифференциальные игры §5.1. Антагонистические дифференциальные игры i с предписанной продолжительностью Дифференциальные игры являются обобщением многошаговых игр на случай, когда число шагов в игре становится бесконечным (континуум), и игроки 1 и 2 (будем обозначать их буквами ЕиР), соответственно, имеют возможность принимать решения непрерывно. В такой постановке траектории движения игроков представляют i собой решения систем дифференциальных уравнений, правые части которых зависят от параметров, которые находятся под контролем игроков. 5.1.1. Пусть xGRn,yeRn,ueUcRk,veVcRl, f{x,u),g{y,v) — вектор- функции размерности п, заданные на Rn x U и Rn x V соответственно. Рассмотрим две системы обыкновенных дифференциальных уравнений i x = f(x,u), (5.1.1) ll = 9(y,v) (5.1.2) с начальными условиями х$, Уо- Игрок Р (Е) начинает движение из фазового состояния i Xq (уо) и перемещается в фазовом пространстве Rn согласно (5.1.1) или (5.1.2), выбирая в каждый момент времени значение параметра и G U(v G V) в соответствии со своими целями и информацией, доступной в каждом текущем состоянии. Наиболее просто поддается описанию случай полной информации. В дифференци- i альной игре это означает, что игрокам в каждый момент времени t при выборе параметров и G U, v G V известно время t и фазовые состояния — свое и противника. Иногда требуют знание одним из игроков, например, игроком Р, в каждый текущий i момент t значения параметра v G У, выбранного игроком Е в этот же момент. В таком случае говорят, что игрок Е дискриминирован, а сама игра называется игрой с дискриминацией игрока Е. Параметры и G С/, v G V называются управлениями игроков Р и Е соответственно. Функции x(t),y{t), удовлетворяющие уравнениям (5.1.1), (5.1.2) и начальным условиям, называются траекториями движения игроков Р,Е. i
§5.1. Антагонистические дифференциальные игры 285 5.1.2. Цели в дифференциальной игре определяются с помощью выигрыша, который может различным образом зависеть от реализовавшихся траекторий x(t),y(t). Например, предполагается, что процесс игры продолжается некоторое заранее предписанное время Т. Пусть х(Т),у(Т) — фазовые состояния игроков Р и Е в момент окончания игры Т. Тогда выигрыш игрока Е полагается равным Н(х(Т),у(Т)), где Н(х,у) — некоторая функция, заданная на Rn x Rn. В частном случае, когда Н(х(Т),у(Т)) = р(х(Т),у(Т)), (5.1.3) где р(х(Т),у(Т)) = \/XX=i(x*(^) ~~ Уг(Т))2 — евклидово расстояние между точками х(Т),у(Т), игра описывает процесс преследования, в котором целью игрока Е является уклонение от игрока Р к моменту окончания игры на максимальное расстояние. В этой главе будем предполагать дифференциальную игру антагонистической. В случае выполнения условия (5.1.3) это означает, что цель игрока Р — максимальное сближение с игроком Е к моменту окончания игры Т. При таком определении выигрыш зависит лишь от конечных состояний процесса и каждому игроку не засчитываются результаты, достигнутые им в процессе игры до момента Т. Поэтому логичной является и такая постановка задачи, в которой выигрыш игрока Е определяется как минимальное расстояние между игроками в процессе игры: min p{x{t),y{t)). 0<t<T Существуют игры, в которых ограничение на продолжительность игры не является существенным и игра продолжается до достижения игроками определенного результата. Пусть в R2n задана m-мерная поверхность F, которую будем называть терминальной. Положим t„ - {mint : (x(t),y(t)) e F}, (5.1.4) т. е. tn — первый момент попадания точки (x(t),y(t)) на поверхность F. Если при всех t > 0 точка (x(t),y(t)) & F, то tn полагаем равным -foo. Для реализовавшихся траекторий x(t),y(t) выигрыш игрока Е полагаем равным tn (выигрыш игрока Р равен —tn). В частности, если F представляет собой сферу радиуса I > 0, заданную уравнением п то имеет место задача преследования, в которой целью игрока Р является скорейшее сближение с игроком Е на расстояние I > 0. Если I = 0, то под встречей понимается совпадение фазовых координат игроков Р и Е, при этом игрок Е стремится оттянуть момент встречи. Игры преследования этого типа будем называть играми преследования на быстродействие. В теории дифференциальных игр рассматриваются также задачи определения множества начальных состояний игроков, из которых игрок Р может обеспечить встречу с игроком Е на расстоянии Z, и определения множества начальных состояний игроков, из которых игрок Е может гарантировать, что встреча с игроком Р на расстоянии I за конечное время не произойдет. Первое множество называется областью встречи N
286 5. Антагонистические дифференциальные игры или захвата и обозначается (С, Z), второе — областью убегания и обозначается (Е, Z). Очевидно, что эти области не пересекаются, однако важным является вопрос, покрывает ли объединение замыканий областей встречи и убегания все фазовое пространство? Ответ на этот вопрос будет дан ниже, а пока заметим, что для адекватного описания такого процесса достаточно определить выигрыш следующим образом. Если существует tn < оо (см. (5.1.4)), то выигрыш игрока Е полагаем равным —1. Если же tn — оо, то выигрыш равен 4-1 (выигрыш игрока Р равен выигрышу игрока Е с противоположным знаком, так как игра антагонистическая). Игры преследования с таким выигрышем называются играми преследования качества. 5.1.3. Фазовые ограничения. Если дополнительно потребовать, чтобы в процессе игры фазовая точка (х,у) не покидала некоторого множества F С i?2n, то получим дифференциальную игру с фазовыми ограничениями. Частным случаем такой игры является игра с «линией жизни». Она является антагонистической игрой качества, в которой выигрыш игрока Е полагается равным 4-1, если ему удается достичь границы множества F («линии жизни») до встречи с игроком Р. Таким образом, целью игрока Е является достижение границы множества F до встречи с игроком Р (сближение с игроком Р на расстояние I > 0), цель же игрока Р — сближение с игроком Е на расстояние I > 0, пока последний еще находится внутри множества F. Предполагается, что в процессе игры игрок Р не может покинуть множества F. 5.1.4. Пример 1 (Простое движение.) Игра происходит на плоскости. Движение игроков Р и Е описывается системой дифференциальных уравнений ±\ = гб1, ±2 = г/2, и\ 4- и\ < а2, 2/1 = г/i, 2/2 = г/2, v\ + v\ < /З2, xi(0) = x?, x2(0)=x°2, 2/i(0)=yJ, y2(0)=y°2,a>f3. (5.1.5) С физической точки зрения уравнения (5.1.5) означают, что игроки Р и Е перемещаются в плоскости с ограниченными скоростями, при этом максимальные скорости а и /3 постоянны по величине и максимальная скорость игрока Е не превосходит скорость игрока Р. Выбирая в каждый момент времени управление и = (^1,1/2), стесненное ограничением и\л-и\ < а2 (множество С/), игрок Р может изменять направление движения (направление вектора скорости). Аналогично, игрок Е, выбирая в каждый момент времени управление v = (viyv2), стесненное ограничением и\ 4- v\ < (З2 (множество V), может также в каждый момент времени изменить направление движения. Очевидно, что если а > /3, то множество захвата (С, Z) совпадает со всем пространством, т. е. игрок Р всегда может гарантировать Z-встречу с игроком Е за конечное время для любого I. Для этого достаточно выбрать движение с максимальной скоростью айв каждый момент времени t направлять вектор скорости на преследуемую точку y(t), т. е. осуществлять преследование по погонной линии. Если а < /3, то множество убегания (25, Z) совпадает со всем пространством игры за вычетом точек (х, у), для которых p(%iV) < I- Действительно, если в начальный момент р(хо,уо) > I, то игрок Е всегда может гарантировать избежание захвата, удаляясь от игрока Р вдоль прямой, соединяющей начальные точки Хо,г/о с максимальной скоростью /3. Здесь проявляется характерное свойство, которое будет встречаться и в дальнейшем. Для формирования управления, гарантирующего игроку Е избежание захвата,
§5.1. Антагонистические дифференциальные игры 287 достаточно знать лишь начальные состояния Хо,2/о, в то время как игроку Р в случае а> /3 для формирования управления, гарантирующего встречу с игроком Е, необходимо иметь информацию о своем состоянии и состоянии противника в каждый текущий момент времени. Пример 2. Игроки Р и Е представляют собой материальные точки с единичными массами, которые перемещаются на плоскости под действием ограниченных по модулю сил и силы трения. Уравнения движения игроков имеют вид Х\ = #з, ^2 = #4, #3 = OLU\ — крХз, ±4 = OLU2 — крХ4, и\л-и\ < се2, 2/1 = 2/з, 2/2 = 2/4, 2/з = fivi - кЕуз, (5.1.6) 2/4 = /3^2 - *s2/4, vl + v%< /З2, где (xi, Ж2), (2/1,2/2) — геометрические координаты, (жз> #4)? (2/3,2/4) — импульсы точек Р и .Е соответственно, кр и кЕ — коэффициенты трения, а и /3 — максимальные силы, которые могут быть приложены к материальным точкам Р и Е. Движение начинается из состояний Xi(0) = ж?, 2/г(0) = Vi, * = 1,2,3,4. Здесь под состоянием понимается не геометрическое местоположение игроков Р и Е, а их фазовое состояние в пространстве координат и импульсов. Множества U,V — представляют собой круги U — {и = (^1,^2) : w2 + w2 < се2}, У = {v — (г/1,г/2) - ^2 + v\ < /З2}. Это означает, что игроки Р и Е в каждый момент времени могут выбирать направления прилагаемых сил, однако максимальные значения этих сил ограничены константами а и /3. В такой постановке, как это будет показано в дальнейшем, условия а > /3 (превосходство в силе) недостаточно для завершения преследования игроком Р из любого начального состояния. 5.1.5. Пока не указан способ выбора управлений и Е С/, v Е V игроками Р и Е в процессе игры в зависимости от поступающей информации. Иначе говоря, не дано определение понятия стратегии в дифференциальной игре. Существует несколько разных подходов к определению этого понятия. Остановимся на тех интуитивно очевидных теоретико-игровых качествах, которыми оно должно обладать. Как уже отмечалось в гл. 4, стратегия должна характеризовать поведение игрока во всех информационных состояниях, в которых он может оказаться в процессе игры. В дальнейшем будем определять информационное состояние каждого игрока фазовыми векторами x(t),y(t) в текущий момент t и временем t — to, прошедшим с момента начала игры. Тогда естественно было бы рассматривать стратегию игрока Р(Е) как функцию и{х,уЛ) (v(x,y,t)) со значениями в множестве управлений U(V). Именно таким образом определяется стратегия в [Айзеке, 1967]. Стратегии этого типа будем называть синтезирующими. Однако этот способ определения стратегии обладает рядом существенных недостатков. Действительно, пусть игроки Р и Е выбрали стратегии u(x,y,t) и v(x,y,t) соответственно. Тогда для определения траектории движения игроков, следовательно, и выигрыша (который зависит от траекторий) подставим функции u{x,y,t),v{x,y,t) в уравнения (5.1.1), (5.1.2) вместо управляющих параметров щv и попытаемся их проинтегрировать при начальных условиях #о,2/о на отрезке времени [0,Т]. Получим следующую систему обыкновенных дифференциальных уравнений: х = /(ж, и(х, 2/, *)), У = g(y> v(x, 2/, *)). (5.1.7)
288 5. Антагонистические дифференциальные игры Для существования и единственности решения системы (5.1.7) необходимо наложить определенные условия на функции f(x,u),g(y,v) и стратегии u(x,y,t),v(x,y,t). Первая группа условий не ограничивает стратегических возможностей игроков, относится к постановочной части задачи и оправдывается физической природой рассматриваемого процесса. По-иному обстоит дело с ограничениями на класс функций (стратегий) и(х, у, i), v(x, у, t). Ограничения возможностей игроков не согласуются с принятым в теории игр представлением о свободе выбора поведения и приводят в ряде случаев к существенному «оскудению» множеств стратегий. Например, если ограничиться лишь непрерывными функциями u(x,y,t),v(x,y,t), то встречаются задачи, в которых не существует решения в классе непрерывных функций. Допущение же более широкого класса стратегий приводит к невозможности обеспечить существование единственного решения системы (5.1.7) на отрезке [0,Т]. Иногда для преодоления этой трудности рассматривают множества таких стратегий п(х, у, t), v(x, у, t), при которых система (5.1.7) имеет единственное решение, продолжимое на отрезок [0,Т]. Однако такой подход (помимо неконструктивности определения множества стратегий) не является достаточно обоснованным, поскольку множество всех пар стратегий и(х, у, t), v(x, у, t), при которых система (5.1.7) имеет единственное решение, оказывается непрямоугольным. 5.1.6. В качестве стратегий в дифференциальной игре будем рассматривать кусочно-программные стратегии. Кусочно-программная стратегия и(-) игрока Р состоит из пары {сг, а}, где а — некоторое разбиение 0 = t'0 < t[ < ... < t'n < ... полуоси времени [0, со) точками t'k, не имеющими конечных точек сгущения; а — отображение, ставящее в соответствие каждой точке t'k и фазовым состояниям x(tk),y(tk) некоторое измеримое программное управление u(t) E U при t E [t'^t'k+i) (измеримую функцию u(t), принимающую значения из множества U). Аналогично, кусочно-программная стратегия у(-) игрока Е состоит из пары {т, 6}, где г — некоторое разбиение 0 = Щ < t'{ < ... < t^ < ... полуоси времени [О, со) точками tk, не имеющими конечных точек сгущения; Ь — отображение, ставящее в соответствие каждой точке tk и позициям x{tk),y(tk) некоторое измеримое программное управление v(t) G V на отрезке [^,^+1) (измеримую функцию v(t), принимающую значения из множества V). Используя кусочно-программную стратегию, игрок реагирует на изменение информации не непрерывно во времени, а через интервал \bk,t>k+i), длину которого он определяет сам. Обозначим множество всех кусочно-программных стратегий игрока Р через Р, а множество всех возможных кусочно-программных стратегий игрока Е — через Е. Пусть u(t),v{t) — пара измеримых программных управлений игроков Р и Е (измеримых функций со значениями в множествах управлений U, V). Рассмотрим систему обыкновенных дифференциальных уравнений х = Дх,u(t)), у = g(y, v(t)), t > 0. (5.1.8) На правые части систем (5.1.8) наложим следующие ограничения. Вектор-функции /(ж, и),д(у, у) — непрерывны по всем аргументам, т. е. /(х, и) непрерывна на множестве Rn х С/, а д(у, v) непрерывна на множестве Rn x V. Кроме того, вектор-функции /(ж, и) и д(у, у) удовлетворяют условию Липшица по х и у, соответственно, независимо от и и г/, т. е. \\f(xi,u) - f(x2,u)\\ < ai||rci -х2\\, ueU, \\g(yuv) - д{У2,у)\\ </3i|bi-2/2||, vev,
§5.1. Антагонистические дифференциальные игры 289 где U С Rk,V С R1 — компактные множества в соответствующих евклидовых пространствах. Из теорем существования и единственности Каратеодори следует, что при выполнении указанных условий для любых начальных состояний хо,уо, любых измеримых программных управлений u(t), v(t), заданных на отрезке [ti, ^2], 0 < t\ < ^2, существуют единственные абсолютно непрерывные вектор-функции x(t\y{t\ которые удовлетворяют почти всюду (т. е. всюду, за исключением множества меры нуль) в промежутке [ti, t^\ системе дифференциальных уравнений x(t) = f(x(t),u(t)), y(t) = g(y(t),v(t)) (5.1.9) и начальному условию x(t\) — Хо, y{t\) — Уо (см. [Колмогоров, Фомин, 1981; Сансоне, 1954]). 5.1.7. Пусть (хо,уо) — пара начальных условий для уравнений (5.1.8). Система S = {xQ,yo\u(-),v(-)}, где u(-) G Р, v(-) G Е, называется ситуацией в дифференциальной игре. Каждой ситуации S единственным образом соответствует пара траекторий x(t),y(t) таких, что х(0) = xq, у(0) = уо и при почти всех t Е [0,Т], Т > О выполнены соотношения (5.1.9). Действительно, пусть и{-) = {5, a}, v(-) = {г, Ъ}. Далее, пусть 0 = to < t\ < ... < tfc < ... — разбиение полуоси [0, со), являющееся объединением разбиений <5, т. Решение системы (5.1.9) строится следующим образом. На каждом отрезке [tfc,tfc+i), k — 0,1,..., образы отображений а, Ь представляют собой измеримые программные управления u(t),v(t). Поэтому на отрезке [to, ti) система уравнений (5.1.9) при х(0) = хо, 2/(0) = уо имеет единственное решение. На отрезке [ti,^), взяв.в качестве начальных условий x(t\) = limt_>t1_ox(t), y(ti) — limt_>t1_o2/(t) строим решение (5.1.9), вторично используя измеримость управлений u{t),v(t) как образов отображений а и Ь на отрезках [tkitk+i), к = 1,2,.... Полагая ж(*2) = limt_>t2_oa;(t), y(t2) = limt_+t2_0y(t) продолжаем этот процесс, в результате чего находим единственное решение x(t),y(t), такое что х(0) — Жо, у(0) = уо. Любую траекторию x(t) (y(t)), соответствующую некоторой ситуации {xo,yo,u(-),v(-)}, будем называть траекторией игрока Р (игрока Е). 5.1.8. Функция выигрыша. Как уже было показано, каждая ситуация S = {хо, 2/о; ui')iv{')} B кусочно-программных стратегиях однозначно определяет траектории x{t),y{t) игроков Р и Е. Степень предпочтительности этих траекторий будем оценивать функцией выигрыша К, которая каждой ситуации ставит в соответствие некоторое вещественное число — выигрыш игрока Е. Выигрыш игрока Р равен (—К) (это означает, что игра антагонистическая, поскольку сумма выигрышей игроков Р и Е в каждой ситуации равна нулю). Будем рассматривать игры с функцией выигрыша четырех видов. Терминальный выигрыш. Заданы некоторое число Т > 0 и непрерывная по (х, у) функция Н(х,у). Выигрыш в каждой ситуации S = {хо,Уо]у>(-),у(-)} определяется следующим образом: К(х0,у0;и(-)М-)) = Н(х(Т),у(Т)), где х(Т) = x(t)\t=T, у(Т) = y{t)\t=T (здесь x(t),y{t) — траектории игроков Р и Е, соответствующие ситуации S). В случае, когда функция Н(х,у) представляет собой евклидово расстояние между точками хиу, имеет место задача преследования. Минимальный результат. Пусть Н(х,у) — вещественная непрерывная функция. В ситуации S = {хсьУо; u(')>v(')} выигрыш игрока Е полагается равным mmo<t<TH(x(t),y(t)), где Т > 0 — заданное число.
290 5. Антагонистические дифференциальные игры Если Н(х,у) = р(х,у), то игра описывает процесс преследования. Интегральный выигрыш. В Rn x Rn заданы некоторое многообразие F размерности m и непрерывная функция Н(х, у). Пусть в ситуации S = {жо, yo',u(-),v(-)},tn — первый момент попадания траектории (x(t),y(t)) на F. Тогда К(х0,уоМ-)М-)) = I П H{x{t),y{t))dt, Jo (если tn = 00, то К = оо), где x(t)>y(t) — траектории игроков Р и Е, соответствующие ситуации S. В случае Н = \,К = tn, имеет место задача преследования на быстродействие. Качественный выигрыш. Функция выигрыша К может принимать только одно из следующие трех значений: +1,0, —1 в зависимости от расположения (x(t),y(t)) в Rn x Rn. В Rn х Rn заданы два многообразия F и L размерности mi и ш2 соответственно. Пусть в ситуации S = {жо,уо;^(,)>г?(')}' tn — первый момент попадания траектории (x(t),y(t)) на F. Тогда K(xo,yQ;u{-),v(-)) -1, если (x(tn),y(tn))-e L, О, если tn = оо, [+1, если {x(tn),y(tn))&L. 5.1.9. Определив множества стратегий игроков Р и Е и функцию выигрыша, можно определить дифференциальную игру как игру в нормальной форме. В п. 1.1.1 под нормальной формой Г мы понимали тройку Г =< X, У, К >, где X х Y — пространство пар всевозможных стратегий в игре Г, а К — функция выигрыша, определенная на Хх Y. В рассматриваемом случае функция выигрыша определена не только на множестве пар всевозможных стратегий в игре, но и на множестве всех пар начальных позиций жо,уо- Поэтому каждой паре (хо,уо) G Rn x Rn соответствует своя игра в нормальной форме, т. е. фактически определяется некоторое семейство игр в нормальной форме, зависящее от параметров (хо,уо) ^ Rn x Rn- Определение. Под нормальной формой дифференциальной игры Т(хо,уо), заданной на пространстве пар стратегий Р х Е, будем понимать систему Г(ж0,у0) = (ж0,уо;Р,Е, K(x0,yo]u(-),v(-))), где K(xo,yo;u(-),v(-)) — функция выигрыша, определенная любым из четырех описанных выше способов. Если функция выигрыша К в игре Г терминальная, то соответствующая игра Г называется игрой с терминальным выигрышем. Если функция К определяется вторым способом, то имеем игру на достижение минимального результата. Если функция К в игре Г является интегральной, то соответствующая игра Г называется игрой с интегральным выигрышем. Когда функция выигрыша в игре Г качественная, соответствующая игра Г называется игрой качества. 5.1.10. Естественно, что в классе кусочно-программных стратегий (в виду некомпактности множества) оптимальных стратегий может не существовать. Однако удается показать, что в достаточно большом числе случаев для любого е > 0 существуют ситуации е-равновесия. Напомним определение ситуации е-равновесия (см. п. 2.2.3).
§5.1. Антагонистические дифференциальные игры 291 Определение. Пусть задано некоторое е > 0. Ситуация se = {xo,yo;us(-),vs(-)} называется ситуацией е-равновесия в игре Г(жо»2/о)> если для всех и(-) е Р, v(-) Е Е выполнено неравенство K{x0,yo;u(-),vs{'))+e > K(x0,yo;ue(-),ve(-)) > (5.1.10) > K(x0,y0;ue(-),v(-)) -e. Стратегии ue(-),ve(-), определенные в (5.1.10), называются е-оптимальными стратегиями игроков Р и Е соответственно. Следующая лемма является перефразировкой теоремы п. 2.2.5 для дифференциальных игр. Лемма. Пусть в игре Г(жо,уо) для каждого е > 0 существует ситуация е- равновесия ss = {жсьУсь^еО»1^')}- Тогда существует предел limK(xo,y0;us(-),vs{-)). е-±0 Определение. Функция V(x,y), определенная в каждой точке (х,у) некоторого множества D С Rn x Rn no правилу ]mK{x,yiue(-),ve(')) = V{x,y), (5.1.11) г—>-0 называется функцией значения игры Г (ж, у) на множестве начальных условий (х,у) G D. Существование при любом е > 0 ситуации е-равновесия в игре Г(жо, у о) эквивалентно выполнению равенства sup inf K(x0,yQ;u(-),v(-))= inf sup K(x0,y0]u(-),v(-)). u(.)eE w(-)gp u(-)eP v(.)eE Если в игре Г(жо,уо) для любого е > 0 существуют е-оптимальные стратегии игроков Р и Е, то будем говорить, что игра Г(хо,уо) имеет решение. Определение. Пусть u*(-),v*(-) — пара таких стратегий, что K(x0,yoM-),v4-)) > K(x0,yo;u*(.),v*(.)) > К(х0,уо;у>*(-)М')) (5.1.12) для всех и(-) е Р и v(-) G Е. Тогда ситуация s* = (xo,yo]u*(-),v*(-)) называется ситуацией равновесия в игре Г(жо,2/о)- Стратегии и*(-) G P w v*(-) Е E из (5.1.12) называются оптимальными стратегиями игроков Р и Е соответственно. Существование ситуации равновесия в игре Г(жо»2/о) эквивалентно (см. п. 1.3.4) выполнению равенства max inf К(х0,у0;и('),у(-)) = min sup K(xQ,yo\u(-),v(')). v(-)eEu(-)eP u(.)eEv(.)GP Очевидно, что если существует ситуация равновесия, то для любого е > 0 она является и ситуацией е-равновесия, т. е. функция V(ж, у) в данном случае просто совпадает с K(x,y;u*(-),v*{-)) (см. п. 2.2.3).
292 5. Антагонистические дифференциальные игры 5.1.11. Рассмотрим синтезирующие стратегии. Определение. Пара (u*(x,y,t),v*(x,y,t)) называется ситуацией равновесия в дифференциальной игре в синтезирующих стратегиях, если имеет место неравенство K(xQ,yoiu(x,y,t),v*{x,y,t)) > K(xQ,yoiu*(x,y,t),v*(x,y,t)) > > K(x0,y0iu*{x,y,t),v(x,y,t)) (5.1.13) для всех ситуаций (u(x,y,t),v*(x,y,t)) и (u*(x,y,t),v(x,y,t)), для которых существует единственное, продолжимое на [0, оо) решение системы (5.1.7) из начальных состояний жо,уо- Стратегии u*(x,y,t),v*(xyyyt) называются оптимальными стратегиями игроков Р и Е. Установим различие понятий ситуации равновесия в кусочно-программных и синтезирующих стратегиях. Заметим, что определить ситуацию равновесия в обычном смысле в классе функций u(x,y,t),v(x,y,t) невозможно из-за непрямоугольности пространства ситуаций, т. е. в синтезирующих стратегиях невозможно потребовать выполнения неравенства (5.1.13) для всех стратегий u(x,y,t),v(x,y,t), поскольку некоторые пары (u*(x,y,t),v(x,y,t)), (u(xyy,t),v*(x,y,t)) могут не быть допустимыми (система уравнений (5.1.7) в соответствующей ситуации может не иметь решения вообще или не иметь единственного решения). В дальнейшем, если специально не будет оговорено, во всех случаях будем рассматривать классы кусочно-программных стратегий. Прежде чем перейти к доказательству существования ситуации е-равновесия в дифференциальной игре, рассмотрим один вспомогательный класс многошаговых игр с полной информацией. §5.2. Многошаговые игры с полной информацией и бесконечным числом альтернатив 5.2.1. Рассмотрим класс многошаговых игр с полной информацией, представляющих собой обобщение игр с полной информацией из п. 4. 3. 1. Игра происходит в n-мерном евклидовом пространстве Rn. Будем обозначать через х G Rn местоположение (позицию) игрока 1, а через у G Rn — местоположение игрока 2. Пусть для каждых х G Rn, у G Rn определены множества Ux,Vy соответственно, которые будем предполагать компактными множествами евклидового пространства Rn. Игра начинается из позиции хо.уо. На 1-м шаге игроки 1 и 2 выбирают точки х\ G UXo и yi G Vyo. При этом выбор игрока 2 сообщается игроку 1 до выбора им точки х\ Е UXo. В точках x±,yi игроки 1 и 2 выбирают точки Х2 G UXl и уъ G Vyi, и выбор игрока 2 сообщается игроку 1 перед выбором им точки Х2 Е UXl и т. д. На fc-м шаге в позициях Xk-i,yk-i игроки выбирают Xk-1, у к-1 и выбор игрока 2 сообщается игроку 1 перед выбором им точки %к ^ Uxk-i- Процесс заканчивается на JV-м шаге выбором х^ Е UXN_1, у^ Е Уум_1 и переходом в состояние х^уум-
§ 5.2. Многошаговые игры с полной информацией 293 Семейства множеств Ux,Vy> х G Rn, у G Rn предполагаются непрерывными в метрике Хаусдорфа по ж, у. Это означает, что для любого е > 0 найдется такое S > 0 что при \х-х0\ < 5 (\у-уо\ < 5) (UX0)eDUx, (Ux)eDUX0\ (Ууо)е^Уу, (Vy)s^Vyo. Здесь Ue iVe) — ^-окрестность множества U (V). Следующий результат хорошо известен в анализе (см. [Petrosyan, 1993]). Лемма. Пусть f(x',yf) — непрерывная функция на декартовом произведении Ux x Vy. Тогда если семейства {Ux},{Vy} непрерывны по Хаусдорфу пох,у, то функционалы Fx{x,y) = max min f{x',y'), y'GVy x'eux F2{x,y)^ min maxf(x\y') x'euxy'eVy непрерывны по х,у. Пусть x = (жо,..., xn) ыу — (уо,..., ум) — траектории игроков 1 и 2 соответственно, реализовавшиеся в процессе игры. Выигрышем игрока 2 является величина max f{xk,yk) = F(x,y), (5.2.1) 0<k<N где /(ж, у) — непрерывная функция от ж, у. Выигрыш игрока 1 равен — F (игра антагонистическая) . Будем предполагать, что данная игра является игрой с полной информацией, т. е. в каждый момент времени (на каждом шаге) игрокам известны позиции xk,yk и момент времени /с, а игроку 1, кроме того, известен выбор Ук+i игрока 2 в этот момент. Стратегиями игрока 1 являются всевозможные функции u(xyy,t) такие, что и{хк-1<>Укчк) ^ UXk_1. Стратегиями игрока 2 — всевозможные функции v(x,y,t) такие, что v(xk-i,yk-i,k) ^ K/fc-i- Эти стратегии будем называть чистыми стратегиями (в отличие от смешанных). Пусть игроки 1 и 2 применяют чистые стратегии u(x,y,t),v(x,y,t). В ситуации {u(-),v(-)) игра происходит следующим образом. На 1-м шаге игрок 2 из состояния 2/о переходит в состояние у\ — г;(жо,2/о> 1)? а игрок 1 — из состояния xq в состояние х\ = гб(жо,2/1»1) ~ u(xo,v(xo,yo,l))l) (поскольку игрок 1 знает выбор игрока 2). На 2-м шаге игроки переходят в состояния y<i = i>(xi,yi,2), Ж2 — и(х\,у2,2) = u(xi,v(xi,yi,2), 2) и т. д. На fc-м шаге игроки 1 и 2 переходят из состояний Хк-\,Ук-1 в состояния ук = v(xk-i,yk-iik), xk = u(xk-i,yk,k) = u(xk-i,v(xk-i,yk-i,k),k). Таким образом, каждой ситуации (u(-),v(-)) однозначно соответствуют траектории игроков 1 и 2: х = (ж0,жь... ,ж/с,.. .,xN) иу = (уо,Уъ- . - ,2/ь- - -»2/лг); следовательно, и выигрыш K(u('),v(-)) = F(x,y), определяемый по формуле (5.2.1). Рассматриваемая игра зависит от двух параметров: начальных позиций жо, уо и продолжительности JV, поэтому будем обозначать ее через T(xo,yo,N). Для дальнейшего исследования каждую игру T(xo,yo,N) удобно отнести к семейству игр Г(ж, у,Т), зависящих от параметров ж, у, Т. 5.2.2.Справедлив следующий результат, являющийся обобщением теоремы п. 4.2.1 для конечных игр с полной информацией.
294 5. Антагонистические дифференциальные игры Теорема. В игре T(xo,yo,N) существует ситуация равновесия в чистых стратегиях и значение игры V(xo,yo,N) удовлетворяет рекуррентному соотношению V(x0,y0,k) = тах{/(ж0,уо), max min V(x,y,k - 1)}, fc = 1, — ,-ZV; yevyo xeuXQ V(x,y,0) = f(x,y). (5.2.2) Доказательство проведем методом индукции по числу шагов игры. Пусть N = I. Определим стратегии и*(-),г;*(-) игроков в игре Г(жо,уоД) следующим образом: min f{x,y) = f(u*(x0,y,l),y), У^УУо. xGUXQ Если maXyeVyQ min,^^ /(ж,у) = /(гл*(ж0,2/*,1),2/*), то г;*(ж0,2/оД) = У*- Тогда ЯГ(и*(-),г;*(-)) = тах{/(ж0,у0), max min f(x,y)} yevyo xeuXQ и для любых стратегий u(-),v(') игроков в игре Г(жо»2/о» 1) справедливы соотношения: К(и*(-)М-)) < K(u*(.),v*(-)) < K(u(-),v*(-)). Тем самым утверждение теоремы справедливо при N < 1. Предположим теперь, что утверждение теоремы справедливо при N < пи докажем ее для N = п + 1, т. е. для игры Г(хо,уо,п + 1). Рассмотрим семейство игр Г(ж,у,п), х G UXo,y Е Vyo. Обозначим через u^y('),v^y(-) ситуацию равновесия в игре Г(ж,у,п). Тогда K(u%y{-),v%y(-)) = V{x,y,ri), где V(#,y,n) определено соотношениями (5.2.2). Используя непрерывность функции /(ж, у) и лемму п. 5.2.1, нетрудно доказать непрерывность функции V(x,y,ri) по х,у. Определим стратегии йп+1(-)1 vn+1(-) игроков в игре Г(жо, Уо, п + 1) следующим образом: min V(x,y,n) = V{un+1(x0,y,l),y,ri), y^Vyo. xGUXQ Если maxyevvominxeUxQV(x,y,ri) = У(^+1(х0,у,1)^,п), то vn+1(x0,y0,l) = у (для ж ^ жо, У ф Уо функции г!п+1(ж,у, 1) и йп+1(ж,у, 1) определим произвольно): й"+1(-,/с) = г#1У1(-,k - 1), fc = 2,...,n + 1, tT+1(-,fc)=^m(-,fc-l), fe = 2,...,n + l. Здесь Ж1 G С/Жо, yi G V^0 — позиции, которые реализовались после 1-го шага в игре Г(жо,уо,п + 1). По построению, K(u"+1(-),tJn+1(-)) = max{/(a;o,!to). max min ^(z.y.n)}. (5.2.3) Фиксируем произвольную стратегию и(-) игрока 1 в игре Г(хо,уо,п + 1)- Пусть и(х0,у, 1) = жь где у = г?п+1(жо,уоД) и и^(-) —сужение стратегии и(-) на игру Г(ж,у,п), же UX0, у е Vyo. - Справедливы следующие соотношения: K(Un+1(-),vn+1(-)) < max{f(x0,y0),V(x1,y,n)} = = max{/(x0,j/o),^(^1y(-)^"1y(-)} < < m^{f(x0,y0),K(u^(.),vnx^(.))} = K(u(.),vn+1(.)). (5.2.4)
§ 5.2. Многошаговые игры с полной информацией 295 Аналогично доказывается неравенство К(гГ+1(')^п+1(-)) > K(un+1(-),v{-)) (5.2.5) для любой стратегии г;(-) игрока 2 в игре: Т(хо,уо,п + 1). Из соотношений (5.2.3)-(5.2.5) следует справедливость утверждения теоремы для N = п + 1. Тем самым доказательство теоремы по индукции закончено. Рассмотрим теперь игру T(xo,yo^N), которая отличается от игры T(xo,yo,N) тем, что в ней сообщает свой выбор игрок 1. Таким образом, в игре T(xo,yo,N) на каждом шаге к игрок 2 кроме состояний Xk-i,Vk-i и шага к знает состояние Xk G UXk_iy выбранное игроком 1. Игрок 1 на каждом шаге к знает лишь Xk-i,Vk-i- Аналогично теореме п. 5.2.5 можно показать, что в игре Г(жо, уо, N) существует ситуация равновесия в чистых стратегиях и значение игры V(#o» Уо> N) удовлетворяет рекуррентному уравнению V(x0,y0lk) = nmx{f(x0,y0), min max V(x,y, k - 1)}, xeuXQ yevyo k = l,...,W, V(x,y,0) = f(x,y). (5.2.6) 5.2.3. Рассмотрим игры r'(xo,yo,N) и Г (xo,yo,N), которые отличаются от игр T(xo,yo,N) и T(xQ,yo,N) соответственно лишь видом функции выигрыша. Предположим, что в этих играх выигрыш игрока 2 равен расстоянию между ним и игроком 1 на последнем шаге игры, т. е. р{хк,Уи)- Тогда утверждение теоремы п. 5.2.2 и ее следствие сохраняют силу и вместо рекуррентных уравнений (5.2.2),(5.2.б), справедливы уравнения V'(x, у, k) = max min V'(x', у', /с — 1), к — 1,..., TV, y'evy x'eux У'(х,у,0)=р(х,уУ, (5.2.7) V (x,y,k) = min max V (x',yf, к — 1), /с = 1,... ,7V, x'eUx y'GVy V'(x,y,0)=p(x,y). (5.2.8) Пример З. Рассмотрим дискретную игру преследования, в которой множества Ux представляют собой круги радиуса а с центром в точке ж, а множества Vy — круги радиуса /? с центром в точке у (а > /3). Это соответствует игре, в которой игрок 2 (убегающий) перемещается на плоскости со скоростью, не превосходящей /3, а игрок 1 (преследователь) — со скоростью, не превосходящей а. Скорость преследователя превосходит скорость убегающего, и игрок 1 ходит вторым. Игра такого типа называется дискретной игрой «простое преследование» с дискриминацией убегающего игрока. Игра продолжается N шагов, и выигрыш игрока 2 равен расстоянию между игроками на последнем шаге. Найдем значение игры и оптимальные стратегии игроков, используя функциональное уравнение (5.2.7). Имеем V(x,y,l) = max min p(x',y'). (5.2.9) y'eVy x'eux Поскольку Ux и Vy — круги с центрами в х и у с радиусами а и /3, то V(x,y,l) = О, если Ux Э Vy.
296 5. Антагонистические дифференциальные игры Если же Ux 7$ Vyy то V(x,y, 1) = р(х,у) + /3 — a — р(х,у) — (а — /3) (см. пример 8 в п. 2.2.6). Таким образом, = Го, если Ux D Vy, т. е. р{х,у) - (а - /3) < 0, ' [р(ж,у)~ (а-/3), если ^ ^ К/, или, что то же самое, V(x, у, 1) = тах[0, р(х, у)-(а- /3)}. (5.2.10) Докажем, применив индукцию по числу шагов /с, что имеет место следующая формула: V(x, у, к) = тах[0, р(х, у) - к{а - /3)], к > 2. (5.2.11), Пусть (5.2.11) выполнено при к — га—1. Покажем, что формула справедлива для к = га. Воспользовавшись уравнением (5.2.7) и соотношениями (5.2.9), (5.2.10), получим V(x,y,m) = max min V(x',y',m 1) = max min {max[0, p(xf, у') — (га — 1) (a — /3)]} = y'GVyx'eux = max[0, max min {p(x',yf)} — (ra — l)(a — /3)] = у'^Уу x'eux = max[0, max{0, p(x, y) — (a — /3)} — (ra — l)(a — /3)] = max[0, p(x,y) — m(a — /3)], что и требовалось доказать. Если V(xo,yo,m) = p(x0,yo) - m(a - /3), т. е. р(ж0,уо) - тп(а - /3) > 0, то оптимальная стратегия игрока 2 диктует ему выбирать на к-м шаге игры точку yk пересечения линии центров хь-\,Ук-1 с границей VVk_1, наиболее удаленную от Xk-i- Здесь Хк-\,Ук-\ —позиции игроков после (к — 1)-го шага, к = 1,..., N. Оптимальная стратегия игрока 1 диктует ему на fc-м шаге игры выбирать точку из множества UXk_1, наиболее близкую к точке у к- Если оба игрока действуют оптимально, то последовательность выбранных точек жо,х\)...,xn, 2/о»2/ъ - - - >2/лг лежит на прямой, проходящей через жо,уо- Если V(xoyyo,m) = 0, то оптимальная стратегия игрока 2 произвольна, а игрока 1 — та же. При этом после некоторого шага к выполняется равенство maXytVy minxeux p(x,y) = 0. Поэтому, начиная с шага (к + 1), выбор игрока 1 повторяет выбор игрока 2. Многошаговые игры с неполной информацией детально изучены в работе [Слобожанин, 2002]. §5.3. Существование ситуаций г-равновесия в дифференциальных играх с предписанной продолжительностью 5.3.1. В данном параграфе будет доказано существование ситуаций б>равновесия в дифференциальных играх преследования с предписанной продолжительностью в классе кусочно-программных стратегий, определенных в п. 5.1.6. Рассмотрим подробно случай, когда выигрыш игрока Е представляет собой расстояние р(х(Т),у(Т)) в последний момент игры Т. Пусть динамика игры задается следующими дифференциальными уравнениями: для Р : х = f{x,u)\ (5.3.1)
§5.3. Существование ситуаций е-равновесия 297 дляЕ: y = g{y,v). (5.3.2) Здесь х, у G Rn, u e U, v G V, где 17, V — компактные множества евклидовых пространств Rk и R1 соответственно, t Е [0, оо). Пусть выполнены все требования п. 5.1.6. Определение. Обозначим через Ср(хо) множество точек х G Rn для которых существует измеримое программное управление u(t) E U, переводящее точку xq в х за время t, т. е. x(to) = xq, x(to+t) = х. Множество Ср(хо) называется множеством достижимости игрока Р из начального состояния xq за время t. Аналогично определяется множество достижимости СЕ(уо) игрока Е из начального состояния у о за время t. Предположим, что функции f,g таковы, что множества достижимости Ср(жо), СЕ(уо) игроков Р и Е соответственно удовлетворяют следующим условиям: 1) Ср(хо), СьЕ(уо) определены при всяких #о,2/о ^ Rn^ to,t ^ [0?со) (to < t) и являются компактными множествами пространства Rn\ 2) отображение СьР(хо) непрерывно по совокупности аргументов в метрике Хаусдор- фа, т. е. для любых е > О, xf0 G Rn, t G [0, оо) существует такое 8 > О, что если \t—1'\ < <5, р(хо,х'0) < 8, то р*(Ср(хо),Ср(жд)) < е. То же выполняется для СЕ(уо). Напомним, что метрика Хаусдорфа р* в пространстве компактных подмножеств Rn задается так: р*(А, В) = тах(р'(Л, В), р'(Р, А)), р'(А, В) = max р(а, В) аеА и р(а, В) = гтщев р(о>, Ь), где р — стандартная метрика в Rn. Теорему существования будем доказывать для игры преследования Г(хо,уо,Т) с предписанной продолжительностью, где хо,Уо ^ Rn ~ начальные позиции игроков Р и Е соответственно, а Т — продолжительность игры. Игра Т(хо,уо,Т) протекает следующим образом. Игроки Р и Е в момент времени to = 0 начинают перемещаться из позиций Хо,уо в соответствии с выбранными кусочно-программными стратегиями. В момент времени t = Т игра заканчивается, при этом игрок Е получает от игрока Р выигрыш, равный р(х(Т),у(Т)) (см. п. 5.1.8). В каждый момент времени t G [0,Т] игры Т(хо,уо,Т) обоим игрокам известны момент времени t, своя позиция и позиция противника. Обозначим через P(xo,to,t) (E(yo,to,t)) множество траекторий системы (5.3.1) ((5.3.2)), исходящих из точки хо(уо) и определенных на промежутке [to,t]. 5.3.2. Фиксируем некоторое натуральное п > 1. Положим 8 — Т/2п и введем в рассмотрение вспомогательные по отношению к игре Т(хо,уо,Т) игры Tf(xo,yo,T), * — 1,2,3. Игра Г{(хо,Уо,Т) протекает следующим образом. На 1-м шаге игрок Е, находясь в позиции уо» выбирает у\ из множества СЕ(уо), а игрок Р, находясь в позиции у\ и зная выбор у\ игрока Е на этом шаге, выбирает точку х\ G Ср(хо). На fc-м шаге, к = 2,3,...,2П, игрок Е, зная позицию Xk-i G Ср(хк-2) игрока Р и свою позицию Ук-i G CsE(yk-2), выбирает точку ук е CsE(yk-i). Игрок Р, зная Хк-иУк-1,Ук, выбирает Хк ^ Cp(xk-i). На 2п-м шаге игра заканчивается, и игрок Е получает выигрыш, равный р(х(Т),у(Т)), где х(Т) = х2", у(Т) =у*\ ' Отметим, что выбор игроками на fc-м шаге точек Хк,Ук из множеств достижимости Cp(xk-i), CE(yk-i) можно трактовать как выбор ими соответствующих траекторий из множеств P{(xk-i,k — 1)8, к8), Е((ук-\,к — 1)8,kS), оканчивающихся в точках Хк,Ук в
298 5. Антагонистические дифференциальные игры момент t = kS (или выбор управлений и(-), г;(-) на [(к — 1)5, кб] которым эти траектории соответствуют согласно (5.3.1), (5.3.2)). Игра Гг>{хо,уо,Т) отличается от игры Т{(хо,уо,Т) тем, что на fc-м шаге игрок Р выбирает ж& G Cp(xk-i), зная Xk-i,yk-i, a игрок Е, зная, кроме того, ж/~, выбирает Ук G CsE(yk-i). Игра Гз(#о,2/о» 21) отличается от игры Г^жсьУсь^) тем, что на 2п-м шаге игрок Р выбирает х2п Е Cp^^-i), после чего игра заканчивается и игрок Е1 получает выигрыш р(х(Т),у{Т - 5)), где х(Т) = х2п, у(Т -5)= у2п^. 5.3.3. Лемма. В играх Tf(xQyyo,T), г = 1,2,3, существуют ситуации равновесия при всех хо,уо,Т < со и значение игры ValTf(xo,yo)T) есть непрерывная функция по хо,уо G Rn. При всяком п > 0 выполняется неравенство ValT{(xQ,yQ,T) < ValY52{x0,y^T), T = 2п5. (5.3.3) Доказательство. Игры Tf (xq , у о, Т), г = 1,2,3 принадлежат классу многошаговых игр, определенных в п. 5.2.1. Существование ситуации равновесия в играх Tf(xo,yo,T) и непрерывность функций V alT f(xo, yo,T) по жо, Уо непосредственно следует из теоремы п. 5.2.2 и ее следствия. Для значений игр Г%(хо'ууо>Т), ъ = 1,2, ValT{{xQ,yQ,T) = max min Уа/Г?(ж, у, Г - J), yecKyoJacec^Cojo) УаЯ^(ж0, Уо,Т)= min max УаИ^(ж, у,Т-8), xecsp(xQ) yecsE(y0) при начальном условии Va/rf (ж, у,0) = Уа/Г2(ж,у,0) = р(х,у). Применяя последовательно лемму п. 1.2.2, убеждаемся в справедливости неравенства (5.3.3). 5.3.4. Лемма. При любом целом п > 0 справедливы неравенства: Vairsf(x0,yo,T) < Уа1т1п+1(хо,уо,Т), Уа/Г^(ж0,2/о,Г) > VaW62"+1(x0lyo,T)\ где 8к = Т/2к Доказательство. Покажем справедливость первого из неравенств. Второе неравенство доказывается аналогично. Во избежание громоздкости обозначений будем далее полагать Ck{yi) = С5Ек(уг), Ск(хг) = CsPk(xi), г = 0,1,..., 2п - 1. Имеем Уа1Г1п+1(х0,уо,Т) = = max min max min Уа/Г/1+1(ж2,У2>Т — 2($n+i) > yiec^+Hyo) x1ecn+1(x0) у2еС"-+1(У1) x2eC"+1(x1) > max max min min Уа1ГЛп+1(хо, y<i,T — 2Sn+i) = У1еС"+чУо) у2ес*+цУ1) х^сп+Цхо) x2eC"+i(Xl) = max min ValT1n+1(xiiyi,T — 5n). yiecn(yo)x1ecn(xo) Продолжая этот процесс, получим ValT1n+1(xo,yo,T) > max min ... max min р(х2п,У2п) = yiecn(y0)x1ecn(x0) y2necn(y2n-i) x2necn(x2n-i) = Vairsf(xo,y0,T).
§5.3. Существование ситуаций е-равновесия 299 5.3.5. Теорема. При всех жо,2/о ^ йп, Т < оо справедливо равенство пределов: lim Va/rJn(a;o,2/o,r)= Um УагГ^(ж0,уо,Т), п—>оо - п—>оо где8п = Т/2п. Доказательство. Фиксируем некоторое п > 0. Пусть г/,(-),г>(-) — пара стратегий в игре Г2п(хо,уо1Т). Эта пара является таковой и в игре Г3П (жо, Уо > ^0 - Пусть в ситуации u(-),v(-) реализуется последовательность жо, #i,...,^2^, 2/о» 2/ъ - - -> 2/2п- Обозначим функции выигрышей в играх Т62п(хо,уо, Т), Гзп(жо,уо^) как Я2(^(-),г;(-)) = р{х2^,У2п), Ks(u(-),v(-)) =~p(x2n,y2"-i) соответственно. Тогда К2(и(')М'))<КзЫ')М')) + р(У2^иУ2п). Тогда в силу произвольности u(-),v(-) имеем: Vairs2n(x0,yo,T)<ValTin(x0,yo,T)+ max max p(y,y'). (5.3.4) yecl~Sn (y0)yfec5En (У) Пусть у[п е С6^(уо). Тогда Се~6п(у1п) С С%(у0). Запишем неравенство (5.3.4) для игр с начальным состоянием хо,угп. Учитывая предыдущее включение, получим ValT52n(x0,yln,T) <Уа1Т1п{хъ,у{п,Т)+ max max p{y,y'). (5.3.5) Из определения игр Г1п (xq, уо^Т) и Г3П (жо, Уо» ^0 вытекает равенство Уа/Г?»(я;о,2/о,Г) = max Уа1Т^{х^у{\Т). (5.3.6) В силу непрерывности по t функции С1Е{у) и выполнения условия С^(у) = у второе слагаемое в (5.3.5) стремится к нулю при п —> оо. Обозначим его через Si(n). Из (5.3.5), (5.3.6) получаем Vair6f(x0,y0,T) > ValTfrixotyi^Ty-e^n). (5.3.7) В силу непрерывности функции Уа1Г2п(хо,уо,Т) из (5.3.7) имеем неравенство ValT[n(xQ,yQ,T) > ValT52"(x0,yQ,T) - ег(п) -е2(п), (5.3.8) где б2(п) —> 0 При п —> оо. Переходя в (5.3.8) к пределу при п —> оо (что возможно на основании лемм п. 5.3.3, 5.3.4 и теоремы о существовании предела у монотонной ограниченной последовательности), получаем lim ValT[n(xQ,y0,T) > lim VaWin(x0,yo,T). (5.3.9) n—>oo n—>oo Из леммы п. 5.3.3 вытекает противоположное неравенство. Следовательно, оба предела в (5.3.9) совпадают. 5.3.6. Утверждение теоремы п. 5.3.5 доказано в предположении, что последовательность разбиений интервала [0, Т] <?п = {to = 0 < h < ... < tN = Т}, п = 1,...,
300 5. Антагонистические дифференциальные игры удовлетворяет условию tj+\ — tj = T/2n, j = 0,1,..., 2n — 1. Утверждения теоремы п. 5.3.5 и лемм п. 5.3.3, 5.3.4 справедливы для всякой последовательности о~п измельчающихся разбиений интервала [0,Т], т. е. такой, что an+i D о~п (это означает, что разбиение crn+i получается из ап добавлением новых точек) 7(<тп) = max(ti+1 - U) -^n->+oo 0. г Рассмотрим теперь такие любые последовательности разбиений {сгп} и {<у'п} промежутка [0,Т]. Лемма. Имеет место равенство lim Уа/Г?п(жо,г/о,Т)= lim Уа/Г^(х0,уо,Т), п->оо п—юо где х0,уо G Rn. Т < оо. Доказательство проведем от противного. Допустим, что утверждение леммы неверно, и предположим для определенности, что выполняется неравенство lim VaZrjn(xo,2/o,T)> Urn Уа/Г^(х0,2/о,Т). n-»oo n->oo Тогда, по теореме 5.3.5, имеем lim Vair°n(xo,y0,T)> lim ValT^ixo^yo.T). n—>oo n—>oo Отсюда найдутся натуральные числа m\,n\ такие, что выполнено неравенство: ValT^ (х0, j/o, Г) > Уа/Г?1 (х0, j/о, Г). Обозначим через а разбиение интервала [0,Т] точками, принадлежащими как разбиению ami, так и разбиению сг^. Для него выполняется неравенство VairJ(x0,yo,T) < ValT^(x0,y0,T) < ValT^(х0,у0,Т) < Уа1Ц(х0,у0,Т). Откуда УаГГ%(хо,уо,Т) < Уа1Ц(х0,уо,Т). Это противоречит (5.3.3), следовательно, сделанное предположение неверно и утверждение леммы справедливо. 5.3.7. Теорема. При всех Хо,Уо,Т < оо в игре Т(хо)уо1Т) существует ситуация е-равповесия для любого е > 0>0. При этом ValT(x0iyo,T)= lim Уа/Г^(х0,у0,Т), (5.3.10) п—>оо где {о~п} — любая последовательность измельчающихся разбиений интервала [0, Т]. Доказательство. Зададим произвольно выбранное число е > 0 и покажем, что найдутся такие стратегии ие{-) nve(-) игроков Р и Е соответственно, что для всех стратегий и(-) е Р и v(') G Е выполняются неравенства: K(x0,yo,ue(-),v(-)) -е < K(xo,yo,Ue(-),ve(-)) < K(x0,yo,u(-),ve{-)) + е. (5.3.11)
§5.4. Дифференциальные игры преследования на быстродействие 301 В силу теоремы п. 5.3.5 найдется такое разбиение а интервала [0,Т], что ValT%(xo,yo,T)- lim Vair?(x0,yo,T) < е/2, п—>оо lim ValTl"(x0,y0,T) - Уа1Ц(х0,у0,Т) < e/2. n—>+oo Пусть ue(-) — (a,aue), ve{-) = (сг, б^е), где aue, bve — оптимальные стратегии игроков P и E, соответственно, в играх Г^(хсь 2Ль 2"1) и ^Т(хо,УО)Т). Тогда справедливы соотношения: K(x0,y0,ue(-),v(-)) < ValVZ(x0,yo,T) < lim Vair°»{x0,yo,T) + J, v(-) G E, (5.3.12) n—»oo z ^(so.W),«(-).«'(')) > VaZr?(x0,W),r) > lim yaff^'(a;o,2/o,r)-J, «(-) 6 P. (5.3.13) n—>oo Z Из соотношений (5.3.12), (5.3.13) и теоремы 5.3.5, получаем -Е- < К(х0,у0,иЦ-),уЦ-)) - lim Vair°"(x0,yo,T) < E-. (5.3.14) Z n—>oo Z Из (5.3.12)—(5.3.14) следует (5.3.11). В силу произвольности е из (5.3.14) следует (5.3.10). Теорема доказана. 5.3.8. Замечание. При доказательстве теоремы существования нигде не был использован специфический вид выигрыша р(х(Т),у(Т)). Существенной является лишь непрерывная зависимость выигрыша от реализованных траекторий. Поэтому теорема п. 5.3.7 остается справедливой, если вместо р(х(Т),у(Т)) рассмотреть любой непрерывный функционал траекторий (x(t),y(t)). В частности, таким функционалом может быть mino<t<Tp(^(t),2/(t)) т. е. минимальное расстояние между игроками в процессе игры. Поэтому результат данного параграфа остается в силе и для дифференциальной игры преследования на достижение минимального результата с предписанной продолжительностью . § 5.4. Дифференциальные игры преследования на быстродействие 5.4.1. Дифференциальные игры преследования на быстродействие представляют собой частный случай дифференциальных игр с интегральным выигрышем, определенных в п. 5.1.8. Классы стратегий игроков Р и Е те же, что и в игре с предписанной продолжительностью. Предположим, что в Rn x Rn задано множество F = {(х,у) : р(%,у) < U / > 0}, и пусть x(t),y(t) — траектории игроков Р и Е в ситуации (u(-),v(-)) из начальных состояний Хо,уо. Обозначим *п(*о, Уо\ О, О) = min{t : (x(t), y(t)) G F}. (5.4.1) Если не существует такого t, что (x(t),y(t)) G F, то tn(xo,yo',u(-),v(-)) полагается равным -f oo. В дифференциальной игре преследования на быстродействие выигрыш игрока Е полагают равным К(х0, у0; и(-),у(-)) = tn(x0, Уо; u(-), <)). (5.4.2^
302 5. Антагонистические дифференциальные игры Игра зависит от начальных состояний Жо,2/(Ь поэтому будем обозначать ее через Г(ж0,2/о). Из определения функции выигрыша (5.4.2) следует, что в игре Г(хо, г/о) целью игрока Е является максимизация времени сближения с игроком Р на заданное расстояние I > 0. Игрок Р, наоборот, стремится минимизировать это время. 5.4.2. Между игрой преследования на быстродействие Г(жо,2/о»^п) и игрой преследования с предписанной продолжительностью на достижение минимального результата существует прямая связь. Пусть Т(хо,уо,Т) — игра преследования с предписанной продолжительностью Т на достижение минимального результата (выигрыш игрока Е равен mmQ<t <т p{x(t), у (t))). Было показано, что для игр этого типа при любом е > 0 в классе кусочно-программных стратегий существует ситуация 6-равновесия (см. п. 5.3.8). Пусть V(xo,гур,Т) — значение такой игры Г(хо,Уо,Т), a V(#o>Уо) — значение игры Г(хо,уо)> если оно существует. Лемма. При фиксированных хо, у'о функция V(xo,yo,T) непрерывна и не возрастает по Т на [0, со]. Доказательство. Пусть Т\ > Т^ > 0. Обозначим через v^1 стратегию игрока Е в игре Г(хо,уо,Т), которая гарантирует игроку Е1, что расстояние между ним и игроком Р на отрезке [0,Xi] будет не меньше max[0,V(#o?2/o>2i) — е]. Следовательно, она тем более гарантирует расстояние max[0, V(xq, yo,Ti)—e] между ними на отрезке [0, Тг], где Тъ <Т\. Следовательно, V(x0)y0,T2) >тах[0,У(х0,2/о,7\)-е] (5.4.3) (е-оптимальная в игре T(xo,yo,Ti) стратегия не обязательно 6-оптимальна в игре Г(хо, уо» ^Пг))- Поскольку е может быть выбрано произвольным, из (5.4.3) следует второе утверждение леммы. Непрерывность V(xo,yo,T) no T доказывать не будем. Отметим лишь, что это свойство можно получить, используя непрерывность У(жо, 2/о> Т) по хо, уо- 5.4.3. Рассмотрим уравнение У(ж0,2/о,Г) = г (5.4.4) относительно Т. Возможны следующие три случая: 1) уравнение (5.4.4) не имеет корней; 2) имеет единственный корень; 3) имеет более одного корня. В случае 3) из невозрастания и непрерывности функции У(хо,Уо,Т) по Т следует, что уравнение (5.4.4) имеет целый сегмент корней, т. е. функция V(xo,yo,T), как функция- от Т имеет промежуток постоянства. Рассмотрим каждый случай отдельно. Случай 1. В этом случае возможно: а) V(x0, Уо,Т) < I для всех Т > 0; б) Ыт>оУ(х0,уо,Т) > I; в) MT>0V(x0,y,T) =1. В случае а) имеем: V(xo,yo>0) = р(х0,Уо) < U т. е. tn(xo,yo;u(-),v(-)) = 0 для всех u(-),v(-). Тогда значение игры Г(хо,Уо) равно. V(xOiyo)=0.
§5.4. Дифференциальные игры преследования на быстродействие 303 В случае б) выполняется равенство: inf>V(x0,yo,T)= lim V(xo,y0,T) > l. T>0 T—»oo Отсюда для любого Т > 0 (сколь угодно большого) у игрока Е найдется соответствующая стратегия vT(-) G Е, которая гарантирует ему избежание /-встречи на отрезке [0,Т]. Но тогда игрок Р не имеет стратегии, которая бы гарантировала ему /-встречу с игроком Е за конечное время. В то же время нельзя утверждать, что игрок Е обладает стратегией, гарантирующей избежание /-встречи за любое время. Вопрос о нахождении начальных состояний, в которых такая стратегия существует, сводится к решению игры качества для игрока Е. Таким образом, при / < ит^-юо У(хо,УО)Т) можно лишь, утверждать, что значение игры Г(хо,уо), если оно существует, больше любого наперед заданного Т, т. е. равно +оо. в) рассмотрим совместно со случаем 3). Случай 2. Пусть То — единственный корень уравнения (5.4.4). Тогда из невозрастания и непрерывности по Т функции У(хо,уо,Т) следует, что V(x0,y0,T) > V(x0,yo,T0) при всех Т < Т0, V(x0,y0,T) < V(x0,yo,T0) при всех Т > Т0, (5.4.5) lim У(х0,г/о,Т) - V(x0,yo,T0). (5.4.6) Фиксируем произвольное Т > Tq. Рассмотрим игру преследования Г(хо, Уо,Т). Она обладает ситуацией е-равновесия в классе кусочно-программных стратегий для любого е > 0. Это означает, в частности, что для любого е > 0 существует стратегия ue(') G Р игрока Р, которая гарантирует ему сближение с игроком Е на расстояние V(x0,y0,T)+e, т. е. K(ue(.),v(')) < У(хъ,уо,Т) + б, <) G Е, (5.4.7) где K(u(-),v(-)) — функция выигрыша в игре Г(хо,уо,Т). Тогда из (5.4.5), (5.4.6) следует существование е > 0 такого, что для любого е < ё найдется число Т(б), Т0 < Т{е) < Т, для которого е = V(x0, уо,То) - V(x0, уо, Т(е)). . (5.4.8) Из (5.4.7), (5.4.8) следует, что для любого е < е K(ue(-)M')) < V(x0,y0,T)+e< V(x0,yo,f(e)) + е = У(х0,у0,Т0) - /, <) G Е, т. е. стратегия ие(-) обеспечивает /-встречу за время Т. Отсюда, в силу произвольности Т > То, следует, что для любого Т > То найдется отвечающая ему стратегия uT(-) G Р, которая гарантирует /-встречу за время Т. Иными словами, для любого 5 > 0 существует us(-) G Р такая, что tn(xo,yo\u5(-),v{-)) < Т0 + 5 для всех^(-) G Е. (5.4.9) Аналогично доказывается существование v$(-) G Е такого, что tn(xo,yo;u(-),vs(-)) >T0-5 для всех u(-) G Р. (5.4.10)
304 5. Антагонистические дифференциальные игры Из (5.4.9), (5.4.10) следует, что в игре преследования на быстродействие Г(жо, Уо) для любого е > 0 существует ситуация е-равновесия в кусочно-программных стратегиях и значение игры равно То, где То — единственный корень уравнения (5.4.4). Случай 3. Обозначим через То минимальный корень уравнения (5.4.4). Теперь, вообще говоря, мы не можем утверждать, что значение игры ValT(xo,yo) — Tq. Действительно, из V(xo,yo,To) = / следует лишь, что в игре Г(хо,Уо,?о) Для любого е > 0 у игрока Р существует стратегия ие(-), гарантирующая ему за время То встречу с игроком Е на расстоянии не более чем I + е, а из существования более одного корня уравнения (5.4.4) и монотонности V(xo,yo,T) no T получаем существование промежутка постоянства функции V(xo,yo,T) по Т G [To,Ti]. Поэтому увеличение продолжительности игры Т(хо,уо,То) на <5, где 5 <Т\ — То, не приводит к уменьшению гарантированного сближения с игроком Е, т. е. для всех Т G [To,Ti] игрок Р может лишь обеспечить сближение с игроком Е на расстояние I + е (для любого е > 0), и нет основания считать, что при каком-то Т Е [To,Ti] величина е окажется равной нулю. Если бы в игре Г(жо,2/о?^о) существовала ситуация равновесия (а не ситуация е-равновесия), то значение игры Г(хо,уо) было бы равно То и в случае 3. j 5.4.4. Модифицируем понятие ситуации равновесия в игре Г(жо,2/о)- Далее в этом параграфе удобнее использовать запись Г(а?о,2/о>0 вместо Г(х*о,уо), подчеркивая, что игра Г(жо,2/о»0 заканчивается при сближении игроков на расстояние I. Пусть tln(xo,yo]u(-),v(-)) — время до момента сближения на расстояние I в ситуации (u('),v(-)) и заданы е > 0, 8 > 0. Определение. Будем говоришь, что пара стратегий wf(-),uf(-) образует ситуацию е, 5-равновесия в игре Г(#о, yo,l), если tl+s(x0,y0;u(-),v5e(-)) + e >tl+5(x0,yo;u5e(-),4(-)) >tl+5(x0,y0;u5e(-),v(-)) - г для всех стратегий и(-) G Р, v(-) Е Е. Определение. Пусть существует такая последовательность {5k}, 8 k > 0, 8k —> 0, что во всех играх Г(хо,уо,1 4- <5^) для любого е > 0 существуют ситуации е-равновесия. Тогда предел lim У(ж0, Уо, * + 4) = ^'(жо, 2/о, 0 к—>оо называется значением игры Г(хо,Уо,0 e обобщенном смысле. Заметим, что величина У(хо,2/о,0 не зависит от выбора последовательности {5k} вследствие монотонного убывания функции V(#o,2/o»0 по I- Определение. Будем говорить, что игра Г(#о,2/о»0 ^«меега значение в обобщенном смысле, если существует такая последовательность {8k}, 8k -» 0, что для любого е > 0 и 8k G {4} в г/гре Г(хо,2/о,0 существует е, 8k-равновесие. Можно показать, что если игра Т(хо,уо,1) имеет значение в обычном смысле, то ее значение У(хо,Уо,0 (В обобщенном смысле) существует и равно lim /+5*(х0,уо;Ъ5А-)М(-)) = V'(x0,y0,l). Из определения значения и решения игры Г(хо,2/о,0 (в обобщенном смысле) вытекает, что если в игре Т(хо,Уо,1) для любого е > 0 существует е-ситуация равновесия в обычном смысле (т. е. решение в обычном смысле), то V(#o»2/o»0 = V'(xo,yo,l) (достаточно взять последовательность 8k = 0 для всех к).
§5.4. Дифференциальные игры преследования на быстродействие 305 Теорема. Пусть уравнение (5.4-4) имеет более одного корня и То — наименьший корень, То < оо. Тогда существует значение V'(xo,yoJ) (в обобщенном смысле) игры преследования на быстродействие Г(хо,уо,1) и У(хо,Уо,1) — То- Доказательство. Из монотонности и непрерывности функции V(xo,yo,T) no T следует существование такой последовательности Т& —> То слева, что V(xo,yo,Tk) -> V(xo.yo,To) = I и функция V(xo,yo,Tk) строго монотонна в точках Т&. Пусть h = V(x0,yo,Tk) -/ >0. Из строгой монотонности функции V(xq,У0)Т) в точках Т& вытекает, что уравнение У(хо,уо,Т) = / + 5k имеет единственный корень Т/~. Это означает, что для любого 5k ^ {5k} в играх Г(хо,уо,1 + 5k) существует ситуация е-равновесия для любого е > О (см. случай 2 в п. 5.4.3). Значит, в игре Г(хо,уо,1) существует решение в обобщенном смысле: lim V(x0,уо,/ + 4) = Um Tfc = Г0 = У(ж0,уо, О- /с—>оо к-±оо Теорема доказана. Рассмотрим теперь случай с) п. 5.4.3. Имеем: т{тУ(хо,уо,Т) = /. Пусть Tk -» оо. Тогда linifc^oo У(хо,уо,Тк) = /- Из монотонности и непрерывности У(х0?Уо>^) по Т следует, что последовательность {Tk} можно выбрать так, что в точках Tk функция V(xo-> Уо> Т) строго монотонна. Тогда как и при доказательстве теоремы п. 5.4.4 можно показать, что существует такая последовательность {5k}, что lim V(x0, уо, I + 4) = Иш Tfc = Г0 = оо. /с—»оо /с—>оо Таким образом, и в данном случае обобщенное решение существует, а обобщенное значение игры Г(жо,Уо?0 Равно бесконечности. 5.4.5. Часто оказывается важным определить, может ли игрок Р гарантировать /-встречу из данных начальных позиций ж, у за фиксированное время Т, а если это невозможно, то может ли игрок Е гарантировать избежание /-встречи в течение заданного времени. Пусть У(ж,у,Т) — значение игры с предписанной продолжительностью Т из начальных состояний #, у Е Rn с выигрышем mino<t<T^(^(t),y(t)). Тогда возможны следующие альтернативы: 1) V(x,y,T) > /; 2) V(x,y,T) < /. Случай 1. Из определения функции V(#,y,T) следует, что для любого е > О найдется такая стратегия игрока Е, что для всех стратегий и(-) справедливо неравенство K(x,y;u(-)X(-))>V(x,y,T)-e. Выбрав е достаточно малым, можно добиться выполнения неравенства K(x,y;u('),Ve(-)) > V(x,y,T)-e> I для всех стратегий u(-) Е Р игрока Р. Из вида функции выигрыша К следует, что, используя стратегию г;*(-), игрок Е может гарантировать выполнение неравенства min.o<t<T0'p(x(t)iV(t)) > I независимо от действий игрока Р, т. е. в рассматриваемом случае игрок Е гарантирует избежание /-встречи на отрезке времени [О, Т] независимо от действий игрока Р. Случай 2. Пусть То — минимальный корень уравнения V(х, у, Т) = I при фиксированных х, у (если р(х, у) < /, то То полагаем равным 0). Тогда из определения V(x, у, То)
306 5. Антагонистические дифференциальные игры следует, что в игре Г(ж, у,ТЬ) для любого е > 0 у игрока Р существует стратегия п*, гарантирующая выполнение неравенства К(х,у;<(-),О) < V(x,y;T0)+e = l + e для всех стратегий v(-) Е Е игрока Е. Из вида функции выигрыша К следует, что, используя стратегию и*(-), игрок Р может гарантировать выполнение неравенства mino<t<T/0(a;(t),2/(t)) <l + e независимо от действий игрока Е. Продолжая произвольным образом стратегию и*(-) на отрезок ро,Т], получаем, что в случае 2 игрок Р при любом е > 0 может гарантировать (I + е)-встречу с игроком Е за время Т независимо от действий последнего. Фактически доказана следующая теорема (об альтернативе). Теорема. Для любых х,у Е Rn, T > 0 справедливо, по крайней мере, одно из следующих утверждений: 1) из начальных состояний х, у игрок Е может в течение времени Т гарантировать избежание I-встречи независимо от действий игрока Р; 2) для любого е > 0 игрок Р может гарантировать (1 + е)-встречу с игроком Е из начальных состояний х,у за время Т независимо от действий игрока Е. 5.4.6. Для каждого фиксированного Т > 0 все пространство Rn x Rn делится на три непересекающиеся области: область А — {х,у : У(ж,у,Т) < /}, которую будем называть зоной захвата; область В = {ж, у : V(x,y,T) > /}, которую естественно назвать зоной избежания захвата, и область С = {ж, у : V(x, у, Т) = /} — зона нейтрального исхода. - Пусть х,у Е Л. По определению А, при любом е > 0 игрок Р обладает такой стратегией и*(«), что K(x,y;u*(-),v(-)) <V(x,y,T) +е при всех стратегиях v(-) игрока Е. Выбрав подходящим образом е > 0, можно обеспечить выполнение неравенства: K(x,y;u*e('),v(')) < V(x,y,T)+s< I. Последнее означает, что стратегия и* игрока Р гарантирует ему /-встречу с игроком Е из начальных состояний х, у за время Т. В результате получаем следующее уточнение теоремы п. 5.4.5. Теорема. Для любого фиксированного Т > 0 все пространство делится на три неперескающиеся области А, В, С, обладающие следующими свойствами: 1) при любых х,у Е А игрок Р обладает стратегией и*(-), которая гарантирует l-встречу с игроком Е на отрезке [0,Т] независимо от действий последнего; 2) для х,у Е В игрок Е обладает стратегией v*(-), которая гарантирует избежание l-встречи с игроком Р на отрезке [0,Т] независимо от действий последнего; 3) если х,у Е С и е > 0, то игрок Р обладает стратегией и*(-), гарантирующей (I -f е)-встречу с игроком Е за время Т независимо от действий последнего.
§5.5. Существование оптимальной программной стратегии убегающего 307 §5.5. Необходимые и достаточные условия существования оптимальной программной стратегии убегающего 5.5.1. Важным подклассом игр преследования являются игры, в которых оптимальная стратегия убегающего игрока является только функцией времени (так называемый регулярный случай). Ограничимся рассмотрением игры преследования с предписанной продолжительностью, хотя все результаты могут быть перенесены и на игры преследования по быстродействию. Пусть Ср(х)(С^(у)) — множество достижимости игрока Р(Е) из начального состояния х(у) к моменту времени Т, т. е. множество тех позиций, в которые может попасть игрок Р(Е) из начального состояния х(у) в момент Т, используя всевозможные измеримые программные управления u(t),(v(t)), t G [0,Т] при условии, что движение происходит в соответствии с системой х = f(x,u) (у = g(y,v)). Введем в рассмотрение величину Рт(х0,у0) = max min p(x,y), (5.5.1) y^C^(yo)xGC^(xQ) называемую иногда (см. [Красовский, 1970; Красовский, Субботин, 1974; Красовский, 1985]) гипотетическим рассогласованием множеств С^(уо) и С'р(хо) (см. пример б в п. 2.2.6). Функция рт(%о,Уо) обладает следующими свойствами: 1°. рт(хо,Уо) > 0, рт(хо,уо)\т=о = р(хо,у0); 2°. рт(хо,Уо) = 0, если С%(х0) D С#(у0); 3°. Если V(xo,yo,T) — значение игры Т(хо,уо,Т) с предписанной продолжительностью и терминальным выигрышем р(х(Т),у(Т)), то V(x0,yo,T) >рт(хо,Уо)- Действительно, свойство 1° следует из неотрицательности функции р(х,у). Пусть Ср(хо) D Се(Уо)- Тогда для любого у' Е С%(уо) существует такое х' Е Ср(#о), что р(х',у') = 0, (х' = у'), откуда следует 2°. Свойство 3° следует из того, что игрок Е, выбирая направление движения на точку М Е С^(уо), для которой Рт(х0,Уо)= min p(x,M), xGCp(xo) всегда гарантирует получение выигрыша рт(хо, Уо)- Точка М называется центром преследования. 5.5.2. Пусть Г$(хо,Уо,Т) — дискретная игра преследования с шагом S (S = tk+i — tk), предписанной продолжительностью Т, дискриминацией игрока Е и начальными состояниями хо,уо- Тогда справедлива следующая теорема. Теорема. Для того, чтобы для любых Хо, уо Е Rn иТ = 5 - к, к = 1,2,..., выполнялось равенство: Рт(х0, уо) = Vair5(x0, y0, T), (5.5.2) необходимо и достаточно, чтобы для всех хо,уо Е Рп, S > 0 и Т = 5 - к, к = 1,2,..., выполнялось соотношение Рт(хо,Уо)= max min pT_5(x,y) (5.5.3) ytc6E(yo) xec5p(x0) (ValTs(xoiyo,T) — значение игры Г$(хо,уо,Т)).
308 5. Антагонистические дифференциальные игры Доказательство теоремы опирается на следующий результат. Лемма. Следующее неравенство справедливо для любых хо,уо ^ R?, Т > 5: рт(х0,уо) < max min pT-s(x,y). yZC6E(y0)x<EC5p(x0) Доказательство. По определению функции рт имеем max min pT-s(x,y) — max mm max mm p{x^y). уСС5Е(уо)хеС5р(х0) yeC5E(yo) xeCp(xo)y<EC*-5(у)хеСТ~5(x) Для всех х G Ср(хо) справедливо включение Cj>~6(x) С Ср(хо). Следовательно, для любых х G &г(хо), У ^ СЕ~ (у). min р(х, у) > min р{х, у). xecl~8{x) хесЦхо) Тогда для всех х G Ср(хо), у G С5Е{у) max min р(х,у) > max min p(x,y) уес^-5(у)хес^-5(х) уест-5(у)хест(х0) и min max min р{х,у) > max min p(x,y). xecp (xo) уес1~6{у) xecl~8{x) yzcl~8{y) xec^(x0) Беря от обоих частей этого неравенства maxyeCs ^уо^ получаем max min рт-5(х,у) > max max min p(x,y) yecE(y0) xecP(x0) yecE(yo)yec^-5 (y)xec^(xo) = m^x ч mm р(х,у) = рт(х0,уо). Лемма доказана. Перейдем к доказательству теоремы. Необходимость. Пусть выполняется условие (5.5.2) и не выполняется условие (5.5.3). Тогда согласно лемме существуют такие S > 0, хсьУо ^ ^п> ^о — $ко, &о > 1, что рт0(хо,Уо) < max min рт0_5(х,у). (5.5.4) уесЕ(у0) хесР(х0) Пусть и°(-) — оптимальная стратегия игрока Р в игре Т$(хо,уо,То) и на 1~м шаге игры игрок Е выбирает точку у* G СЕ(уо), для которой min рТо-б(х,у*) = max min pTo-s(x,y). (5.5.5) жеС^жо) 2/еС|(2/0) жЕС^Оо) Пусть х°(5) — состояние, в которое переходит Р на 1-м шаге при использовании стратегии г/°(-), аи°(-) — оптимальная стратегия игрока Е в игре Г$(жо(#),2/*,То — $)- Рассмотрим следующую стратегию v(-) игрока Е в игре Т$(хо,Уо,То): в момент t = 0 он выбирает точку у*, а начиная с момента t — S использует стратегию v°(-). Обозначим через й°(-) сужение стратегии и°(-) на отрезке [5,То]. Из (5.5.2), (5.5.4), (5.5.5) (согласно формуле (5.5.2) рт(хо,уо) — значение игры Т$(хо,уо,Т)) находим fro(xo,yo)>K(u°(.)M');x0,yoW = pTo-5(x°(S),y*) > min pTo-s(x,y*) = max min pTo-5(x,y) > рТо{х0,уо)- xGCP(x0) уеСЕ(уо) хеСР(х0)
§5.5. Условия существования оптимальной программной стратегии убегающего 309 Полученное противоречие доказывает необходимость условия (5.5.3). Достаточность. Заметим, что условие (5.5.3) совместно с условием рт(хо,уо)\т=о = р(^съУо)? показывает, что функция рт(хо,Уо) удовлетворяет функциональному уравнению для функции значения игры Г$(xq,уо,Т). Как следует из доказательства теоремы п. 5.2.2, это условие является достаточным для того, чтобы рт(хо^уо) было значением игры Г5(х0,уо,Т). 5.5.3. Справедлива следующая лемма. Лемма. Для того чтобы в игре Г(хо,уоД) существовала оптимальная программная стратегия игрока Е (т. е. стратегия, являющаяся функцией только времени), необходимо и достаточно, чтобы ValT(x0,2/о, Т) = рт(х0, у0). (5.5.6) Доказательство. Достаточность. Пусть v*(i), t G [0,T] — допустимое управление игрока Е, переводящее точку у о в точку М такую, что Рт(хо,уо) = тДп Р(х,М). хеСЦхо) Обозначим v*(-) = {a,v*(t)}, где разбиение а отрезка [0,Т] состоит из двух точек to = 0,ti — Т. Очевидно, что v*(-) G Е. Согласно теореме п.1.3.4, v*(-) G E — оптимальная стратегия игрока Е в игре Г(хо,Уо5^)> если ValT(x0,y0,T)= inf K(u(.),v*(-);x0,yo,T). u(-)GP Но это равенство следует из (5.5.6), поскольку inf К(и(-),у*(-);х0,уо,Т) = рт(х0,у0). Необходимость. Пусть в игре F(xq,уо,Т) существует оптимальная программная стратегия игрока Е, тогда ValT{x0,yo,T) = sup inf K{u{-),v{-)\x^yQ,T) v(.)eEu(-)eP = max inf p(x(T),y) = pT(x0,yo). i/ecf(i/0)w(-)eP Лемма доказана. Теорема. Для того чтобы при любых Хо, у о G Rn, Т > 0 в игре Г(х*о, уо? Т) игрок Е имел оптимальную программную стратегию, необходимо и достаточно, чтобы для любых 5 > 0, хо,Уо G Rn, Т > 5, выполнялось равенство рт(яо,Уо)= max min pT-S(x,y). (5.5.7) yzc5E(y0) хес5р(х0) Доказательство. Достаточность. Согласно теореме п. 5.5.2, из условия (5.5.7) следует соотношение (5.5.2), из которого предельным переходом (см. теорему п. 5.3.7) получим Рт(хо,уо) = Vair(x0,yo,T). Отсюда согласно лемме п. 5.5.3 следует существование оптимальной программной стратегии игрока Е. Необходимость условия (5.5.7) следует из теоремы п. 5.5.1, поскольку существование оптимальной программной стратегии игрока Е в игре Г(хо, уо, Т) влечет существо7 вание таковой во всех играх Г^жо, Уо,Т),Т = 5k, к > 1, и справедливость соотношения (5.5.3).
310 5. Антагонистические дифференциальные игры § 5.6. Основное уравнение В данном параграфе будет показано, что при определенных условиях функция значения дифференциальной игры удовлетворяет уравнению в частных производных, которое называется основным. Впервые в монографической литературе оно было рассмотрено Р. Айзексом [Айзеке, 1967] и его часто называют уравнением Айзекса—Беллмана. 5.6.1. Используя теорему п. 5.5.3, выведем уравнение в частных производных для функции значения дифференциальной игры. Будем предполагать, что для игры Г(х,у, Т) выполнены условия теоремы п. 5.5.3. Тогда функция рт(х,у) представляет собой значение игры Г(х,у,Т) продолжительностью Т из начальных состояний х,у. Пусть в некоторой области О, пространства Rn x Rn x [0, оо) функция рт(хуу) имеет непрерывные частные производные по всем переменным. Покажем, что в этом случае функция рт{%,у) в области П удовлетворяет экстремальному дифференциальному уравнению —— — maxУ^ -^—Qi(y,v) — min У^ -—fi(x,u) — 0, (5.6.1) ОТ vev ^ dyi } ueu^dxi к ' ; v } г=1 г=1 где функции fi(x,u),gi(y,v), г — 1,..., п определяют закон движения игроков в игре Г (см. (5.3.1), (5.3.2)). Предположим, что (5.6.1) не выполняется в некоторой точке (х,у, Т) G ft. Пусть, для определенности, dp v-^ dp . v-^ dp , . ч i=l t'1 i=l % и пусть v & V таково, что в рассматриваемой точке (х, у, Т) G ft выполнено соотношение i=l уг г=1 уг Тогда при любом u G U в точке (х, у, Т) G О выполнено неравенство: §-|:fw>-|:i/*.»><°- <«*» Из непрерывной дифференцируемости функции р по всем переменным следует^ что неравенство (5.6.2) выполняется и в некоторой окрестности S точки (х,у,Т). Выберем число S > 0 настолько малым, чтобы точка (ж(г),у(г),Г — т) е S при всех г G [0,(5]. Здесь (*))*, х(т) = х + f(x(t),u Jo У(г)=у+ [ g(y(t)Mt))dt Jo — траектории систем (5.3.1), (5.3.2), отвечающие некоторому допустимому управлению u(t) и v(t) = v соответственно и начальным условиям х(0) = х, у(0) =f t/.
§5.6. Основное уравнение 311 Определим функцию G(T) = от\Ыт),у(т),Т-т) -Yl^hxiT^yiT^T-TWiyWiV)-- п «Л -J2^kx(T)MT),T-T)fi(x{T),u{r)), re [0,5]. г=1 °Xi Функция G(t) непрерывна по т, поэтому найдется число с < О, такое, что G(r) < с при г G [0,(5]. Отсюда имеем / G{r)dr<cS. (5.6.3) Jo Нетрудно убедиться в том, что Ь{Т) = —^\(х(т),у(т),Т-т)- Из (5.6.3) получаем рт{х,у) - рТ-б{х{6),у(6)) < сб. Отсюда, учитывая с < 0, в силу произвольности u(i) следует рт(х,у) < max min pT-s(x\yf), у'ес*Е(у)х'ес*р(х) что противоречит (5.5.7). Таким образом, мы показали, что в том случае, когда у игрока Е в игре Г(х, у,Т) при любых ху у Е jRn, T > 0, существует оптимальная программная стратегия, значение игры У(ж,2/,Т) (оно совпадает с рт(х,у) по лемме п. 5.5.3) в области пространства Rn х Rn x [0, оо), где существуют непрерывные частные производные у этой функции, удовлетворяет уравнению г=1 уг г=1 при начальном условии У(х,у,Т)|^=о — р(х,у)- Предположим, что каким-то образом удается определить й,г7, доставляющие max и min в (5.6.4) как функции от х,у и §^, ^, т. е. Подставляя выражения (5.6.5) в (5.6.4), получаем ^dv ( , дУЛ ^dvf _/ дул dv . . § %9t [y> "(y' ^} J + g ^ V'U("' ^) = df (5-6-6) при условии V{x,y,T)\T=o = p(x,y). (5.6.7) Таким образом, для определения V(x,y,T) имеем задачу Коши для уравнения в частных производных первого порядка (5.6.6) при начальном условии (5.6.7).
312 5. Антагонистические дифференциальные игры Замечание. При выводе функциональных уравнений (5.6.4), (5.6.6) и доказательстве теоремы п. 5.5.3 мы не использовали конкретный вид функции выигрыша, поэтому теорема остается справедливой для любого непрерывного терминального выигрыша Н(х(Т),у(Т)). Однако в этом случае вместо величины рт{х, у) необходимо рассмотреть величину Нт(х,у) = max mm H(x\yf). y>ecl{y)x>ecT{x) Уравнение (5.6.4) также справедливо для значения дифференциальной игры с предписанной продолжительностью и любым терминальным выигрышем, т. е. если в дифференциальной игре с предписанной продолжительностью Г(ж, у,Т) и терминальным выигрышем Н(х(Т),у(Т)) у игрока Е существует оптимальная программная стратегия, то значение игры V(x,y,T) в области пространства Rn x Rn x [0, оо), где существуют непрерывные частные производные, удовлетворяет уравнению (5.6.4) при начальном условии У(х^у1Т)\т=о = Н(х,у) или уравнению (5.6.6) с тем же начальным условием. 5.6.2. Рассмотрим теперь игры преследования, в которых функция выигрыша равна времени до момента встречи. Предположим, для определенности, что терминальное многообразие F является сферой р(х,у) = /, / > 0. Будем предполагать, что множества Ср(х) и С*Е(у) — непрерывны по t в нуле равномерно относительно х и у. Пусть имеет смысл величина 0{х,у,1) — maxmmtln(x,y;u(t),v(t)), v(t) u(t) где tln(x,y:u(t),v(t)) — время сближения на /-расстояние игроков Р и Е, движущихся из начальных точек ж, у при использовании измеримых программных управлений u(i) и v(t) соответственно. Предположим также, что функция в 6(х,у,1) непрерывна по совокупности аргументов. Игру на быстродействие будем обозначать как Г(жо,2/о)- Так же, как это было сделано в § § 5.4, 5.5, можно вывести необходимые и достаточные условия существования оптимальной программной стратегии игрока Е в игре преследования на быстродействие. Справедлива следующая теорема. Теорема. Для того чтобы игрок Е при любых #о,2/о ^ Rn в игре Г(жо,уо) имел оптимальную программную стратегию, необходимо и достаточно, чтобы при любом S > 0 и любых хо,уо G Rn 9(х0,2/о,0 — <5+ max min 9{xf1yfJ). y'ec5E(y0)xfcc5p(xo) Для игры преследования по быстродействию уравнение (5.6.4) принимает вид 71 дв п В9 ^Е ъ*М + min^ —/,(х,и) = -1 (5.6.8) г=1 г=1 при начальном условии 0(s,2/,OU(*,y)=z = O. (5.6.9) Здесь предполагается существование непрерывных частных производных первого порядка функции в 9(х, г/, /) по х, у.
§5.6. Основное уравнение 313 Полагая, что каким-то образом можно определить и, и, доставляющие max и min (5.6.8) как функции от х, у, дб/дх, дв/ду, т. е. u = и(х, ff),^ = г;(у, |~), перепишем уравнение (5.6.8) в виде при условии в(х,2/,г)|р(я:1у)==/ = 0. (5.6.11) Вывод уравнения (5.6.8) аналогичен выводу уравнения (5.6.4) для игры преследования с предписанной продолжительностью. Обе задачи Коши (5.6.4), (5.6.7) и (5.6.8), (5.6.9) являются нелинейными относительно частных производных, поэтому при их решении возникают значительные трудности. 5.6.3. Перейдем теперь к выводу уравнений характеристик для уравнения (5.6.4). Предположим, что функция V(x,y\T) имеет непрерывные вторые смешанные производные на всем пространстве, функции gi(y,v), fi{x,u) и функции и — w(x, §^), v = v(y,^-) имеют непрерывные первые производные по всем переменным, а множества UyV представляют собой параллелепипеды am < иш < bmi m — l,...,fc и cq < vq < dq, q = 1,..., /, где и — (ui,..., Uk) G C/, v — (vi,..., vi) e V. Введем обозначение: i=l г=1 Функция В(х,у,Т) ~0. Поэтому беря частные производные по Xi,..., хп, получим m дВ _ д2У Л Э2У у-ч дУ dfj у> д2У у, д /у-ч дУ \ дй. дхк дТдхк 4-i. dxidxk г 4-i. dxi дхк А' дугдхк г ^ дит \4~' дх{ г) дхк г=1 г=1 г=1 т=1 хг=1^ Для каждой фиксированной точки (х,у, Т) G Rn x Rn x [0, оо) максимизирующее значение v и минимизирующее значение й в (5.6.4) лежат либо внутри, либо на границе области ограничений. Если это внутренняя точка, то Если же u(v) лежит на границе, то здесь могут представиться два случая. Исследуем их подробно для одной из компонент йт(х, ^) вектора и. Исследование остальных компонент вектора й и компонент вектора v проводится аналогично. Дня простоты предположим, что в некоторой точке (х\у,,Т/) х, дУ(х',у>,Т>) дх Случай 1. Существует шар в пространстве Rn с центром в точке х', для всех точек х которого выполняется равенство: дУ(х,у',Т'У дх
314 5. Антагонистические дифференциальные игры Функция um на этом шаре принимает постоянное значение, поэтому в точке х' имеем dun dxi = О, i = 1,... ,n. Случай 2. Такого шара не существует. Тогда найдется последовательность хг, linir-^oo xr = х' такая, что / dV(xr,y>-,T)\ Следовательно, д (п от/ \ duri хг=1 Из непрерывности производных dV/dxi, dfi/dum и функции и = и(х, —^^ ^) следует, что предыдущее равенство выполняется и в точке (xf,y\Tf). Таким образом, два последних слагаемых в (5.6.12) равны нулю, и при всех (х, у, Т) G Rn х [0, со) выполняется равенство: дБ _ д2У у, д2У dxk dTdxk r^i dxidxk ^dV dfi ^ d2V 1 0 г=1 г=1 Пусть x(i),^(t), ^ G [0,T] — решение системы . / _. dV(x,y,T-t), x = f(x,u(x, — ) V = 9[VAV> Q-y )) с начальными условиями х(0) = жо, у(0) — yo. Вдоль решения x(t),y(t) имеем &V(x(t),y(t),T-t) _ A d*V(x(t),y(t),T-t) дТдхк ^ дхфхк WWW)) Е г=1 dV{x{t\y(t),T-t)dfi{x(t),u(t)) dxi dxk ^-d2V(x(t),y(t),T-t) i=l -E dyZl' '*WW))=0, Jfe = l,...,n, (5.6ДЗ) где щ=*(щ^т'Т),Т-г) OX dV(x(t),y(t),T-t) v(t)=v[y(t) dy
§5.6. Основное уравнение 315 Однако, dt V oxk ) *-f oxkdxi 4 ' г=1 n-d2V{x{t),y{t),T-t) дхкдуг дхкдт i), * = !,...,„. (5.6.14) Заметим, что у дважды непрерывно дифференцируемой функции можно менять порядок дифференцирования. Перепишем (5.6.13) с учетом (5.6.14) в виде (t),y(t),T-t)dfi(x(t),u(t)) * = !,...,„. г=1 d2V(x(t),V(t),T-t) dt\ дхк ) ~ Z-* 4 ' г=1 dt V dxk ) r~i dxi dxk Аналогичным образом получим уравнения ~ dV(x(t),y(t),T-t) d9j(y(t)Mt)) dt\ dVi ) fr[ dyj дуг , i = l,...,n. Так как при t G [О, Г] V(W(t),y(t),T-t)=H{x(T),V(T)), TO d_ (dV(x(t),y(t),T-t)\ dt\ дт ) Введем следующие обозначения: dV(x(t),y(t),T-t) vXi(t) = dxi „„т. ИГ*').*».г-.), j = 1,...,„; ^(*) = {т^(*)}, v„(t) = OW*)}, ay(g(t),y(t),r-t) Kr(t) = ет В результате получим следующую систему обыкновенных дифференциальных уравнений для функций x(t),y(t), Vx(t), Vy(t): ±i = fi{x,u(x,Vx)), Уг = 9i{y,v(yivy))i dfi(x,u(x,Vx)) V*u=-T,V*i =1 дхк dgi(y,v{y,Vy)) дук Vt = 0, i,k — 1,... , n, %k = -Y,y9iKVZ < (5-6Л5)
316 5. Антагонистические дифференциальные игры и, кроме того, согласно (5.6.6) имеем п п Ут = Х^^^(^^(у,Уу))+^14.Л(ж,71(ж,Т4)). г=1 г=1 Для решения системы нелинейных уравнений (5.6.15) относительно функций x(t), y(t), VXk (t), Vyk (t)y Vr{t) необходимо определить начальные условия. Для функции V(x(t)yy(t),T — t) они заданы в момент времени t = Т. Поэтому введем переменную г = Т — t и запишем уравнение характеристик в регрессивной форме. Введем обозна- о о чения^ж= —±,У= —у. Уравнения характеристик принимают следующий вид: ж*= -fi{x,u), Уг= -9i(y,v), dfi(x,u) ~i 9xk ' 9i(yS dyk г=1 n ^=E^%^> (5-6-16) г=1 Vt=0. При задании начальных условий для системы (5.6.16) используется соотношение V(x,y,T)\T=o = H(x,y). Пусть x\rz=0 = s, yT=0 = sf. Тогда V I -^1 ^|г=о = -q — \х=а,у=аЧ (5.6.17) n n ^т|т=о = X]^lr=o^Д5^v(s^Уy|r=o)) + ^T4Jr=o/Д5,гI(s,I4|т=o)). г=1 г=1 Подробные исследования возможных путей решения системы (5.6.16)-(5.6.17) см. в [Айзеке, 1967]. Аналогичным образом, используя уравнение (5.6.8), можно записать уравнение характеристик для задачи преследования на быстродействие. § 5.7. Методы последовательных приближений для решения дифференциальных игр преследования 5.7.1. Пусть Г$(х, у, Т) — дискретная форма дифференциальной игры Г(ж, у, Т) продолжительностью Т > 0 с фиксированным шагом разбиения 6 и дискриминацией игрока Е на время S > 0 вперед. Обозначим через Т^(ж,у,Т) значение игры Г$(:г, злТ).1 Тогда liml^(a;,2/,r) = ^(x,2/,T) <5-»0 Терминальный выигрыш равен р(х(Т),у(Т)), где р{х,у) — расстояние в i?n.
§ 5.7. Методы последовательных приближений 317 и оптимальные стратегии в игре Т$(х,у,Т) при достаточно малых S могут быть эффективно использованы для построения ситуаций е-равновесия в игре Г(ж,у, Т). 5.7.2. Идея численного метода состоит в построении алгоритма нахождения решения игры Т$(х,у,Т). Перейдем непосредственно к изложению метода. Нулевое приближение. За нулевое приближение функции значения игры V§(x1y1T) принимаем функцию V?(x,y,T)= max mm p(^), (5.7.1) где Ср(ж),С^(у) — множества достижимости игроков Р и Е из начальных состояний х, у е Rn к моменту времени Т. Выбор функции V®(xy у, Т) в качестве начального приближения оправдан тем, что в достаточно широком классе игр (так называемый регулярный случай) она оказывается значением игры Г(х,у,Т). Следующие приближения строятся по правилу: Vs1(x,y,T)= max min Vf&^T - 6), vecsE(y) zecsp(x) V52(x,y,T)= max' min Vfa^T - 6), vecE(y) $есР(х) V5k(x,y,T)= max min К^Ч^Т - S) (5.7.2) vecsE(y) zecp(x) при Г > 5 и V5k(x,y,T) =V$(x,y,T) при Г < 6, к > 1. Как видно из формул (5.7.2), операция max min берется по множествам достижимости С5Е(у),Ср(х) за время <5, т. е. за один шаг дискретной игры Т$(х,ууТ). 5.7.3. Теорема. При фиксированных ж,у,Т, <5 числовая последовательность {V$(x,y,T)} не убывает с ростом к. Доказательство. Докажем сначала неравенство V}(x,y,T)>Vg{x,y,T). Для всех ^ G Ср(х) справедливо: Cj>~5(t;) С Ср(х). Для любых rj G C]^~5(r}), % G Ср(х) имеем _ min pfcrj)>_ min pfcrj). Следовательно, Vx (x.y.T) — max min max min p(^,r?) vecE(y)tecp(x)vecl-*(vnecT-s(0 > max max _ min p{^ rj) = max min pfa 77) = V6°(x, у, Т). vecsE(y)rjecl-5(r])^c^(x) vec%(y)^ec^(x) Предположим теперь, что для / < к справедливо неравенство VJ(x,y,T)>V'-\x,y,T), (5.7.3) и докажем его для I — к -\-1.
318 5. Антагонистические дифференциальные игры Из соотношений (5.7.2) и (5.7.3) следует, что ^+1(х,2/,Г)= max min Vsk&ri,T - 5) > ' vec5E(y) цес5р(х) > max min ^(^T - 5) = V5k(x,y,T). vec5E(y) zecp(x) Таким образом, в случае Т > <5, по индукции утверждение теоремы доказано. В случае Т < 5 утверждение теоремы очевидно: 5.7.4. Теорема. Последовательность \VHx,y,T)} сходится за конечное число шагов N, при этом справедлива оценка N < [j] +1, где квадратные скобки означают целую часть. Доказательство. Пусть N = [Т/6] + 1. Покажем, что VsN(x,y,T) = V5N+1(x,y,T). (5.7.4) Равенство (5.7.4) легко получить из построения последовательности {Т^(ж, у,Т)}. Действительно, VsN(x,y,T) = max min VsN+1(t\r,\T - 5) = ^ ес|.(у) с1 ее* (Ж) = max min max ... -max min V}ttN~\vN~\T-{N-1)5). ^ec%{y) eecP{x) v2ecE{vl) vN-1ecsE(^-^) e^ec* «"-*) Аналогично имеем = max min max ... max min V? (CW_1,??JV""1)T-(7V-1)<5). тес|ы eecsp(x) t)2ec|(r,i) ^-1^(^-2) ^-1бС5,(^-2) Однако Г — (AT — 1)5 = a < 5, поэтому откуда и следует равенство (5.7.4). Совпадение членов последовательности V* при k > N выводится из (5.7.4) индукцией. Теорема доказана. 5.7.5. Теорема. Предел последовательности {V^(x,y^T)} совпадает со значением игрыГ6{х,у,Т). Доказательство. Данная теорема является, по существу, следствием теоремы п. 5.7.4. Действительно, обозначим Vs(x,y,T) = llm Vsk(x,y,T). fc-»oo Сходимость происходит за конечное число шагов, не превосходящее N = [Т/5] + 1, поэтому в рекуррентном уравнении (5.7.2) можно перейти к пределу при к —> со. Предельная функция V$(x,y, T) удовлетворяет уравнению Vs(x,y,T) = max min Vsfori,T - 6) (5.7.5) veCsE(y) $<ECp(x) при начальном условии Vs{x,y,T)\0<T<6= max min /0(^,77), (5.7.6)
§5.7. Методы последовательных приближений 319 что и является достаточным условием для того, чтобы функция У$(х,у,Т) была значением игры Г$(х,у,Т). 5.7.6. Приведем модификацию метода последовательных приближений, изложенного выше. В качестве начального приближения возьмем функцию V®(xy у, Т) = V$(x, у, Т), где V^°(x, у, Т) определена равенством (5.7.1). Следующие приближения строим по правилу: vf+1(x,y,T)= max max min Vsk(^rj,T - iS) при Г ><5, где N = [Т/5], и Vk+1{x,y,T) = V5°(x,y,T) при Т<5. Для последовательности функций {Vk(x,y,T)} так же, как и для последовательности функций {V^(x,y,T)}y справедливы утверждения теорем п. 5.7.3—5.7.5. Доказательство этих утверждений для последовательности функций {V^(x,y, Т)} почти дословно повторяет аналогичные рассуждения для последовательности функций {V^(x,yyT)}. В области {(ж,г/,Т)|Т > 6} функциональное уравнение для функции значения игры Т${хуууТ) принимает вид V6(x,y,T) = max max min V5(^r],T - iS), (5.7.7) ie[i:N}vec^(y)^c^(x) где A/" — [Т/5], а начальное условие остается прежним, т. е. имеет вид (5.7.6). 5.7.7. Докажем эквивалентность уравнений (5.7.5) и (5.7.7). Теорема. Уравнения (5.7.5) и (5.7.7) с начальным условием (5.7.6) являются эквивалентными. Доказательство. Пусть функция V$(x,yyT) удовлетворяет уравнению (5.7.5) и начальному условию (5.7.6). Покажем, что она удовлетворяет уравнению (5.7.7) в области {{х,у,Т)\Т>6}. Действительно, справедливы следующие соотношения: Vs{x,y,T) — max min Vs(^rjyT — S) = max min max min Vs(^fj1T — 2S) > vec5E(y) tec5p(x) vec5E(y) zecp{x)r)CE{v) sec* (0 > max max min min Vsi^fj, T — 28) = r)ZCE{y)vecE{v)tecp{x)^cp{0 = max min V$(f,77,T — 26) > ... > max min Va(^,t?,T — iS) > ... vec%'(v)tec}?(x) J~ " »?еС7«ысес«(х) При i = 1, имеем Vs(x, y\ T) = max min V5{^ 77, Г - 5), vecE(y)tecp(x) поэтому справедливо равенство Vs(x,y,T) — max max min Vs(^rjyT — i5), ге[1:М]г)еС^(у)^СР5(х) где N = [Т/5], что и доказывает требуемое утверждение. Пусть теперь функция Vs{x,y,T) в области {(х,у,Т)\Т > 8} удовлетворяет уравнению (5.7.7) и начальному условию (5.7.6). Покажем, что она удовлетворяет также уравнению (5.7.5). Предположим противное. Тогда в области {(ж,у,Т)|Т > 8} должно выполняться неравенство: V5{x,y,T)> max min Vs(^rj,T - 8). vecE{y)^cp{x)
320 5. Антагонистические дифференциальные игры Однако, max min V§(t;,r},T—5) = max min max max min ^(^,77,T— (i+l)5) > rjec5E(y) tecp(x) rjec5E(y) ^ec5p(x) ieii-.N-^rjec^i^^ec^iO > max max max min _ min Vs(t;,rjyT — (i + 1)5) = VZCE(y) ie[l:N-l] rjzC}*(r,) ^C5p(x) $GC}*(0 = max max max min _ min Vs($,rj,T — (i + 1)5) = ie[i:N-i]t76C|,(y)^ec^(»7) ^csp(x) eecj?(0 = max max min Vs(^r),T — г<5) = Т^(х,т/,Т). ie[2:N]T7eC^(l/)$eC}?(a;) Поскольку при г = 1 выполнено строгое неравенство, полученное противоречие доказывает теорему. § 5.8. Примеры решения дифференциальных игр преследования 5.8.1. Пример 4 (Простое движение.) Рассмотрим дифференциальную игру Г(хо, уоУ Т), в которой движение игроков Р и Е происходит в Евклидовом пространстве Rn согласно следующим уравнениям: дляР : х = аи, \\и\\ < 1, х(0) — хо, для Е : у = 0V, И < 1, 2/(0) - т/о, (5.8.1) где а, /3 — константы, а > /3 > 0, x,y,u,v G Rn. Для Выигрыш игрока Е" равен Я(х(Т),у(Т)) = ИТ)-у(Т)||. Пусть Г${х,у,Т) — дискретная форма дифференциальной игры Г(х,т/,Т) с шагом разбиения 5 > 0 и дискриминацией игрока Е. Игра Г$(х, у, Т) имеет N шагов, где N = Т/5. Согласно результатам §5.2 (см. пример п. 5.2.3) игра Т$(хуу,Т) имеет значение , V5{x, 2/, Г) - тах{0, \\х - у\\ - N - 5 - (а - /3)} = тах{0, ||ж - у\\ - Т(а - /З)}, а оптимальное движение игроков происходит по прямой, соединяющей начальные состояния ж, у. Согласно результатам §5.3 значение исходной дифференциальной игры V(х, у, Т) = lim Vs(x, у, Т) = тах{0, \\х - у\\ - Т(а - /3)}. (5.8.2) 5-^0 Можно убедиться, что V(x,y,T) = max min \\x' -y'\\ = рт(х,у), у'ест(у)х>ест(х) где Cg(y) = S(yy /ЗТ) — шар в Rn радиуса /ЗТ с центром в точке у, аналогично Ср(х) = 5(х, аТ). Тем самым согласно лемме п. 5.5.3 у игрока Е в игре Г(#о, 2/о? Т) существует оптимальная программная стратегия v*(t), t G [0,Т], которая приводит траекторию игрока в точку у* G Cg(yo), для которой рт(%о,Уо)= min \\xf-y*\\. х'еСТ(хо)
§ 5.8. Примеры решения дифференциальных игр преследования 321 Очевидно, \у,приу0 =ж0, где v Е Rn — произвольный вектор такой,, что \\v\\ = 1. Из результатов 5.6 следует, что в области А Л - {(х, у, Т) : \\х - 2/Ц - Т(а - /3) > 0}, где существуют непрерывные частные производные dV , m dV dV x-y = -(a-/3), 9Г dx dy \\x — y функция V(x,y,T) удовлетворяет уравнению (5.6.4): dV dV dV —- — a min (-=—,u) — /3 max(-^-,i>) = 0. (5.8.3) В уравнении (5.8.3) минимум и максимум достигаются при управлениях от/ сЛ/ _ u(a;)^L) = _^^ = JL_5L; (5.8.4) w(tf'*)=JfiriF^ (5'8-5) Стратегии (5.8.4), (5.8.5) являются оптимальными в дифференциальной игре (5.8.1). Стратегию й(х,у), определяемую соотношением (5.8.4), называют «погонной стратегией», так как в каждый момент времени вектор скорости игрока Р при использовании этой стратегии нацелен на преследуемого игрока Е. 5.8.2. Пример 5 (Игра преследования при наличии сил трения). Преследование происходит на плоскости. Уравнения движения имеют следующий вид: для Р: Qi ^Рй для Е: Pi = ащ — kppiy г = 1,2, \\и\\ < 1; (5.8.6) Si=Pvi-kEsu г = 1,2, |Н|<1; (5.8.7) Qi(0) = ql Pi(0)=pl *Ч(0)=Г?, 5.(0)=s°, г = 1,2, а,/3,кЕ,кР>0. (5.8.8) Здесь q = (#ь #2) и г = (гь ^2) — местоположение на плоскости игроков Р и Е соответственно; р = (рьРг) и 5 = (si,s2) — их импульсы;; кр,кЕ — некоторые константы, интерпретируемые как коэффициенты трения. Выигрыш игрока Е полагается равным
322 5. Антагонистические дифференциальные игры В плоскости q = (#ъ #2) множество достижимости Cp(q°,p°) игрока Р из начальных состояний р(0) = р°, д(0) = д° за время Т представляет собой круг (см. упр. 18) радиуса АС -р с центром в точке a(q°,p0,T)=q0+p0 1-е -kPT kp Аналогично, множество C^(r°, s°) — круг радиуса RE(T) = -^(e-k*T + kET-l) &Е с центром в точке „0 О гр\ _ 0 > „О1 е 6(ru,su,T)=ru + sc &# Для величины /3t(<Ap°,?"0,s0), определяемой соотношением (5.5.1), в данной дифференциальной игре выполняется равенство Pt(q0,P°^0^s0) = max min II g — HI. rGC|(r0,50)gGC^(g°,pO) Отсюда (см. формулу (5.2.10)) имеем Pr{q,p,r,s) - max{0, \\a(q,p,T) - b(r,s,T)|| - (RP(T) - RE(T))} = = maxj 0,J^Ui-ri + 1 _ е-кРт x _ е-кЕт Pi ; Si kp кв e~kpT + kPT - 1 _ e~kET + kET - 2 -'°' " li'--f ' \r-l)\ <»*» В частности, условий a > /3, -j~- > -j~- достаточно, чтобы для любых начальных состояний q,p, r, s нашлось отвечающее им Т, при котором рт(д,р,г, s) = 0. Функция рт(я,Р)Г,з) удовлетворяет дифференциально-экстремальному уравнению (5.6.1) в области Q = {(qypyrysyT) : рт{я,Р>г>5) > 0}- Действительно, в области Q существуют непрерывные частные производные ЭГ % Фг on dsi Уравнение (5.6.1) принимает вид
§5.9. Игры преследования с задержкой информации у преследователя 323 Здесь экстремумы достигаются на управлениях u, v, определяемых следующими формулами: Ж Si = - / я. 9К ^==. (5-8-12) Ж. -<- ^ г = 1,2. (5.8.13) >/*)2 + (ё)9' Подставляя эти управления в (5.8.11), получим нелинейное уравнение в частных производных первого порядка +aV(^>2+(s>2=0- (5814> Вычисляя частные производные (5.8.10), убеждаемся, что функция pr(q,p,r,s) в области П удовлетворяет уравнению (5.8.14). Отметим, что величина pT(q°,p0,r°,s0) является значением дифференциальной игры (5.8.б)-(5.8.8), а управления, определяемые соотношениями (5.8.12), (5.8.13), оптимальные в области Q. Из формул (5.8.12), (5.8.13), (5.8.9) находим I l—e~kET l — e~kpT 5i= . n~Qi Si kE ~Ш kp =, щ = щ, » = 1,2. (5.8.15) ^(n-ft + ^^-K^)2 В ситуации и, v направление действия силы каждого из игроков параллельно линии, соединяющей центры кругов достижимости (как это следует из формулы (5.8.15)), и остается постоянным, поскольку в этой ситуации центры кругов достижимости перемещаются вдоль прямой линии. § 5.9. Игры преследования с задержкой информации у преследователя 5.9.1. Ранее в этой главе рассматривались конфликтно- управляемые процессы, в которых каждый из участников (игроков) имел полную информацию, т. е. в каждый текущий момент игры Р{Е) знал свое состояние x(t)[y(t)] и состояние противника y(i)[x(t)]. Были получены теоремы о существовании ситуаций ^-равновесия в чистых стратегиях в таких играх и проиллюстрированы различные методы построения движения. Это оказалось возможным, поскольку дифференциальные игры с полной информацией представляют собой предельный случай многошаговых игр с полной информацией, когда промежуток времени между двумя последовательными ходами стремится к нулю. Иначе обстоит дело с дифференциальными играми с неполной информацией, где применение смешанных стратегий играет существенную роль. Не останавливаясь на анализе всей проблемы, рассмотрим только случай игры преследования с предписанной
324 5. Антагонистические дифференциальные игры продолжительностью, терминальным выигрышем и задержкой поступления информации игроку Р о фазовом состоянии игрока Е на время / > 0. 5.9.2. Пусть задано некоторое число / > 0, называемое временем задержки информации. При 0 < t < /, преследователь Р в каждый момент времени t знает свое состояние x(t), время t и начальное местоположение т/о убегающего Е. При / < t < Т, игрок Р в каждый момент t знает свое состояние x(t)y время t и состояние y(t — I) игрока Е в момент t — I. Игрок Е в каждый момент времени t знает свое состояние y(t), состояние противника x(t) и время t. Его выигрыш равен расстоянию между игроками в момент времени Т, выигрыш игрока Р равен выигрышу Е с обратным знаком (игра антагонистическая). Обозначим эту игру Г(хо,уо,Т). Определение. Под кусочно-программной чистой стратегией v(-) игрока Е будем понимать пару {г, Ь}, где т — разбиение отрезка времени [0, Т] конечным числом точек 0 = ti < ... < tk = Т, и b — отображение, которое каждому состоянию x(ti),y(ti),ti ставит в соответствие отрезок измеримого программного управления v(t) игрока Е при t G [U,ti+i). Определение. Под кусочно-программной чистой стратегией и(-) игрока Р будем понимать пару {<т, а}, где а — произвольное разбиение отрезка времени [0, Т] конечным числом точек 0 = t[ < t'2 < ... < t's = Т, и а — отображение, которое каэюдому состоянию х(Ь[),у(^ — 1), t\ при I < t[ ставит в соответствие отрезок измеримого программного управления u(t) игрока Р при t G [^,^+1). При t\ < I, отображение а каэюдому состоянию ж(^),уо,^ ставит в соответствие отрезок измеримого управления u(t) при t G [t'iit'i+i). Множества всех кусочно-программных чистых стратегий игроков Р и Е будем обозначать соответственно через Р и Е. Уравнения движения имеют вид x = f(x,u), utUcR?, xGRn, y = 9{y,v), vGVcRq, yZRn. (5.9.1) Полагаем выполненными все условия, обеспечивающие существование и единственность решения системы (5.9.1) для любой пары измеримых программных управлений u(t),v(t) при заданных начальных условиях #о,уо- Это гарантирует существование единственного решения системы (5.9.1) в случае использования игроками Р и Е кусочно-программных стратегий и(-) G Р, г>(-) G Е при заданных начальных условиях хо,уо. Таким образом, в любой ситуации (г/(-),г;(-)) при заданных начальных условиях #о > Уо функция выигрыша игрока Е определяется однозначно K(x0,yo;u(-),v(-)) = р(х(Т),у(Т)), (5.9.2) где x(t),y(t) — решение системы (5.9.1) при начальных условиях хо,уо в ситуации (u(-)yv(-)), и р — евклидово расстояние. 5.9.3. Можно на простейших примерах показать, что в рассматриваемой игре Т(хо,уо,Т) ситуации г-равновесия существуют не для всех чисел е > 0. Поэтому для построения ситуаций равновесия воспользуемся подходом, предложенным Ф. Нейманом и О. Моргенштерном для конечных позиционных игр с неполной информацией [Фон Нейман и Моргенштейн, 1970]. Расширим пространства стратегий игроков Р и Е до так называемых смешанных кусочно-программных стратегий поведения (СКПСП), которые предполагают возможность случайного выбора управления на каждом шаге.
§5.9. Игры преследования с задержкой информации 325 Пример 6. Уравнения движения имеют вид для Р : х = и, \\и\\ < а, дляЕ: y = v, |М|</?, (5.9.3) a > /3 > О, ж, у, G R2, и, v G R2. Выигрыш игрока Е равен р(х(Т),у(Т)), где x(t),y(t) — решение системы (5.9.3) при начальных условиях x(to) = жо, у (to) = уо- Игрок Р в течение игры знает лишь начальное состояние уо противника, а игрок Е имеет полную информацию о состоянии игрока Р (1 = Т). Пусть v(x,y,t) — некоторая кусочно-программная стратегия игрока Е. Для каждой стратегии v существует стратегия u(x,t) игрока Р, использующая только информацию о начальном положении игрока Е} своем текущем положении и времени, прошедшем с момента начала игры, гарантирующая выигрыш р(х(Т),у(Т)) < е при Т > р(хо,уо)/(а — /3). Действительно, пусть u*(x,y,t) — стратегия игрока Р в игре с полной информацией, имеющая следующую структуру: до момента встречи tn осуществляется погонное преследование игрока Е, а при tn <t <T точка x(t) сохраняется в некоторой г-окрестности убегающей точки. Такая стратегия в игре с полной информацией может быть легко описана аналитически (см. пример 4 п. 5.8.1). Построим траектории x(t),y(t) движения игроков в ситуации (u*(xyy,t),v(x}yyt)) из начальных состояний хо,2/о- Для этого достаточно проинтегрировать систему х = u*(x,y,t), x(t0) = ж0, у = v(x,у,t), y(t0) = уо. (5.9.4) По построению р(х(Т),у(Т)) < е. Пусть теперь u(t) = u*(x(t),y(t),t) и хотя стратегия u*(x,y,t), использующая для выработки управления информацию о положении Е1, недопустима, стратегия u(t) является допустимой, поскольку использует лишь информацию о времени, прошедшем с момента начала игры и о начальном состоянии игрока Е. Очевидно, что в ситуациях (u(t),v(x,y,t)) и (u*(x,y1t)^v(x,yJt)) траектории игроков совпадают, поскольку стратегия v(x,y,t) одинаково реагирует как на стратегию u*(x,y,t), так и на стратегию u(t) выбором управления v(x(t),y(t),t). Таким образом, мы показали, что для каждой стратегии v(xy y,t) существует программное управление u(t), являющееся допустимой стратегией в игре с неполной информацией, и такое, что р(х(Т),у(Т)) < е, где x(t),y(t) — соответствующие траектории. Выбор v(x, у, t) произволен, поэтому отсюда следует, что supmfp(x(T)yy(T)) = 0, (5.9.5) где sup inf берется по множествам стратегии игроков в игре с неполной информацией. Вместе с тем для любой стратегии u(x,t) игрока Р можно построить такую стратегию v(x,y,t) для игрока Е, что в ситуации (u(x,t),v(x,y,t)) выигрыш р игрока Е превзойдет /ЗТ. Действительно, пусть и(х, t) — некоторая стратегия игрока Р. Так как его движение не зависит от y(t), то траектория движения игрока Р может быть получена интегрированием системы х — и(х, t)y x(t0) — жо, (5.9.6)
326 5. Антагонистические дифференциальные игры независимо от движения игрока Е. Пусть x(t) — траектория, получившаяся в результате интегрирования системы (5.9.6). Соединим точки х(Т) и т/о и направим движение игрока Е по прямой [х(Т),уо] в направлении от точки х(Т) с максимальной скоростью. Очевидно, что такое движение игрока Е обеспечивает расстояние между ним и точкой х(Т) большее или равное /ЗТ. Обозначим построенную таким образом стратегию игрока Е через v(t). Тогда получим, что в ситуации (u(x,t),v(t)), выигрыш игрока Е больше или равен величине /ЗТ. Отсюда следует, что infsupp(x(T),y(T))>0T, (5.9.7) где inf sup берется по множествам стратегий игроков в игре с неполной информацией. Из (5.9.5) и (5.9.7) следует, что значение игры в классе чистых стратегий в рассматриваемой игре не существует. 5.9.4. Определение. Под смешанной кусочно-программной стратегией поведения (СКПСП) игрока Р будем понимать пару /х(-) = {г, d}, где г — произвольное разбиение отрезка времени [О, Т] конечным числом точек 0 = t± <t2 < - — <tk =T, a d — отображение, ставящее в соответствие состоянию х(и)уу(и — 1),и при U> l и состоянию x(ti),yo,ti при U < I вероятностное распределение /4(0> сосредоточенное на конечном числе измеримых программных управлений u(i) при t Е [t{, ii+i)- Аналогично под СКПСП игрока Е будем понимать пару и(-) = {о~,с}, где а — произвольное разбиение отрезка времени [О, Т] конечным числом точек О = t[ < tf2 < ... < t'a = Т, а с — отображение, ставящее в соответствие состоянию х(^),т/(^),^ вероятностное распределение ^(-), сосредоточенное на конечном числе измеримых программных управлений v(t) при t Е [ti,ti+i). СКПСП игроков Р и Е будем обозначать соответственно через Р и Е (ср. со «стратегиями поведения» п. 4.8.3). Каждая пара СКПСП /х(-), и(-) индуцирует распределение вероятностей на пространстве траекторий x(t),x(0) = xq; y(t)yy(0) = т/о- Поэтому под выигрышем K(xo,yo',V>('),v(-)) в СКПСП будем понимать математическое ожидание выигрыша К(хо,уо; /л(-), */(-)), усредненное по распределениям на пространствах траекторий, которые индуцируются СКПСП /х(-),!/(-). Определив пространства стратегий Р, Е и выигрыш К, мы определили смешанное расширение Т{хо,уо,Т) игры Г(хо,уо,Т). 5.9.5. Обозначим через Ср(х) и С'Е(у) соответственно множества достижимости т игроков Р и Е из начальных состояний х и у в момент времени Т, и через СЕ{у) выпуклую оболочку множества СЕ(у). Предположим, что множества достижимости компактны, и введем в рассмотрение величину 7(2/, Г) = min max p(f,rj). Zecl(y)vecT(y) Пусть 7(y,T) = p(y,y), где у E СЕ(у), у E C^(y). Из определения точки у следует, что она является центром минимальной сферы, содержащей множество СЕ(у). Отсюда получаем, что эта точка единственна. В то же время существуют по крайней мере две точки касания множества СЕ(у) с минимальной содержащей его сферой, которые совпадают с точками у. Пусть y(t) — некоторая траектория (г/(0) = уо) игрока Е при 0 < t < Т. При перемещении игрока Е вдоль этой траектории величина *y{y(t),T — t) изменяется, меняется также и точка у. Пусть y(t) — траектория точки у, соответствующая траектории y(t).
§ 5.9. Игры преследования с задержкой информации 327 Назовем точку М G С\ (уо) центром преследования, если 7(M,Z)= max <y(y'J). y'ecl-l{y0) 5.9.6. Рассмотрим вспомогательную одновременную антагонистическую игру преследования на выпуклой оболочке множества СЕ(у). Преследователь выбирает неко- гп торую точку ^ G СЕ(у), а убегающий — точку rj Е СЕ(у). Выбор совершается одновременно, и игрок Р при выборе точки ^ не знает выбора rj игрока Е, и наоборот. Игрок Е получает выигрыш p(^rj). Обозначим значение этой игры через V(y,T), чтобы подчеркнуть зависимость значения игры от параметров у и Т, которые определяют множества стратегий СЕ(у) и СЕ(у) игроков Р и Е соответственно. Игру в нормальной форме запишем следующим образом: Г(у,Т) = (СТЕ(у),С%(У),р(у',У")). Множество стратегий минимизирующего игрока Р выпукло, функция р(у\ у") также выпукла по своим аргументам и непрерывна. Для таких игр мы можем применить теорему п. 2.5.5, поэтому в игре Т(у,Т) существует ситуация равновесия в смешанных стратегиях. Оптимальная стратегия игрока Р чистая, а оптимальная стратегия игрока Е предписывает положительную вероятность не более чем (п + 1) точке из множества СЕ(у), причем V(y,T) = 7(2/, Т). Оптимальная стратегия игрока Р в игре Г(т/,Т) заключается в выборе центра минимальной сферы у, содержащей множество СЕ(у). Оптимальная стратегия игрока Е предписывает положительные вероятности не более чем (п + 1) точке из точек касания указанной сферы с множеством Cf^iv) (3Десь п ~~ размерность пространства у). Значение игры равно радиусу этой сферы (см. пример 11 п. 2.5.5). 5.9.7. Рассмотрим одновременную игру Г(М, /), где М — центр преследования. Обозначим через уг(М),..., уп+1(М) точки из множества С1Е(М), которые входят в спектр оптимальной смешанной стратегии игрока Е в игре Г(М, I) и через у(М) — оптимальную стратегию игрока Р в этой игре. Определение. Траектория y*(t) называется условно-оптимальной, если 2/*(0) = уо, у*(Т — I) == М, у*(Т) = Уг(М) для некоторого г из чисел 1,... , п + 1. Для каждого i может существовать несколько условно-оптимальных траекторий игрока Е. Теорема. Пусть Т > I и для любого числа е > О игрок Р к моменту времени Т может гарантировать е-встречу с центром у(Т) минимальной сферы, содержащей множество С1Е(у(Т — /)). Тогда игра Г(хо,уо,Т) имеет значение j(M,l), и е-оптимальная стратегия игрока Р чистая и совпадает с любой его стратегией, гарантирующей е/2-встречу с точкой у(Т). Оптимальная стратегия игрока Е смешанная: в течение времени О < t < Т — I он должен перемещаться в точку М по любой условно-оптимальной траектории y*(t) и далее с вероятностями р\у... ,pn+i (оптимальная стратегия игрока Е в игре Т{М,1)), выбрать одну из у словно-оптимальных траекторий, переводящих точку у*(Т — I) = М в точки у{(М), г = 1,... , п + 1, входящие в спектр оптимальной смешанной стратегии игрока Е в игре Г(М,/).
328 5. Антагонистические дифференциальные игры Доказательство. Обозначим через г^ (-),!/*(-) указанные в теореме стратегии, оптимальность которых требуется доказать. Для доказательства теоремы достаточно убедиться в справедливости следующих соотношений: К(х0,уо;1л(-),1/^(-))-\-е > K(x0,yo;ue(-),v*(-)) > >Z(x0,т/о;ue(.),i/(0) -е, /x(")eP, v(-)ZE, (5.9.8) limK(xo,2/o;^(0^*(')) =7(AM). (5.9.9) е-^-0 Левая часть неравенства (5.9.8) следует из определения стратегии we(-), в силу которого для любой кусочно-программной стратегии u(-) G Р K(x0,yo;u(-)yv*(-)) + е > K(x0yyo;ue(-),v*(-)). Обозначим через x*(t) траекторию преследователя в ситуации (гхе(-),!/*(-)). Тогда п+1 Щ*о,2/о;М-)^*(')) = ^РгР(х*(Г),у,(М)). (5.9.10) г=1 Пусть R — радиус минимальной сферы, содержащей множество С1Е{М), т. е. R = 7(М,Z). Тогда R-e/2< р(х*(Т),у{(М)) <R + s/2 для всех г = 1,...,п-Н, поскольку точка ж*(Г) принадлежит е/2-окрестности точки у(М). Так как Yl7=i Pi ~ *» ^ — ^> из (5.9.10) получаем R~e/2< Щхо,у0; ис(-), МО) < Д + г/2, (5.9.11) что доказывает (5.9.9). Пусть состояния х(Т),у(Т — Z) реализовались в ситуации (г/е(-), ^(-)) и Q(') — вероятностная мера, индуцированная на множестве С1Е(у(Т — /)). Из оптимальности смешанной стратегии р = (pi,... ,pn+i) B игре Г(М, /) имеем п+1 ;>>,ф;(Г),&(М)) > 7(у(Г - 0,0 = ^Г(у(Г - 0,0 > г=1 > / рШТ-OUW, (5.9.12) где 2/[у(Т — I)} — центр минимальной сферы, содержащей множество С1Е(у(Т — /)). Однако, р(х(Т),у[у(Т — I)]) < е/2, следовательно, при т/ G С1Е(у(Т — I)) имеем р(х(Т),у) < | + р(у[у(Т - 1)},у) <R + е/2. (5.9.13) Из неравенства (5.9.11)—(5-9.13) вытекает, что K(xo,yo\ue(-),v*(.))> f p(x(T),y)dQ-s. (5.9.14) JClE(y(T-l)) Однако p(x(T),y)dQ = К(х0, т/о; МО, КО)- (5-9-15) X сшт-о)
§5.10. Упражнения и задачи 329 Из формул (5.9.14) и (5.9.15) получаем правую часть неравенства (5.9.8). Теорема до- казана. При Т < I решение игры существенно не отличается от случая Т > I и теорема сохраняет силу, если вместо С1Е(уо)^ СЕ(уо), ч(М,1), у(Т — 1), уо рассматривать СЕ(уо), СТЕ(у0),1(М,Т). Диаметр множества С1Е(М) стремится к нулю при / —» 0, что, в свою очередь, вызывает стремление к нулю значения вспомогательной игры Г(М, /). Однако значение этой вспомогательной игры равно значению Vi(xo,yo,T) игры преследования с задержкой информации Г(хо,уо,Т) (здесь индекс I означает время задержки информации). Смешанная оптимальная стратегия игрока Е в Г(М, /), сосредоточивающая свою массу на не более чем в п + 1 точке из С1Е(М), в пределе сосредоточивает всю массу в одной точке М, т. е. превращается в чистую стратегию. Это вполне согласуется с тем, что при / —> 0 игра Г(хо,уо,Т) превращается в игру с полной информацией. Пример 7. Уравнения движения имеют вид х = и, \\и\\ < а; у = vy \\v\\ < (3, a > /3, х,у G R2. Пусть время Т удовлетворяет условию Т > р(хо,уо)/(а — (3) + 1. Множество достижимости С1Е(уо) — СЕ(уо) и совпадает с кругом радиуса /3/ с центром т/о Значение игры Г(т/, /) равно радиусу круга С1Е(у), т. е. V(y, I) = pi. Так как величина V(y, l) в данном случае не зависит от у, то любая точка множества С^~1(уо) может быть центром преследования М. Оптимальная стратегия игрока Р в игре Г(у,1) заключается в выборе точки т/, а оптимальная стратегия игрока Е — смешанная и заключается в выборе двух любых диаметрально противоположных точек круга С1Е(у) с вероятностями (1/2,1/2). В соответствии с этим оптимальная стратегия преследователя в игре Г(хо, Уо,Т) заключается в погонном преследовании точки y(t — l) при I <t <Т (точки у о при 0 <t<l) до встречи с этой точкой, кроме того, до момента Т следует оставаться в е/2-окрестности этой точки. Оптимальная стратегия игрока Е — смешанная кусочно-программная стратегия поведения — и заключается в переходе из точки уо в произвольную точку М G СЕ (уо) в течение времени Т — /, далее в равновероятном выборе направления на одну из двух диаметрально противоположных точек круга С1Е(М). В этом случае ValT(xo,yo,T) = /31. §5.10. Упражнения и задачи 1. Построить множество достижимости в игре «простое движение» для игрока Р и игрока Е. 2. Пусть игрок Е перемещается из точки у0 = (у?,Уг) с постоянной по величине и направлению скоростью 0. Показать, что для каждого такого движения существует единственное движение игрока Р из точки х° — (х?,^) с постоянной скоростью а (а > /3), которое осуществляет встречу (/-встречу) с игроком Е за минимальное время. Такое движение игрока Р будем называть быстродействием в точку встречи. 3. Пусть игрок Е перемещается из точки у0 = (2/1,2/2) c постоянной по величине и направлению скоростью /3, а игрок Р осуществляет быстродействие в точку встречи из точки х° = (ж?,^)- Для каждой такой пары движений игроков Е и Р построить точку встречи. Показать, что полученное геометрическое место точек встречи игроков Е и Р представляет собой окружность Апполония, и написать ее уравнение. 4. В условиях предыдущего упражнения построить множество точек /-встречи игроков Е и Р.
330 5. Антагонистические дифференциальные игры 5. Обозначим через А(#о,Уо) множество точек встречи относительно начальных состояний хо,уо игроков Р и Е (окружность Апполония). Пусть до некоторого момента г (г меньше времени до момента встречи) игроки Е и Р перемещаются прямолинейно с максимальными скоростями в точку встречи М. Построим новое множество точек встречи А(х(т),у(т)) относительно состояний х(т),у(т) как начальных в момент времени т. Это некоторая новая окружность Апполония. Показать, что окружности А(хо^уо) и А(х(т),у(т)) касаются в точке М, следовательно, А(х(т),у(т)) содержатся в круге А(ж(т), у(т)), ограниченном окружностью A(x0iyo). 6. Пусть игрок Е перемещается из точки уо вдоль некоторой гладкой кривой y(t) с максимальной скоростью /3. Игрок Р движется с максимальной скоростью а, в каждый момент времени г зная местоположение у(т) игрока Е и направление вектора скорости v(r) = {vi(t),172(t)}, v\(t) + и!(т) = /З2. Построим П-стратегию игрока Р. Согласно этой стратегии он выбирает направление вектора скорости на точку встречи М в предположении, что игрок Е будет на отрезке времени [г, со) придерживаться постоянного направления движения {vi(t),172(t)} (перемещаться вдоль луча с постоянной скоростью /3). Показать, что если игрок Р использует П-стратегию, то отрезок [х(т),у(т)], соединяющий текущие местоположения игроков, останется до момента встречи параллельным отрезку [жо,Уо]. 7. Пусть игрок Е перемещается из уо вдоль некоторой гладкой кривой у(т) с максимальной скоростью j3. Написать аналитическое выражение для П-стратегии игрока Р. 8. Показать, что при использовании П-стратегии игроком Р точка встречи всегда содержится во множестве Л(жо,2/о)> ограниченном окружностью Апполония А(жо,уо)- Указание. Доказательство провести сначала для движений игрока Е вдоль /с-вершинных ломаных, используя утверждение упр. 5, а затем совершить предельный переход. 9. (Игра «шофер—убийца»). Чтобы записать уравнения движения игроков в этой игре, достаточно задать пять фазовых координат: по две координаты для обозначения местоположения игроков Р(автомобиль) и .Е(пешеход) и еще одну для обозначения направления движения преследователя. Обозначим их через Ж1,Ж2}уъУ2>$ (рис. 5.1). Задание этих фазовых координат полностью и однозначно определяет состояние игры в каждый момент. Управление для игрока Е выглядит просто. Для описания направления его движения достаточно задать угол ф (см. рис. 5.1). Рис. 5.1. Игра «шофер—убийца»
§5.10. Упражнения и задачи 331 Теперь выберем управление для игрока Р. Проведем через точку Р прямую СС {\СР\ = \РС\ = R), перпендикулярную вектору скорости преследования. По своему желанию игрок Р выбирает мгновенный центр кривизны своей траектории в любой точке, например, в точке С\, лежащей на этой прямой вне интервала С С. Управление и будем считать равным по абсолютной величине R/\PCi\, положительным для точек Ci, лежащих слева от Р, и отрицательным — справа от Р; таким образом, — 1 < и < 1. Доказать, что уравнения движения имеют следующий вид: х\ = coisiwd, X2 — uicosfi, 2/i = 002 втф, у 2 = Ш2Совф, $ — uji/Ru. 10. (Игра «шофер-убийца». Понижение размерности.) Предположим, что на плоскости выбрана подвижная система координат, связанная с автомобилем Р. Координаты пешехода 2/1,2/2 можно рассматривать в этой системе как составляющие единственного переменного вектора х\ ось Х2 будем считать всегда направленной вдоль вектора скорости автомобиля. щ du/R Рис. 5.2. Понижение размерности Пусть игрок Р в момент t выбирает центр кривизны своей траектории в точке С = (R/u, 0) и пусть расстояние СЕ равно d (рис. 5.2). Тогда вращение игрока Р вокруг точки С эквивалентно вращению х вокруг С в противоположном направлении, но с той же угловой скоростью. Таким образом, вектор х движется со скоростью, равной по модулю uji(du/R), в направлении, перпендикулярном СЕ. Составляющие его скорости получаются умножением модуля соответственно на —X2Jd и [х\ — R/ijj)/d. Показать, что уравнения движения имеют вид: XI -Щ-Х2П-\-UJ2Sinijj, X2 -1 <и<+1, j^XiU — UJi + Ш2СОЗф, 0<ф<2П. 11. Пусть а и Ь — такие числа, что р — у/а2 + Ь2 >0. Показать, что тах(асозф + Ьвгпф) Ф достигается на таком ф, что соэф = а/р, эгпф = b/р и этот максимум равен р. 12. Записать и проиллюстрировать уравнение (5.6.6) для игры на «перетягивание» Х\ — U + 17, \и\ < а, Х2 = U + V, М < /5, х(0) = жо, с терминальным выигрышем р(х(Т),А), где А — некоторая точка, A G fi2, лежащая вне множества достижимости системы к моменту времени Т из начального состояния хо.
332 5. Антагонистические дифференциальные игры 13. Записать явные выражения для оптимальных стратегий в игре упр. 12 и для ее модификации, когда продолжительность игры не фиксируется заранее, а выигрыш игрока Е полагается равным времени попадания в начало координат. 14. Доказать, что множество достижимости управляемой системы *(0) = fc°, Pi(0)=pl u\ + ul<l, г = 1,2 в пространстве геометрических координат (<?i,<Z2) — круг с центром в точке q = q° + p°(i - e~kT)/k и радиусом R = a(e~kT + kT - l)/к2. 15. Преследование происходит в плоскости, уравнения движения имеют следующий вид: для Р 4i =Pi, Pi = OiUi - kpi, для Е «? + «2<l, г = 1,2, У% = /3vi, v2 -\-v% <l, г = 1,2. Здесь q и. у — местоположения игроков Р и Е соответственно, р — импульс игрока Р. Таким образом, в рассмотренном случае игрок Е двигается согласно «простому движению», а игрок Р, представляющий собой материальную точку единичной массы, перемещается под действием силы трения а. Выигрыш игрока определим как расстояние между геометрическими местоположениями игроков в момент окончания игры Т. H(q(T),y(T))=P(q(T),y(T)) Ч Х>(Т) - Vi{T)Y Вычислить величину рт(я,у)- 16. Вывести уравнение (5.6.6) для задачи из упр. 15. 17. Рассмотреть игру «простое преследование» с предписанной продолжительностью Т в полуплоскости F, т. е. при дополнительном предположении, что игроки в процессе преследования не могут покинуть множество F. Построить области достижимости игроков. 18. Вычислить величину рт(х,у) для игры «простое преследование» на полуплоскости с предписанной продолжительностью. 19. Рассмотреть антагонистическую игру «простое преследование» с предписанной продолжительностью между двумя преследователями Р = {Pi,P2} действующими как один игрок, и преследуемым игроком Е. Уравнения движения имеют следующий вид: г-1 = п,1 lii.1 г*2 — ' < «2, с1, х2, yGR2> ft < min{ai,с*2}, y = v, \v\ < /3, u1, u2, v e R2, x1(0) = x1o, x2(0) = x20, 2/(0) =2/0. Выигрыш игрока Е равен min р(хг(Т),у(Т)), т. е. игрок Е заинтересован в максимизации г=1,2 расстояния до ближайшего из преследователей к моменту окончания игры. Построить множества достижимости игроков и геометрически определить максиминное расстояние рт(хЪ,Хо,у) между этими множествами. 20. Обобщить теорему п. 5.5.9 на случай, когда в преследовании участвуют несколько преследователей Pi,..., Pm, действующих как один игрок, и один убегающий игрок Е.
Глава 6 Неантагонистические дифференциальные игры §6.1. Принцип динамического программирования 6.1.1. Рассмотрим классическую задачу оптимального управления с одним критерием или с одним лицом, принимающим решение: пах< / д[ и [Jto max < g[s,x(s),u (s)] ds + q(x (T)) > , (6.1.1) при условии, когда переменная состояния х изменяется в соответствии с дифференциальным уравнением: x{s) = f [s, x(s),u 0)], x (t0) = жо, (6.1.2) где x (s) G X С Rm и управление и Е U. Функции / [s, ж, it], g [s, x,u] и q (x) предполагаются дифференцируемыми. Программное управление u*(t), доставляющее максимум функционала (6.1.1), будем называть оптимальным управлением. Для определения оптимального управления задачи (6.1.1)—(6.1.2) используется техника динамического программирования и принцип максимума. Техника динамического программирования впервые была введена Р. Беллманом [Bellman, 1957]. Его суть содержится в следующей теореме. Теорема. Управление и* (t) = ф* (t, x) образует оптимальное решение задачи управления (6.1.1)-(6.1.2), если существует непрерывно-дифференцируемая функция V(t,x), определенная на [to,T] x Rm —>> R и удовлетворяющая следующему уравнению (уравнению Беллмана): -Vt(t,x) = max{#[t,x,w] + VX (t,x)f [t,x,u]} = и = {g [t, x, ф* (t, x)] + Vx (t, x) f [t, x, ф* (t, x)}}, V(T,x) = q(x). Здесь Vt(t,x) и Vx(t,x) — частные производные функции V(t,x) no t и х соответственно.
334 6. Неантагонистические дифференциальные игры Доказательство. Введем функцию Беллмана как значение максимизируемого функционала (6.1.1), (6.1.2) при оптимальном управлении, если задача решается из начального состояния х и начального момента времени t. А именно, V (t, х) — max U / g(s,x(s),u(s))ds + q(x(T)) J1 g{s,x*(s),<p*(s,x*(s))}ds + q(x*(T)) при граничном условии V(T,x*(T))=q(x*(T)), и управляемой динамике х* (s) = f [s, х* (s), </>* (5, х* (s))], x* (t0) = x0. Если u(s) e U — некоторое другое управление, реализующее траекторию x(s), то из условий теоремы 1 следует, что g (t, х, и) 4- К (t, ж) / (*, х, г/) + 14 (t, х) < О, g(t,x\u*) + Vx*(t,x*)f(t,x\u*) + Vt{t,x*) = 0. Интегрируя указанное выражение на промежутке [to, Т], получаем / g(s,x (s),«(s)) ds + V (Г,ж (Т)) - V (*0,ж0) < О, / (?(s,x* (s),u* (s))ds + F(T,x* (T)) - V^o,x0) - 0. «/to /to Исключая V (to, xo), имеем Л (5, *(*),!* (5)) d*'+ g (X (Т)) < Л (5, X* (5) , U* (в)) ds + <? (х* (Г)) , «/to «'to Откуда следует, что w* = </>*(t,x) есть оптимальное управление. Подставляя оптимальное управление (стратегию) ф* (t,x) в (6.1.2), получаем уравнение для оптимальной траектории в виде х (s) = / [s, х (s), ф* (s, х (s))], x (t0) = x0. (6.1.3) Обозначим через х* (t), t G [to,T] решение уравнения (6.1.3). Оптимальная траектория {х* (t)}t=t может быть записана в виде x*(t)=x0+ f f[s,x*(s),<l>*(s,x*(s))]ds, te[t0,T]. (6.1.4) «/to Для упрощения обозначений в дальнейшем помимо обозначения х* (t) для оптимальной траектории мы будем использовать обозначение х%.
§6.1. Принцип динамического программирования 335 Функция Беллмана или функция значения V (t, х) из начального состояния на оптимальной траектории, т. е. при х = х%, может быть записана в виде V(t,x*t) = I g[a,x* (a),ф* (a,x* (s))}da + q(x* (T)). 6.1.2. Пример 1. Рассмотрим следующую задачу оптимального управления тах^ / ехр [—rs] — х (s) — си (s) Ids + exp [—rT] qx (T) > (6.1.5) If1 аах< / и [Jo при условии x(s) = a-u(s)(x(s))1/2, ж(0)=жо, гф) > О, (6.1.6) где а, с, жо, г, g — положительные вещественные числа. Используя теорему п. 6.1.1, получаем —Vt (t, х) = max < [—х — си2] ехр [—rt] + Vx (2, ж) а — гхж1'2 >, V (Т, ж) = ехр [-rT] qx{T). (6.1.7) Легко видеть, что максимизирующее управление в (6.1.7) имеет вид ^ (*, х) = хК2с} ехр [rt]. Подставляя ф(Ь,х) в (6.1.7) и решая, получаем V (*,ж) = ехр [-rt] [A (t)x + B (t)], где A(t) и В (t) удовлетворяют системе уравнений A(t) = rA(t)-A^- + l, B(t)=rB(t)-aA(t)ert, при граничном условии A(T)=q, B(T)=0. Таким образом, оптимальное управление может быть найдено в явном виде и определяется по формуле -A{t)xW Ф^Х) = Тс 6.1.3. Рассмотрим теперь задачу оптимизации на бесконечном промежутке времени с постоянным дисконтированием max< / g[x(s)yu(s)]exp[—r(s — to)]ds>, (6.1.8)
336 6. Неантагонистические дифференциальные игры при условии x(s) = f [х 0), и 0)], х (t0) = х0. (6.1.9) Параметр s не входит явным образом в g [x (s), u (s)], / [ж (s), и (s)}. Такие задачи называются автономными задачами управления. Рассмотрим теперь семейство задач подобного рода из любых начальных состояний, т. е. задачу /»оо iax / g [x (s), и (s)] exp [—г (s — t)] ds, (6.1.10) u Jt при условии x(s)=f [x (s), и (s)], x (t) = x. (6.1.11) Задача (6.1.10)—(6.1.11) не зависит от выбора начального момента времени t, а зависит лишь от состояния, в котором система находится в данный момент, а именно от х. Определим теперь функцию значений или функцию Беллмана для задачи (6.1.8)— (6.1.9) по аналогии с предыдущим случаем по формуле V (t, х) = max < / g [x (s), и (s)} exp [—r (s — to)] ds < / g[x(s),u (s)} exp [~r (s - tQ)] ds\ х(Ь)=х = х%>, где х* — состояние системы в момент t на оптимальной траектории. Более того, мы можем записать сю V(t,x) = = exp [—r (t — to)} max \ I g[x(s) ,u (s)} exp [—r (s — t)} ds, u [Jt x(t) = x = x*t} . Поскольку задача max < / g [x (s), и (s)\ exp [—r (s — t)} ds\ x (t) = x = x*t > зависит лишь от текущего состояния х, мы можем написать W (х) = max < / ^ [х (5), г/ (s)] exp [—г (s — i)] ds\ x(t) — x — x^ u Ut I Таким образом, получаем V(t,x) = exp[-r(t-t0)]W(x), Vt (t, x) = -r exp [-r (t - t0)] W (x), 14 (*, a;) = exp [-r (t - t0)} Wx (x). (6.1.12) Подставляя выражение (6.1.12) в основную формулу теоремы п. 6.1.1, получаем rW (х) = max {g [х, и] + Wx (x) / [х, г^]} . (6.1.13) и Поскольку время в (6.1.13) явно не присутствует, управление и будет функцией лишь х. Таким образом, мы получаем следующую теорему.
§6.1. Принцип динамического программирования * 337 Теорема. Управление и — ф* (х) представляет собой оптимальное решение задачи на бесконечном промежутке времени (6.1.10)-(6.1.11), если существует непрерывно-дифференцируемая функция W(x), определенная на Rm —>> R и удовлетворяющая следующему уравнению rW (х) — тдьх{д[х,и] + Wx (x) f [x,u]} и = {д{х,ф*(х)}+Ц?х(х)/{х,ф*(х)}}. Подставляя оптимальное управление, полученное с использованием теоремы § 6.1 в (6.1.9), имеем уравнение дая оптимальной траектории x(s) = / [х (s), ф* {х (*))], х (t0) = xq. Отсюда можно получить выражение для оптимальной траектории {ж* (i)}t>t в виде х* (t) = xQ+ I f [x* (s), ф* (х* (s))] ds, при t>t0. Jto Как и раньше будем обозначать х* (t) через х%. Оптимальное программное управление в задаче на бесконечном промежутке времени (6.1.8) представимо в виде функции ф* (а^), t E [to,oo). 6.1.4. Пример 2. Рассмотрим задачу оптимального управления на бесконечном промежутке времени Г° Г 21 max/ exp [—rs] \—х (s) — си (s) Ids (6.1.14) и Jo L -I при условии (6.1.6). Используя теорему п. 6.1.3, получаем rW (х) = max | [-х - си2} + Wx {х) \а - их1/2] \ . (6.1.15) Найдем максимизирующую функцию в (6.1.15). Она будет иметь вид Подставляя ф* (х) в (6.1.15) и решая, получаем W(x) = Ax + B, где А и В удовлетворяют уравнениям 0 = гА- — + 1, В = -А. 4с г Решая квадратное уравнение, найдем А. 2с -nV2' '±(г2 + с-1) Максимум достигается при отрицательном корне в выражении для А. Оптимальное управление получается в следующем виде
338 6. Неантагонистические дифференциальные игры Подставляя ф* (х) = — Ах1/2/ (2с) в (6.1.6), получаем формулу для оптимальной траектории х (s) = a + — (х (s)), x (0) = xQ. Решая это уравнение, получаем оптимальную траекторию {х* (t)}t>t в явном виде: 2ас1 X* (t) = хо+ А (А\ lac , Тогда оптимальное управление для задачи (6.1.14)—(6.1.15) будет иметь вид -A(x*t)1/2 ФЧО 2с Также представляется интересным рассмотрение задачи оптимального управления (6.1.1), (6.1.2) на промежутке [to, Т], где Т — случайная величина с известной функцией распределения F(t), t G [to',oo) [Шевкопляс, 2009]. § 6,2. Принцип максимума Понтрягина 6.2.1. Принцип максимума был предложен Л. С. Понтрягиным и его учениками [Понтрягин, Болтянский, Гамкрелидзе, Мищенко, 1976]. Рассмотрим вновь задачу оптимального управления (6.1.1)—(6.1.2) Теорема (принцип максимума Понтрягина). Для оптимальности управления и* (s) = С* (s, xq) и соответствующей траектории {х* (s), to < s < Т} необходимо существование сопряженных функций A(s) : [^(ь^1 —> Rm, удовлетворяющих условиям: С* (s, хо) = и* (s) = arg max {g [s, x* (s), и (s)] 4- и +A(s)f{s,x*(s),u(s)}}, x* (s) = / Is'x* (s).u* (s)l. x* (to) = x0, A (S) = ~Ъх~ {9 [S'X* {S)'U* (S)] + Л (S) 7 [S'** (S)'U* (S)]}' Л(Т) = ^0г*(Г)). Заметим, что принцип максимума Понтрягина дает необходимые условия оптимальности, однако если предположить существование дважды непрерывно дифференцируемой функции Беллмана, to эти условия оказываются и достаточными. Доказательство. Доказательство проведем в предположении дважды непрерывной дифференцируемости функции Беллмана. Определим функцию (гамильтониан) Я(t,x,u)=g (t,х,и) + Vx (t,x) f (t,x,u). Из теоремы п. 6.1.1 имеем —Vt (t, x) = max H (t, ж, и).
§ 6.2. Принцип максимума Понтрягина 339 Используя выражение для оптимального управления гб*, получаем H(t,x,u*)+Vt(t,x)=Q, что является тождеством по х. Возьмем частные производные от этого выражения по х. Это дает нам Vtx (*, х) 4- дх (*, х, гб*) 4- Vx (t, ж) Л- (*, х, и*) 4- Кя; (*, ж) / (*, х, и*) du* + [gu (t, x, u*) + 14 (*, ж) /u (*, x, гб*)] — = 0. Если гб* является внутренней точкой ограничений на управления, тогда [gu (t,x, u*) 4-14 (t,x) fu (t,x,u*)] = 0, что следует из условия —V^(t,x) = maxu H (2, ж, u). Если и* не является внутренней точкой, то можно показать что du* [gu (*, х, гб*) + Ух (*, ж) /u (t, х, гб*)] — = 0, поскольку из оптимальности следует ортогональность векторов [gu (t,x,u*) +Vx (t,x) fu (t,x,u*)] и du*/dx ( в отдельных случаях может быть даже du*/dx = 0). Выражение Vtx (t, x) 4- Vxx (t,x) / (t, x, гб*) = Via? (*, ж) 4- V^ (t, х) х может быть записано в виде [dVx (t,x)] (dt)~ . Таким образом, мы получаем dVx (t, x) dt + дх (t, х, гб*) + Vx (t, х) /д. (*, x, гб*) = 0. Вводя сопряженный вектор A(t) = V^* (^,х*), где х* — траектория, соответствующая управлению и*, получаем dV (t r*) . /9 -^-i=A(S)=-^{5[S>a:*(s),«*(s)]+A(S)/[e,x*(e),ti*W]}. И, наконец, граничные условия для A(t) определяются из граничного условия для задачи оптимального управления и теоремы п. 6.1.1 [ } дх дх ' Таким образом, теорема доказана. 6.2.2. Пример 3. Рассмотрим задачу, содержащуюся в примере 1 п. 6.1.2. Используя теорему п. 6.2.1 найдем управление и (s) из условия argmaxi —х* (s) — cu(s)2\ exp [-rs] 4-Л(5) \a — u(s)x* (s)1/2 \ . Проводя оптимизацию, получаем + / N -A(s)x*(s)1/2 . 1 , гб* (s) = 0 — exp [rs]. (6.2.1)
340 6. Неантагонистические дифференциальные игры Мы также получаем уравнение для сопряженного вектора (в данном случае одномерного) (6.2.2) Л (s) = exp [—rs] + -Л (s) u* (s) х* (s) -1/2 Подставляя выражение u* (s), полученное в (6.2.1), в (6.1.6) и (6.2.2), получаем пару дифференциальных уравнений ж* (s) = a + —Л (s) (x* (s)) exp [rs}, ZiC Л (s) = exp [—rs} — — Л (s)2 exp [rs], с начальным и граничным условиями х* (0) =з0, Л (Г) = ехр [-гГ] д. Решая (6.2.3), получаем где k{s) = 2c[el-e2q. ^exp - <2 - 2c0i 1 г^г- ехр q - 2св2 9\ — 02 x*(s) = w(0,s) #о + / ш_1((М)а Jo (Т-з) (T-s) dt ехр (—rs) s е [0, Т] (6.2.3) 0Х = г - А/г2 + ^, e2=r + Jr2 + ^; w (0, s) = ехр dr *м = («--*Ш-ф 71 - t72 (Г-г) g - 2cfli 1 ^~^r exp g - 2св2 0\ — в2 (Г-г) Подставляя A(s) и ж* (s) в (6.2.1), получаем выражение для и* (s) = С* (s,#o), К0Т0Рая оказывается функцией от s и жо- Рассмотрим теперь задачу оптимального управления на бесконечном промежутке времени (6.1.8)—(6.1.9). Гамильтониан может быть записан в виде Н (t,x,u)=g (ж,и) ехр [-г (* - t0)} +A(t)f (ж, w). Введем функцию Л (t) = Л (t) exp [r (t — to)}. Тогда формула для текущего значения гамильтониана принимает вид Н (t, х,и) — Н (t, ж, и) ехр [г (t — to)} — = g(x,u) + \(t)f(x,u). (6.2.4)
§6.3. Равновесие по Нэшу в программных стратегиях 341 6.2.3. Используя (6.2.4), можно переформулировать теорему п. 6.2.1 для задачи (6.1.10)-(6.1.11). Теорема. Управление u* (s) = С* {s,Xt) является оптимальным решением задачи управления на бесконечном промежутке времени (6.1.10)-(6.1.11) и {х* (s), s > t} — соответствующей оптимальной траекторией, если существуют такие сопряженные функции X(s) : [t,oo) —> Rm, что выполнены следующие условия: С (s, ж*)=гх* (s)-argmax {g [a? (s), и (s)]+A (s) f [x* (s), и (s)]} , и x*(s) = f[x*(s),u*(s)}, x'{t)=xt, A (s) = rX (s) --^{g[x* (s),u* (s)} +X(s)f [x* (s),u* (s)}} . Пример 4- Рассмотрим задачу, предложенную в примере 2, на бесконечном промежутке времени. Используя теорему п. 6.1.3, получаем С (s,xt) = «*(*) = = arg max < —х* (s) — cu(s) + A (s) о — и (s) x* (s) ' \>, x* (s) = a- u* (s) (x* (s))1/2 , x* (t) = xt, l + -\(s)u*(s)x*(s) -1/2 X(s)=r\(s) + Проведя максимизацию^Лаходим оптимальное управление -A(s)x*(s)1/2 (6.2.5) u*(s) Подставляя и* (s) в (6.2.5), получаем 2с х* (s) = a+ ~tMu* (s)х* (s) » ж* W = xt, 2с A(s) = rt(s) + '-5Л<') (6.2.6) Решая (6.2.6) аналогично тому как мы делали в примере 3 п. 6.2.2, получаем явные выражения для х* (s) и Л (s). Подставляя эти выражения в и* (s), получаем оптимальное решение нашей задачи. § 6.3. Равновесие по Нэшу в программных стратегиях 6.3.1. Наиболее сложной и в тоже время плодотворной областью теории игр являются динамические или дифференциальные игры, в которых принятие решения конкурирующими сторонами цроисходит непрерывно во времени, и при этом делаются дополнительные предположения, касающиеся информационной структуры, неопределенности и возможности предварительных соглашений. Дифференциальные игры возникли в 50-х годах, когда Р. Айзеке сформулировал задачу перехвата самолета управляемой ракетой в терминах навигационных переменных (состояния и управления) и вывел основополагающие уравнения для решения задачи ([Isaacs, 1965]). Вклад Айзекса вместе с
342 6. Неантагонистические дифференциальные игры классическим исследованием Беллмана в области динамического программирования и Понтрягина в области теории управления создали основы детерминистической теории дифференциальных игр. Первые работы в области дифференциальных игр были направлены на использование результатов теории оптимального управления для решения игровых задач. Л. Берковиц [Berkovitz, 1964] развил вариационный подход к дифференциальным играм. Г. Лейтман и Г. Мон [Leitmann, Mon, 1967] изучали геометрические аспекты дифференциальных игр. Л. Понтрягин [Pontryagin, 1966] предложил решать дифференциальные игры с использованием принципа максимума. Важнейшие результаты в области обоснования и методов нахождения решения антагонистических дифференциальных игр были предложены в [Красовский, 1970; Красовский, Субботин, 1974]. Особо следует отметить работы [Клейменов, 1990; Клейменов, 1993; Петров, 1970а; Петров, 1970b; Жуковский, Чикрий, 1994; Вайсборд, Жуковский, 1980; Тынянский, Жуковский, 1979]. Работы в области дифференциальных игр продолжают появляться в различных областях и разделах математики, в частности, в приложениях к экономике и менеджменту развиваются достаточно быстро, и подробный анализ указанных работ можно найти в работе [Dockner, Jorgensen, 2000]. 6.3.2. В дифференциальных играх или играх с непрерывным временем изучается класс проблем принятия решений, в которых эволюция состояния описывается дифференциальным уравнением, и игроки действуют на заданном временном промежутке. В частности, в общей дифференциальной игре п лиц игрок % стремится max gl [s, х (s), щ (s), u2 (s),..., un (s)} ds+ql (x (T)) (6.3.1) Ui Jto для г G N = {1,2,... ,n} , при условии, что состояние системы развивается в соответствии с дифференциальным уравнением x(s) = f [s, x (s), u\ 0), u2 (s),..., un (s)], x(t0) = x0, (6.3.2) где x(s) G X С Rm означает состояние системы в игре, и щ G U% — управление игрока г при г G N. Функции / [s,x,iii,n2,... ,un], дг [s, -, ui,U2, -.- ,un] и ql (-) при i e N и s G [to,T] предполагаются дифференцируемыми. Определим понятие стратегии в дифференциальной игре. Вспомним как определялась стратегия щ игрока г в динамической игре с полной информацией (см.- определение п. 4.1.1). Там под стратегией понималось некоторое правило, которое каждой позиции игрока х G Xi из его множества очередности ставило в соответствие следующую позицию у G Fx. Заметим, что реализация такой стратегии предполагает знание игроком позиции, в которой он находится при совершении очередного хода. Однако, поскольку граф игры является деревом, то знание позиции эквивалентно знанию всей предыстории игры до данной позиции. Стратегии в дифференциальной игре определяются аналогичным образом, при этом различаются два вида информационных состояний в игре: знание в каждый момент времени s G [^о>^1 начального состояния хо, момента s или знание в каждый момент времени s G [to,T] начального состояния игры хо, момента s и состояния игры в момент s, т. е. знание x(s). Под стратегией игрока г G iV мы будем понимать функцию Vi(s), ставящую в соответствие информации, имеющейся у игрока г в момент s, управление щ из множе-
§ 6.3. Равновесие по Нэшу в программных стратегиях 343 ства возможных управлений, т. е. в зависимости от состояния информации стратегии могут быть функциями времени Vi(s) — Ui(xo,s) и функциями состояния Vi(s) = Ui(xo,x(s), s). В первом случае мы будем говорить о программных стратегиях, в во втором — о позиционных. К сожалению, такое определение стратегии математически не достаточно корректно (хотя им пользуются большинство авторов [Isaacs, 1965; Jorgensen, 1985; Haurie, 1976; Leitmann, 1974] и др.), поскольку не всегда при подстановке стратегий в правую часть уравнения движения (6.3.2) можно гарантировать существование, единственность и продолжимость решения на весь отрезок [to, T]. Именно поэтому имеются различные уточнения понятия стратегий, свободные от указанного недостатка. Наиболее удачными являются стратегии, введенные в работах [Красовский, Субботин, 1974; Красовский, 1985; Клейменов, 1993; Чистяков, 1992; Малафеев, 1982]. Однако их определение и использование требует глубоких знаний соответствующего математического аппарата, изложение которого в данной книге не представляется возможным. Для наших целей введенное нами определение стратегий вполне достаточно. 6.3.3. Определение. Набор стратегий (ситуация){v\ (s) ,v% (s),...,г;* (s)} образует равновесие по Нэшу в дифференциальной игре (6.3Л)-(6.3.2) п лиц, если следующие неравенства выполнены для всех Vi (s) e Ul, i E N [ g1 [a, x* (a), v\ (a) ,v*2(s),..., v*n (a)] ds + q1 (x* (T)) > «/to > I g1 [s, xW (s), Vl (s) ,v*2(s),..., v*n (a)] da + q1 (x^ (T)) , / g2 [a, x* (s), vi (a), v*2 (a),..., < (a)] ds + q2 {x* (T)) > «/to > J g2 [s, *И (s), v\ (a), v2 (a) ,v*3(s),..., < (*)] ds + q2 (x® (T)) , / gn [s, x* (s), v\ (s) ,v*2(s),..., v*n (a)} ds + qn (x* (T)) > «/to >jgn [s, гМ (a), vj (e), -.., <_x (s), vn (a)] ds + qn (x^ (Г)) ;
344 6. Неантагонистические дифференциальные игры и на отрезке времени s S [^о>?1; х* (s) = / [s, x* (s), и? (s), vt, (s),..., v*n (s)\, x* (t0) = x0, ±W (s)=/ [s, XW (S), Vl (s), v*2 (s),..., v*n (s)] , xW (t0) = xo, ±И (s)=/ к а:И (s), v\ (s), v2 (s) ,v*3(s),..., v*n (sj\ , x® (t0) = x0, ±W (s) = f \s,xW (s) ,vl (s),... X-i (s),vn (s)\ , xW (to) = x0. Если игроки строят свои стратегии, изначально не предполагая изменять управлений в будущем в зависимости от состояния, информационная структура может быть рассмотрена как программная. Эти стратегии являются функциями начального состояния хо и времени s и могут быть записаны в виде {щ(в) — $i(s,xo) ,i Е N}. В частности, равновесие по Нэшу в программных стратегиях в игре (6.3.1) и (6.3.2) описывается следующей теоремой. Теорема. Для того, чтобы набор стратегий {и* (s) = Q (s,Xq) , г Е iV} являлся равновесием по Нэшу в программных стратегиях в игре (6.3.1)-(6.3.2), и {х* (s), to < s < Т} была бы соответствующей оптимальной траекторией необходимо существование сопряоюенных функций Аг (s) : [to,T] —> Rm при i G N, удовлетворяющих условиям: C*(5,x0) = Ui(s) = = arg max{g% [s,x* (s) ,u\ (s),... ,<-i (s) ,щ (s) ,<+i (s),... ,< (s)] + + Ai (s) f [s,x* (s) ,ul (s),... ,<-i (s) ,щ (s) ,u*+1 (s),... ,< (s)} } , x* (s) = f[s,x* (s),ul(s),u,2(s),...,Un(s)}, x*(t0) = x0, д A*(s) {flf* [S, X* (s) , U\ (S) , U\ (s) , . . . , < («)] +Ai(s)f{s,x*(s),ul(S),u*2(s),...,<(s))}, dx* Л'(Г) = —«*(** СП). Доказательство. Из условий теоремы фактически следует, что программное управление и* (s) — (* (s,xo) максимизирует выражение / дг [s, х (s), и\ (s),..., <_х (s), щ (s), <+1 (s),..., < (s)] ds + ql (x (T)), Jto на множестве всех программных управлений щ(в) G С/г при условии ±(s) = f [s, х (s), и\ {s),..., <_! (s), щ (s), <+1 (s),..., < (s)] , ж(^о) = жо, г е N.
§6.4. Равновесие по Нэшу в позиционных стратегиях 345 Это стандартная задача оптимального управления для игрока г, поскольку Uj (s) при jGNnj^i — фиксированные программные управления, не зависящие от u* (s). Поэтому теорема прямо следует из принципа максимума Понтрягина, сформулированного в теореме п. 6.2.3. §6.4. Равновесие по Нэшу в позиционных стратегиях 6.4.1. Предположим что информационная структура такова, что в каждый момент времени игрокам известны переменная состояния в этот момент времени, время и начальные условия. Стратегии игрока (позиционные стратегии) оказываются функциями начальных условий жо, текущего состояния x(s) и текущего времени s и могут быть представлены в виде {щ (s) = ^(s>#?#o) для i G N}. Следующая теорема содержит необходимые условия, которым должно удовлетворять равновесие по Нэшу в таком классе стратегий. Теорема. Для того, чтобы набор стратегий {щ (s) = &i (s,x,xo), для г G N} образовывал равновесие по Нэшу в позиционных стратегиях в игре (6.3.1)-(6.3.2), где {ж* (s), to < s <T} — соответствующая оптимальная траектория, необходимо существование п сопряженных функций Аг (s) : [^о?^] —* Нт при i G N, таких что выполнены следующие условия tf* (s, ж*, ж0) =<(*) = = arg max {дг [s, ж* (s), и* (s),..., и*_г (s), щ (s), <+1 (s),..., < (s)] + игеиг +Л* (s) f [«,ж* (s),u{ (s),... ,<_; (з),щ (s) ,<+1 (s),... ,< (s)] } , ж* (s) = f [s, x* (s), u\ (s), u*2 (s),..., it* (s)], ж* (to) = so, A* (s) - -^ {#* [s, x* (s), #J (5, ж*, ж0), #2 (5> z*, ж0),... . . . , ^*_! (S, Ж*, Ж0) , < (S) , tf*+1 (5, Ж*, Ж0) , . . . , #* (S, Ж*, Ж0)] + +Л* (5) / [S, Ж* (s) , #1 (S, Ж* , Ж0) , #2 (S, Ж*, Ж0) , . . . ...,tfj-i (s,ж*, ж0),u* (s),tf*+1 (5, ж*,ж0),...,$* (s,ж*,ж0)] , А*(Г) = А^(я:*(т)). Доказательство. Рассмотрим г-ое равенство в условиях теоремы, в котором зафиксированы все стратегии игроков (кроме стратегии г-го игрока) и при j ф г и j G TV Uj (s) = #!- (в,ж*,жо) — есть оптимальное управление игрока г. Тогда вышеприведенные условия следуют из принципа максимума Понтрягина, и игрок г максимизирует функционал гТ ^[s,x(s),^(5),...,<_1(s),^(s),<+1(s),...,<(5)]rf5 + gi(x(T)) на множестве выборов щ (s) G ?7г при условии ж (s) = / [s, ж (s), u? (s),..., <_! (s), гх* (s), <+1 (5),..., u*n (s)] , ж (t0) = жо, г G iV. I Jtn
346 6. Неантагонистические дифференциальные игры Заметим, что частные производные по переменной ж в сопряженных уравнениях теоремы п. 6.4.1 вычисляются при условии, что оставшиеся п — 1 стратегий игроков зависят от значений текущего состояния ж. Это обстоятельство отсутствует в сопряженных уравнениях теоремы п. 6.3.3. 6.4.2. Рассмотрим теперь состоятельное равновесие по Нэшу. Заметим, что определенное нами позиционное равновесие и равновесие в программных стратегиях зависят от начальных условий задачи. Однако во многих случаях удается построить равновесные решения, имеющие абсолютный характер, независящий от начального состояния процесса. Назовем такие равновесия состоятельными позиционными равновесиями. В дифференциальной игре п лиц (6.1.1)—(6.1.2) набор стратегий {и* (s) — ф* (s, x)G[/\ iG iV} образует состоятельное позиционное равновесие, если существуют функционалы (аналоги функции Беллмана) Vl(t,x), определенные на [to,T] х Rm и удовлетворяющие следующим условиям У*(Г,х) = д*(х), V%x) = I ^ [s,x*(s), 01(«эж) 0* (s,х)] ds + д*(^*(Г)) > ds+ > / gi |s, жи (s), ф\ (s,х),..., ф*_г (s,х), ф{ (s,х), ф*+1 (s,х),..., ф*п (s, х) +qi (х® (Г)) , ж Е iT\ при всех фг (з,ж), i e N. При этом на промежутке [to^T] имеет место ±М (s) = f [в, х® (5), # (s, х),..., фи (5, ж), фг (s, ж), 0*+1 (s, ж),..., </>* (5, ж)] , ж[1] (*) = ж; ж* (s) = / [s, ж* (s), ф\ (s, ж),..., ф*п (s, х)), ж (s) = ж. Одно важное свойство введенного нами определения состоятельного равновесия по Нэшу заключается в том, что если набор {</>*; г Е N} образует состоятельное равновесие по Нэшу в дифференциальной игре на отрезке [to,T], то его сужение на промежутке [t, T] образует состоятельное позиционное равновесие по Нэшу в той же самой дифференциальной игре, но определенной на более коротком промежутке [t, T] из начального состояния ж (t). Это имеет место для всех to <t <Т. Отсюда сразу же следует, что стратегия, образующая состоятельное позиционное равновесие, зависит лишь от времени и текущего состояния, но не зависит от предыстории (включая начальное состояние Жо). Поэтому стратегии игроков могут быть записаны в виде {щ (s) = фг (s, ж), для г Е N}. , Следующая теорема определяет необходимое условие существования состоятельных позиционных равновесий для игры (6.3.1)-(6.3.2). Теорема. Набор стратегий [и* (s) — ф* (t, ж) Е U1, г Е N} является состоятельным позиционным равновесием по Нэшу в игре (6.3Л)-(6.3.2), если существуют непрерывно-дифференцируемые функции V1 (t,x) : [to,T] x Rm -» R, г Е N, удовлетворяющие следующей системе дифференциальных уравнений в частных производных: -V?(t,x) = = max {дг [t, х, ф\ (t,х), ф*2 (t,х), , ф*_г (t, х), щ (t, х), ф*+1 (t, х),..., ф*п (t, x)] +
§ 6.5. Конкурентная реклама с двумя участниками 347 +Vxi(t,x)f[t,x,</>*1(t,x),<fe(t,x), ,</>*_! (Ь,х),щ(Ь,х) ,#+1 (t,x),...,<fc(t,xj\ } = Доказательство. По теореме п. б.3.3 Уг (#,ж) являются функциями значения (функциями Беллмана) в задаче оптимального управления для игрока i E N. Из определения п. 6.3.3 следует, что условие теоремы п. 6.4.2 являются условиями равновесия по Нэшу. 6.4.3. Рассмотрим теперь антагонистический вариант игры (6.3.1)-(6.3.2),в которой имеется всего два игрока и выигрыш игрока 1 равен выигрышу игрока 2 с противоположным знаком. В этом случае состоятельное позиционное равновесие характеризуется следующей теоремой. Теорема. Пара стратегий {ф* (t, х); г = 1,2} образует ситуацию равновесия (сед- ловую точку) в антагонистическом варианте игры (6.3.1)-(6.3.2), если существует непрерывно-дифференцируемая функция V : \bo,T] x Rm —> R, удовлетворяющая следующему уравнению в частных производных -Vt(t,x) = mmmax{g[t,x,ui (t) ,u2(t)} +Vxf[t,x,ui (t) ,u2(t)}} = = maxTnm{g[t,x,ui(t),u2(t)] +Vxf[t,x,ui (t),u2(t)}} = = {g [t, x, Ф1 (t, x), ф*2 (i, ж)] + Vxf [t, x, ф\ (t, x), ф*2 (t, x)}} , V(T,x) = q(x). Доказательство. Этот результат является частным случаем теоремы п. 6.4.2, если взять п = 2, д1 (-) = — д2 (-) = д (-) и д1 (-) = —д2 (-) = q (-). В этом случае У1 = —У2 = V, и существование седловой точки (ситуации равновесия) эквивалентно взаимозаменяемости операций минимума и максимума. § 6.5. Конкурентная реклама с двумя участниками В этом параграфе мы рассмотрим приложение теории дифференциальных игр к конкуренции в области рекламы. Рассмотрим динамическую игру конкурентной рекламы, впервые предложенную Г. Зоргером [Sorger, 1989]. На рынок выходят две фирмы, при этом функции дохода фирмы 1 и фирмы 2 имеют соответственно вид L f JO qxx (s) - у щ (s)2} exp (-rs) ds + exp (-rT) Sxx (T), (6.5.1) т 0 q2(l-x (s)) - ~- u2 («)2J exp (-rs) ds + exp (-rT) S2[l-x (T)], где r, q^ Ci, Si при г G {1,2} — положительные постоянные, х (5) — доля рынка фирмы 1 в момент s, [1 — х (s)} — доля рынка фирмы 2, щ(в) — вложения в рекламу фирмы г 6 {1,2}. Предполагается, что емкость рынка не изменяется со временем. Единственным рыночным инструментом, которым пользуются фирмы, является реклама. Реклама влияет на динамику изменения доли рынка каждой из фирм. Динамика изменения доли
348 6. Неантагонистические дифференциальные игры рынка первой фирмы определяется следующим дифференциальным уравнением х (з) = щ (s) [1-х (s)}1/2 - u2 (s) x (s)1/2 , x(Q) = x0. (6.5.2) Предположим, что в качестве принципа оптимальности фирмы выбрали равновесие по Нэшу в программных стратегиях. Использование программных стратегий требует, чтобы фирмы определили свои управления в начальный момент времени. Такое предположение реалистично лишь в том случае, если есть четкие соглашения, касающиеся рекламы. Согласно теореме п. б.3.3 решение в программных стратегиях игры (6.5.1)- (6.5.2) должно удовлетворять следующим условиям: u\ (s) = arg max \ q\x* (s) — -—щ (s) exp (—rs) + +Л1 (s) (Ul (s) [1 - x* (s)]1/2 - u2 (s) x* (s)1/2) } , «2 (s) = arg max | \q2 (1 - x* (s)) - yu2 (s)2] exp (-rs) + +Л2 (s) (u! (S) [1 - X* (S)]1/2 - U2 (S) X* (S)1/2) } , x* (s) = u\ (s) [1 - x* (s)]1/2 - u*2 (s) x* (s)1/2 , x* (0) = x0, A1 (s) = -qi exp (-re) + Л1 (s) Q< (s) [1 - x* (s)f1/2 + ^ (s) x* (s)-1/2) , A2 (s) = g2 exp (-rs) + Л2 (s) Q«J (s) [1 - ** (S)f1/2 + \u*2 (s) x* (S)~1/2) , Из (6.5.3) мы получаем Л1(Т) = ехр(-гГ)51, A2(T) = -exp(-rT)S2. u* (s) = Mfl h _ х* (e)ii/2 exp /rs) t ci и* (e) = Mfl [-с* (S)]V2 exp (rs) _ С2 (6.5.3) Подставляя u\ (s) и u2 (s) в (6.5.3), получаем aw ч f , ч ЛЛ1(»)]2 A1(s)A2(s)\) A4s) = |-9lexp(-rS)+ ^L1iiL + _U_UJ j *2/л f , ч Пл2(5)]2 A1(s)A2(s)\) с граничными условиями Л1 (Т) = exp (-rT) Si, Л2 (Т) = - exp (-rT) S2. (6.5.4)
§ 6.5. Конкурентная реклама с двумя участниками 349 Тогда уравнение движения в ситуации равновесия будет иметь вид ±« (8) = Л1(5)еХР(Г5) [1 - X* (,)] - ^^Р^Х* (S) , С\ С2 х* (0) = х0. (6.5.5) Решая систему дифференциальных уравнений (б.5.4)-(б.5.5), мы получаем выражения для х* (s), Л1 (s) и Л2 (s). Подставляя эти выражения в u* (s) и и2 (s), получаем программные равновесные стратегии. Попытаемся теперь найти позиционно-состоятельное решение в задаче конкурентной рекламы. Позиционное решение позволяет игрокам строить свои уровни рекламы в зависимости от состояния игры (состояния рынка), что является более реалистичным подходом к решению задачи (6.5.1)—(6.5.2). Используя теорему § 6.4 получаем, что равновесное решение игры (6.5.1)-(6.5.2) должно удовлетворять следующим условиям —V* (t,x) = max < \qix — -т-и\ exp (—rt) + u\ IL 2 J +V;1 (t,x) (Wl [l - x}1/2 - Ф1 (t,x)xV2)}, -V2 (t, x) = max { \q2 (1-х)- -^u22\ exp (-rt) + u2 IL 2 J +V*(t,x) (ф\ (t,x) [1 -x]1'2 -uix1'2)} , V1(T,x)=exp(-rT)S1x, V2 (T, x) = exp (-rT) S2 (1-х). (6.5.6) Нахождение максимизирующих стратегий в (6.5.6) дает нам ф\ (t, х) = Vx ^,Ж) [1 - х]1/2 exp (rt), ф*2^х) = ^^-[х}1/2ехр(Н). С2 Подставляя ф\(Ь,х) и ф2(Ь,х) в (6.5.6) и решая уравнение, получаем следующие функции значения (функции Беллмана) V1 (*, х) = ехр \-r (t)} [Аг (t) х + Вг (t)}, V2 (*, ж) - ехр [-г (*)] [А2 (*) (1 - х) + В2 (*)], (6.5.7) где А\ (t), B\ (i), А2 (t) и В2 (t) удовлетворяют уравнениям Ai(T) = SuBi(T) = 0,A2(T) = S2; В2 (Т) = 0.
350 6. Неантагонистические дифференциальные игры Подставляя соответствующие частные производные функций V1 (t,x) и V2 (t,x) из (6.5.7) в (6.5.6), получаем состоятельное позиционное равновесие по Нэшу Я(*,*) = ^[1-*]1/2, 4>*M = ^MV2. (бЛ8) Cl С2 § 6.6. Игры с бесконечной продолжительностью 6.6.1. Рассмотрим дифференциальную игру с бесконечной продолжительностью и с постоянным параметром дисконтирования. Будем считать, что игрок i G N стремится /»оо max / gl [x (s), щ (s), u2 (s),..., un (s)\ exp [-r (s - t0)} ds, щ Jto (6.6.1) при ограничении x(s)=f [x (s), ui (s), u2 (s),..., un (s)}, x (t0) = жо, (6.6.2) где г — постоянный параметр дисконтирования. Рассмотрим теперь подыгры игры (6.6.1)-(6.6.2), начинающиеся в момент времени t /»оо iax / gl [x (s), u\ (s), u2 (s),..., un (s)] exp [—r (s — t)] ds, i G N, (6.6.3) щ Jt при условии x (s) = / [x (s), щ (s), u2 (s),..., un (s)}, s > t, x(t) = x. (6.6.4) Игра (6.6.3)-(6.6.4), заданная на бесконечном промежутке времени, не зависит от выбора начального момента t, а зависит лишь от состояния х в момент начала игры. Как мы ранее показали, управление в задаче на бесконечном промежутке времени в случае автономной системы является функцией только состояния. Определение. В дифференциальной игре п лиц (6.6.1)~(6.6.2) набор стратегий {< (s) = ф\ Ы G U\ для г е N} образует состоятельное позиционное равновесие по Нэшу, если существуют функции Vх (t,x), определенные на [to,oo) x Rm и удовлетворяющие следующим соотношениям /со <f [x* (в), ф\ (Vs) ,...,ф*п (г,,)] exp [-г (s - to)} ds > /СО g{ [х (в), ф\ (rjs) ,---,Ф*-1 Ы Фг Ш Ф*г+1 Ы, - - -, Ф*п Ы] ехр [-г (s - to)] ds, \/фг(-,-)еГ, xeRn, для всех <pi(r]s), % s N, при этом на интервале [to, со) имеет место X (s) f [s (s) , ф\ (T]s) ,..., ф*_г (щ) фг (%) ф*+1 (%),..., ф*п (Г)8)] , хШ (t) = х; X* (в) = / [X* (в) , Ф\ (%) ,ф*2{г)е),...,Ф*п Ш] , X* (to) = Х0.
§6.6. Игры с бесконечной продолжительностью 351 Здесь символ rjs означает либо информационное состояние {s,xo}, либо информационное состояние {x(s),xo} в зависимости от того, какая информационная структура рассматривается. Мы можем записать /со gl [х* (s), ф\ Ы ,..., ф*п (Va)] exp [-г (s - t)] ds, где х (t) = x = xl — х* (t). Поскольку /»CO / gl [x* (s), Ф1 (t]s) ,ф2Ш,...,Фп Ы] exp [-r (s - t)] ds Jt зависит лишь от текущего состояния х, можно написать /со д< [х* (в), ^ ft.),..., ф*п (г,,)] exp [-r (в - t)] ds. Отсюда получаем для г G N Vi(t,x)=exp[-r(t-t0)]Wi(x), V? (t, x) = -г ехр [-г (t -10)] Wi (x), V? (*, ж) = exp [-r (t - to)] Wl (x). (6.6.5) Состоятельное позиционное равновесие по Нэшу для автономной игры на бесконечном промежутке времени (6.6.3)-(6.6.4) может быть охарактеризовано следующим образом. 6.6,2. Теорема. Набор стратегий {и* (s) — ф* (-) G U%\ дляг G iV} является состоятельным позиционным равновесием по Нэшу в игре на бесконечном интервале времени (6.6.3)-(6.6.4), если существуют непрерывно-дифференцируемые функции W1 (х) : Rm —> Д, г G N, удовлетворяющие следующей системе дифференциальных уравнений в частных производных rWi (x) = = max {дг [х, ф\ (х), ф\ (х),..., ф*_г (х), щ, ф*+г (х),..., ф*п (х)] + = {д*[хЖ1(*),Ф2(х),...,Фп(*)] + +УЪ(х)/[х,ф1(х),ф*2(х),...,ф*п(х)]}, для ieN. Доказательство. По теореме п. 6.1.3 функция W1 (х) является функцией значения соответствующей задачи оптимизации игрока i G N. Вместе с неравенством в определении п. 6.3.3 условия теоремы п. 6.6.2 дают равновесие по Нэшу. Поскольку 5 явно не входит в уравнение в частных производных, из теоремы п. 6.3.3 мы получаем независимость состоятельного позиционного равновесия по Нэшу от времени {и* = ф* (х), г G N}. Подставляя равновесные стратегии из теоремы п. 6.3.3 в (6.6.2), получаем равновесную траекторию x(s) = f [х (s), ф\ (х (s)), фЪ (х (s)),..., ф*п (х (s))], х (t0) = х0.
352 6. Неантагонистические дифференциальные игры Решая дифференциальные уравнения, получаем оптимальную траекторию К (*)}t>to B ВИДв X* (t) = Х0 + / / [х* (S) , ф! (х* (S)) , . . . , ф*п (X* (S))] <fa, t > t0. «/to Как и ранее обозначаем выражение х* (t) через xj\ Тогда состоятельное позиционное равновесие для игры на бесконечном отрезке времени (6.6.1)—(6.6.2) может быть получено в виде [Ф1(х;),ф*2(х1),...,ф*п(х;)}, t>t0. 6.6.3. Следуя теореме п. 6.2.1 ип. 6.3.3, охарактеризуем равновесие в программных стратегиях для игры с бесконечной временно продолжительностью (6.6.3) и (6.6.4). Теорема. Для того, чтобы набор стратегий {и* (s) = Q (s,xt) ,i G N} образовывал равновесие по Нэшу в программных стратегиях для игры на бесконечном промежутке времени (6.6.3)-(6.6.4), где {х* (s), t<s<T} — соответствующая оптимальная траектория, необходимо существование п таких сопряженных функций X1 (s) : [t, Т] —У Rm при ъ Е N, что выполнены следующие условия C*(s,x) = <(s) = = arg max {дг [x* (s), u\ (s),..., <_x (s), щ (s), <+1 (s),..., < (s)] + + A* (s) / [a* (s) ,«I (s),... ,<-i (s),Ui (s) X+i (s),... ,< (s)]} , ±* (s) = / [x* (s) ,u\ (s),u*2 (s),... ,< (s)], x* (<) = xu \i(s) = r\(8)-^;{gi[x'(8),U*1(s),t4(8),... ...,u*n(s)} + Xi(s)f{x*(S),u*1(S),u*2(s),...1u*n(s)}}. Доказательство. Рассмотрим г-ое равенство в условиях теоремы, из которого следует, что и* (s) = Q (s,xt) максимизирует />оо / gi [х (s), и\ (s),..., <_! (5), щ (s), <+1 (s),..., < (s)] ds, </*о на множестве гц (s) G ^7г при ограничении X(s) = f [x (s) , wj (5) , . . . , <_! (5) , ^ (5) , <+1 («),...,< (5)] , x(t)=xu ieN. Это есть задача оптимального управления для игрока г на бесконечном промежутке времени. Поскольку Uj(s), при j G N и j ф i,— программные управления и, следовательно, не зависят от и* (s), эти результаты следуют из теоремы п. 6.2.1. § 6.7. Модель конкуренции с бесконечной продолжительностью Рассмотрим динамическую дуополию, в которой две фирмы продают однородный продукт. Будем следовать [Tsutsui, Mino, 1990] и предположим что P(s) = k[a- иг (в) - и2 (s) - Р (з)], Р (t0) = Р0, (6.7.1)
§ 6.7. Модель конкуренции с бесконечной продолжительностью 353 где Р (s) — рыночная цена в момент s, щ(в) — объем выпуска продукции фирмой г G {1,2}, и текущий спрос определяется по формуле Р (s) — [а — щ (s) — u^ (s)]. Коэффициент k > О характеризует скорость изменения цены. Выигрыш фирмы г определяется как суммарный доход, дисконтированный на момент начала процесса [ [Р (s) щ (s) - сщ (s) - (1/2) [щ (s)]2} exp [-г (s - t0)} ds, *е{1,2}, (6.7.2) где сщ (s) + (l/2) [щ (s)\ есть затраты на производство продукции в объеме щ (s), a r — процентная ставка. Рассмотрим подыгру /оо . I P (s) щ (s) — сщ (s) — (1/2) [щ (s)] \ exp [—r (s — t)] ds, ге{1,2}, (6.7.3) при условии Р (s) = к [а - щ (s) - u2 (з) - Р (s)], P (t) = Р. (6.7.4) Игра на бесконечном промежутке времени (6.7.3)-(6.7.4) является автономной с постоянной процентной ставкой, поэтому можно применить теорему п. 6.6.3 для характе- ризации состоятельного позиционного равновесия по Нэшу. Поэтому можем написать следующие уравнения + rWi (Р) = max ( \Рщ - сщ - (1/2) (щ)2 +W^[*(a-ui-^(P)-P)]}, г<={1,2}. (6.7.5) Проводя максимизацию в (6.7.5), получаем <f>*(P) = P-c-kW*P(P), ie{l,2}. (6.7.6) Поставляя (6.7.6) в (6.7.5) и решая уравнение, получаем W* (Р) = ^АР2 - ВР + С, (6.7.7) где г + 6к - ^/(г + 6/с)2 - Ш2 А= 6^ ' _ -аЫ -he- 2/ссА г-3/с2А + 3/с ' с2 + 3/с2Р2-2/сР(2с + а) 2г С = Далее мы можем еще раз убедиться в том, что W% (P), определяемая (6.7.7), действительно решает (6.7.5), подставляя Wl (P) и ее производные в (6.7.5) и (6.7.6).
354 6. Неантагонистические дифференциальные игры Равновесные стратегии могут быть записаны в виде: <fi(P) = P-c-k(AP-B), % в {1,2} . Подстановка равновесных стратегий в (6.7.1) дает возможность записать равновесную траекторию игры (6.7.1)-(6.7.2) в виде Р (s) - к [а - 2 (с + кВ) - (3 - к А) Р (s)}, Р (t0) = Ро- Решение этого дифференциального уравнения дает нам выражение для оптимальной траектории р*(*) = к[а-2(с + кВ)] 0 fc (3 - Ы) г , ,„ , ,ч , Л [а - 2 (с + fc-В)] Обозначим для простоты Р* (t) через Pt*. Состоятельное позиционное равновесие для игры (6.7.1)-(6.7.2) может быть записано в виде ф*{Р:) = Р;-с-к{АР*-В), i G {1,2} . Нахождение программного равновесия оставим читателю. 6.8. Упражнения и задачи ющую f пах / u Jtt 1. Рассмотрим следующую задачу оптимального управления: max П0 z(s)1/2 ехр [—г (s — to)] ds + exp[-r(T-<0)]gx(T)1/2, при условии x(s) = ах (s)1/2 — bx (s) —u(s)\, x (to) = xq E X. Найти оптимальное управление, используя принцип динамического программирования Беллмана. 2. Используя постановку задачи из упр.1, выполнить следующие задания. а) Пусть с = 1, g = 2, г — 0.01, to = 0, Т = 5, а = 0.5, Ъ — 1 и хо — 20. Найти оптимальное уравление, оптимальную траекторию и выписать выражение для сопряженной функции А (в). б) Пусть с = 1, q = 2, г = 0.01, to = 0, Т — 5, а = 0.5, Ъ = 1 и хо = 30. Найти оптимальное уравление, оптимальную траекторию и выписать выражение для сопряженной функции A W- 3. Рассмотрим игру, в которой игрок i максимизирует выигрыш '*0 при условии / {Р (s) щ (s) - сщ (s) - (1/2) [щ (s)]2} ехр [-г (s - t0)] ds, где г G {1.2} , P(s) = k[a- Ul (s) - u2 (s) - P (s)}, P (to) - Po. Найти равновесие по Нэшу в программных стратегиях.
§6.8. Упражнения и задачи 355 4. Рассмотрим игру max ( Г \10ui (s) - ^Ц4~ I exP [-0.05s] ds + exp (-0.5) 2х (Г) 1 , иг U О L X(S) J J где ге{1,2,...,6} при условии A W - 15- |я(а) - $>,- (^), я(0) = 25. а) Найти равновесие по Нэшу в программных стратегиях. б) Найти равновесие по Нэшу в позиционных стратегиях. 5. Найти равновесие по Нэшу в программных стратегиях для модели конкуренции с бесконечной продолжительностью (см. § 6.5). 6. Рассмотрим модель конкурентной рекламы с двумя участниками (см. § 6.7). Будем предполагать, что задача рассматривается на бесконечном временном промежутке. Найти равновесие по Нэшу в позиционных стратегиях. 7. Рассматривается теоретико-игровая модель сокращения вредных выбросов в атмосферу [Jorgensen, Martin-Herran, Zaccour, 2003]. Пусть s(t) — поток загрязнений, d{t) — выбросы г-й страны, г = 1,..., п. Динамика игры задана уравнением: s(t) = ]Г piei(t) - 8s, s(o) = so > 0, где pi — неотрицательный параметр. Доход Лг(бг) определяется по формуле: Ri(ei) = jdog(aiei), л > 0, с^ > 0. Функция затрат Di(s) линейна и определяется по формуле: Di(s) = 0г5, фг > 0. Выигрыш игрока г имеет вид /*оо iri(so,ei,...,en)= / (ДДе*) - A(s))e"ptdt. Jto Найти равновесие по Нэшу в позиционных стратегиях. Указание. Функцию Беллмана искать в виде Vi — AiS + Bi. Обратить внимание на симметричность игроков. 8. Вывести уравнение типа Беллмана для задачи оптимального управления (6.1.1), (6.1.2) при [to,T], где Т — случайная величина с известной функцией распределения F(t), t G [to; oo) [Шевкопляс, 2009]. В качестве интегрального функционала взять математическое ожидание функционала (6.1.1). 9. Используя решение упражнения 8, найти оптимальные управления в примере 1, предполагая, что задача рассматривается при [to,T], где Т — случайная величина с известной функцией распределения F(t),t G [to;oo). Найти решение при предположении, что случайная величина Т распределена по закону^ Вейбулла (F(t) = 1 - e~At\t > t0). 10. Рассмотрим модель конкурентной рекламы с двумя участниками (см. § 6.5). Будем предполагать, что рассматривается игра со случайной продолжительностью (см. упражнение 8). Найти равновесие по Нэшу в позиционных стратегиях.
Глава 7 Кооперативные дифференциальные игры в форме характеристической функции §7.1. Определение кооперативной игры 7.1.1. Рассмотрим общую дифференциальную игру Г(^о,Т — to) для п лиц с уравнением движением вида Я (5) = / I5' Х (5) » ^1 (5) » ^2 0) , . . . , Un (s)] , X (t0) = Ж0, (7ЛЛ) Выигрыш игрока г определяется так: / д* [s, х (s), щ (s), u2 (s),..., un {s)]ds + g* (x (T)), (7.1.2) «/to ie N = {i,2,...,n}, где ж (s) G X С .Rm — позиционная переменная игры и щ e Ul — управление игрока i G N. Выигрыши игроков предполагаются трансферабельными. Используя теорему п. 6.4.1, состоятельное позиционное равновесие может быть построено в предположении, что игроки в игре не кооперируются. А теперь рассмотрим случай, когда игроки согласились на кооперацию. Обозна- i чим через Гс (xq,T — to) кооперативную игру с игровой структурой игры Г (хо, Т — to), в которой игроки согласились действовать в соответствии с некоторым заранее определенным принципом оптимальности. Соглашение о том, как кооперироваться и как < разделить выигрыш, получившийся в результате кооперации, составляет содержание принципа оптимальности в кооперативной игре.
§ 7.2. Дележи 357 Таким образом, принцип оптимальности в кооперативной игре Гс (о?о, Т — to) состоит из: 1) соглашения о множестве кооперативных стратегий (управлений), 2) механизма распределения общего выигрыша между игроками. 7.1.2. Принцип оптимальности должен сохранять свою эффективность вдоль кооперативной траектории {x*s}s=:t . Более того, групповая рациональность требует, чтобы игроки ориентировались на множество стратегий (управлений), дающих оптимальное по Парето решение. В дополнении к этому, принцип распределения выигрыша должен удовлетворять свойству индивидуальной рациональности в том смысле, что ни один из игроков не должен ухудшить свое состояние в результате кооперации. Для выполнения свойства групповой рациональности в случае трансферабельных выигрышей игроки должны стремиться к максимизации суммарного выигрыша N ( gj [s, x (s), Ul (s), u2 (s),..., un (s)] ds + qj (x (Г)) I , (7.1.3) to I при условии (7.1.1). 7.1.3. Используя принцип максимума, множество оптимальных управлений u* (s) = [и* (s), Ц (s),..., ti* (s)] может быть описано теоремой п. 6.2.1. Подставляя этот набор оптимальных управлений в (7.1.1), получаем оптимальную траекторию {х* (t)}t=t , где я* (t)=x0+ [ f [*> ** (*) ^* Ml <**, t Z [to, T]. (7.1.4) Как и ранее мы будем использовать как обозначение х* (t), так и обозначение х*. Обозначим величину 71 ( г т gi[s,x*(s),u*(s))ds + qi(x*(T)) to через v (N;xo,T — to). Пусть S С iV, и v (S;xo^T — to) — характеристическая функция, отражающая максимальный гарантированный выигрыш коалиции 5. Величина v (S; хо, Т — to) означает максимальный выигрыш коалиции S в случае, когда оставшиеся игроки из коалиции N\S играют против S. Используя супераддитивность характеристической функции, получаем v(S;xo,T — to) >v(Sf;xo,T — to), если Sf С S С N. Поэтому игрокам выгодно создавать максимальную коалицию N для получения максимально возможного суммарного выигрыша v (N; xq, T — to) в данной игре. § 7.2. Дележи 7.2.1. Важнейшей частью исследования кооперативных игр является исследование возможности создания коалиций и предложение «приемлемого» распределения суммарного кооперативного выигрыша между игроками. В действительности, аппарат характеристических функций показывает возможности коалиций и является основой для построения схем распределения суммарного выигрыша, которые приемлемы для игроков-участников.
358 7. Кооперативные дифференциальные игры Мы будем использовать символ Г^ (хо, T — to) для обозначения кооперативной дифференциальной игры в форме характеристической функции. Исследуем сейчас различные решения игры Г^ (xq, T — to). Определение. Вектор % (х0, Т - t0) = [& (х0, Г -10), & (ж0, Г - *о) > - - - > &i (жо> Т - t( удовлетворяющий условиям: 1) 6(a?o,T-to)>v({i};xo,r-t0), г G JV, Х^ & (*о, ^ ~ *о) - v (N; х0, Т - t0), jew называется дележом в игре Tv (хо,Т — to). Условие 1 определения § 7.2. гарантирует индивидуальную рациональность в том смысле, что игрок в условиях данного дележа получает по крайней мере столько же, сколько бы он мог получить, если бы играл против всех игроков. Условие 2 гарантирует оптимальность по Парето, а, следовательно, и групповую рациональность. Теорема. Предположим, что функция w : 2n x Rm x R1 —> R1 аддитивна на S е 2п, т. е. для любых S, A Е 2п, S П А = 0 лш имеем w (S U А; хо,Т —to) = ги (5; хо, Т — to) + ги (А; хо, Т — to). Тогда в игре Г^ (хо, Г — to) суил,ествует единственный дележ: ^ (#о> Т — to) = w ({г} ; хо, Т — to) для всех i e N. Доказательство. Из аддитивности функции iu мы немедленно получаем ti7 (TV; х0, Т - t0) - w ({1} ; х0, Г - t0) + - - - + w ({п} ; х0, Т - t0), Отсюда и в силу индивидуальной рациональности дележа следует теорема § 7.2. 7.2.2. Игры с аддитивной характеристической функцией называются несущественными, в отличие от игр с супераддитивной функцией, которые называются существенными. В существенных играх Г^ (xq,T — to) множество дележей бесконечно. Действительно, любой вектор вида [у({1};х0,Т-Ьо)+аиу({2};хо,Т-Ьо) + а2, ,и ({п} ; х0,Т - t0) + ап] , (7.2.1) где c*i > 0, i G N и ]Г Oii = v (TV; х0, Т - t0) - 52 v (Ш ; *о, Т - t0), является дележом в игре Tv (хо, Т — to). Обозначим множество дележей в игре Г^ (х*о,Т — to) через Ev (хо,Т — to). Определение. Будем говорить, что дележ ^(хо,Т —to) доминирует дележ rj (хо,Т '— to) по коалиции S или писать % (хо, Т — to) yrj(xo,T — to), если & (х0, Г - t0) > т?г (х0, Т -to), ie 5, :]Г& (х0,Г - t0) < г; (5;х0,Г - t0). гЕ5
§7.3. Дележи в динамике 359 Дележ t;(xo,T — to) доминирует дележ rj (жо, Т — to), или ^ (жо, Т — to) >~ rj (#о, Т — to), если существует коалиция SciV, такая что ^ (жо, ^ — ^о) yv(xo,T — to). Из определения следует, что доминирование по одноэлементной и максимальной коалиции невозможно. 7.2.3. Определение. Множество недоминируемых дележей игры Tv(xo,T — to) называется С-ядром игры и обозначается через Cv (ж*о,Т — to). Определение. Мноэюество Lv (жо, Т — to) С Ev (жо, Т — to) называется решением по Нейману и Моргенштерну (NМ-решением) игры Tv (жо,Т — to), если $ (ж0, Т - t0), г] (ж0, Г - t0) G Lv (ж0, Т -t0), влечет e(x0,r-to)^ry(xo,T-t0), 2) если rj (х0, Т — to) ф. Lv (ж0, Т — t0), mo существует такой дележ: % (жо, Т — to) G Lv (жо, Т — to), что %{хо,т-г0)уг1(хо,т-го). Заметим, что TVM-решение всегда содержит С-ядро, если последнее не пусто. 7.2.4. Определение. Вектор Фу (жо, Т — to) — {Ф^ (жо? Т — to), г = 1,..., п} называется вектором Шепли, если он представим в виде ф?(*о,:г-*о) = (п-д)1(8-1)! ^ п\ SCN(S3i) ieN. [v (5; жо, T-t0)-v (S\i; ж0, Г - t0)], Компоненты вектора Шепли являются выигрышами игроков от кооперации. Вектор Шепли всегда единственный и является дележом. Интересно отметить, что вектор Шепли, в отличии от ядра и TVM-решения, определяет способ распределения суммарного выигрыша v (N; жо,Т — to) без использования понятия доминирования. § 7.3. Дележи в динамике 7.3.1. В п. 7.2.1 мы построили дележи, определенные в начальный момент игры. В динамике игроков естественно интересует как происходит изменение дележей при развитии игры вдоль кооперативной траектории. В этом параграфе мы сосредоточим свое внимание на динамике дележей, подчиненных определенным принципам оптимальности. Пусть в игре Г^(жо,Т —to) выбран некоторый принцип оптимальности. Этот принцип оптимальности, примененный к игре из начальных состояний ж (to) — л;о, t = to, определяет некоторое подмножество множества дележей Wv{x$,T —10) С Ev (ж*о,Т — to) и оптимальную траекторию {ж* (t)}t==t , которая максимизирует J2 \[ 9j [s, x* (s), и* (s)} ds + j (x* (T)) 1 .
360 7. Кооперативные дифференциальные игры Мы предполагаем также, что Wv (хо, Т — to) ^ 0. h=t0 Определение. Любая траектория {х* (t)}t==t системы (7.1.1), для которой имеет место Ш g> [s, х* (s), и* (s)) ds + q> (х* (Г)) V = г; (W; so, T - *о), to J называется оптимальной траекторией игры Tv (хо,Т — to) или оптимальной кооперативной траекторией. Из определения п. 7.3.1 следует, что вдоль оптимальной траектории игроки получают максимальный суммарный выигрыш. Предположим, что такая траектория существует. Рассмотрим поведение множества Wv (xq,T — to) вдоль оптимальной траектории {х* (t)}t=t . Для каждого текущего состояния х* (t) = x\ на оптимальной траектории текущая подыгра Г^ (х*, Т — t) определяется следующим образом. В момент времени t и состоянии х* (t) определим характеристическую функцию (0, 5 = 0, v(S;x*t,T-t) = I ValTs{x*t,T-t), S С N, (7.3.1) [ KN(x*(t),u*(-),T-t), S = N, где KN (x*t,u* (.) ,T - t) = J2 \[9j [s,x* (s),u* (s)} ds + q* (x* (T)) 1 представляет собой суммарный выигрыш игроков на промежутке времени [t, T] вдоль оптимальной траектории {х* (s)}s=v и Val Г5 (х^Т — t) — значение антагонистической игры Ts (х*,Т — t) между коалициями S и N\S из начального состояния х* (t) = х* продолжительностью Т — t, в которой коалиция S является максимизирующей. Множество дележей в игре Г^ (х*, Т — t) имеет вид Ev(x*t,T-t) = (ейл $i>v({i};x*tlT-t), t = l,2,...,n; J2ti = v(N;xlT-t)\, (7.3.2) гбЛГ J где v(N;xlT-t) = = v(N;x0,T-t0) - Ё {/ 9j [s,x* (s) ,u* (s)]ds + qi (x* (T))\ . Величина ]Cj==i \ It $ t5'x* (5)'u* (5)J ^s + $ (x* PO) f представляет собой кооперативный выигрыш игроков на промежутке времени [to,t] вдоль траектории {х* (s)}5==t . 7.3.2. Рассмотрим семейство текущих игр {Г^ (х^,Т — t), to < t < Т} и их решений Wv(xt,T — t) С Ev(x*,T — t), порожденных тем же принципом оптимальности, который определял решение Wv (xq,T — to) в начальный момент.
§ 7.4. Принцип динамической устойчивости 361 Лемма. Множество Wv (x^,0) является решением текущей изры Yv (x*j>, 0) в момент Т и состоит из единственного дележа q(x*(T)) = {qi(x*(T)),q2(x*(T)),...,qn(x*(T))} = = {q1(x*T),q2(x*T),...,qn(x*T)}. Доказательство. Поскольку игра l\,(x^,0) имеет нулевую продолжительность, для всех г G N имеет место г> ({г} ; ж^,0) = q1 (xj)- Поэтому J2ieNv (W '^хт^) ~ SiGiv^(xT) — v(N]Xt,0) , и характеристическая функция игры Г\,(ж^,0) аддитивна по S. Тогда согласно теореме п. 7.2.1 имеем что завершает доказательство леммы. § 7.4. Принцип динамической устойчивости 7.4.1. Построение оптимального поведения игроков является основным элементом теории кооперативных игр. Поведение игроков, удовлетворяющее определенному принципу оптимальности, образует решение игры. Иными словами, решения кооперативных игр порождаются целой совокупностью принципов оптимальности (например, вектор Шепли [Shapley, 1953], решение Неймана-Моргенштерна [Neumann, Morgenstern, 1944], арбитражное решение Нэша [Nash, 1953]). В динамических играх должно выполняться еще одно важное требование: выбранный принцип оптимальности должен генерировать то же решение в любой подыгре, возникающей вдоль оптимальной траектории, выбранной игроками в начальный момент игры. Это условие носит название динамической устойчивости или временной состоятельности. Предположим, что в начале игры игроки выбрали некоторый принцип оптимальности (который включает в себя соглашение о выборе траектории, максимизирующей суммарный выигрыш игроков). Когда игра развивается вдоль оптимальной траектории может оказаться, что выбранный принцип оптимальности или будет порождать пустое множество решений, или решение отличное от того, которое соответствовало ему в начальный момент игры. В этом случае некоторые игроки могут посчитать для себя более выгодным отклониться от кооперативной траектории (траектории, максимизирующей суммарный выигрыш игроков), выбранной ими в начале игры. Если такое происходит, то это ведет к неустойчивости процесса и, как следствие, к нереализуемости первоначально выбранного решения о кооперации. В частности, динамическая устойчивость (временная состоятельность) принципа оптимальности означает, что когда игра развивается вдоль кооперативной траектории, в каждый момент времени игроки, ориентируясь на один и тот же принцип оптимальности, следуют одним и тем же решениям и поэтому не имеют оснований отказаться от принципа оптимальности, принятого ими в начале игры и тем самым не имеют оснований отказаться от кооперации. 7.4.2. Вопрос динамической устойчивости в кооперативных дифференциальных играх подробно обсуждался последние десятилетия в научной литературе. А. Ори [Haurie, 1976] заметил возможную динамическую неустойчивость арбитражной схемы Нэша при попытке ее переноса на дифференциальные игры. Л. Петросян [Petrosjan, 1977] формализовал понятие динамической устойчивости для кооперативных дифференциальных
362 7. Кооперативные дифференциальные игры игр. Петросян и Данилов [Petrosjan, Danilov, 1979; 1982] ввели понятие процедуры распределения дележей во времени для кооперативных решений, которая позволяет в определенном смысле преодолеть проблему динамической устойчивости. В. Толвинский и др. [Tolwinski, 1986] рассмотрели кооперативное равновесие в дифференциальной игре с использованием стратегий угроз, которое позволяло игрокам оставаться на кооперативной траектории. В книге Л. Петросяна и Н. Зенкевича [Petrosjan, Zenkevich, 1996] приведен детальный анализ динамической устойчивости в дифференциальных играх. В частности, предложен метод регуляризации для построения динамически устойчивых (состоятельных во времени) принципов оптимальности. Д. Янг и Л. Петросян [Ye- ung, Petrosyan, 2001] построили состоятельные во времени (динамически устойчивые) решения дифференциальной игры и вывели условия, которым должен удовлетворять состоятельный во времени (динамически устойчивый) оптимальный дележ. Л. Петросян [Petrosyan, 2003] использовал метод регуляризации для построения состоятельных во времени (динамически устойчивых) арбитражных решений. § 7.5. Динамически устойчивые решения 7.5.1. Пусть заданы решения подыгр Wv (х%,Т — i) Ф 0, to < t < Т вдоль оптимальной кооперативной траектории (максимизирующей суммарный выигрыш игроков) {х* (t)}t=zt . Если условие неиустоты решений не выполнено, то игроки не могут следовать выбранному принципу оптимальности, поскольку в первый же момент времени t, когда Wv (х%,Т — t) = 0, игроки не будут иметь возможности выбора решения, соответствующего первоначальному принципу оптимальности. Предположим, что в начальном состоянии х0 игры игроки согласились на выбор дележа С (а*,Г - t0) - [6 (х0,Г - t0),... ,& (х0,Т - tQ)} e Wv (х0,Т - tQ). Это означает, что игроки договорились на такой дележ суммарного выигрыша, при котором выигрыш г-го игрока на промежутке времени [to,T] составляет & (хо,Т — to). Если в соответствии с дележом игрок % должен получить выигрыш Wi [% {xq,T — to); х* (t) ,t — to] на отрезке времени [to,t], то на оставшемся промежутке [t,T] он должен получить в соответствии с дележом ^ (хо, Т — to) выигрыш, равный щ [i (.то, Т - to); х* (t),T-t]= & (х0, T-t0)- w,t [{(х0, Г - t0); х* (t),t- t0] - (7.5.1) 7.5.2. Определение. Пусть rj [% (хо, Т — to); x* (t), Т — t] — вектор с компонентами гц [^(х0,Т-t0);x* (t) ,T- t], для % G {1,2,... ,п} . Для того, чтобы первоначально выбранный принцип оптимальности % (хо, Т — t0) сохранял свою значимость в текущий момент t на оптимальной траектории, необходимо, чтобы вектор 77 К (а*, Т - t0);x* (t),T-t}e Wv (x*,T - t), (7.5.2) и тогда г/ [^ (хо, Т — to); х* (t), Т — t] будет действительно решением текущей подыг- ры Tv (xjf, Т — t). Если это условие выполняется в каждый момент времени t G [to, T) вдоль траектории {х* (t)}t=i , тогда дележ ^(xq,T — to) динамически устойчив.
§ 7.6. Процедура распределения дележа 363 Вдоль траектории х* (t) на отрезке времени [t,T], to < t < Т коалиция состоящая из всех игроков N получает выигрыш v (N; x*(t),T-t)=f2lJT gj [s, x* (s), u* (*)] ds + q> (x* (T)) 1 . (7.5.3) Тогда разность v(N;x0,T -t0) -v(N;x* (t) ,T -t) = ^1 f g* [s, x* (s), u* (s)] ds\ есть выигрыш коалиции N на промежутке [to,t]. Динамическая устойчивость (состоятельность во времени) дележа % (хо,Т — to) гарантирует, что принцип оптимальности, породивший этот дележ, примененный к начальным условиям на оптимальной траектории в более поздние моменты времени приводит к дележу аналогичной структуры. Более того, сохраняется групповая и индивидуальная рациональность решения. Для выполнения этого условия необходимо ввести некоторый механизм реализации дележа во времени (механизм временных выплат). § 7.6. Процедура распределения дележа 7.6.1. Мы определим процедуру распределения дележа (ПРД), впервые введенную Л. Петросяном в 1978 г. таким образом, чтобы первоначально выбранный принцип оптимальности мог бы быть в действительности реализован в игре. Предположим, что выигрыш, получаемый игроком г на интервале времени [to,t], может быть представлен в виде Wi \i [xo (-), Т - t0); х* (-),*- t0] = f Bi (s) ds, (7.6.1) Jt0 Bj (s) = J2 9* I*'x* (*) 'u* (*)1' *o < * < * < T. r Из (7.6.1) получаем По где jeN jeN Эта величина может интерпретироваться как мгновенный выигрыш игрока г в момент времени t. Очевидно, что вектор В (t) = [B\ (t), B2 (t),..., Bn (t)} определяет распределение суммарного мгновенного выигрыша между игроками коалиции N. Правильным выбором функций В (t) можно достичь того, чтобы игроки не были заинтересованы в моменты времени t G [to,T] отклониться от первоначального соглашения о дележе ^ (хо, Т — to). Определение. Делеою % (.то, Т — to) <Е Wv (жо, T — to) динамически устойчив (состоятелен во времени) в игре Tv (xo,T — to), если выполнены следующие условия: 1) существует оптимальная траектория {ж* (t)}t=t , вдоль которой Wv(x*(t), Т - t) ^ 0, *0 < * < Т,
364 7. Кооперативные дифференциальные игры 2) существуют функции В (t) — \В\ (t), В^ (t),..., Bn (t)}, интегрируемые на отрезке [to,T] и такие, что ]Г Bj (t) = Y, 9j M* (t) ,ti* (t)], t0 < s < t < Г, jeN jeN Z (x0,T - t0) G f| (w К (xo (0 ,T - t0) ;x* (t), t - t0] 0 W^ (x* (t) ,T - t)), *o<t<T где вектор w[%(xo(-),T — to); x*(t),t — to] с компонентами ^i K(xo.(*) >^ — ^o) ;x* (t) ,t — to], г G N\ Wv(x* (t) ,T — t) — решение текущей подыгры Tv (х* (t) ,T — t) в^олъ оптимальной траектории, и оператор 0 означает следующее: для rj G #п «Ас Яп, 77 0 ^4={?7 4- а| a G -А}. 7.6.2. Мы будем говорить, что кооперативная дифференциальная игра Гу (xq,T — to) имеет динамически устойчивое (состоятельное во времени) решение Wv (xq,T — to), если все дележи ^ (хо,Т — to) G Wv (хо,Т — to) динамически устойчивы (состоятельны во времени). Из определения п. 7.6.1 получаем Z (х0, Т -10) G (w К (х0 (-), Г - t0); х* (t), Т - t0] в Wv (х* (Г), 0)), где Wv (х* (Т), 0) = q (х* (Г)) — решение игры Г^ (х* (Т), 0). Поэтому можно написать Z(x0,T-t0) = / Б(в)Ая-9(а:*(Т)). Динамически устойчивый дележ ^ (хо, Т — to) G Wv (хо, Т — to) может быть реализован следующим образом. Из определения п. 7.6.1 следует, что в каждый момент времени to < t < Т мы имеем включение: $ (х0, Г - t0) е (ш К (х0, Г - t0); х* (t),t- t0] 0 Wv (x* (t), Г - t)), (7.6.3) где w Ц (хо, Т — to); х* (t), t — to] — Jt B (s) ds — вектор выигрышей игроков на отрезке времени [to,t]. Выигрыш игрока г на этом же отрезке времени может быть выражен в виде: ;K(x0,T-to);x*(t),t-to]= / Bi(s)ds. Когда игра развивается на отрезке времени [to,t], игроки делят суммарный заработанный на этом отрезке выигрыш rt [ Y,9j[s,x*(s),u*(s)}ds таким образом, что выполняется включение: С (хо, Г - to) - w К (хо, Г - t0); х* (t), t - t0] <E Wv (x* (t), Г - t). (7.6.4)
§ 7.7. Управление загрязнением окружающей среды 365 Условие (7.6.4) обеспечивает существование вектора ^(х^Т — t) G Wv(x* (t) ,T — t), удовлетворяющего соотношению е (ж0,Т - t0) = m{{; (s0, Г - t0) ;x* (*),*- *0] + С(*?,Г - t). Таким образом, после выбора вектора В (s) вектор выигрышей, получаемый игроками на оставшемся отрезке времени [t,T], удовлетворяет условию Z(xlT-t) = Z(x0,T-to)-w[Z(x0,T-to);x*{t),t-to] = = J B(s)ds + q(x*(T)), где J2 Bj (s) = J2 93 [s,x* (s),u* (s)), t < s < T, jeN jeN Z(x*t,T -t) GWv{x* (t) ,T -t). Изменяя вектор w [% (xa,Т — to)]x* (t) ,t — to] при условии ]Г wj К (so, T - t0); x* (t),t-t0]= f Y, 9j [*, ** W, u* (s)] ds, игроки гарантируют расположение множества {w К (ж0,Г - t0) ;x* (*),*- to] 0 Ww (ж* (t) ,T - *)) таким образом, то условие (7.6.3) выполняется. 7.6.3. Реализуя свои выигрыши с использованием ПРД В (г), удовлетворяющей условиям (7.6.3)-(7.6.4) в каждый момент времени to < t < Т, игроки ориентированы на один и тот же принцип оптимальности, приводящий к одному и тому же дележу ^ (х%,Т — t)G Wv (ж* (t) ,T — t) в течение всей игры и поэтому не имеют оснований для пересмотра первоначального решения. Динамическая неустойчивость решений кооперативной дифференциальной игры приводит к обесцениванию принципа оптимальности, породившего данное решение, поскольку выбранный в начале игры дележ из решения Wv (xq,T — to) не остается в этом решении, когда игра заканчивается. Именно поэтому мы считаем, что множество Wv (xq,T — to) может называться решением игры Г^ (хо, Т — to), если оно динамически устойчиво. В противнбм случае мы вынуждены констатировать, что игра Г^ (хо, Т — to) не имеет решения в смысле данного принципа оптимальности. § 7.7. Управление загрязнением окружающей среды 7.7.1. Рассмотрим модель загрязнения окружающей среды, предложенную Л. Пет- росяном и Д. Закуром в [Petrosjan, Zaccour, 2003]. Обозначим через N множество стран- участниц соглашения о сокращении вредных выбросов в атмосферу (игроков). Загрязнение страны (игрока) i G {1,2, ...,n} = N в момент времени t G [0, оо) обозначим через rriiit). Пусть x(t) — загрязнение, накопленное к моменту t с момента начала
366 7. Кооперативные дифференциальные игры игры. Изменение совокупной величины загрязнения происходит в соответствии с дифференциальным уравнением ^М = ±(t) = j2miw -6х(*)' х(°) =х^ (7-7Л) где 5 означает долю естественной очистки загрязнения. Каждый из игроков стремится минимизировать общую дисконтированную сумму затрат на сокращение вредных выбросов и затрат, возникающих из-за потерь, вызванных загрязнением атмосферы. Последнее зависит от накопленного загрязнения. В дальнейшем, для упрощения обозначений, мы опускаем аргумент, означающий время в тех случаях, когда это не приводит к возможному непониманию текста. Обозначим через Ci (rrii) затраты на сокращение выбросов игрока i при условии, что он ограничил свои выбросы величиной ra$, а через Di (х) обозначим затраты, возникающие из-за потерь, вызванных загрязнением атмосферы. Предположим, что обе функции непрерывно дифференцируемы и выпуклы, причем С (rrii) < 0 и D' (х) > 0. Таким образом, задача каждой страны (игрока) % состоит в минимизации функционала ЛОО min J*(m, ж) = / exp (-rs) {Ci (m* (s)) + A (x (s))}ds (7.7.2) гщ JQ при условии (7.7.1), где m = (mi,m2,...,mn), иг — единый для всех участников коэффициент дисконтирования. 7.7.2. Наша модель выбрана исходя из следующих предпосылок. Во-первых, упрощенная динамика в рассмотренной эколого-экономической задаче позволяет выделить проблему распределения затрат между участниками соглашения и позволяет построить механизм распределения этих затрат во времени. Далее, в этой постановке присутствует основная особенность рассматриваемой проблемы, а именно то, что затраты каждого игрока зависят от общего уровня выбросов и накопленного к данному моменту загрязнения. Условие выпуклости рассматриваемых функций и условия на знак производных кажутся нам также вполне естественными. Например, условие выпуклости функции Ci (ег) означает, что прирост затрат на сокращение выбросов выше при невысоких уровнях выброса (см. [Germain, 1998]). Для простоты математических выкладок предполагается, что страны дисконтируют свои затраты одинаковым образом. В данной постановке для упрощения задачи мы считаем, что снижение уровня загрязнения происходит только за счет снижения уровня вредных выбросов в атмосферу и никак не учитываем возможность использования очистных мероприятий. Последний случай исследовался в работе [Krawczyk, Zaccour, 1999]. 7.7.3. Рассмотрим вопрос о распределении вектора Шепли на временном интервале. Для решения задачи распределения затрат на сокращение вредных выбросов использовалась методология теории кооперативных дифференциальных игр. Выделим основные шаги использования методологии: 1) Вычисление значений характеристической функции кооперативной игры. 2) Распределение между игроками суммарных кооперативных затрат в соответствии с вектором Шепли. 3) Распределение затрат, определяемых компонентами вектора Шепли для каждого игрока на отрезке времени с целью обеспечения динамической устойчивости (временной состоятельности) вектора Шепли.
§ 7.7. Управление загрязнением окружающей среды 367 Мы используем вектор Шепли в качестве принципа оптимальности по двум причинам: единственностью и возможностью построения для любых игровых задач. Первые два шага нашего подхода являются классическими (может быть кроме, частично, шага 1, поскольку способ вычисления значений характеристической функции в нашем случае не будет традиционным). Третий шаг предполагает распределение затрат на временном интервале состоятельным во времени способом. Ниже мы покажем, как это предполагается сделать. 7.7.4. Состояние игры определяется парой (t,x). Тогда кооперативная подыгра, берущая начало из этого состояния будет обозначаться через Tv(x,t). Обозначим через xN (t) траекторию (траекторию развития уровня загрязнения) при полной кооперации (большая коалиция N). В дальнейшем мы будем использовать два обозначения для кооперативной траектории xN-(t) и х^. Пусть Tv (x^t) — подыгра с началом на кооперативной траектории. Значение характеристической функции, вычисленной для подкоалиции К С N в подыгре Г^ (x,t), определяется как минимальные затраты этой подкоалиции и обозначается как v (К; ж, t) (далее мы подробно объясним, как вычисляются эти минимальные затраты). Следуя этому определению, общие кооперативные затраты, которые должны быть распределены между игроками, равны v(N;x, 0), что и составляет минимальные затраты коалиции N и совпадает со значением характеристической функции для большой коалиции в игре Г\;(х,0). Обозначим через Ф^ (ж, t) = [Ф\ (ж, t), Фг> (ж, t),..., Ф^ (ж, t)\ вектор Шепли в подыгре Tv (x,t). Обозначим далее через Bi(t) затраты игрока % в момент времени t, и пусть B(t) = (Bi (*),...,Bn(t)). Вектор В (t) = [JBi (t), В2 (t),..., Bn (t)] представляет собой процедуру распределения дележа (ПРД), так что имеет место /»оо Ф?(ж,0)=/ exp(-rt)Bi(t)dt, г = 1,...,п. (7.7.3) Jo Интерпретация этого определения очевидна. Функция времени Bi (t), являясь ПРД, распределяет затраты игрока г, определяемые компонентой вектора Шепли, вычисленной для всей игры 1\(ж,0). Вектор В (t) является динамически устойчивой (состоятельной во времени) ПРД, если для (х^ ,t) и t G [0, оо) выполнено следующее условие: ф^ (Ж(Ь 0) = / ехр (-гт) В{ (г) dr + exp (-rt) ФУ (x?,t) . (7.7.4) Jo Для того, чтобы интерпретировать условие (7.7.4) предположим, что игроки пожелали пересмотреть кооперативное соглашение о затратах в игре Г^ (ж, 0) в какой-то произвольный промежуточный момент времени t. В этот момент состояние системы будет xN (t), что означает, что кооперация игроков происходила до момента t и что каждый из игроков понес затраты, определяемые первым слагаемым в формуле (7.7.4). Если то, что он уже потратил до момента t плюс то, что он должен еще потратить, начиная с этого момента, ориентируясь на тот же принцип оптимальности (компоненту вектора Шепли в подыгре, начинающейся с этого момента) совпадает с компонентой вектора Шепли, тогда изменение первоначального соглашения не имеет смысла. Если можно найти такую ПРД В (t) = [Si (t), В2 (t),..., Bn (*)], что (7.7.4) выполнено, тогда эта ПРД динамически устойчива (состоятельна во времени). Мы предложим алгоритм построения такой ПРД в предположении дифференцируемости вектора Шепли. Можно убедиться в глубоком содержательном смысле формул для ПРД В (t) = [B\ (t), В2 (t),..., Bn (t)].
368 7. Кооперативные дифференциальные игры 7.7.5. Перейдем к формулировке алгоритма решения задачи. На первых трех шагах алгоритма вычисляются элементы, необходимые для вычисления характеристической функции, которое происходит на четвертом шаге. На последних двух шагах вычисляется вектор Шепли и функции ПРД A (t), i = 1,2,..., п. Шаг 1. Минимизация суммарных затрат большой коалиции. Большая коалиция решает задачу минимизации суммарных затрат методом динамического программирования при ограничениях, задаваемых динамикой развития накопленного загрязнения, т. е. /оо ехр [-г (г - t)] {Сг (ггц (т)) + А (х (r))}dr При УСЛОВИИ X (s) — 2_\ шг (s) ~ $х (s) > х (t) = XN (0 - mm mi .m2,...,m. ieN Обозначим через W(N,x,t) функцию Беллмана для этой задачи оптимизации. В результате решения получаем вектор выбросов mN (xN (r)) = [m^ (xN (r)) ,... , га^ (xN (т))] и соответствующее накопленное загрязнение при полной кооперации xN (r). Шаг 2. Вычисляем состоятельное позиционное равновесие. Поскольку игра происходит на бесконечном отрезке времени рассматриваются лишь стационарные стратегии. Для получения равновесия по Нэшу, при условии непрерывной дифференцируемости функций значения (выигрышей в равновесии по Нэшу) необходимо решить следующую систему нелинейных уравнений Айзекса-Беллмана (см. теорему §6.6.) rV (х) = min I d (ггц) + А (х) + V%x (x) У] ГПг — 5х лет ieN. Обозначим через т* (ж) = [т\ (х), т^ (х),..., т* (х)\ любое состоятельное позиционное равновесие кооперативной игры. Этот набор можно рассматривать как обычную стратегию выбросов при отсутствии кооперации. В дальнейшем для конкретного случая мы получим выражения этих стратегий в явном виде. Теперь же мы только заметим, что используя эти стратегии, мы можем получить равновесные затраты в игре 1\;(хо,0), которые мы обозначим через V*(0,xo) = V >0) и равновесные затраты в подыгре 1\; (x^t) которые мы обозначим через V1 (t,x^) = V (х^). Шаг 3. Вычисление затрат для подкоалиций. Для получения затрат для любого подмножества игроков (коалиций) мы поступим следующим образом. Затратами каждой коалиции будет сумма затрат игроков, входящих в коалицию. В функции затрат игроков и в правую часть дифференциального уравнения мы в качестве управлений игроков, не входящих в коалицию, подставим стратегии, полученные на шаге 2 (т. е. стратегии, входящие в равновесие по Нэшу). Обозначим через W (if, ж, t) значение этих затрат, вычисленные для коалиции К. Это
§ 7.7. Управление загрязнением окружающей среды 369 значение определяется из решения следующей задачи: W(K,x,t) = (s) = ^2mi (s) - Sx (s), x (t) = xN (t). Шаг ^. Определим теперь характеристическую функцию. Характеристическая функция v (K;x,t) определяется следующим образом: г; ({г}; М) = Vi (x,t) = Т (х), г = 1,...,п; v (#; ж, *) = W (#;:&,*), КС/. Шаг 5. Вычисление вектора Шепли. Обозначим через <Р (х, t) = [Ф^ (х, t), Ф2 (х, t),..., Ф^ (х, 2)] вектор Шепли в игре Tv (x,t); i-ая компонента вектора Шепли определяется по формуле ФГ(х,0^^(П"^)![/С~1)![^(К;х^)-^(АЛ{г};х^)], где /с — число игроков в коалиции К. Если кооперация продолжается в течение всей игры, то затраты игрока % определяются компонентой вектора Шепли в игре 1\ (хо,0) и равны Ф? (х0, 0) = J2 {n~k)l\k~1)l [W (К; хо, 0) - W (К\ {г} ; х0,0)]. КЪг П' Обоснование нестандартного подхода к определению характеристической функции будет дано позже. Шаг 6. Построение состоятельной во времени (динамически устойчивой) ПРД. Распределяем затраты игрока г, г = 1,... -, п на отрезке времени t G [0,00) в соответствии с формулой В, (t) = гЦ (af, t) - |ФГ (*?, t). ' (7.7.5) Формула (7.7.5) предписывает в каждый момент времени t затраты игрока г в соответствии с его будущими затратами минус производную будущих затрат. 7.7.6. Утверждение. Вектор В (t) = (В\ (t),..., Bn (t)), где компоненты Bi (t) определяются формулой (7.7.5), является динамически устойчивой ПРД. Доказательство. Покажем что вектор (7.7.5) является ПРД, т. е. /0°° exp (-rt) Bi (t) dt = ФУ (хо, 0). Умножая (7.7.5) на дискаунт exp (—rt) и интегрируя, получаем /*оо лоо / exp (-rt) Bi (t) dt= exp (-rt) Jo Jo = _ exp (-rt) Ф? (xN, t) |~ = Ф? (xo, 0) гф?^,*)-!*?^.*) dt =
370 7. Кооперативные дифференциальные игры Применяя аналогичным образом интегрирование для Ф\ (x^,t), можно показать, что Фу (xq, 0) = /0 ехр (—гт) Bi (r) dr + exp (—rt) Ф^ (х^,t), что и есть условие динамической устойчивости. 7.7.7. Перейдем теперь к обоснованию алгоритма и особого вида характеристической функции. Как было ранее отмечено в работе [Petrosjan, Zaccour, 2003], при формулировке алгоритма решения задачи важнейшим элементом теории переговоров является определение точки статус-кво, которая показывает, что могут получить игроки, если переговоры проваливаются. Эта точка определяет индивидуальную силу игрока, когда он действует в одиночку. Та же идея применима и к подмножеству игроков. Для измерения силы некоторого подмножества игроков (коалиции) необходимо обратиться к понятию характеристической функции — математическому аппарату, в точности со- - зданному для измерения подобной силы. Все известные решения кооперативной теории (С-ядро, вектор Шепли, ATM-решение и др.) используют аппарат характеристических функций для определения множеств дележей, определяющих то или иное решение. В частности, С-ядро состоит из дележей, выбор которых не может быть оспорен ни одной из коалиций, а вектор Шепли представляет собой дележ, удовлетворяющий определенной системе аксиом. Если полученное таким образом множество дележей не состоит из единственного дележа, игроки могут вести переговоры о выборе единственного дележа из множества дележей, составляющих решение. В динамической (дифференциальной) игре дележи соответствуют выигрышам (в нашем случае — дисконтированным суммам), получаемым игроками в течение всей игры. Важнейшим условием является то, чтобы распределение выигрыша во времени было бы допустимым, т. е. чтобы интегрированный выигрыш, получаемый им в течение всей игры, совпадал бы с его компонентой дележа-решения (см. определение процедуры распределения дележа Ч(ПРД) §7.6.) Очевидно, что можно построить бесконечное число подобных распределений дележа на временном интервале игры, но далеко не все распределения могут быть концептуально и интуитивно обоснованы. Основной принцип, заложенный нами в распределение индивидуальных затрат на временном интервале, заключается в том, что если игроки захотят пересмотреть первоначальное соглашение о выбранном дележе в любой промежуточный момент времени на оптимальной кооперативной траектории, то они получат тот же результат (тот же дележ). Заметим, что в данном случае вычисление характеристической функции производится нестандартным путем. Предполагается, что игроки, не входящие в коалицию, а именно, игроки из коалиции N\K, используют свои равновесные по Нэшу стратегии, при вычислении значения характеристической функции для коалиции К, Заметим, что в теории игр имеется не так много подходов к определению характеристической функции. . Классический подход был предложен Д. фон Нейманом и О. Моргенштерном [Neumann, Morgenstern, 1944], в котором они предполагают, что игроки, не входящие в коалицию, стремятся, объединившись, максимизировать затраты игроков, входящих в коалицию. Этот подход, который приводит к минимальным гарантированным затратам, не совсем подходит при рассмотрении нашей задачи. Действительно, маловероятно, что если страны объединились в коалицию для решения своих проблем, связанных с охраной окружающей среды, другие страны объединятся в антикоалицию с тем, чтобы препятствовать их усилиям. Мы, конечно, признаем возможность использования подхода фон Неймана и Моргенштерна в кооперативной теории, однако в нашем случае он не применим.
§ 7.7. Управление загрязнением окружающей среды 371 Другим подходом является аксиоматический подход, при котором значения характеристической функции приписываются коалициям из некоторых внешних соображений, показывающих силу коалиции, как это было предложено Д. Филаром и П. Гертнером [Filar, Gaertner, 1997]. Этот подход применим в тех случаях, когда сила коалиции может быть оценена экспертным путем без анализа индивидуальных возможностей игроков. Кроме того, такой подход сильно затруднен при использовании в дифференциальных играх, поскольку не позволяет найти зависимость характеристической функции от начальных состояний игры. Здесь мы используем более традиционный путь для определения значений характеристической функции, который основывается непосредственно на исследовании игрового процесса как такового. Третий подход заключается в предположении, что значения характеристической функции вычисляются как выигрыши в равновесии по Нэшу в игре между этой коалицией и антикоалицией. Здесь мы сталкиваемся с вычислительными трудностями и трудностями, связанными с неединственностью равновесия. Действительно, для определения значений характеристической функции таким образом нам пришлось бы решить 2П — 2 дифференциальных неантагонистических игр (число, равное числу непустых коалиций в игре). В нашем же случае мы решаем лишь одну дифференциальную игру (находим равновесия по Нэшу). Все остальные задачи сводятся к стандартным задачам оптимального управления. Такой подход значительно проще, поскольку решение дифференциальной- игры существенно сложнее задачи оптимального управления. Вспомним теперь, что в качестве оптимального дележа нами выбран вектор Шепли. Поэтому нашей целью является вычисление г-ой компоненты этого вектора. Для ее вычисления нам нужно вычислить маргинальные вклады игрока во все коалиции, т. е. величины v (К,S,t)—v (K\ {i} ,5,t). Если бы нам пришлось пользоваться третьим подходом к определению характеристической функции, то нам пришлось бы находить равновесия по Нэшу в игре между коалицией К и контркоалицией N\K. При этом если в какой-то из этих 2П — 2 игр равновесие по Нэшу было бы неединственным, то мы столкнулись бы с исключительно сложной проблемой выбора. При нашем подходе игроки не входящие в коалицию придерживаются равновесных стратегий (выбросов) из одного и того же равновесия по Нэшу, которое было первоначально найдено в игре. Если окажется так, что на шаге 2 алгоритма мы получим несколько равновесий по Нэшу, то мы просто можем подсчитать вектор Шепли для каждого из них, минуя при этом проблему выбора. 7.7.8. Пример 1. Рассмотрим здесь некоторые частные виды функций, фигурирующих в нашей задаче. Пусть в (7.7.2) имеем Ci(rrii) = -{Шг-Шг} , 0 < 771» < Ш», 7 > О И % G {1, 2, 3} ; Di (х) = 7ГХ, 7Г > 0. Вычисление оптимальных затрат большой коалиции (Шаг 1). Функция значения W (АГ, ж, t) удовлетворяет следующему уравнению Беллмана: rW(N,x,t)^= = min < V" (- [rrii -т;]2+7гж) + Wx(N,x,t) г=1 2_] Шг — 5х г=1 (7.7.6)
372 7. Кооперативные дифференциальные игры Проводя операцию минимизации в (7.7.6), получаем mf = rui - -Wx (TV, x, t), при % e {1,2,3} . 7 Подставляя m^ в (7.7.6) и решая, получаем з W(N,x,t) = W(N,x) = Зтг ,N г (г + S) [ Зтг Е 327Г т* .2=1 7 (г + о) 27 (г + *) при i е {1,2,3} гх > , и Оптимальная траектория выбросов имеет вид з xN(t)=exp(-5t)x(0) + ]: E-f [1 - exp (St)] (7.7.7) (7.7.8) (7.7.9) Вычисление равновесия по Нэшу (Шаг 2). Для нахождения состоятельного позиционного равновесия по Нэшу используем теорему § 6.6. и получаем следующее уравнение Беллмана rV (x)=min< 7 __ 2 * -[mi-mi] +7TX + VX (x) У^ m*+mi-5x J6[l,2,3] при г е {1,2,3}.. Находя минимум в правой части (7.7.10), получаем 1—г т* = гйг Vx (ж), г Е {1, 2, 3} . 7 Подставляя (7.7.11) в (7.7.10) и решая уравнение, находим з (7.7.10) (7.7.11) V'(x) 7Г ^ Зтг г (г + 5) 1 27 (г + 5) при i G {1,2,3}. m?: г=1 7 (г + 5) + гж , Тогда равновесные по Нэшу выбросы имеют вид * 7Г га, = га,- 7 (г + 5)' ie {1,2,3}. (7.7.12) (7.7.13) Разница между выбросами по Нэшу и выбросами при кооперации состоит в том, что в кооперативном случае игрок учитывает маргинальные затраты всех членов большой коалиции, а не только свои.
§ 7.7. Управление загрязнением окружающей среды 373 Вычисление оптимальных затрат для промежуточных коалиций (Шаг 3). Функция значения W (К, ж, t) для каждой коалиции if, состоящей из двух игроков, должна удовлетворять следующему уравнению Беллмана: rW(K,x,t) = Yl (^[m-rni}2+7rx)+Wx(K,x,t) = mm mi,i(zK \*-—' \2 KiEK 2_] 1Щ + m* — 5x (7.7.14) где j $ K. Пользуясь тем же способом решения, который мы использовали для нахождения значения для большой коалиции, получаем W(K,x,t) = W(K,x) 2тг ' (г + 5) {гек 47Г 27 (г+ 6) j(r + 5) + гх , Соответствующие выбросы для коалиции К будут равны 2тг т? = га,- у (г + 5)' Определение характеристической функции (Шаг 4)- v ({г} ;x,t) = V1 (x,t) = Vl (x) = ieK. (7.7.15) (7.7.16) г (г 4- 5) I 27 (r + 5) Ylmi- Зтг г=1 7 (г + 5) гх) , г = 1,2,3; v(K;x,t) = W(K,x,t) = W(K,x) = 2lT | ^-^ 47Г 7Г KiZK г (г+ 5) \f^ 2у(г + 5) у (г+ 5) КС {1,2,3}. + гх > , Вычисление вектора Шепли (Шаг 5). Если значения га^ симметричны, то вектор Шепли вычисляется в явном виде ф?(М) = Е (П~ fcT ~ 1}>(^;*,*)-г^\Ш;*,*)] = г = 1,2,3. (7.7.17)
374 7. Кооперативные дифференциальные игры Вычисление функций ПРД (Шаг 6). Заметим, что согласно (7.7.9) функции ПРД имеют вид В« (*)= гФ? (*?,<)-^Ф? (*?,*). dt'"f Прямые вычисления дают нам Bi (t) = nxN (t) 9n2 \2> г = 1,2,3. 27 (г + S)" Умножая обе части (7.7.18) на дискаунт-фактор и интегрируя, получаем 9тг2 (7.7.18) /»СЮ лОО / exp (-rt) Bi (t) dt = / exp(-rt) Jo Jo i = l,2,3, 7TXiV (*) + 27(r + 5)' dt, (7.7.19) и из (7.7.8)-(7.7.9) получаем xI4(t)=exp(St)x(0) + 1 E 37Г m,- 27(r + 5) [1-exp (-ft)] 7 (r + 5) Подстановка ж^ (t) в (7.7.19) дает нам ЛОО / exp {-rt) Pi (t) dt = Jo Г°° Р°° 7Г f ^ ^ = / exp [— (r + 5) i] 7rccodt + / exp (—rt) — I Y"] Mj Jo Jo d ^.=1 +yo ехр[-(г+5)^5^Е^-^г^)]^+у0 exp(-ri) И, интегрируя, получаем ЛОО / exp (-rt) ft (*) ^ = Jo dt 9тг2 27(r + <^ rdt. M^y{27r(s^+rx(0)) 9тг2 7 (r + S) :Ф?(^0,0), 1,2,3. 7.8. Упражнения и задачи 1. Рассмотрим игру со следующей характеристической функцией: г; ({г}) = 0, пригЕ {1,2}; v({3}) = 50; v ({1, 2}) = 100; v ({1,3}) = 200; v ({2,3}) - 300; и({1,2,3}) = 500.
§ 7.8. Упражнения и задачи 375 а) Вычислить вектор Шепли. б) Вычислить вектор Шепли, предположив, что v ({2,3}) = 200 вместо 300. 2. Рассмотрим игру со следующей характеристической функцией: v ({г}) = 0, при г Е {1,2,3} ; v ({4}) - 0.15; v({t,j}) = 0.1, при ije {1,2,3}, гфу, v ({г, 4}) = 0.2, при г G {1,2,3} ; v({i,j,k}) = 0.5, при z,j,fc G {1,2,3}, г Ф j Ф к\ v({l,2,4}) = 0.55; v ({1,3,4}) = 0.6; v ({2,3,4}) = 0.65; v({l,2,3,4}) = l.' а) Вычислить вектор Шепли. б) Вычислить вектор Шепли, предположив, что v ({4}) = 0.2 вместо 0.15. 3. Рассмотрим игру со следующей характеристической функцией: v({i}) = Wi, г = 1,2,3,4; v({iJ}) = Wij, г,j G {1,2,3,4}, i<j\ v({i,j,k}) = wijk, i,j,k G {1,2,3,4}, i < j < к; v({l,2,3,4}) = W; причем Wi Л-Wj < Wij, при г, j G {1,2,3,4} , г ф j] Wij +wk < wtjk, при i,j,k G {1,2,3,4}, i ф j ф к; w^ +Wki < W, при ij,k,l G {1,2,3,4}, гф j ф к ф /; Wij к + wi < W, при i,j,k,l G {1,2,3,4}, гф j ф кф 1\ Wi>0, при г G {1,2,3,4}. Вычислить вектор Шепли. 4. Рассмотрим следующую динамическую эколого-экономическую модель игры 3 лиц. Выбросы страны г G {1,2,3} в момент времени t (t G [0, сю)) обозначим как га* (i). Пусть х (t) — уровень накопленных загрязнений к моменту t. Уравнение динамики имеет следующий вид: ^1 = х (t) - J2 т- (*) -Sx (*) > х (°) = 100> г=1 где 5 = 0.05 — коэффициент абсорбции. Каждая страна стремится к минимизации расходов на сокращение выбросов и устранение последствий загрязнения: min J* (га, ж) — / ехр(—rs) {Ci (га* (s)) -f Di (x (s))} ds, mi Jo где Ci (mi) = - [Vfli - ?Пг]2 , 0 < 7П; < 771», 7 > 0, Di (x) — x. Предположим, что страны договорились о сотрудничестве и решили разделить общие расходы согласно вектору Шепли. Следуя подходу Петросяна и Заккура
376 7. Кооперативные дифференциальные игры [Petrosyan, Zaccour, 2003], построить характеристическую функцию. Вычислить вектор Шеп- ли и процедуру распределения дележа (ПРД). 5. Рассмотреть кооперативный вариант игры управления вредными выбросами в модели [Jorgensen, Martin-Herran, Zaccour, 2003] (см. упр. 7 главы б). Предположим, что страны договорились о сотрудничестве и решили разделить общие расходы согласно вектору Шепли. Следуя подходу Петросяна и Заккура [Petrosyan, Zaccour, 2003], построить характеристическую функцию. Вычислить вектор Шепли и процедуру распределения дележа (ПРД). 6. Изучить модель управления загрязнениями (см. § 7.7) при предположении, что игра рассматривается со случайной продолжительностью (см. упр. 8-10 главы б). Построить характеристическую функцию и вычислить вектор Шепли.
Глава 8 Кооперативные дифференциальные игры двух лиц с дисконтированием §8.1. Постановка задачи 8.1.1. Рассмотрим неантагонистическую дифференциальную игру двух лиц из начального состояния #о продолжительности Т — to в пространстве состояний X С Rm с множеством допустимых траекторий {х (s), to < s < Т}. Состояние игры изменяется в соответствии с системой дифференциальных уравнений вида x(s) = f [s, х 0), щ (s), u2 (s)}, x (t0) = .t0. (8.1.1) В момент времени s E [#о>^1 мгновенный выигрыш (плотность выигрыша) игрока г Е {1,2} обозначим через дг [s, x (s), щ (s), и2 (s)]. Кроме того, в момент Т завершения игры игрок г получает терминальный выигрыш q1 (x(T)). Выигрыши предполагаются трансферабельными как между игроками, так и во времени. Предполагается заданным параметр дисконтирования г (s) в каждый момент времени s Е [to,T] и поэтому выигрыши, получаемые в момент t после момента начала игры to, умножаются на величину - Jt г (у) dy . Таким образом, в момент ^о выигрыш игрока г Е {1,2} определяется ехр по формуле / g%[s,x(s),ui(s),u2(s)]exp\- r(y)dy\ds + Jto L «/to . -exp - / r(y)dy Jto Яг(х(Т)). (8.1.2) Рассмотрим случай некооперативного поведения игроков. Обозначим через Г (хо,Т — to) игру (8.1.1)—(8.1.2). Используя теорему п.'6.4.2, мы можем охарактеризовать решение игры Г (#o, T — to) следующим образом. Теорема. Множество стратегий { >* (г) = <^о)* (*,*-), U2 (t) = ф2° (t,x)> образует состоятельное позиционное равновесие по Из-
378 8. Игры двух лиц с дисконтированием шу в игре Г(жо,Т — to), если существуют непрерывно дифференцируемые функции V(to)1(t,x) : [t0,T] x Rm -> R и V^2 (t,x) : [t0,T\ x Rm -> R, удовлетворяющие следующей системе уравнений Айзекса-Беллмана: -Vt(to)i (*, х) = max (<f к ж, щ, ф{-0> (t, ж) u* ^ L J ехр ~ / r(2/)dy . Л0 +Fito)i(*^)/k^wi,^to)*(*»a;) V(to)* (T,x) = ехр - / г Ы «/to dy ?*М: ге{1,2}, JG{1,2}, j^i. Состоятельные позиционные стратегии являются марковскими и зависят лишь от текущего момента времени t и текущего состояния х и поэтому не зависят от предыстории игры. Рассмотрим подыгру Т(хТ1Т — т) со структурой выигрышей вида (8.1.1) и с динамикой (8.1.2), начинающуюся в момент времени т Е [to,T] из состояния хт Е X. Следуя теореме п. 8.1.1, обозначим равновесие по Нэшу в состоятельных позиционных стратегиях в игре Г (жг, Т — г) через < <f>i (t, x), 02 (*» х) \ и соответствующую функцию значения для игрока г Е {1,2} (выигрыш в ситуации равновесия как функция начального состояния) через V^1 (t,xt) : [т,Т] х Rn —>- Я. Тогда функции У^1 (*,ж) и T/(r)2 (i, ж) удовлетворяют следующей системе уравнений: г(т)г , Vt (#, ж) = max < дг i, ж, гл^ (2, ж), </>!- (#, ж) ехр i г (у) dy + + V^ (t,x) f \t,x,Ui(t,x) ,4>Y>* (t,x) F(T)i(T,x)=exp - / r(y) dy <f (х), г 6 {1,2}, je{l,2}, эфг. (8.1.3) 8.1.2. Замечание 1. Заметим, что равновесные стратегии являются марковскими в том смысле, что они зависят от текущего состояния и времени. Сравнивая уравнения Айзекса-Беллмана (8.1.3) для различных значений г Е [io»^]» можно заметить, что кЮ* *(*,*(*)) = ^Ч*. *(*)), se[r,T], У(г)*(т,хт)=ехр / r(y)dy t j Г(У) dy y(to)i(r,xr), to<r <t<T, ie {1,2},
§8.1. Постановка задачи 379 В равновесии по Нэшу игры Г (жт, Т — г) настоящее значение выигрыша г-го игрока на промежутке [t, T] при х (t) = xt и t e [т, T] определяется по формуле V(T)f(Mi) - /#* |s, х (s), <^т)* (5, х (s)), 4т)* (5, ж (s))J exp - / г ' (У) dy ds + ехр - / г (у) dy ЯЧ*(Т)) x(t)=xu г G {1,2} . Траектория игры в ситуации равновесия получается из решения системы дифференциальных уравнений x(s) = f\s,x (s), ф[г)* (s,х (s)), 4rj* (s, ж (s)) , ж (*) = ж. (г)* (8.1.4) 8.1.3. Пример 1. Рассмотрим игру добычи ограниченного ресурса, в которой две фирмы имеют лицензию на проведение работ на отрезке времени [to, Т]. Запасы ресурса x(s) Gl С R изменяются в соответствии с дифференциальным уравнением 1 /9 х (s) — ax (s) ' — bx (s) — u\ (s) — u2 (s), x (to) = x0 e X, 3.1.5) где u\ (5) — уровень добычи игрока 1 и «2 (s) — уровень добычи игрока 2. Мгновенные выигрыши в момент времени s e [to, Т] игроков 1 и 2 соответственно равны / л1/2 ui (5) ' - С\ x(s) 1/2 ui(s) U2(s) 1/2 С2 Ж (5) 172^2 (*) где ci и С2 константы и ci 7^ с2- В момент времени Т каждый добывающий получает дополнительный выигрыш в размере д\х(Т))=дх(Т)1/2, который зависит от величины запаса ресурса в момент окончания игры. Выигрыши трансферабельны во времени и между игроками. Задан параметр дисконтирования г и поэтому выигрыши, получаемые в момент t после момента начала игры to, умножаются на множитель exp [—г (t — to)}. В момент времени to выигрыши игроков 1 и 2 соответственно равны f «/to Ui(s) 1/2 Cl Г**1 (5) x(s)1/2 + eXp[-r(T-t0)]qx(T)1/\ exp [—r (t — to)] ds + ./to M5) 1/2 C2 Ж (5) 1/2 ^ (S) exp [—r (t — to)] ds + + exp[-r(T-t0)]gx(T)1< (8.1.6)
380 8. Игры двух лиц с дисконтированием Пусть фу0'* (t,х),</>2 ° (t,х)\ , i G [to,Т] — равновесие по Нэшу в игре Г (ж0,Т — to) и V^to^(t,x) : [to,T] x i?n -> i? — функции значения игроков г G {1,2}. Тогда они должны удовлетворять уравнениям Айзекса-Беллмана (теорема п. 6.4.2) вида -Vtito)i (t, x) = max { L (i)1/2 - -тйЩ (tj\ exp [-r (t - to)} + щ IL Xl'z J +^<*°>< (*, x) [ax1'2 -bx-щ (t) - ф(*о)* (t, x)] } , V^V (T, x) = exp [-г (Т - t0)] qx (T)1/2 , iG{l,2}, JG{1,2}, j ^i. (8.1.7) Максимизируя правую часть равенства (8.1.7), получаем Ф{?0)* (*,*) = ' Ci + VS^explr^-to)]!1/2 п2- 5.1.S Утверждение. Функция значения игрока г б {1,2} (выигрыш в ситуации равновесия по Нэшу) в игре Г (хо, Т — to) равна И*0* (t, x) = exp [-г (t - t0)} [Ai (t) x1'2 + Bi (t)] . Здесь i,j G {1,2} ui Ф j, Ai (t), Bi (t), Aj (t) и Bj (t) удовлетворяют уравнениям Ai(t) b Г+2 + " Ai {t) 2 [a + Ai (t) /2] + 4 [с* + A* (*) /2]2 Ai (*) , Ai (t) + - 8 [с* + ^ (t)/2f 8 [с,-+ A,-(t)/2f Bi (t) = rft (t) - ^Ai (t) и Ai (T) = qy и Bi (T) = 0. Доказательство получается подстановкой ф[ °'* (t,x) и ^ (^»#) в (8.1.7) и решением уравнения (8.1.7). Используя теорему п. 8.1.1 можно получить выражения для равновесных по Нэшу стратегий в виде а(*о) Г* (*,*) = 4[ci+Ai(t)/2] а, 4*°* (*>*) = 4[c2 + A2(t)/2: 2* 5-1.9) 8.1.4. Рассмотрим теперь подыгру Г(хг,Т —г) со структурой выигрыша (8.1.6)' и динамикой (8.1.5), которая начинается в момент времени г G [to,T] из начального состояния xr e X. Из предыдущих рассмотрений следует, что функция значения V(r)* (t, х) :[г,Г]хй->й при i G {1,2} и г G [t0, Т] подыгры Г (жг, Т - г) может быть : определена следующим образом. Утверждение. Функция значения игрока iE {1,2} е подыгре Г (жг, Т — г) имеет вид V{T)i (t, x) = exp [-r (t - г)] [Л (t) x1/2 + ft (*)] ,
§8.1. Постановка задачи 381 где iyj Е {1,2} и г ф j, Ai (t), Bi (t), Aj (t) и Bj (t) определяются таким же образом, как и в утверждении п. 8.1.3. Доказательство аналогично теореме п. 8.1.1. Равновесные' по Нэшу стратегии в подыгре Г (хг,Т — г) соответственно равны ^т)* (*,*) = 4[ci+Ai(t)/2] 2> 4Т)* (*,*) = 4[с2 + А2(*)/2] 2* (8.1.10) Заметим, что условия замечания п. 8.1.2 выполняются. 8.1.5. Предположим теперь, что игроки решили кооперироваться. Обозначим через Гс (жо, Т — to) кооперативный вариант игры Г (жо, Т — to), в которой игроки выбрали совместно некоторый принцип оптимальности. Соглашение о кооперации и о том, как распределить между собой общий суммарный выигрыш (выигрыши предполагаются трансферабельными), и составляет принцип оптимальности при кооперативном поведении. В частности, принцип оптимальности в кооперативной игре Тс(хо,Т — to) включает в себя: 1) соглашение о кооперативных стратегиях (управлениях); 2) механизм распределения суммарного выигрыша между игроками. Принцип оптимальности должен сохранять свою оптимальность вдоль кооперативной траектории {x*}s=:t . Более того, групповая рациональность требует, чтобы игроки использовали оптимальную по Парето траекторию. В дополнение к этому принцип распределения выигрыша должен удовлетворять условию индивидуальной рациональности в том смысле, что ни один из игроков не мог бы получить больший выигрыш, действуя индивидуально. Исследуем условие групповой рациональности на оптимальной траектории. Поскольку выигрыши трансферабельны, групповая рациональность сводится к максимизации игроками суммарного выигрыша. Рассмотрим кооперативную игру Гс (хоуТ — to). Как мы уже говорили, игроки должны при кооперации действовать таким образом, чтобы максимизировать суммарный выигрыш maxW yZ9J{s1x(s),u1(s),u2{s)}exp\- r (у) -Ьехр - / г (у) dy ХУ(*(т)) )dy ds + (8.1.11) при условии (8.1.1). 8.1.6. Обозначим задачу оптимального управления (8.1.11) и (8.1.1) через Ф (хо, Т — to). Для решения этой задачи можно воспользоваться как теорией динамического программирования, так и принципом максимума JI.C. Понтрягина. Для простоты в данном случае применим технику динамического программирования. Используя теорему п. 6.1.1, получаем:
382 8. Игры двух лиц с дисконтированием Теорема. Набор управлений < \ф[ °'* (t,х),щ ° (^х)\ пРи tE[to,T]} образует оптимальное управление в задаче Ф(хо,Т — to), если существует непрерывно- дифференцируемая функция W^ (t,x) : [to,T]xRm -> R, удовлетворяющая уравнению Беллмана -W^](t,x) = тах \ У^.93 [t,x,ui,u2}exp - / r(y) Ul'"2 I ~[ L Ло dy + W^f[t,x,uuu2}\, при граничном условии W(to)(T,o;)=exp f r (y) dy Пусть игроки используют кооперативные управления [щ t^x)^2 (^Ж)]?ПРИ t Е [to,T]. При кооперации вопрос неединственности кооперативных управлений легко решается, поскольку все кооперативные управления обеспечивают один и тот же максимальный суммарный выигрыш, и с этой точки зрения безразлично, какое именно кооперативное управление будет на самом деле использовано. Подставляя выбранные кооперативные управления в уравнения (8.1.1), получаем уравнение для кооперативной траектории /,(*о) (to)* A(8)=f\8,X (в) , ^ (*, *(*)), ф?»* (*, X (*)) x(tQ) = Xq. (8.1.12) Пусть x* (t), t e [to,T] — решение уравнения (8.1.12). Оптимальная траектория {х* (t)}t==t может быть записана в виде Jto x*(t) = x0+ / /|5>x*(5),^*(s,x*(5)),^*(S,x*(5)) По ds. (8.1.13) Для удобства мы будем одновременно использовать обозначения ж* (t) и х*. Кооперативные программные управления имеют вид: ф^^х*®),^* &**(*)) t G fob Г]}- (8.1.14) Рассмотрим кооперативную подыгру Гс(х*,Т — г) с динамикой (8.1.1) и некооперативным выигрышем (8.1.2) с началом в момент времени г Е [to,T] из состояния х* на кооперативной траектории. В момент г групповая рациональность требует, чтобы игроки решали задачу maxS / У1д3 [s,x(s),u1(s),u2(s)]exp - / r(y)dy UuU2 I Jt fri I Jr . \~ r(y)dy ds + exp J 3 = 1 (8.1.15) при условии x(s) = / [s, x (s), ui (5), u2 (s)}, x (r) = ж*.
§8.1. Постановка задачи 383 8.1.7. Замечание 2. Из теории динамического программирования следует, что кооперативное управление в игре Гс (х*,Т — т) на отрезке времени [т,Т] совпадает с кооперативным управлением в игре Гс (хо,Г — to) на том же отрезке времени. Поэтому оптимальная траектория в игре Гс(х*,Т —т) является отрезком оптимальной траектории игры Гс (хо,Т — to) на соответствующем промежутке времени. Кроме того, вдоль оптимальной траектории {х* (s)}s=t имеет место следующее тождество: W^(t,x*t) = Т 2 j J2 9j [s, x (a), ф[1о)* (s, x* (a)), 4*0)* («, x* (a)) x exp 4-exp r (y) dy ds + J j=i = exp / r (y) dy JtQ - I r(y)dy x Jto J fT 2 / Y,9j k * (*)> ^ir)* (*> ** (*))> 4r)* (*, ** 00) / r (y) dy / r(y) Jt0 x exp - / r(y) dy ds + Y,qi(x*(T))\ = W<r>(*,xt*), rG[t0,T], t>r. 8.1.8. Пример 2. Рассмотрим задачу оптимального управления Ф(хо,Т — to) максимизации суммы выигрышей игроков 1 и 2 из примера 1 п. 8.1.3. иг(з) 1/2 С\ Г"1 (5) + x(s)1/2 + 2exp[-r(T-t0)]gx(r)1/2, М*Г ~ 1/2 <?2 x(s) 1/2 ^2(5) exp [—r (i — to)] ds + (8.1.16) при условии (8.1.5). Пусть \щ (t,x) ,щ \t>x)\ ~ управления, решающие задачу максимизации Ф (ж0,Г - t0), и И^(*о) (*,ж) : [t0, Г] хйМЛ- функция Беллмана, удовлетворяющая уравнению (см. теорему п. 8.1.6) -Wt{to) (t,x) = = max{( |uj/2 ^ui + 1/2 C2 "2 -^I72U2 ) exp [-r (t - t0)] + +W^to) (t, x) \axl/2 - fee - ui - u2] } , ТУ(4о) (T, x)=2 exp [-r (T - t0)] qx1/2. (8.1.17)
384 8. Игры двух лиц с дисконтированием Проведя операцию максимизации в правой части (8.1.17), получаем выражения для оптимальных управлений: ФГ}*&х) ci+Wito)exp[r(t-t0)]z1/2 X 2> Л*о) c2 + HTojexp[r(t-to)]*1/2 2' Подставляя щ °'* (t, х) и щ (^ х) в (8.1.17), получаем явное выражение для функции Беллмана: WM (t, x) = exp [-г {t - t0)] U {t) x1/2 + В (*)1 , A(t) = r + i(i)- +- Cl ci+A(t)/2| 2|c2 + i4(t)/2 c2 т + i2 + - + - Ci+i(t)/2 "l2 ci+A(t)/2 8 |c2 + A(t)/2 + 4[c2 + i(t)/2]- i(t) + B(t) = rB(t)--A{t), A(T) = 2q, В(Г)=0. Оптимальные кооперативные управления могут быть представлены в виде: tfi*0* (*,*) = ci + A (t) /2 2' ^2 , 4t0)*(t,x) = c2+A{t)/2 2* Подставляя эти управления в (8.1.5), получаем уравнение для кооперативной траектории x(s) x(s) х (s) = ax (s) ' — bx (s) d+A(s)/2 x(t0) = xq. c2 + A (s) /2 2' (8.1.18) Решая (8.1.18), получаем кооперативную траекторию Гс (хо,Т — to) в виде l2 х* (s) — w(to,s) 4/2 + Jto Hxdt sZ[t0,T}, (8.1.19) где w(t0,s) =exp f H2 .Jto (T)dr , Hi = -a,
§8.1. Постановка задачи 385 Кооперативные программные управления в игре Гс (хо,Т — to) на отрезке времени [to,T] имеют вид: <°" (*,*?) = -,, V^* (*.*?) = 4 ci+A(t)/2 С2 + A (t) /2 l2" 5.1.20) Заметим, что при этом выполнены условия замечания 1 п. 8.1.3. В подыгре Г (х*,Т — т) программные управления вдоль оптимальной траектории имеют вид vr*(*,*n = ci+i(t)/2 l2' И^2 (MJ) c2 + i(*)/2 Оптимальная кооперативная траектория определяется по формуле: Ж* (s) = 07 (т, S)^ (X*f + JS W-1 (T,t) H; \dt sG [т,Г]. (8.1.21) где w (т, s) = exp /> w* Я2(в) = - :6 + Ях = -a, + 1 ci+A(s)/2 8 c2 + A (s)/2\ Выражения (8.1.21) и (8.1.19) совпадают на промежутке [т,Т], т. е. х* (s) в (8.1.21) является подмножеством множества из (8.1.19). Таким образом, вдоль кооперативной траектории {х* (s)}s=t групповая рациональность сохраняется в каждый момент времени t Е [^о,^1- 8.1.9. Индивидуальная рациональность. Предположим, что в момент to в состоянии хо выбранный принцип оптимальности предписывает выбор дележа %(xq,T — to) = [(i1 {xQyT — to) ,C2 (%o,T — to)}- Это означает, что игроки согласились на такой дележ суммарного выигрыша, при котором выигрыш игрока г на отрезке времени [to, Т] равен ?(x0,T-t0). Индивидуальная рациональность дележа означает, что должно иметь место е(х0,Т-Ьо)>У^(10,х0) *е{1,2}. Используя тот же принцип оптимальности в момент г в состоянии ж* на кооперативной траектории, принцип оптимальности предписывает выбор дележа ах;,т-т) = [е(х*т,т-т),е«,т-т)}. Это означает, что игроки согласились на такой дележ суммарного выигрыша (в подыгре с началом в момент т), при котором выигрыш игрока г на отрезке времени [т, Т] равен ^г (х*,Т — г). Индивидуальная рациональность будет иметь место, если е(х*т,Т-т)>У^(т,х*), ге{1,2}.
386 8. Игры двух лиц с дисконтированием В динамической постановке индивидуальная рациональность должна выполняться в каждый момент времени г Е [#о>Г] на оптимальной траектории {ж* {t)}t=t . 8.1.10. Как было нами ранее указано в § § 7.4- 7.5, важнейшим дополнительным требованием к решению динамических кооперативных игр является динамическая устойчивость или состоятельность во времени. Свойство динамической устойчивости решения заключается в том, что когда игра развивается вдоль кооперативной траектории, в каждый момент времени игроки руководствуются одним и тем же принципом оптимальности и, следовательно, не имеют оснований для отклонения от принципа оптимальности, выбранного в начале игры. В этом разделе мы исследуем свойство динамической устойчивости или временной состоятельности в неантагонистических кооперативных играх двух лиц с дисконтированным выигрышем. Рассмотрим кооперативную игру Гс (жо,Г — to), в которой игроки решили максимизировать совместными действиями суммарный выигрыш и применить некоторый механизм дележа этого выигрыша между собой. Для достижения максимального суммарного выигрыша игроки применяют кооперативные управления \щ (t,х),щ (t,х) , полученные в теореме п. 8.1.6. При этом кооперативная траектория {х* (s)}a=ztQ определяется уравнением (8.1.13). В момент to в начальном состоянии xq компонента дележа ^(*°)г (to,xo) представляет собой часть максимального суммарного выигрыша (получаемого на отрезке времени [to, Т]), на которую игрок i ориентирован согласно выбранному и согласованному принципу оптимальности. Рассмотрим теперь кооперативную подыгру Гс(х*,Т —г), начинающуюся в промежуточный момент времени г Е [to,T] из начального состояния х*, в которой используется тот же принцип оптимальности что и в основной игре. Пусть ^г^г (г,ж*) — компонента дележа (часть кооперативного выигрыша) игрока г на промежутке времени [г, Т] в этой подыгре. Векторы ^г) (т,#*) = [^r)1 (r,x*) ,^(r^2 (r,x*)], r Е [to,T] будут допустимыми дележами, если выполнены следующие условия. Определение. Вектор ^г) (т,ж*) является дележом кооперативной игры Гс(х*,Т — т) при г G [to,T], если выполнены следующие условия: 1) <?^ {т>хт) — [(i^1 (r?xr) >C^2 (r?xr)] ~ парето-оптимальный дележ; 2) eT)i(r,x*T) > VW(r,x*r), г 6 {1,2}. 8.1.11. Следуя [Petrosjan, 1997] и [Yeung, Petrosjan, 2004], построим процедуру распределения дележа (ПРД), чтобы согласованный в начале принцип оптимальности мог бы реально реализоваться в игре. Пусть Вт (s) = [B{ (s), B^ (s)] — мгновенные выигрыши (плотности выигрышей) при кооперации в момент времени s Е [г, Т] в кооперативной игре Гс (ж*,Т — г). Иными словами, игрок г Е {1,2} получает выигрыш В\ (s) в момент времени s. Терминальный выигрыш ql (xj,) получается игроком г в момент Т.
§8.1. Постановка задачи 387 В частности, В\ (s) и q% (х?) образуют ПРД в игре Гс (жт,Т — т), если величина <^г)г (г,ж*) будет равна sjexp + ql (ж^)ехр г (у) dy ds + х (г) = х* (8.1.22) - / r(y)dy\ г G {1,2}, те [to,Г]. Определим для г Е {1,2} и t E [т,Г] вспомогательную величину ^г^г (t,x^), равную / #[ (5) ехР - / Т (У) С / г (у) ds + <f (х?) ехр dy х (t) = х\ (8.1.23) для обозначения оценки (с учетом дисконтирования) кооперативного выигрыша игрока г на отрезке времени [t,T] из состояния х$ в момент времени t Е [г,Г], когда игрок находится в начале подыгры^ стартующей в момент г из состояния х%. Определение. Вектор ^Т>> (г,ж*) = [^г^ (т,х*) ,^г^2 (т,х*)]? определенный в (8.1.22) и (8.1.23), есть состоятельный во времени дележ в подыгре Гс(х*,Т —т) при г Е [toiT], если ^г) (т, х*) — оптимальный по Парето дележ, при t Е [т,Т] имеет место неравенство t^r>*%(t,x*) > У^г(Ь,х*) для г Е {1,2}, t Е [т,Т], и выполнено условие e(r)i(t,x*) = exp г (у) dy et)i(t,x*t), для т <t<T, гЕ {1,2}. Определение п. 8.1.11 означает, что часть выигрыша, который игрок в начальный момент рассчитывает получить в подыгре при использовании некоторого выбранного заранее принципа оптимальности (с точностью до процедуры дисконтирования), совпадает с выигрышем, который он реально может получить, попав в эту подыгру при использовании того же принципа оптимальности, но уже примененного к этой подыгре. Кроме того, групповая и индивидуальная рациональность выполняются на всем отрезке времени на котором происходит игра. Как отмечалось в [Jorgensen, Zaccour, 2002], условия, гарантирующие временную состоятельность кооперативных решений, могут быть достаточно сложными и аналитически трудно представимыми. Для того чтобы достичь временной состоятельности или динамической устойчивости решения ^г) (г, х*), удовлетворяющего определению п. 8.1.11, необходимо определить дополнительный механизм выплат на игровом отрезке времени, то есть механизм реализации дележей. В работе [Yeung, Petrosjan, 2004] получена общая теорема, с помощью которой такой механизм выплат (ПРД) распределения дележа во времени может быть получен. Ниже мы используем этот подход для дифференциальной игры.
388 8. Игры двух лиц с дисконтированием Процедура распределения дележа (ПРД) в кооперативной игре, определенная в (8.1.22) и (8.1.23), должна быть сформулирована таким образом, чтобы первоначально согласованный дележ мог бы быть реализован. Для того чтобы условия, сформулированные в определении п. 8.1.11 выполнялись, необходимо потребовать, чтобы В\ (s) — В\ (s) при г G {1,2} и т G [to, Г] и t G [to,T] и т фЬ. Используя обозначение BJ (s) = B\ (s) = Bi(s) и определение п. 8.1.11, ПРД для состоятельного во времени (динамически устойчивого) дележа должна удовлетворять условиям: 1. ][>«(*) =Х>" ^^,^Г)*(^^),^Г)*(^^)] , s G [t0>Г]; i=i j=i Bi (s) exp - г (у) dy ds + q* (x* (T)) exp - jr(y) dy > >T^(r,<), ie{l,2}, TG[t0,T]; />r+At C(T)i(r,x;)= / i?,(s)exp - / r Ы dy ds + 4-exp Г (у) ф e (r+At)i (r + At, < + A<), T<E[t0,T], *G{1,2}; где A< - / [r, *;, ^r)* (r, x*T), 4T)* (r, <)1 At + о (At). 8.1.12 Рассмотрим следующее условие, касающееся ^r) (t,x*) для r G [to,Г] и t G [г,П Условие. При i 6 {1,2}, t > г и г G [to,T] величины ^r^(t,x^) непрерывно- дифференцируемы no t и x%. Если величины ^r) (t,x*) при г G [to,T] удовлетворяют условию п. 8.1.12, то можно получить следующее соотношение рт+АЬ ds — j: - г (у) dy гт+At - г (у) dy Bi (s) exp = С(г)Чт,<)-ехр = {W (r, x%) - e(r)* (r + At, x*T + A<) для всех т G [to,T] и i G {1,2} . При At -> 0 из (8.1.24) получаем C(T+At)i(^ + A^< + A<) = (8.1.24) Bi (г) At= &(т)'(*,*п *=T At r lt=r-l L At -o(At). 3.1.25)
§8.1. Постановка задачи 389 Таким образом, получаем следующую теорему. Теорема. Если оптимальный дележ: ^Т^г (г,ж*), при г G {1,2} и т Е [to, T] удовлетворяет условиям определения п. 8.1.11 и условию п. 8.1.12 с терминальной выплатой ql (х?р) в момент Т и мгновенными выплатами в моменты времени г Е [2о,Т]: Bi(T) = -[^t(T)<(t,xn - [ Cif (*, хх) I | / [г, *;, ^т)* (г, 0, 4Т> (г, <) при г Е {1,2} , mo он представляет состоятельное во времени решение игры Гс (xq,T — to). 8.1.13. Исследуем теперь динамически устойчивые (состоятельные во времени) решения для конкретных принципов оптимальности. Рассмотрим кооперативную игру Гс (хо,Т — to), в которой игроки максимизируют суммарный выигрыш и делят его в соответствии с арбитражной схемой Нэша. Эта схема также совпадает с вектором Шепли для кооперативной игры двух лиц. Известно, что при таком подходе дележ имеет вид, представленный в следующем утверждении. Утверждение. В игре Гс (xq, Т — to) компонента дележа его)Ч*0,Хо) = У^(^Хо) + ^ W^(t0yxo)-^V^(t0,xo) предписывается игроку г Е {1,2} выплаты согласно арбитражной схеме Нэша, и в подыгре Гс (х*,Т — г), при т Е (to,T] компонента дележа e(T)i(r,x;) = ^r)<(r>x;) + i w(r)(r,<)-X)v(rM(r,x;) предписывается игроку г Е {1,2} выплаты согласно той же схеме. Заметим, что при таком дележе каждый из игроков получает свой некооперативный выигрыш (выигрыш в равновесии по Нэшу) плюс половину дополнительного выигрыша, получаемого в результате кооперации на отрезке времени [г, Т], г Е [to, Т]. Можно убедиться, что ^г^г (т,х*) удовлетворяет определению п. 8.1.Ц. Более того, используя замечание 1 п. 8.1.2 и замечание 2 п. 8.1.7, получаем et)l{t,x*t)=exp г (у) dy VW{t,x*t) + l W^(t,x*)-Y,V{T)J(tX) exp / г(у) dy\ *(T)i (*,*?), при to < т < t. (8.1.26)
390 8. Игры двух лиц с дисконтированием Таким образом ^т)г (т,ж*), как это следует из утверждения п. 8.1.13, является состоятельным во времени дележом в кооперативной игре Гс (жо, Т — to). Используя теорему п. 8.1.6, получаем результат. Следствие. ПРД с терминальной выплатой ql (ж (Т)) в момент времени Т и мгновенными выплатами (плотностью выплат) в моменты времени г G [to,T]: Biir) = _l||Vi(T)i(t,xt) V^&xt) + / Iт, жт, ^т)* (г, жт), т/4т)* (r, жг) 1 *2 L Wlr)(t,xt) t=rJ + + : + И#> (t, *,) I 1 / [r, xr, ^r)* (r, жг), ^r)* (r, жт) lt=rJ L [[Vt(r)j (t,xt)\t V^{t,xt)\. 1/ + ^,0)* т,жг,т/4 (т,жг),т/4 (т,жг) (r)* при ij e {1,2} w %Фз, (8.1.27) представляет собой состоятельное во времени (динамически устойчивое) решение кооперативной игры Гс (xq,T — to), в которой игроки согласились делить свой кооперативный выигрыш в соответствии с утверждением п. 8Л. 13. 8.1.14. Пример 3. Построим состоятельную во времени ПРД в игре добычи полезного ресурса, когда игроки договорились делить кооперативный выигрыш в соответствии утверждением п. 8.1.13. Поэтому рассмотрим пример 1 п. 8.1.13, в котором две добывающие фирмы согласились максимизировать суммарный выигрыш и разделить его между собой согласно утверждению п. 8.1.13. Используя результаты, полученные в примерах 1 п. 8.1.3, 2 п. 8.1.8 и теореме п. 8.1.12, мы получаем следующий результат.
§8.2. Кооперативные игры с бесконечной продолжительностью 391 Следствие. ПРД с терминальным выигрышем ql (х (Т)) в момент Т и мгновенными выплатами (плотностью выплат) в моменты г G [to,T] имеет вид: Вг(т) = у{([^(т)«)1/2+В,(ф [а,(г)«)1/2+ВИг)]) + + 1^(т)«Г1/2] о (ж*) ' — bx*f — а + А(т)Щ 4 yCj+ А (г) /2 -i{([i(r)«)1/2 + i(r)]+r[i(r)«)1/2+B(r)]) + + ^w(*;i *ч-1/2 а«)1/2-6<- + +Н([^(т)(а:*)1/2+^(г) а«)1/2-К- С( + Л(т)/2 4 9+i(r)/2 AJ-(r)K)1/2 + Bi(r)]) + i2 + I^(r)K)-1/2 Ci + A(r)/2 4 Cj+A(r)/2 l2 npu ij G {1,2} tz zV j, и является состоятельным во времени решением кооперативной игры Гс (хо,Т — to), в которой игроки решили делить кооперативный выигрыш в соответствии с утверждением §8.1. § 8.2. Кооперативные игры с бесконечной продолжительностью 8.2.1. Во многих конкретных задачах продолжительность игры Т либо слишком велика, либо неизвестна участникам. Например, сегодняшняя стоимость фирмы определяется дисконтированной суммой ее будущих доходов. Никто не знает когда фирма прекратит существовать. Как справедливо замечено в работе [Dockner, Jorgensen, 2000], в этом случае предположение Т = оо может быть хорошим приближением. Важнейшими примерами задач такого рода являются добыча возобновляемых ресурсов, природоохранный менеджмент и оценка корпоративной собственности. Рассмотрим неантагонистическую дифференциальную игру с выигрышами f дг [х (з), tzi (з), и2 (s)} exp [-г (s - t0)] ds, г G {1,2} и динамикой x{s) = f[x(s),ui(s),u2(s) X(t0) =Xq. (8.2.1) (8.2.2) Поскольку время s не присутствует явно в дг [х (s), U\ (s), и2 (s)], выигрышах и уравнениях динамики, игра (8.2.1)-(8.2.2) является автономной. Рассмотрим подыгру Г (х): max / дг [х (s), U\ (s), и2 (s)] exp [—r (s — t)} ds, i G {1, 2} u* Jt
392 8. Игры двух лиц с дисконтированием при условии A (s) = / [ж 0), их (s), и2 (s)], х (t) = ж. Автономная задача Г (ж) с бесконечной продолжительностью не зависит от t, а зависит лишь от х. Используя теорему п. 6.6.2 можно охарактеризовать некооперативное позиционное равновесие по Нэшу. Теорема. Пара стратегий {ф\ (х), ф\ (х)} образует позиционное равновесие по Нэшу в игре Г (ж), если существуют непрерывно-дифференцируемые функции V1 (х) : Rm -> R и V2 (ж) : Rm —> R, удовлетворяющие следующей системе уравнений в частных производных: rVl (ж) - max {gl [ж, uh ф) (ж)] + VI (ж) / [ж, щ, ф) (ж)]} , ге{1,2}, JG{1,2}, эфг. Здесь V* (х) = J g*[x (s), ф\ (*), ф*2 (в)] exp [-r (s - t)} ds есть выигрыш игрока г в ситуации позиционного равновесия в подыгре, начинающейся в момент t G ftch°°] ^з состояния ж. 8.2.2. Рассмотрим теперь случай, когда игроки решили кооперироваться. Пусть Гс (ж) — кооперативная игра, определенная на структуре игры Г (ж) из начального состояния ж. Предположим, что игроки предварительно договорились о максимизации суммарного выигрыша, то есть {/»оо 2 max < / V^ gj [х (s), и\ (s), u<i (s)] exp [—r (s — t)] ds > , (8.2.3) Ul,U2 I J Z ^ Ж (s) = / [Ж (s) , tZi (s) , ll2 (s)] , x(t)=X. Следуя теореме п. 6.1.1, получаем результат. Теорема. Набор управлений {[ф* (ж) ,ф2 (х)}} решает задачу (8.2.3), связанную с игрой Гс(ж), если существует непрерывно-дифференцируемая функция W (ж) : R171 —> R, удовлетворяющая уравнению Беллмана для задачи с бесконечной продолжительностью rW (ж) = max < У^9j [s,ui,u2] + Wxf [xyuuu2] Ul,U2 I *—' 2 > = Е^[Х^1^2*] + ^/[ж,^*^2*]. Обозначим соответствующие кооперативные управления через [ф* (ж) ,^5 (ж)]- Подставляя эти управления в (8.2.2), получаем уравнение для оптимальной кооперативной траектории ж (s) = / [ж (s), ^i (ж (s)), $J (ж (s))], x(t)= ж. Если игра начинается в момент to, x(to) = Жо, то имеем ж (з) = / [ж (з), ф1 (ж (з)), Ф1 (ж (з))], ж (t0) = жо. (8.2.4)
§8.2. Кооперативные игры с бесконечной продолжительностью 393 Пусть х* (t) — решение (8.2.4). Как и раньше будем использовать обозначения х* (t) и х\ в зависимости от обстоятельств. 8.2.3. Предположим, что в момент времени t > to в начальном состоянии х\ первоначально согласованный принцип оптимальности предписывает дележ ^(х*) = К1^)»^2^*)]- Это означает, что игроки договариваются о таком дележе, когда доля игрока i в игре равна ^г (х%). Условие индивидуальной рациональности требует выполнения неравенства ?Ю)>У'(х*г), при 2G{1,2}. Следуя [Petrosjan, 1997] и [Yeung, Petrosjan, 2004], будем обозначать через В (s) = [В\ (s), B<i (s)] мгновенные выигрыши игроков (плотности выигрышей) при кооперации в момент времени s G [to, оо) в кооперативной игре Гс (ж* ). Тогда вдоль кооперативной траектории {х* {t)}t>t будем иметь /оо Bi(s)exp[-r(a-T)]d8, i e {1,2}, /ОО ' Bi (з) exp [-г (s - t)} ds, г G {1, 2} t> т. Далее определим величины /оо Bi(8)ex9[-r(a-T)]da = e(x*), /ОО Bi(s)exp[-r(s-T)}ds, г G {1,2}, те [t0,oo). Заметим, что /оо BT(s)exp[-r(s-t)]ds = = exp[-r(t-T)]e(x*t) = = exp [-r (t-r)]74*; *>*?), ге{1,2}. (8.2.5) Условие (8.2.5) гарантирует динамическую устойчивость дележа в том смысле, что применение согласованного в начале игры принципа оптимальности к подыгре, стартующей позже из начальных условий на оптимальной траектории сохраняет оптимальность выбранного дележа. Следуя схеме доказательства теоремы п. 8.1.12, получаем лг+At 11{т\т,х*т) = / iBi(s)exp[-r(s-r)]ds + + exp [-г (Д*)] 7* (r + At;r + At,x*T + Д<), для г G [t0,Г], iG {1,2}; (8.2.6)
394 8. Игры двух лиц с дисконтированием где Ах* = f [<, ф{ «), ф*2 04)] At + о (At). Поскольку х* + Дх* — x*+At, то из (8.2.6) следует 7* (г; г + Д*, x*T+At) = exp [-r (At)} ? (<+At) - - exp [-г (Д^)] У (г + Д*; г + At, x*T+At) = = exp [-г (Д*)] 7* (г + At; т 4- Д*, ж; 4- Ах*). Поэтому (8.2.6) переписывается в виде лт+At У (г; г, О = Bi (s) exp [-г (s - г)] ds + 7* (г; г + Д*, x*T+At) , rG[t0,T], г G {1,2}. Можно получить следующее соотношение: rr+At Г Bi (s) exp [-r (s - r)] ds = У (г; г, <) - У (г; г + Д*, x*+At) , для всех г 6 [to,T] и г Е {1,2}. При Д^ -> 0 условие (8.2.9) переходит в Bi(T)At = -[ji(r;t,x*t)\t=T\At- - f7< (т; *,*?)! 1 /К, Vi «) .^5 «)1 Д* - о (At). lt=rJ Деля обе части (8.2.10) на At и устремляя At —> 0, получаем Bi(r) = -[7J(r;t,a;r)|t.T]-[7i.(r;<,a:n|t=T]/[a:;,VJ«),^K)]. (8.2.7) (8.2.8) (8.2.9) (8.2.10) (8.2.11) Используя (8.2.5), получаем ^г {т;Ь,х1) = ехр[—г (t - т)]^г (х*) и 7г (т;т,х*) = ^г (ж*). Тогда из (8.2.11) получаем следующую теорему. Теорема. Мгновенные выплаты игрокам в моменты времени tG [io;^] в соответствии с ПРД в, (г)=re «) - е. ю / к, Гг«), ф*2 «)], для всех т G [to,T] и г G {1, 2} , (8.2.12) обеспечивают динамическую устойчивость решения в кооперативной игре Гс (xq). 8.2.4. Рассмотрим теперь динамическую устойчивость (временную состоятельность) решений для конкретных принципов оптимальности. Рассмотрим кооперативную игру Гс (жо), в которой игроки договорились о максимизации суммы выигрышей и последующего ее раздела в соответствии с арбитражной схемой Нэша. В этом случае дележ должен иметь вид, описываемый в следующем утверждении.
§8.2. Кооперативные игры с бесконечной продолжительностью 395 Утверждение. В игре Гс (xq) в момент времени to компонента дележа 2 ?(х0) = У*(х0) + \ W(x0)-Y,VJ(xo) приписывается игроку г, г Е {1,2}. Ив момент времени г G (to,oo) компонента дележа 2 е«)-^«) + ' w(<)-^'(<) приписывается игроку г при г G {1,2}. Используя теорему п. 8.2.3, можно получить формулу для ПРД в виде Bi(r)=Bl(x*r) = 1{гУЧ<)-^«)/[<,^«) Ж «)]} + +\ {rW «) - Wx. «) f [<, ^ К), </>2* «)]} - -\ {rvi«) - ех* 04) f [*;, ^* «), ^2* «)]}, при i,jG{l,2} и i^j, (8.2.13) ПРД, определенная в (8.2.13), обеспечивает динамическую устойчивость (временную состоятельность) решения кооперативной игры Гс (хо), в которой игроки условились о разделе максимального суммарного выигрыша в соответствии с утверждением п. 8.2.4. 8.2.5. Пример 4- Рассмотрим игру добычи ограниченного ресурса из примера 1, в которой продолжительность игры бесконечна. В момент to выигрыши игроков 1 и 2 соответственно равны Г Г «i (sf2 - u2(s)1/2- с1 / ^ с2 / ^ Х(^Л"]\ exp [—г (t — to)} ds) exp [—r (t — to)} ds. (8.2.14) Запас ресурса x (s) G X С R изменяется в соответствии с уравнением (8.1.5). Равновесие по Нэшу в игре (8.1.5)-(8.2.14) характеризуется следующим образом фщ + V* (х) ах тУг (х) = max \ и)' i,je{i,2}, i^j. Проводя максимизацию правой части в (8.2.15), получаем х>2 -Ьх-щ- ф* (я)] } , (8.2.15) «(*) = 4 [а + V* (х) х1/2] 2' iG {1,2}. Подставляя ф\ (х) и ф\ (ж) в (8.2.15) и решая (8.2.15), получаем функции значения игроков i 6 {1,2} в виде V* (*,*) = Uix^ + Bi
396 8. Игры двух лиц с дисконтированием где при i, j G {1,2} и i ^ j, Ai, Bi, Aj и Bj удовлетворяют уравнениям r+- М- + c% + Ai + Ai 2 [с* + Ai/2] 4 [ci + Л,/2]2 8 [a + А{/2}2 8 [cj + Aj/2] -0, a Bi = -Ai. Равновесные стратегии имеют вид X X 4[с1+А1/2]2' ^ 4[с2+А2/2]2 Рассмотрим теперь случай, когда игроки приходят к соглашению максимизировать суммарный выигрыш и разделить его потом в соответствии с утверждением п. 8.2.4. В этом случае они должны решить следующую задачу максимизации Г ui(s) 1/2 Cl x(s) 1/2 u\ 0) + u2(s[ 1/2 C2 x(s) mu2 (s) exp [~r (t — to)] ds (8.2.16) при условии (8.1.5). Используя теорему п. 8.2.3, получаем rW (х) = max \ ( 1/2 _ Cl Н rrV2 tZi + 1/2 C2 Л/2' -]) ^2 + +WX (x) ax1/2 — frx — u\ — u2 >. Используя стандартные выкладки, получаем где г+- W(x) 1 Ах^ + Й 1 +- ci + А/2 с2 с2 + Л/2 + с2 + А/2 А + Cl ci + A/2 ci + A/2 А + с2 + А/2 В^^-А. 2г Оптимальные кооперативные решения тогда могут быть получены в виде Ф1(х).= ci + А/2 Ф*2 (X) = с2 + А/2 2* (8.2.17) Подстановка этих управлений в (8.1.5) дает уравнения движения в случае кооперации х (з) = ax (s) ' — Ьх (s) x{s) ki + A/2 l2 c2 + i/2 г, x(t0)=x0. (8.2.18)
§8.3. Игры с нетрансферабельными выигрышами Решая (8.2.18), получаем кооперативную траекторию игры Гс (xq) в виде ]2 397 Ж* (5) = [Ш + (^ " 2^) 6ХР [_Я (5 " *°)] где Я 6 1 ci + AfiY 8 1 с2 + Л/21 Используя (8.2.13), получаем J3, (т) = В{ «) = +г А(х*т)1/2+в}-г[А,(х*т)1/2+В3}}- -j{^«)~ 1/2 Л «) -1/2 -А, ,«)-1/2} а (ж*) — for* при i,j G {1,2} и i^j. 4 < ci + А/2 2 4 X* с2 + i/2 2 (8.2.19) § 8.3. Игры с нетрансферабельными выигрышами 8.3.1. Выигрыши игроков в игре можно считать трансферабельными, если существует некоторая приемлемая разменная единица. В то же время существует множество случаев, кода выигрыши нельзя считать трансферабельными — рассмотрим хотя бы случаи, касающиеся политической стабильности, религиозной терпимости и суверенитета. Решения соответствующих кооперативных дифференциальных игр в этом случае существенно усложняется. В этом разделе мы будем рассматривать кооперативные дифференциальные игры с нетрансферабельными выигрышами. Рассмотрим неантагонистическую дифференциальную игру двух лиц с динамикой (8.1.1) и выигрышами (8.1.2). Очевидно, что некооперативное решение этой игры то же, что и в игре с трансферабельными выигрышами. Рассмотрим парето-оптимальные траектории при кооперации. В случае нетрансфе- рабельных выигрышей необходимыми условиями оптимальности, также как и в случае трансферабельных выигрышей, является групповая и индивидуальная рациональность. Для достижения групповой рациональности необходимо ограничиться управлениями, которые приводят к парето-оптимальным исходам. 8.3.2. Рассмотрим кооперативную игру Гс(хо,Т —to), в которой выигрыши нетрансферабельны. Парето-оптимальные исходы в Tc(xq,T — to) эквивалентны выбору весового коэффициента a\ Е (0, со) и решению следующей задачи максимизации
398 8. Игры двух лиц с дисконтированием (см. [Yeung, Petrosyan, 2005]): maxjj1 (t0,x0) + a\ J2 (t0,x0)} rT max UUU2 , JtQ / (g1[s,x(s),ui(s),u2(s)} + i +aig2 [s, x (s), tzi (s), u2 (s)]) exp + [д1(х(Г))+а1д2(х(Г))]ехр r (y) dy ds + / r(y)dy x (t0) = x0 (8.3.1) при условии (8.1.1). Заметим, что оптимальные управления для задачи maxUbU2 {J1 (to,xo) + aiJ2 (to,Xo)} совпадают с оптимальными управлениями для задачи maxUl>U2 { J2 (t0,x0) + ol2Jx (to,x0)}, если ol\ = l/a2. Пусть в Гс (хо,Т — to) весовой коэффициент а\ выбран игроками в соответствии с некоторым согласованным принципом оптимальности. Используя теорему п. 6.1.1, мы получаем: Теорема. Пара управлений { [ф?Ы (t, х), ^?(t0) (t, х)] , npute [t0) Г] } представляет собой оптимальное решение задачи maxjj1 (to,x0) +a?J2 (t0,x0)} , U\,U2 если существует такая непрерывно-дифференцируемая функция Wai^ (t, x) : [to, Т] х Rm -> R, которая удовлетворяет следующему уравнению Беллмана: -wfl{to)(t,x) = Г Г* 1 + = max< (g1 [t,x,ui,u2] + a\g2[t,x,ui,u2}) ехр - / r(y)dy +W?S(*o)/[t^^bti2]} = - ^^^ж,^"1,^]+a?p2[t,x,^1]Jexp - / r(y)dy где Wa°^tQ)(T,x) = r(y) dy Jtn = exp Y^4j (^) [q1 (^Л-аха2 (х)] exp J j=i - / r (y) dy Подставляя ф^ 0) (t,x) и Ф2 ° (^x) B (8.1.1), получаем уравнение для парето- оптимальной траектории, соответствующей весовому коэффициенту а\: x(s) = f Is, х (з), ф^о) (5, х (5)), ^2a?(to) (s,х (s))l , х (t0) = хо. (8.3.2)
ds, §8.3. Игры с нетрансферабельными выигрышами Решение (8.3.2) xai (t) может быть представлено в виде Xе? (*) = *„+ f f \s,xa^s) ^f(to)(s,xa°(s))^f(to)(s,xa°(s))\ Jto L J при te [t0,Г]. Путь < Xе*1 (t) \ представляет собой оптимальную траекторию в задаче I J t=t0 maxjJ1 (t0,xo) + a?J2 (t0,x0)} . 399 (8.3.3) lii,U2 Обозначения Xе*1 (t) и х^1 мы будем использовать в дальнейшем в зависимости от степени удобства. Для обеспечения групповой рациональности кооперативные управления \p?{to)(t,x),i>ft0)(t,x) должны быть использованы на отрезке времени [t0,T]. 8.3.3. Рассмотрим теперь кооперативную игру Г^Жт1,!1 — т) при т Е [to,T]. Пусть а[ — весовой коэффициент, выбранный в соответствии с согласованным в начале игры принципом оптимальности. Мы будем использовать обозначения < Г01 (tyх),ф^1 (^х)\ >t ^ К^1 f Для определения множества оптимальных управлений и Wai(T) (t,x) : [r,T] x Rn —> Я для функции значения из теоремы п. 8.3.2. Можно показать, что ф?(т) {t,x),^l(T) (t,xj\ = k?(t0) (*,*) ,Ф?М (*,*) при ckJ_ =cki. Замечание З. Групповая рациональность будет иметь место только в случае, если а[ = а\ будет весовым коэффициентом во всех играх Гс (хт,Т — т) при г Е [to,T]. 8.3.4. Рассмотрим теперь индивидуальные выигрыши игроков при кооперации. Для проверки индивидуальной рациональности выигрыша игрока выпишем выигрыши игроков при кооперации вдоль кооперативной траектории. Для того чтобы это сделать, подставим кооперативные управления ^^ °' (t,x) и ф^ (^?х) в выражения для выигрышей (8.1.2) и получим ожидаемые выигрыши игроков в игре Гс (хо,Т — to) с весовым коэффициентом а\. Следуя [Yeung, 2004], приведем определение. Определение. Определим кооперативный выигрыш игрока г на отрезке времени [t,T] как &°1Ы* (t,xf) = 1У [s,x^ (,),#?<*> (s,x<* (,)) ,ф?^ (<,*°? is)) J r (y)dyL* (x«? (T)) , ге{1,2}, / r(y) dy ds + + exp
400 где 8. Игры двух лиц с дисконтированием х°° (з) = / [s,x°1 (s) ,^?(t0) (s,x°° (s)) , V2a?(t0) (*,/ (5))] , xa°(t)=xf. Заметим, что при At —> 0 выражение для W4*^)1 u,^1 j принимает вид Wa°M (t,xt°) = V [s,xa° (s),tf°ito) (s,^ (s)) ,^?(*o) (в,ж°? (s))] x - / r(y)dy\ds + Wa°{to)i(t + At,xa° + Axa°A, -I t+At x exp .3.4) где xai — f At. t,x?^(t,X?)^(t,x?) Используя теорему Тейлора, получаем Wa°^(t,xf) = t,xf^fita) (t,xf) ,^{U)) (*,*??)] exp [- fr{y)dy\ At = 9' + + wf^ (t,xf) f [*,*r!,^?(t0) (*.*??) ,^?(to) (*,*f!) + o(At), ie{l,2}. At- (8.3.5) Деля на At и полагая At —>- 0, получаем -Wta?(to)i(i,^?)= " = ff4 [t,^?,Vr?(t0) (м??) ^2?(*0) (t,xf)j exp + Wf^ (t,xf) f [t,x?,tf°^ (t,xf) ,#?<*> (t,xf)} i6{l,2}. Граничные условия дают нам / r(y)dy Jto (8.3.6) Г рт 1 jpa?(io)i fr> а^П = exp - / г (у) dy g* (*r?) , i e {1,2} . (8.3.7)
§8.3. Игры с нетрансферабельными выигрышами 401 Теорема [Yeung, 2004]. Если существуют непрерывно-дифференцируемые функции Г'^ЬЯ :[to,T\ х jRm —> R, i G {1.2}, удовлетворяющие = g* [t,xf,i>fit0) (t,xf) ,ф?М (t,xf)] exp [-^г(у)^ +*?!<*>>« (*,xf!) / [t,x?,*fM (t,xf) ,1#M (tfXf!) + Й^°>*(т,:4;)=ехр Uy rfo)dj/ д<(*°!), te{l,2}, mo W^ito)* ft,ж"1 1 есшъ кооперативный выигрыш игрока г на отрезке времени [t,T] при весовом коэффициенте а??. 8.3.5. Повторим предыдущие рассуждения для подыгры Тс (х*1 ,Т — т) с началом в момент времени г из состояния Хт1 с выбранным весовым коэффициентом а[ = а?. Легко можно видеть, что Г?(*о)< (г, я??) ехр I Г г (у) dy\ = lH)(T)i (г, х??) , г е {1, 2} . J.3.S Замечание 4- Для выполнения условия индивидуальной рациональности в течение всей игры выбранный коэффициент а? должен удовлетворять условию ^-a?(to)i ^ Х«П ехр I Г r (j/) dj/1 = ^a;<T)i ^ xf^ > Исследуем теперь состоятельность во времени (динамическую устойчивость) решения. Временная состоятельность принципа оптимальности гарантирует сохранение оптимальности первоначально выработанного решения в каждый момент времени, когда игра развивается вдоль выбранной в начале игры оптимальной траектории. В дополнение к этому должны сохраняться парето-оптимальность и индивидуальная рациональность решения вдоль оптимальной траектории. В случае игры Гс(хо,Т — to) с нетрансферабельными выигрышами временная состоятельность сводится к выполнению следующих условий. 8.3.6. Условие. о о 1. Дележ И^т(аТ)1 (г, Хт1) , W"7"^)2 (г, Хт1) , при т G [to,T] должен оставаться парето-оптимальным в подыграх вдоль оптимальной траектории. Wa^ (t,x?1) >V^ (r,xf) , для г G {1, 2} и г G [to, T] ; и
402 8. Игры двух лиц с дисконтированием цг^о)г (V, х??) ехр I Г г {у) dy\ = Wa^r)i (г, xf1^ , для % G {1,2} и т G [to,T]. Условие 1) обеспечивает парето-оптимальность на всем отрезке игры, условие 2) обеспечивает индивидуальную рациональность на всем отрезке игры, и условие 3) гарантирует временную состоятельность. 8.3.7. Предположим, что в начальный момент to игроки согласились на некоторый принцип оптимальности в игре Гс (xq,T — to), который заключается: 1) в выборе весового коэффициента а?, и соответствующей пары кооперативных управлений ф?Ы&х),ф?М&х) 2) и выборе на основе этого дележа W^^1 (to^xo) ,Wa"^2 (t0,x0) В последующие моменты времени т G (to, Т], используя тот же принцип оптимальности, игроки соглашаются 1) выбрать весовой коэффициент а[ и пару кооперативных управлений U?W(t,x),1>?ir)(t,xj\,* 2) на основе этого дележ W4*!^)1 (г, Хт1) , Wa^T>)2 (г, ж?1) Теорема. Принцип оптимальности, на основе которого игроки выбирают один и тот же весовой коэффициент а? во всех подыграх Гс и такой, что Wa°^ (r,xf) > VW (г,s?!) , W"°^ (r,xf) >V^2 (r,x??) , представляет собой состоятельное во времени (динамически устойчивое) решение кооперативной игры Гс (хоУТ — to). Доказательство. Если игроки выбирают один и тот же весовой коэффициент aj во всей игре, то это означает, что в течение игры Гс (хтг,Т — т) будет использована одна и та же пара кооперативных управлений /*!(*о) , /a? (to) Групповая оптимальность при этом гарантирована, и дележ С(т) (хт, Г - г) = [iH*?)1 (г, z??) , *И<*?)2 (г, xf)], при г 6 [to, Т], действительно оптимален по Парето во всех подыграх и в основной игре. Поэтому часть 1) условия п. .8.3.6 выполнена. Индивидуальная рациональность следует из условия теоремы VT0^1 (r,z??) >V^1 (т,х$) и Г?М2 (г,х?')>У«2 (т,*??) , при те [t0,T],
§8.3. Игры с нетрансферабельными выигрышами 403 и часть 2) условия п. 8.3.6 также выполнена. Более того, из условия (8.3.8) имеем: lH(*o)i(r,z??)exp[ Гr{y)dy\ = Wa?(r)*(V,x??), г G {1,2}. LJ to J Часть 3) условия п. 8.3.6 также выполнена. 8.3.8. Пример 5. Рассмотрим неантагонистическую дифференциальную игру двух лиц из примера 1 п. 8.1.3 в предположении, что выигрыши нетрансферабельны. Необходимыми условиями, которым должен отвечать выбранный принцип оптимальности, являются групповая рациональность и индивидуальная рациональность. Парето-оптимальные исходы в игре Гс (хо,Т — to) определяются решением следующей задачи оптимального управления, включая выбор весового множителя a® G (0, оо): maxjJ1 {t0,x0) + a^J2 (t0,x0)} in аах < / max + OL\ fal (* Л/2 Cl x(s) щЩ (s) + [^2 (s] ll/2. C2 x(s) ЩЩ (S) exp [—r (s — t0)] ds + + exp [-г (Г - t0)] (qxx (T)1/2 + a\q2x (T)1/2) | x (t0) = x0 (8.3.9) при ограничениях (8.1.5). Пусть L^*i(*o) (t^x} ?^2 o) (t,x) , t e [to,T] — пара управлений, которая доставляет максимум в задаче управления maxUbU2 {j1 (to,xo) ~\~ a\J2 (to,xo)}> и W^ (t,x) : [to,T] x Rn -» Я — функция значения, удовлетворяющая следующему уравнению (теорема п. 8.3.2): -^l(to) (*,*) = = max{( \u\/2 ~щ + а° 1/2 С2 j exp [-г (t - t0)\ + WU a? (to) (t,*) аж 1/2 — bx — Щ — U2 \ W*»(to) (Г) ^ = exp [_r (T _ tQ)] Максимизация правой части в (8.3.10) дает v>r?(t0) (t,x) = q^+a^x1'2 (8.3.10) су + xV2W?llto) (t,x) exp [r (t - to)} 2' Ф?М&х) 4 [c2 + zVaw°?(to) (i, ж) exp [r (t - *<>)] A*i te[t0,T}. 2' (8.3.11)
404 8. Игры двух лиц с дисконтированием Подставляя ф"1 (t,x) и ч/>2 (t,x) из (8.3.11) в (8.3.10), получаем выражение для функции значения Wa°(to) (t, х) = ехр [-г (t - to)} \Aa° (t) x1'2 + Ba° (t)] , t G [t0, T\. 5.3.12) где A"1 (t) и В"1 (t) удовлетворяют уравнениям: л4** (t) = r + Aai (t) - «? 4 [ci + A"? (i) /2] 4 [c2 + A"? (<) /2ai]' Ba" (<) = rBa" (t) - ^Aa? (t), Aa°(T)=qi+a%, Ba°(T)=0. Подставляя частные производные W?°{to)(t,x) ИЗ 5.3.12) ф^1 (t,x) и ^^ (t,x), получаем оптимальное управление в задаче maxUbU2 {J1 (to,xo) + a?J2 {to,xo)}- Подставляя эти управления в (8.1.5), получаем парето-оптимальную траекторию, соответствующую весовому коэффициенту а\ в виде x(s) — ax(s) ' —bx(s)~ x(s) x(s) 4 [Cl + A«°i (s) /2]2 4 [c2 + A"? (s) /2a?]2' .3.13) Решая (8.3.13), получаем явное выражение для парето-оптимальной траектории, соответствующее весовому коэффициенту а® в виде 2 где Ф (t0,5) = ехр к* Я2 (г) dr H2(s)-- *S/2 + Cs n Jt0 1 . , s<E[to,T]. 3.3.14) + [2 8 [ci + А<*? (а) /2] 8 [с2 + А«? (s) /2а?] Кооперативное управление, соответствующее весовому коэффициенту а° на временном промежутке [io,^]) определяется по формуле Ф?{*0) (t,xf) = #!(t0)(t,*f!) 4[ci+A°<?(t)/2]' 3.15) 4[с2 + Л«?(^)/2а?]2' при te [t0,Г]. Найдем индивидуальные выигрыши игроков. Подставим i/»"1 (t, ж"1) i V^ f^i^t*1)' определенные в (8.3.15), в выражение для функции выигрыша на отрезке времени [t,T]. Тогда получаем
§8.3. Игры с нетрансферабельными выигрышами 405 W°°(t0)i ^xfi^j пт- Clxai(s) 1/2 2[Cl+AQi(S)/2] 4[ci+Aai(S)/2 + exp[-r(T-r)}qixa°(T)1/2- exp [—r (5 — to)] ds + W«iM2(t,xf) R «Y^^/2 ж"1(з) «ir^1/2 с2жа1(з) 2[c2+Aai(S)/2c?] 4[C2+Aa? (a)/2a°] / 0\ -L/^ + exp[-r(T-r)]g2(41J . exp [—r (5 — to)} ds + -vOxl/2 Из теоремы п. 8.3.4 имеем, что если существуют непрерывно-дифференцируемые функции lH<*o)< (t,xf^ : [to,Г] xRm->R,ie {1,2}, удовлетворяющие уравнениям (,-«) .0\ 1/2 0\1/2 I W^)l (tX1) - I 2[Cl+A»V(t)/2] 4[c1+A°?(t)/2]: +^(t0)1 (t,*?) la (*Я1/3 - te?? - -г-4-т V * / I V * / l 4[Cl + Aa?(i)/2] exp[-r (t- t0)} + 4[c2+Aai(t)/2a1] W«!(*o)l (7^?) exp [_r (T _ r)] ^a? (Г)1/2 _ ^a?(t0)2 ^a!j .0X1/2 2 [c2+Aai (t)/2aj] 4 [c2+Aa? (t)/2a?] exp [-r (t - t0)] #Я2(м?;)Ц^) -^ >°\V2 \ *?* 4 [Cl+Aa? (t)/2] 4 [c2-{Ua? (t)/2«i] W«!(*o)2 (Г, 4!) exp [-r (T - r)] </2 (4!) o\ 1/2 (8.3.16) Тогда T^ai(to)* ft, ж^1 j есть кооперативный выигрыш игрока i на отрезке [t, T] с весовым коэффициентом а?. Утверждение. Функции W"ai(*o)i (t,x) : [т, Т] х jR -» Д, удовлетворяющие (8.3.16), имеют вид: W"0^1 (t, я"?) - exp [-г (t - t0)] [Af (t) x1/2 + J3«? (*)] , (8.3.17)
406 где 8. Игры двух лиц с дисконтированием A? (t) + С\ r + l\Aa4t) — о| Х 2[с1+Л°!(*)/2] ' 4[С1+А°?(«)/2]5 i?? (*) , i?! (*) + 8 [Cl + Aa° (t) /2] 8 [pa + A"? (i) /2a$] 2' i?!(«) = г5Г! (*) ~ |^?! (*), i?S(T)=«i, ВГ?(Л = 0. Доказательство. Вычисляя производные W"t ° (t,:^1 ] и W^t ° ft, a^*1 j и подставляя их в (8.3.16), получаем утверждение п. 8.3.8. 8.3.9. Утверждение. Функции Wai(tQ)2 (t,x) : [г,Т) х R -» Д, удовлетворяющие (8.3.16), имеют вид: W°iM2 (t, sta?) = exp [-r (t - t0)] [A?! (*) ^V2 + ^2! (t)] , (8.3.18) где & (*) r+- + ir (*)- i? (*) Г + C2 2 [c2 + A°i (t) /2a?] 4 [C2 + A«° (t) ^ 5 + K1 («) 8 [ci + Л"? (t) /2] 8 [c2 + A"? (t) /2a°; 2' i2a? (t) = rB2a? (t) - \kf (t), Af (T) = q2, В? (T) = 0. Доказательство. Вычисляя производные W*1 ° (t.x^1) и Wxtx ° (t,^1 J и подставляя их в (8.3.16), получаем утверждение п. 8.3.9. Используя (8.3.8) и повторяя предыдущее утверждение для подыгр, получаем ТН<*°)2 (*,ж°?) exp [-г (r - t0)] - Й^?(т)1 (t,xta?) = exp [—r (t — t)] oxl/2 Л о / o\ J-/^ Л о ^(t)(^) +B?{t) jH<'°>2 (t, z??) exp [-r (r - t0)] - W«iW (t, a;?5) = exp [—r (t — r) o\l/2 _о Af(t)(Xf) +B?(t) (8.3.19) Для выполнения свойства индивидуальной рациональности выбранный весовой коэффициент а\ должен удовлетворять условиям Wa°W {т,х^)>У^ (т,х?>) и Wa°^2 (r,xf)>V^2 (r,xfl) - Предложим состоятельное во времени (динамически устойчивое) решение кооперативной игры Гс (#о, Т — to). Как это следует из теоремы §8.3., принцип оптимальности,
§8.3. Игры с нетрансферабельными выигрышами 407 согласно которому игроки договариваются выбрать один и тот же весовой коэффициент а® во всех играх Гс [х?х,Т — тJ и при этом имеют место неравенства Wa°W (r,xf)>V^ (r,xf) , W*°^2 (v?!)>FW2 (r,xf) , определяет состоятельное во времени решение кооперативной игры Гс (хо,Т — to). Условие Wai {T)i(r,xf) >V^(r,xf), ге{1,2} порождает следующие ограничение на выбор весового коэффициента aj: Af (r) (xf) + В? (r)J > \Ai to (xf) + В, (г) при г G {1,2} и те [t0,T]. .oxl/2 (8.3.20) Заметим, что из утверждений п. 8.3.8 и п. 8.3.9 можно получить Bi1 (r) = (a/2r)Ai1 (r), и из утверждения п. 8.3.8 можно получить Bi(r) — (a/2r) Ai(r). Поэтому, если Af1 (г) > Ai (г), то ef1 (г) > В* (т), при г е {1, 2} и г G [t0, T]. Для выполнения (8.3.20) необходимо, чтобы Af (г) > Ai (г), г е {1,2} и т G [to, T]. (8.3.21) 8.3.10. Определение. Обозначим множество всех весовых коэффициентов а[, удовлетворяющих условию Ai г (t) > Ai (t), при г G {1,2} в момент t Е [to,T) через St. Обозначим через а\ точную нижнюю границу значений а\ в St, и через а\ — точную верхнюю границу. Когда t стремится к Т, используем обозначения а^~ для limt_^T- a\, и af ~ для Нт^_^т- а\. Определение. Определим множество S^ = Пг<г<т $t пРи Т ^ [to,T). St — множество весовых коэффициентов ai, для которых выполнено условие индивидуальной рациональности в момент t Е [to, Т) и S^ — множество весовых коэффициентов а±, для которых выполнено условие индивидуальной рациональности на всем промежутке [т,Т). В общем случае S^ ф Sj при r,t Е [to,T), где т фЬ. Рассмотрим типичные конфигурации 5*. Для нахождения типичных конфигураций St при t Е [to,T) в игре Гс(хо,Т — to) были проведены численные эксперименты, изменяя параметры а, 6, <7, с±, С2, #i, #25 Т, г, хо в широких пределах. Мы вычислили функции А\ (t), B\ (t), A2 (t) и Б2 (t) при t Е [to,Г] из примера 1. Далее были выбраны весовые коэффициенты а\ и были вычислены функции A®1 (t), А^1 (t), В®1 (t) и Б2Х (t) из утверждений п. 8.3.8 и п. 8.3.9 при t Е [to,T]. В каждый момент времени t Е [to,T] выделяется множество тех весовых коэффициентов а*, при которых имеет место A**1 (t) > Ai (t) при i Е {1,2} с целью построения множеств 5* при t Е [to,T). Расположение значений а\ при t E [to, Т) представлено в виде кривой ах, и расположение значений а\ — в виде кривой а±. Отметим две основные особенности: 1) функции ах и а\ непрерывны и, при этом, или обе монотонно возрастают, или обе монотонно убывают; 2) множество Sj0 может оказаться как пустым, так и непустым.
408 8. Игры двух лиц с дисконтированием Рис. 8.1. Множество St = [a\,a\] при 5^' Рис. 8.2. Множество St = [а\,а\] при S?Q ф 0 Типичные случаи изображены на рис. 8.1—8.3. Замечание 5. Рассмотрим случай Sj0 Ф 0. Если ах и Ы\ монотонно убывают, условия af~ ^ S^ и а\~ G S^ при г G [to,T) встречаются чаще. Если аг и Щ монотонно возрастают, условия о^~ gSJh Ы^~ ^ 5^Г при г G [to,T) встречаются чаще. Представим ниже одно состоятельное во времени решение игры Гс (хо,Т — to). Теорема. Если S^0 ф 0, принцип оптимальности, выбранный игроками и предписывающий им выбор весового коэффициента аЛ Т- —Т- если о^ G S^ и а\ в S? иа ь ис-^ если а т- т- при г 6 [to,T], прит G [t0, Г], 3.3.22) представляет собой состоятельное во времени решение кооперативной игры Гс(ж0,Г-*о). Доказательство. Если хотя бы одно из двух взаимно-исключающих условий, определяющих выбор а\ согласно (8.3.22), выполнено, то согласно теореме п. 8.3.7 единственный весовой коэффициент а\ может быть выбран для всех подыгр Гс (хтг,Т — г ] при to < г < t < Г. Вектор С(т) (х?\Т-т} = \WT^)1 {т,хт) ,WT{<)2 {т,хт) при те [to,Г],
§8А. Упражнения и задачи 409 Рис. 8.3. Множество St = [ai,a*] при Sf0 ф 0 представляет собой парето-оптимальную пару дележей. Поэтому часть 1 условия п. 8.3.6 выполнена. Поскольку «lesg, А, 1/2 при г G {1,2}. > 1/2 Ai(t)(a;taI) +Bi(t) Часть 2 условия п. 8.3.6 выполнена. И наконец из условия (8.3.19) имеем War(^2 (t,xf) exp [-r (r - to)] = ^a?(T)1 (*,*??) , te{i,2}, re[t0,T}, т. е. часть З условия п. 8.3.6 выполнена. Это и доказывает теорему п. 8.3.10. §8.4. Упражнения и задачи 1. Рассмотрим игру разработки ресурсов двумя игроками. Предполагаем, что игра имеет предписанную продолжительность [to,T]. Поток ресурсов х (s) E X С R описывается следующим уравнением динамики: х (s) = a — bx (s) — u\ (s) — U2 (s), x (to) = xo G I, где a и b — константы, u\ (s), u<i (s) — скорости разработки ресурса для игроков 1 и 2 соответственно. В момент to функции выигрышей игроков определяются следующим образом: L щ(')-^Г)ч'{') I JtQ U2 (s) -7-Т^2 (в) ехр {-г (t - to)} ds + exp [-г (Г - to)] qx (T), exp [-r (t - to)} ds + exp [-r (T - to)] qx (T) . где q, ci и С2 - константы, причем с\ Ф С2. Выигрыши трансферабельные, г — ставка дисконтирования.
410 8. Игры двух лиц с дисконтированием а) Найти равновесие по Нэшу в позиционных стратегиях. б) Рассмотреть кооперативную форму игры. Найти оптимальные управления. в) Рассмотреть кооперативную форму игры. Найти оптимальную траекторию. 2. Рассмотрим кооперативную форму игры из упр.1. Предположим, что игроки договорились о максимизации суммы выигрышей и последующего ее раздела в соответствии с арбитражной схемой Нэша. ПРД должна удовлетворять условию, сформулированному в утверждении п. 8.1.1. - \АТ)* t ^{t,xI) = V^{t,x*t) + ^ lw(T)(T,x;)-^y(T)j(r,x;) , j=i J а) Вычислить ПРД. б) Показать, что выполнены Парето-оптимальность и индивидуальная рациональность. 3. Рассмотрим игру на бесконечном промежутке времени, в которой игроки 1 и 2 максимизируют свои выигрыши: Г JtQ Г ui (s) u2 0) x(s) x(s) ul(s) ul(s) exp [—r (t — to)] ds, exp [—r (t — to)] ds. ке: Выигрыши игроков транферабельные и поток реуров x(s) G X С R определяется динами- х (s) = a — bx (s) — u\ (s) — U2 (s), x (to) — xo 6 X. а) Найти равновесие по Нэшу в позиционных стратегиях. б) Найти оптимальные стратегии для кооперативной формы игры. в) Для кооперативной формы игры найти оптимальную траекторию. г) Рассмотрим кооперативную игру, в которой игроки максимизируют суммарный выигрыш и делят его в соответствии с арбитражной схемой Нэша. Эта схема также совпадает с вектором Шепли для кооперативной игры двух лиц. Найти ПРД. 4. Рассмотреть игру из упр.З, но предположить, что выигрыши нетрансферабельные. а) Найти парето-оптимальное решение. б) Предложить динамически устойчивое решение, удовлетворяющее аксиоме симметрии.
Литература Основная а) учебники Айзеке Р. Дифференциальные игры. — М.: Мир, 1967. i Васин А. А., Краснощекое П. С, Морозов В. В. Исследование операций. — М.: Изд. центр «Академия», 2008, 464 с. Васин А. А., Морозов В. В. Теория игр и модели математической экономики. — М.: i Изд-во Моск. ун-та, 2005, 272 с. Воробьев Н.Н. Теория игр для экономистов-кибернетиков. — М.: Наука, 1985. Дюбин Г. Н., Суздаль В. Г. Введение в прикладную теорию игр. — М.: Наука, 1981, с. 311. Зенкевич Н. А., Петросян Л. А., Янг Д. В. К. Динамические игры и их приложения в менеджменте. — СПб: Изд-во ВШМ, 2009, 416 с. Карлин С. Математические методы в теории игр, программировании и экономике. — М.: Мир, 1964, с. 840. Красовский Н. Н. Управление динамической системой. Задача о минимуме гарантированного результата. — М.: Наука, 1985, с. 469. Красовский Н. Н., Субботин А. И. Позиционные дифференциальные игры. — М.: i Наука, 1974, с. 456. Мазалов В.В. Математическая теория игр и приложения. — СПб.; Москва; Краснодар: Лань, 2010, 446 с. Мак-Кинси Дою. К. Введение в теорию игр. — Москва, I960, с. 371. Мулен Э. Теория игр с примерами из математической экономики. — М.: Мир, 1985. Оуэн Г. Теория игр. — Москва, 1971, с. 230. Петросян Л. А., Данилов Н. Н. Кооперативные дифференциальные игры и их приложения. — Томск, 1985. Петросян Л. А., Кузютин Д. В. Игры в развернутой форме: оптимальность и устойчивость. — СПб.: Изд-во СПбГУ, 2000. 411
412 Литература Петпросян Л. А. Дифференциальные игры преследования. — Л., 1977. Петросян Л. А., Зенкевич Н.А., Семина Е. А. Теория игр. — М.: Высшая школа, 1998. Печерский С. Л., Яновская Е. Б. Кооперативные игры: решения и аксиомы. — СПб.: Изд-во Европ. ун-та в С.-Петербурге, 2004, с. 459. Petrosjan L.A., Zenkevich N.A. Game theory. — Singapure, London: World Scientific Publisher, 1996. Yeung D. W. K., Petrosjan L. A. Cooperative Stochastic Differential Games. — Springer Science+Business Media, Inc., 2006. б) сборники задач Коваленко А. А. Сборник задач по теории игр. — Львов: Высшая школа, 1974. Морозов В. В., Сухарев А. Г. Исследование операций в задачах и упражнениях. — М.: Высшая школа, 1986. Дополнительная в) монографии и учебные пособия Ауман Р., Шепли Л. Значение для неатомических игр. — Принстон: Изд-во Прин- стонского ун-та, 1974, с. 283. Ашманов С. А. Линейное программирование. — М.: Наука, 1981, с. 198. Беллман Р. Динамическое программирование. — М.: И.Л., I960. Берж К. Общая теория игр нескольких лиц. — М.: Физматгиз, 1961, с. 114. Блекуэлл Д., Гиршик М. Теория игр и статистических решений. — М.: И.Л., 1958, с. 330. Бондарева О. Н. О теоретико-игровых моделях в экономике. — Л.: Изд-во ЛГУ, 1974, с. 115. Воробьев Н. Н. Основы теории игр. Бескоалиционные игры. — М.: Наука, 1984. Григоренко Н. Л. Дифференциальные игры преследования несколькими объектами. - М.: Изд-во МГУ, 1983, с. 217. Данилов Н. Н. Игровые модели принятия решений. — Кемерово: КГТУ, 1981. Данскин Дою. М. Теория максимина. — М.: Сов. радио, 1970, с. 126. Демьянов В. Ф., Малоземов В. Н. Введение в минимакс. — М.: Наука, 1972. Гейл Д. Теория линейных экономических моделей. — М.: Мир, 1963, с. 330. Горелик В. А., Кононенко А. Ф. Теоретико-игровые модели принятия решений в эколого-экономических системах. — М., 1982.
Литература 413 Данилов Н.Н., Зенкевич Н.А. Неантагонистические игры двух лиц. — Кемерово: Изд-во КемГУ, 1990. Давыдов Э. Г. Методы и модели теории антагонистических игр. — М.: Изд-во МГУ, 1978, с. 135. Дрешер М. Стратегические игры. Теория и приложения. — М.: Сов. радио, 1964, с. 186. Дюбин Г. Н., Суздаль В. Г. Введение в прикладную теорию игр. — М.: Наука, 1981, с. 311. Жуковский В. И., Салуквадзе М.Е. Некоторые игровые задачи управления и их приложения. — Тбилиси, 1998, с. 462. Жуковский В. И., Чикрий А. А. Линейно-квадратичные дифференциальные игры. — Киев: Наукова думка, 1994. Жуковский В. И, Тынянский Н. Т. Равновесные управления многокритериальных динамических систем. — М.: Изд-во МГУ, 1984. Зенкевич Н. А., Есъкова В. А. Конечные антагонистические игры. — Кемерово: Изд-во КемГУ, 1989. Зубов В. И. Динамика управляемых систем. — М., 1982. Зубов В. И., Петпросян Л. А. Математические методы в планировании.— Л.: Изд-во ЛГУ, 1982. Клейменов А. Ф. Неантагонистические позиционные дифференциальные игры. — Екатеринбург: Наука, 1993. Колмогоров А. Н., Фомин С. В. Элементы теории функций и функционального анализа. — М.: Наука, 1981, с. 389. Кононенко А.Ф., Хафизов А. Д., Чумаков В. В. Принятие решений в условиях неопределенности. — М., 1991. Красовский Н. Н. Игровые задачи о встрече движений. — М.: Наука, 1970. Кузютин В. Ф., Зенкевич Н.А., Еремеев В. В. Геометрия: Учебник для вузов. — СПб.: Лань, 2003. Кукушкин Н. Н., Морозов В.В. Теория неантагонистических игр. — М.: Изд-во МГУ, 1977. Куржанский А. Б. Управление и наблюдение в условиях неопределенности. — М.: Наука, 1977, с. 325. Льюис Р. Д., Райфа X. Игры и решения. Введение и критический обзор. — М.: И.Л., 1961, с. 509. Малафеев О. А. Управляемые конфликтные системы. — СПб.: Изд-во СПбГУ, 2000, 280 с.
414 Литература My лен Э. Кооперативное принятие решений: аксиомы и модели. — М.: Мир, 1993. Ilapmxacapamxu Т, Рагхаван Т Некоторые вопросы теории игр двух лиц. — Москва, 1974, с. 259. Петросян Л. А., Гарнаев А. Ю. Игры поиска. — Л.: Изд-во ЛГУ, 1992, с. 217. Петросян Л. А., Захаров В. В. Введение в математическую экологию. — Л.: Изд-во ЛГУ, 1986, с. 295. Петросян Л. А., Зенкевич Н. А. Оптимальный поиск в условиях конфликта. — Л.: Изд-во ЛГУ, 1986, с. 96. Петросян Л. А., Кузютин Д. В. Устойчивые решения позиционных игр (монография). - СПб.: Изд-во СПбГУ, 2008. Петросян Л. А., Томский Г. В. Динамические игры и их приложения. — Л., 1982. Петросян Л. А., Томский Г. В. Геометрия простого преследования. — Новосибирск, 1983. Печерский С. Л., Беляева А. А. Теория игр для экономистов. Вводный курс. — СПб.: Изд-во Европейского университета, 2001. Печерский С Л., Соболев А. И. Проблема оптимального распределения в социально- экономических задачах и кооперативные игры. — Л.: Наука, 1983, с. 176. Подиновский В. В., Ногин В. Д. Парето-оптимальные решения многокритериальных задач. — М., 1982. Понтрягин Л. С, К теории дифференциальных игр // Успехи математических наук, 21(4), 1966. Понтрягин Л. С, Болтянский В. Г., Гамкрелидзе Р. В., Мищенко Е. Ф. Математическая теория оптимальных процессов. — М.: Наука, 1976. Прохоров Ю. В., Рязанов Ю. А. Теория вероятностей. Основные понятия. Предельные теоремы. Случайные процессы. — М.: Наука, 1967, с. 358. Рокафеллар Р. Т. Выпуклый анализ. — М.: Мир, 1973, с. 470. Розенмюллер И. Кооперативные игры и рынки. — М.: Мир, 1974, с. 115. Сансоне, Дж. Обыкновенные дифференциальные уравнения. Т. 2. — М.: И.Л., 1954, с. 269. Слобожанин Н. М. Информация и управление в динамических играх. — СПб.: Изд- во СПбГУ, 2002, с. 308. Субботин А. И., Ченцов А. Г. Оптимизация гарантии в задачах управления. — М.: Наука, 1981, 288 с. Субботин А. И. Обобщенные решения дифференцильных уравнений 1-го порядка. Перспективы динамической оптимизации. — М.: Ижевск, 2003, с. 336.
Литература 415 Тироль Ж. Рынки и рыночная власть: теория организации промышленности. В 2-х т.; пер. с англ.; под ред. Гальперина В. М. и Зенкевича Н. А. — СПб.: Экономическая школа, 2000. Тыняпский Н. Т., Жуковский В. И. Итоги науки и техники. Математический анализ. Т. 10. - М.: ВИНИТИ, 1979. Феллер В. Введение в теорию вероятностей и ее приложения. Т. 1, 2. — М.: Мир, 1984, с. 1230. Фон Нейман, Дою. и О. Моргенштейн. Теория игр и экономическое поведение. — М.: Наука, 1970, с. 625. Харшаньи Дою., Зелътен Р. Общая теория выбора равновесия в играх / пер. с англ.; под ред. Зенкевича Н. А. — СПб.: Экономическая школа, 2001. Ху Т. Целочисленное программирование и потоки в сетях. — М.: Мир, 1974, с. 411. Черноусько Ф. Л., Меликян А. А. Игровые задачи управления и поиска.— М.: Наука, 1978. Аитапп R. J. Acceptable points in general cooperative n-person games // Contributions to the Theory of Games IV ed. by Luce R.D., Tucker A.W. — Princeton: Princeton University Press, 1959, P. 287-324. Aumann R. J. Game theory // The New Palgreve, A Dictionary of Economics. — London Macmillan, 1987, Vol. 2, P. 460-482. Basar Т., Olsder G. J. Dynamic Noncooperative Game Theory, 2nd Edn. — London: Academic Press, 1995. Bellman R. Dynamic Programming. — Princeton, Princeton University Press, NJ, 1957. Bierman H. S., Fernandez L. Game Theory with Economic Applications. — Addison, Wesley Publishing Company, Inc., Massachusetts, USA, 1993. Binmore K. Fun and Games. A Text on Game Theory. D. C. Heath and Company. — Lexington, Massachusetts, USA, 1992. Brams, S. J. Theory of Moves. — Cambridge Univ. Press, 1994. Burger, E. Introduction to the Theory of Games. — Prentice-Hall, Englewood Cliffs, N.Y., 1963, p. 211. Dockner E., Jorgensen S., Long N.V., Sorger, G. Differential Games in Economics and Management Science. — Cambridge University Press, Cambridge, 2000. Dresher M. Games of strategy, theory and applications. — N.Y.: Prentice-Hall, Englewood Cliffs, 1961. Friedman, A. Differential Games. — Wiley, N.Y., 1971, p. 350. Fishburn P. C. Utility theory for decision making. — New York; London; Sydney; Toronto: Wiley, 1970.
416 Литература Fleming W. H., Rishel R. W. Deterministic and Stochastic Optimal Control. — Springer- Verlag, New York, 1975. Fudenberg D., Tirole J. Game theory. — Mass: MIT Press, 1991. Gibbons R. Game Theory for Applied Economists. — Princ. Univ. Press, Princeton, New Jersey, 1992. Isaacs R. Differential Games. — Wiley, New York, 1965. Karlin, S. Reduction of certain classes of games to integral equations. — Princeton (N.Y.), 1953. Karlin, S. Mathematical Methods and Theory in Games, Programming and Economics. — Pergamon Press, London, 1959, p. 840. Kohlberg E. Refinement of Nash equilibrium: The main ideas. Mimeo. — Harvard University, 1989. Krasovskii A. N., Krasovskii N. N. Control under lack of information. — Birkhauser, Boston, 1995, p. 320. Kreps D. M. Game theory and economic modeling. — Oxford: Oxford Univ. Press, 1990. Leitmann G. Cooperative and Non-Cooperative Many Players Differential Games. — Springer-Verlag, New York, 1974. Maynard, S. J. and G. R. Price. The logic of animal conflict. — Nature, London, 1973. McMillan J. Games, Strategies and Managers. — Oxford University Press, 1992. Myerson R. B. Game theory. — Cambridge: Massachusetts, Harvard University Press, 1991. Neumann J. von, Morgenstern 0. Theory of games and economic behavior. — Princeton: Princeton University Press, 1944. Owen G. Game theory. — Philadelphia: W.B. Saunders Company, 1968. Peleg, B. and P. Sudholter. Introduction to the theory of cooperative games. — Springer, Second ed., 2007, 328 pp. Petrosyan L. A. Differential Games of Pursuit. — World Scientific, Singapore, 1993. Rosenmuller J. The theory of games and markets. — Amsterdam, 1981. Roth A. E. Axiomatic models of bargaining. — Berlin: Spinger-Verlag, 1979. Schelling Т. С The strategy of conflict. — Mass.: Harvard University Press, I960. Shubik M. Strategy and Market Structure. — New York: Wiley, 1959. Thomson W., Lensberg T. Bargaining theory: Axiomatic approach. — San Diego: Academic Press, 1990.
Литература 417 van Damme, E. Stability and Perfection of Nash equilibria. — Springer-Verlag, Berlin, 1991, p. 215. Weibull J. W. Evolutionary Game Theory. — MIT Press, Cambridge, 1995. г) статьи Бондарева О. Н. Некоторые применения методов линейного программирования к теории кооперативных игр // Проблемы кибернетики. Вып. 10, 1963, С. 119-139. Э. М. Вайсборд, В. И. Жуковский. Введение в дифференциальные игры нескольких лиц и их приложения. — М.: Сов. радио, 1980, с. 303. Воробьев Н. Н. Современное состояние теории игр // Успехи мат. наук. 1970. — Т. 25. -ДО 2. -С. 69-90. Зенкевич Н. А., Козловская Н. В. Устойчивый вектор Шепли в задаче экологического производства // Математическая теория игр и ее приложения. Вып. 1, 2010. Клейменов А. Ф. К кооперативной теории бескоалиционных позиционных дифференциальных игр // Докл. АН СССР, 1990. Т. 32.- ДО 1.- С. 32-35. Клейменов А. Ф. О решениях в неантагонистической позиционной дифференциальной игре // Прикладная математика и механика, 61:5, 1997, С. 739-746. А. Ф. Кононенко. О равновесных позиционных стратегиях в неантагонистических дифференциальных играх // ДАН СССР, 231(2), 1976. Красовский Н. Н., Котпельникова А. Н. О дифференциальной игре на перехват // Труды математического института им. В. А. Стеклова, 2010. — Т. 268. — С. 168-214. Мазалов В. В., Сакагучи М. Равновесие в бескоалиционной игре п лиц с выбором момента времени // Математическая теория игр и ее приложения. — Т. 1. Вып. 1. — 2009, С. 65-85. О. А. Малафеев. О существовании ситуации равновесия в дифференциальных бескоалиционных играх двух лиц с независимыми движениями // Вестник ЛГУ, ДО 7, 1980. Меликян А. А. Сингулярные характеристики в граничных условиях уравнения Гамильтона - Якоби // Доклады Академии Наук, 2005. — Т. 404. — Вып. 4. Местников С. В. Аппроксимация области неопределенности в дифференциальных играх поиска // Дифференциальные уравнения, 1992. — Т. 28.— ДО 6.— С. 967-972. Никитин Ф. Ф., Чистяков С. В. О дифференциальных антагонистических играх с неограниченной продолжительностью // Вестник СПбГУ. Сер. 1. — Вып. 3. — 2004. - С. 37-43. Парилина Е. М. Кооперативная игра передачи данных в беспроводной сети // Математическая теория игр и ее приложения. — Т. 1. — Вып. 4. — 2009. — С. 93-110.
418 Литература Пек Дою., Далмидж А. Л. Игры на компактном множестве // Сборник статей. — С.З. Петров Н. Н. О существовании значения игры преследования // ДАН СССР. — Т. 190. - ДО 6. - 1970. - С. 1289-1291. Петров Н. Н. Доказательство существования значения игры преследования с ограниченным временем // Дифференциальные уравнения. Т. 6. — ДО 5. — 1970. — С. 784-797. Петросян Л. А. Устойчивость решений в дифференциальных играх со многими участниками // Вестн. ЛГУ. Сер. 1. — Вып. 4. — ДО 19. — 1977. — С. 46-52. Петросян Л. А. Характеристические функции кооперативных дифференциальных игр // Вестн. СПбГУ. Сер. 1. - Вып. 1. - 1995. - С. 48-52. Петросян Л. А., Баранова Е. М., Шевкопляс Е. В. Многошаговые кооперативные игры со случайной продолжительностью // Сборник науч. трудов «Оптимальное управление и дифференциальные игры» в Тр. Инст. мат-ки и мех-ки. — Екатеринбург: Изд-во УрО РАН. - Т. 10. - ДО 2. - 2004. - С. 116-130. Петросян Л. А., Данилов Н. Н. Устойчивость решений в неантагонистических дифференциальных играх с трансферабельными выигрышами // Вестн. ЛГУ. — ДО 1. — 1979. - С. 46-54. Л. А. Петросян, Н. А. Зенкевич. Принципы устойчивой кооперации // Математическая теория игр и ее приложения. Т. 1. — Вып. 1. — 2009. — С. 102-117. Петросян Л. А., Мамкина С. И. Игры с переменным коалиционным разбиением // Вестник СПбГУ. Сер. 1. - Вып. 3. - 2004. - С. 60-69. Петросян Л. А., Шевкопляс Е.В. Кооперативные дифференциальные игры со случайной продолжительностью // Вестн. СПбГУ. Сер. 1. — Вып. 4. — 2000. — С. 23-28. Садовский, А. Л. Монотонный итеративный алгоритм решения матричных игр // ДАН СССР. - 238(3). - 1978. Сайоп М. Некоторые общие теоремы о минимаксах // Сборник статей. — Сер. 3, С. 40 - 46. Сайоп М., Вульф Ф. Об игре, не обладающей значением // Сборник статей. — Сер. 4, С. 290 - 300. Чистяков С. В. О построении сильно динамически устойчивых решений кооперативных дифференциальных игр // Вестн. СПбГУ. Сер. 1. — ДО 1. — 1992. — С. 50-54. Чистяков С В. Динамический аспект решения классических кооперативных игр // Докл. РАН. Т. 330. - ДО 6. - 1993. - С. 707-709. Шевкопляс Е. В. Уравнение Гамильтона-Якоби-Беллмана в дифференциальных играх со случайной продолжительностью // Управление большими системами. 26.1. — М.: ИПУ РАН. - 2009. - С, 385-408.
Литература 419 Яновская Е. Б. О существовании значения антагонистических игр с полунепрерывными функциями выигрыша // Изв. АН СССР. — Техн. кибернетика. — J\fe 6. — 1973. -С. 56-60. Яновская Е. Б. Антагонистические игры // Проблемы кибернетики. Вып. 34. — М.: Наука. - 1978. - С. 221-246. Baranova E.M., Petrosjan L.A. Cooperative Stochastic Games in Stationary Strategies // Game theory and Applications. — Nova Science Publishers. Vol. 11. — 2006. — P. 7-17. Breton M., Zaccour G., Zahaf M. A differential game of joint implementation of environmental projects // Automatica. Vol. 41. — Л* 10. — 2005, P. 1737-1749. Domansky V. Dynkin games with randomized optimal stopping rules // Annals of the International Society of Dynamic Games. Vol.7. — Birkhauser, Boston, MA,USA, 2004, P. 247-262. Harsanyi, J. С International Economic Review, 4, 1963. Harsanyi, J. С and R. Selten. Management Science, 18, 1972. Hart, S. and A. Mas-Colell. In A. E. Roth, editor, The Shapley Value. — Cambridge Univ. Press, Cambridge, 1988. Haurie A. A note on nonzero-sum differential games with bargaining solutions // Journal of Optimization Theory and Application, 1976, 18, P. 31-39. Haurie A., Zaccour G. Differential game models of global environmental management // Annals of Dynamic Games. — Boston, 1994, P. 124-132. Haigh, J. Adv. Applied Prob., 7, 1975. Jorgensen S., Yeung D. W. K. Stochastic differential game model of a common property fishery // Journal of Optimization Theory and Applications, 1996, 90, P. 391-403. Jorgensen S., Yeung D. W. K. Inter and intragenerational renewable resource extraction. — Annals of Operations Research, 1999, 88, P. 275-289. S. Jorgensen, G. Martin-Herran, G. Zaccour. Agreeability and Time Consistency in Linear-State Differential Games // Journal of Optimization Theory and Applications, Vol.119, JM, 2003, P. 49-63. Kaitala V. Equilibria in a stochastic resource management game under imperfect information // European Journal of Operational Research, 71, 1993, P. 439-453. Kalai, E. and M. Smorodinsky. Econometrica, 43, 1975. Karlin, S. and R. Restrepo. In H. Kuhn and A. Tucker, editors, Contributions to the Theory of Games. — N.Y.: Princeton Univ. Press, Princeton, 1957. Kidland F. E., Prescott E. C. Rules rather than decisions: the inconsistency of optimal plans // J. of Political Economy, 1977, Vol. 85, P. 473-490.
420 Литература Kohlberg Е., Mertens J.-F. On the strategic stability of equilibria // Econometrica. Vol. 54. - 1986. - P. 1003-1039. Krawczyk J., Zaccour G. Management of pollution from decentralized agents by the local government // International Journal of Environment and Pollution. V. 12. — JNT&2/3. — 1999. - P. 343-357. Kreps D.M., Ramey G. Structural consistency, consistency and sequential rationality // Econometrica. Vol. 55. - 1987. - P. 1331-1348. Kuhn H. W. Extensive games and the problem of information // Annals of Mathematics Studies. Vol. 28. - P. 193-216. Leitmann G., Schmitendorf W. E. Profit maximization through advertising: nonzero- sum differential game approach // IEEE Transactions on Automatic Control, Vol. 23. — 1978. - P. 645-650. Marin-Solano J. and Navas J. Non-constant discounting in finite horizon: the free terminal time case // Journal of Economic Dynamics and Control, 33, 2009, 666-675. Marin-Solano J. and Shevkoplyas E. V. Non-constant discounting in differential games with random time horizon // Automatica, 2011. Melikyan A., Olsder G., Akhmetzhanov A. Solution of a Nonzero-Sum Game via Reduction to a Zero-Sum Game // International Game Theory Review. Vol. 10(4). — 2008. — P. 437-459. Myers on R. B. Refinements of the Nash equilibrium concept // International Journal of Game Theory. Vol. 7. - 1978. - P. 73-80. Nash J. F. Equilibrium points in n-person games// Proc. Nat. Acad. Sci., USA. Vol. 36. -1950. -P.48-49. Nash J. F. The bargaining problem // Econometrica. Vol. 18. — 1950. — P. 155-162. Nash, J. Non-cooperative games // Annals of Mathematics. Vol. 54. — 1951. — P. 286- 295. Nash J.F., Jr. Two-person cooperative games // Econometrica. V. 21. — 1953. — P. 128-140. Neumann J. von. Zur Theorie der Gesellschaftsspiele // Math. Ann. Vol. 100. — 1928. - P. 295-320. Perles, M. A. and M. Mashler. International Journal of Game Theory, 10, 1981. Petrosjan, L. A., A. Azamov and H. Satimov. Controlled Systems, 13, 1974. Petrosjan L. A. The Regularization of NB-scheme in differential games // Dynamics and Control. Vol. 5. - 1995. - P. 31-35. Petrosjan L. A. The Shapley value for differential games // New Trends in Dynamic Games and Applications / eds G.Y. Olsder. — Boston: Birkhauser, 1996.
Литература 421 Petrosyan L. A. Agreeable solutions in differential games // International Journal of Mathematics, Game Theory and Algebra. Vol. 7. — 1997. — P. 65-177. Petrosjan L. A. The time-consistency problem in nonlinear dynamics // RBCM — J. of the Braz. Soc. Mechanical Sciences, 1997. - Vol. 19. — JV* 2. — P. 281-303. Petrosyan L. A. Bargaining in dynamic gam es. In: Petrosyan, L., Yeung, D. (ed) ICM Millennium Lectures on Games, 2003. — Springer-Verlag, Berlin. — P. 139-143. Petrosjan L. A. Cooperative Stochastic Games // Advances in Dynamic Games, Annals of the International Society of Dynamic Games, Application to Economics, Engineering and Environmental Management, ed. by A. Haurie, S. Muto, L. A. Petrosjan, T.E.S. Raghavan, 2006. - P. 139-146. Petrosjan L., Mamkina S. Dynamic games with coalitional structures // International Game Theory Review. Vol. 8. - 2006. - Ж2. - P. 295-307. Petrosjan L.A., Shevkoplyas E. V. Cooperative Solutions for Games with Random Duration // Game Theory and Applications. Vol.IX, — 2003. — Nova Science Publishers. — P. 125-139. Petrosjan L. A., Zaccour G. Time-consistent Shapley value allocation of pollution lost reduction // Journal of Economic Dynamic & Control. - Vol. 27. - 2003. - P. 381-398. Roth, A. E. Mathematics of operations research, 2, 1977. Robinson, G. B. An iteration method of solving a game. — RAND Corp. Vol. P-154. — 1950. - P. 9. Rosen J. B. Existence and uniqueness of equilibrium points for concave n-person games // Econometrica. Vol. 33. - 1965. - P. 520-534. Sakaguchi,_M. Oper. Res. Soc. Jap., 16, 1973. Selten, R. Reexamination of the perfectness concept for equilibrium points in extensive games // International Journal of game theory, 4, 1975. Shapley L. S. A value for n-person games // Contributions to the Theory of Games II / eds Luce R.D. and Tucker A.W. — Princeton: N.J. Princeton University Press, 1953, P. 307-317. Shevkoplyas E. V. The Shapley Value in cooperative differential games with random duration // Advances in Dynamic Games. Vol. 11. — Edt. by M.Breton and K. Szajowski. — Springer's imprint Birkhauser, Boston, 2011. Subbotina N.N. The method of characteristics for Hamilton-Jacobi equations and applications to dynamical optimization // Journal of math, sciences. Vol. 135. — N^3, 2955-3091, DOI: 10.1007/sl0958-006-0146-2. Van Damme E. E. C. A relation between perfect equilibria in extensive form games and proper equilibria in normal form games // Intern. J. Game Theory. Vol. 13. — 1984. — P. 1-13.
422 Литература Yanovskaya E. Lexicographical Maximin Core Solutions. In: Constructing Scalar-Valued Objective Functions, Lecture Notes in Economics and Math. Systems, 450, Springer- Verlag, 1996, P. 250-261. Yanovskaya E. Nonsymmetric consistent surplus sharing methods // International Journal of Mathematics, Game Theory and Algebra. Vol. 14. - 2004. — ДОЗ. — Р. 189-203. Yeung D. W. K. On differential games with a feedback Nash equilibrium // Journal of Optimization Theory and Applications, 1994. 82. — ДО 1. — P. 181-188. Yeung D. W. K. Infinite horizon stochastic differential games with branching payoffs // Journal of Optimization Theory and Applications. Vol. 111. — ДО 2. — 2001. — P. 445- 460. Yeung D. W. K. Nontransferable individual payoff functions under stochastic dynamic cooperation // International Game Theory Review, Vol. 6. — 2004. — P. 281-289. Yeung D. W. K., Petrosyan L. Proportional time-consistent solution in differential games. In: Yanovskaya E.B. (ed) International Conference on Logic, Game Theory and Social Choice. — St Petersburg State University, 2001. — P. 254-256. Yeung D. W. K. An irrational-behavior-proofness condition in cooperative differential games // Int. J. of Game Theory Rev. Vol. 9. — ДО1. - 2007.— P. 256-273. Zenkevich, N. A. and S. N. Voznyuk. In M. Breton and G. Zaccour, editors, 6th International Symposium on Dynamic Games and Applications, Preprint Vol. — Montreal, Canada: Ecole des Hautes Etudes Commerciales, 1994.
Предметный указатель С-ядро, 165 Д iVM-решение, 170 е, ^-равновесие, 304 г-равновесие по Штакельбергу, 128 ESS, 146, 222 А Айзекса-Беллмана уравнение, 310 альтернативы, 210 арбитражная схема Нэша, 153 асимметричное равновесие Нэша, 157 Б бескоалиционная игра, 119 бесконечные игры, 55 бесшумная дуэль, 57 биматричная игра, 120 В вектор Банзафа, 185 вектор Шепли, 174 верхнее значение, 17 верхние значение игры, 58 вогнутая игра, 76 вполне смешанная стратегия, 43, 130 выпуклая игра, 76 выпуклая оболочка, 26 выпуклая функция выигрыша, 76 выпуклое многогранное множество, 26 выпуклое множество, 26 выпуклый конус, 27 Г гипотетическое рассогласование, 307 диктаторское решение, 157 дифференциальная игра с предписанной продолжительностью, 296 дуэль, 14, 91, 93 3 задача о переговорах, 153 значение игры, 19, 291 И игра двух лиц, 120 игра качества, 290 игра на достижение минимального результата, 290 игра на уклонение, 14 игра поиска, 15, 55, 93 игра преследования, 285 игра преследования на быстродействие, 301 игра преследования при наличии сил трения, 321 игра с интегральным выигрышем, 290 игра с нулевой суммой, 12 игра с полной памятью, 213 игра с постоянной суммой, 161 игра с терминальным выигрышем, 290 игры на единичном квадрате, 58 интегральный выигрыш, 290 информационное множество, 206 К коалиция,159 конус, 27 крайняя точка, 26 кусочно-программные стратегии, 288 423
424 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ м максиминная стратегия, 16 матричные игры, 12 минимальный результат, 289 многошаговая позиционная игра, 210 множество достижимости, 297 Н непрерывная игра, 70 нижнее значение игры, 16, 58 носитель игры, 173 О одновременные многошаговые игры, 216 оптимальная программная стратегия, 309 П Парето оптимальность, 127 принцип максимума Понтрягина, 338 переговорное множество, 153 повторяющиеся эволюционные игры, 220 подыгра, 12 поиск, 93 покер, 98 правильное равновесие, 140 принцип максимина, 16 простое движение, 286, 320 Р равновесие в совместных смешанных стратегиях, 150 равновесие по Нэшу, 124, 131 равновесная ситуация, 18 решение Калаи-Смородинского, 157 С СКПСП, 324 седловая точка, 18, 28 сильное равновесие, 126 симметричная игра, 46, 221 симметрия в игре, 221 синтезирующие стратегии, 287, 292 ситуация в игре, 12 смешанная стратегия, 23, 63, 129 смешанные кусочно-программные стратегии поведения (СКПСП), 324 совершенное равновесие, 138 совместная смешанная стратегия, 149 спектр смешанной стратегии, 130 стратегия поведения, 212 существенная стратегия, 36 существование ситуации равновесия, 20 У условно-оптимальная траектория, 327 утилитарное решение, 157 Ф функция выигрыша, 12, 55, 289 функция потенциала, 179 X характеристическая функция, 159 Ч чистая стратегия, 211 Э эволюционно устойчивая стратегия (ESS), 146, 222 эволюционные игры, 220 эгалитарное решение, 157
V Петросян Леон Аганесович, доктор физико-математических ' I ' L' Г^РТ/Т ^Г Л/\ I 1-^ наук, профессор, декан факультета прикладной математики — процессов управления Санкт-Петербургского государственного университета (СПбГУ), заведующий кафедрой математической теории игр и статистических решений, редактор международного журнала «International Game Theory Review », ответственный редактор журнала « Математическая теория игр и ее приложения», президент Международного общества динамических игр (ISDG). Автор более 200 научных статей и 20 монографий по теории игр и приложениям, большая часть которых переведена и опубликована за рубежом. Зенкевич Николай Анатольевич, кандидат физико-математических наук, доцент кафедры операционного менеджмента Высшей школы менеджмента СПбГУ, заместитель ответственного редактора журнала «Вестник Санкт- Петербургского университета. Серия "Менеджмент"», ответственный секретарь редколлегии журнала «Математическая теория игр и ее приложения», член Международного общества динамических игр (ISDG) и совета Центра теории игр СПбГУ. Автор более 90 научных статей и 6 монографий по теории игр и ее приложениям в экономике и менеджменте. Шевкопляс Екатерина Викторовна, кандидат физико-математических наук, доцент кафедры математической теории игр и статистических решений СПбГУ. Член Международного общества динамических игр (ISDG). Автор более 30 научных статей по дифференциальным играм и их приложениям. В учебнике проводится систематическое исследование математических моделей принятия решений несколькими сторонами в условиях конфликта. Представлено последовательное изложение единой теории статических и динамических игр. Рассмотрены все основные классы игр: конечные и бесконечные антагонистические игры, бескоалиционные и кооперативные игры, многошаговые и дифференциальные игры. Книга предназначена д,ая студентов и аспирантов университетов, обучающихся по направлению «Прикладная математика и информатика», а также экономических, управленческих и технических направлений и специальностей университетов. Она представляет интерес как ^ая математиков, работающих в области теории игр и ее приложений, так и для специалистов в области экономики, менеджмента, теории управления и исследования операций. фу- БХВ-ПЕТЕРБУРГ 190005, Санкт-Петербург, Измайловский пр., 29 E-mail: mail@bhv.ru Internet: www.bhv.ru Тел.:(812)251-42-44 Факс: .812: 320-01-79 ISBN 978-5-9775-0484-3