Текст
                    А. В. Крушевский
ТЕОРИЯ ИГР
Допущено Министерством
высшего и среднего
специального образования СССР
в качестве учебного пособия для
студентов вузов, обучающихся
по специальности
«Экономическая кибернетика»
Киев
Головное издательство
издательского объединения
«Вища школа»
1977


УДК 518 9@7) Теория игр. КрушевскийА В Киев, Издательское объе- объединение «Вища школа», 1977, 216 с. В пособии изложены осиовные положения и сведения из теории игр, рассмотрены теоретические вопросы решения игр, приведе- приведены примеры из различных сфер человеческой деятельности По- Поэтому в книге уделено большое внимание прикладной теории игр, и во многих случаях приведено строгое математическое обоснование. Приведены методы решения игр. Рассмотрены игры двух и более игроков. Основное внимание уделено наибо- наиболее разработанной теории игры двух игроков с нулевой сум- суммой. Описаны позиционные, бесконечные, многошаговые игры, а также построение деловой игры. Учебное пособие предназначено для студентов вузов, обучаю- обучающихся по специальности «Экономическая кибернетика», а так- также будет полезным для аспирантов, специалистов экономистов и управленческих работников. Табл. 13. Ил. 48. Список лит. 21 назв. Редакция литературы по кибернетике, электронике и энергетике. Зав. редакцией А. В. Дьячков 20204-008 М2Щ04)— 77 *' '° ) Издательское объединение «Вища школа», 1977.
ПРЕДИСЛОВИЕ Непрерывное и последовательное развитие социалистического об- общества, его производительных сил и производственных отношений, повышение эффективности общественного производства непрерывно связано с совершенствованием системы планирования и управления. Современные достижения науки и техники все шире используются в практике для получения научно обоснованных наиболее эффективных решений в сфере планирования и управления народным хозяйством. В «Основных направлениях развития народного хозяйства СССР на 1976—1980 годы» отмечается, что необходимо внедрять современ- современные методы организации производства и труда в соответствии с требо- требованиями научно-технического прогресса, предусмотреть дальнейшее совершенствование подготовки и повышения квалификации хозяйст- хозяйственных кадров. Особенно большое значение приобретают научные разработки в области планирования и управления в народном хозяйстве, так как прежние методы оказываются несостоятельными в новых условиях научно-технической реролюции. Значительные достижения экономики, кибернетики, математики и других наук дали толчок быстрому разви- развитию науки управления. Разработка экономико-математических моделей и методов решения народнохозяйственных задач на основе использо- вания вычислительной техники позволили создать автоматизирован- автоматизированные системы управления для получения лучших управленческих ре. шений. Поэтому большое внимание уделяется подготовке ква- лифицированных кадров, владеющих экономико-математическими методами. Интересным использованием экономико-математических методов является применение теории игр в экономических исследованиях и выработке плановых и управленческих решений. В теории игр рас-, сматриваются процессы, в частности экономического характера, в которых требуется найти лучшее решение для поведения участни- участников при столкновении интересов различных групп. Поэтому теория игр в последнее время стала шире проникать в экономические ис- исследования. Особенно большое значение для совершенствования обра- образования хозяйственных работников приобретают деловые игры. Сов- Современные достижения в теории игр уже сейчас позволяют использо- использовать ее для решения многих народнохозяйственных задач с целью повышения эффективности плановых и управленческих решений. Так, применение теории игр в экономике дает возможность получить расчеты для обоснования поведения органов управления в конкретных условиях. Использование теории игр в международных экономических отношениях может оказать помощь в получении лучших стратегий поведения стран при решении конкретных вопросов торговли и раз- размещения заказов. Применение деловых игр в учебном процессе и в практике производственно-хозяйственной деятельности дает возмож- возможность выработать навыки оптимального поведения человека в коллект тиве при выработке плановых решений в сложных условиях. Сле* дует отметить, что в самых различных сферах деятельности человека
возникает много ситуаций, которые формализуются в виде игры и за- затем становятся возможными их исследования. Можно рассматривать и несколько упрощенные модели конфликтных ситуаций, учитывая лишь самые главные аспекты, и получить приемлемые решения. В развитие теории игр внесли вклад многие ученые. Особенно следует отметить большие достижения зарубежных ученых О. Моргенштерна, Д. Неймана, Д. Нэша, А. Таккера, С. Шепли и советских ученых Н. Н. Воробьева, Ю. Б. Гермейера. Разработок в области теории игр имеется много. Результаты опуб- опубликованы в многочисленных статьях и монографиях. Однако учебной литературы и приложений теории игр в экономике еще недостаточно. Так на русском языке имеется одна монография [13], в которой уделяет- уделяется значительное место экономическим аспектам теории игр примени- применительно к капиталистической системе хозяйствования. В книгах [2], 1б1 уделяется значительное внимание рассмотрению теории и примеров статистических игр. В настоящее время еще нет фундаментальной монографии и учебников по теории игр, в которых были бы изложены экономические аспекты применительно к условиям социализма. Имеются два переводных учебника [12], [14], в которых приво- приводится последовательное изложение теории игр, преимущественно с формальными абстрактными примерами. В 1974 году вышло учебное Пособие [5] известного советского ученого в области теории игр про- профессора Н. Н. Воробьева, в котором много внимания уделяется, как последовательному строгому изложению теории игр, так и экономи- экономическим аспектам теории игр. В учебном пособии [20] под редакцией профессора И. И. Сыроежина излагаются учебные аспекты применения Деловых игр. Однако этих книг недостаточно для того, чтобы обес- йечить учебные процессы по вопросам теории игр и ее применениям. Настоящее'учебное пособие имеет сходство с имеющимися книгами в том, что в нем последовательно, со многими доказательствами из- излагается теория игр. Однако в нем имеются серьезные отличия — это преимущественное изложение примеров применения теории игр в эко- Йомике. Материал пособия содержит восемь глав, в которых изложены: основные положения теории игр, матричные и биматричные игры, по- позиционные, бесконечные антагонистические, многошаговые игры, игры с несколькими игроками и кооперативные, деловые игры. Пособие предназначено для студентов вузов, обучающихся по специальности «Экономическая кибернетика», а также будет полезным для аспирантов, специалистов экономистов и управленческих работни- работников. Для многих руководящих работников весьма полезным является материал восьмой главы по деловым играм, который можно изу- изучить независимо от знания материала предыдущих глав и не имея специальной математической подготовки. Автор благодарен рецензентам доктору физико-математических йаук Н. В. Яровицкому и доктору экономических наук Л. Л. Терехову за полезные советы и замечания. Пожелания и отзывы о книге просим посылать по адресу: 252054, Киев-54, ул. Гоголевская, 7, Головное издательство издательского объединения «Вшца школа».
ВВЕДЕНИЕ В практической деятельности людей taero возникают конфликтные ситуации, когда нескольким участникам приходится взаимодейство- взаимодействовать при обстоятельствах, в которых каждый из участников старается достичь своей цели своим доступным ему способом, но никто из них полностью не влияет на ход событий, т. е. исход борьбы лишь частично зависит от действий каждого участника. В конфликтной ситуации имеют- ся несколько заинтересованных сторон, каждая из которых старает- старается получить максимальный выигрыш. Такие ситуации возникают во время проведения обычных салонных игр, спортивных состязаний, в военном деле, в торговых отношениях, в экономической, хозяйствен- хозяйственной и политической деятельности, в медицинском обслуживании и т. д. Теория игр —это раздел математики, в котором исследуются воп- вопросы поведения и вырабатываются оптимальные правила (стратегии) поведения для каждого из участников конфликтной ситуации. Разре- Разрешение противоречий с помощью теории игр возможно лишь после про- проведения математического моделирования ситуаций в виде игры, а для их решения уже оказался недостаточным аппарат классического ма- математического анализа нахождения экстремумов функций, и появи- появилась необходимость развития новых математических методов нахо- нахождения оптимальных минимаксных решений, присущих теории игр. Исследования игровых ситуаций проводились многими учеными, основное внимание которых было направлено на создание понятий оп- оптимального поведения игроков и на методы отыскания лучших стра- стратегий. Много внимания уделялось исследованию азартных игр. Лишь в 30-е годы XX ст. Дж. фон Нейман формулирует основные идеи сов- современной теории игр и ее основополагающие результаты. Он доказы- доказывает основную теорему матричных игр. С этого времени теория игр стала развиваться более интенсивно. Особое внимание обращают на теорию игр военные специалисты и экономисты. В решении игровых задач большую помощь оказывают электрон- электронные вычислительные машины. Однако в силу ограниченной возмож- возможности вычислительной техники и недостаточного развития теории игр для очень многих реальных конфликтных ситуаций невозможно найти оптимальное решение. Следовательно, методы решения игровых задач должны совершенствоваться вместе с развитием вычислительной тех- техники. Несмотря на значительные достижения в теории игр, остается еще много неясных и спорных вопросов, для решения которых потре- потребуется немало усилий. Основными проблемами, разрабатываемыми в теории игр, являются: выработка определений решения игр, доказа-
тельства теорем существования решений, разработка методов нахо- нахождения решений, практические аспекты использования теории игр. Теория игр не охватывает все аспекты возникающих реальных ситу- ситуаций, тем не менее при определенном опыте многим ситуациям можно придать игровую схему и тем самым получить возможность ее иссле- исследования методами теории игр. В любой игровой схеме конкретной кон- конфликтной ситуации каждый участник может выбирать по своему усмотрению те или иные действия, в зависимости от которых будет по- получаться тот или иной исход. Для анализа игры необходимо знать ее правила, количество игроков, их цели, возможные действия, послед- последствия, выигрыши и т. д. Обычно анализ игры сводится к указанию наилучших стратегий и выигрышей для каждого игрока. Выигрышем, в частности, может быть эффективность использования дефицитных ресурсов, производственных фондов, экономических или политических рычагов в производственно-хозяйственной деятельности предприятий, министерств или в разработке стратегических планов развития об- общества. Развитие теории игр, изучение ее методов и их применение в прак- практике народно-хозяйственной деятельности оказывает помощь в совер- совершенствовании системы подготовки и принятия решений, способствует научно-техническому прогрессу.
ГЛАВА 1. ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ И ПОЛОЖЕНИЯ ТЕОРИИ ИГР 1.1. УЧАСТНИКИ ИГРЫ, ИГРОКИ, СТРАТЕГИИ, ВЫИГРЫШИ Игра характеризуется системой правил, определяющих количество участников игры, их возможные действия и распределение выигрышей в зависимости от их поведения и исходов. Игроком принято считать одного участника или группу участников игры, имеющих одни общие для них интересы, не совпадающие с интересами других групп. По- Поэтому не каждый участник считается игроком. Так, например, если в игре принимают участие четыре человека и каждый играет только за себя, то в ней имеется четыре игрока, если же четыре человека образовали две коалиции по два участника в каждой, т. е. играют двое на двое, то считается, что в этой игре уча- участвуют два игрока. Во многих спортивных играх таких, как футбол, волейбол и других, состязаются две команды, в каждой из которых имеется несколько участников. Эти участники, объединенные в ко- команды, образуют группы лиц: в каждой из этих групп они имеют единые цели, противоположные друг другу. Поэтому в таких играх следует рассматривать по два игрока. Игры в шашки, шахматы имеют двух игроков даже в том случае, когда играют команды, состоящие из нескольких лиц. Пусть три фирмы, имеющие определенный капитал, хотят исполь- использовать его для получения возможности сбыта своей продукции на рын- рынке. Каждая из этих фирм, вкладывая капитал, может сбывать свою продукцию с некоторой выгодой для себя. Эта выгода зависит не толь- только от вклада одной фирмы, а от вкладов, сделанных другими фирма- фирмами. Ни одна из фирм не имеет полного влияния на рынок сбыта, т. е. каждая фирма только частично влияет на конечный результат — выго- выгоду, получаемую ею. Рассматривая экономическую ситуацию, возник- возникшую в результате взаимодействия трех фирм, как игру, можно до- допустить: 1) все три фирмы действуют самостоятельно, добиваясь наиболь- наибольшей выгоды для себя за счет своих возможностей и учитывая воз- возможные поведения других фирм, тогда это будет игра трех игроков; 2) какие-либо две фирмы объединились в коалицию и действуют совместно с единой целью достигнуть наибольшей выгоды для себя, учитывая возможные поведения третьей фирмы, тогда это будет игра двух игроков. Две войсковых части, имеющие войсковые подразделения, желают овладеть определенной позицией. Первая часть имеет два подразде- подразделения, а вторая — три. Возможные действия частей — это выделение определенного количества подразделений для овладения позицией.
Каждое подразделение может иметь свои локальные цели, но все под- подразделения одной части имеют одну общую цель — овладение пози- позицией. Поэтому, рассматривая сложившуюся ситуацию как игру, сле- следует считать, что в ней имеется только два игрока — это войсковые части. Правила или условия игры определяют возможные поведения, вы- выборы и ходы для игроков на любом этапе развития игры. Сделать вы- выбор игроку, это значит остановиться на одной из его возможностей поведения. Засем игрок осуществляет этот выбор с помощью ходов. Сделать ход —это значит на определенном этапе игры осуществить сразу весь выбор или его часть в зависимости от возможностей, пре- предусмотренных правилами игры. Каждый игрок на определенном этапе игры делает ход согласно сделанному выбору. Другой игрок, зная или не зная о сделанном выборе первого игрока, также делает ход. Каждый из игроков старается учесть информацию о прошлом развитии игры, если такая возможность разрешается правилами игры. Набор правил, которые однозначно указывают игроку, какой выбор он должен сделать при каждом ходе в зависимости от ситуации, сло- сложившейся в результате проведения игры, называется стратегией игрока. Стратегия в теории игр означает определенный законченный план действий игрока, показывающий, как надо действовать ему во всех возможных случаях развития игры. Стратегия означает сово- совокупность всех указаний для любого состояния информации, имеющей- имеющейся у игрока на любом этапе развития игры. Отсюда уже видно, что стратегии могут быть хорошими и плохими, удачными и неудачными и т. д. При игре в шахматы стратегия должьа указывать игроку какой ход он должен сделать в любом развитии игры. Очевидно, при таком подходе в шахматной игре имеется очень много стратегий, пере- перечислить которые практически не представляется возможным и поэтому при анализе и изучении стратегий в этой игре выделяют глав- главные и ими пользуются. Для разных игроков главными являются раз- разные стратегии, как правило, известные только самому игроку, и по- поэтому игра в шахматы представляет интеллектуальный интерес, не- несмотря на то, что в ней нет случайных ходов. При игре в футбол также имеется очень много стратегий и каж- каждая команда применяет свой набор стратегий для того, чтобы до- достигнуть цели. В этой игре, конечно, большую роль играет и мастер- мастерство, которое также может входить в состав стратегии команд и иг- игроков. В играх, отображающих экономические ситуации, стратегиями могут быть размеры вкладываемых в определенные мероприятия средств. Так, в игре трех фирм каждая из них может внести опреде- определенную долю своего капитала — это и есть ее стратегия. Очевидно, таких стратегий у каждой фирмы много. В военных играх в качестве стратегий может быть любое поведение подразделений. Правилами игры предусматриваются определенные выигрыши для игроков в зависимости от применяемых ими стратегий и исходов игры. Выигрыш — это мера эффекта для игрока. Так, в покере, преферансе и других играх после игры обычно происходит обмен ценностями в
виде денег, т. е. эффект от исхода этих игр измеряется в денежных единицах. В правилах игры четко сформулировано, сколько денег вы- выиграет каждый игрок в зависимости от исхода игры. В таких играх, как шашки, шахматы, исходом игры является вы- выигрыш, ничья, проигрыш. Выигрыши здесь измеряются очками (вы- (выигрыш — одно очко, ничья — половина очка, проигрыш — нуль оч- очков). При игре в футбол результат игры измеряется очками: выигрыш — два очка, ничья — одно очко, проигрыш — нуль очков. В играх, отображающих экономические ситуации, выигрыши почти всегда из- измеряются в стоимостном выражении: прибыль, себестоимость, амор- амортизация и т. д. Так, в описанной выше ситуации трех фирм выигрыш может измеряться той прибылью, которую получит фирма в резуль- результате применения стратегий всеми фирмами. В военных играх выигрыш — это победа, взятие позиции, получение определенных преимуществ,, получение оружия и т. д. Бывают реальные ситуации, в которых выигрыш оценивается как чувство удовольствия или морального удовлетворения, а проигрыш как чувство угнетения. Так что не всякий выигрыш может измеряться количественно. В теории игр рассматриваются только такие игры, в которых выигрыш выражается количественно: стоимостью, очками, баллами и т. д. Очевидно, исход игры, а следовательно, и выигрыш игроков зависят от стратегий, которые применяют игроки. Однако выигрыш каждого игрока не полностью зависит от применяемой им стратегии, он зависит и от стратегий, применяемых другими игроками. В конечном счете в игре никакой игрок не может полностью контро- контролировать свой выигрыш. Если же в реальной ситуации возникает случай, когда исход для участника полностью зависит от него, то такая ситуация не рассматривается для него как игровая. В даль- дальнейшем будут рассматриваться выигрыши, измеряемые количественно (числами). Проигрыш выражается как отрицательный выигрыш. По- Поэтому речь в дальнейшем будет идти только о выигрышах. Практически, при представлении конфликтной ситуации в виде игры возникает ряд трудностей в связи с описанием правил, усло- условий, игроков, стратегий, ходов, выигрышей. Имеются также боль- большие трудности при моделировании экономических ситуаций. Так, при описании наборов стратегий возникают трудности учета изменений стратегий во время игры, вызванные действием научно-технического прогресса (изобретение, открытие) и моментов времени применения стратегий. Формально эти факторы можно включать в стратегии (эта не вызывает принципиальных возражений), однако такой подход ве- ведет к значительному увеличению количества рассматриваемых стра- стратегий, и это сильно затрудняет исследование игры. Имеются также трудности в определении выигрышей в зависимости от применяемых стратегий в связи с неясно определенными областями действия и сложностью соизмерения различных благ. Задача исследователя за- заключается в том, чтобы данную конфликтную ситуацию по возможнос- возможности привести к формализованной игре без значительных потерь реаль- реальных целей и условий, найти метод решения такой формальной модели, провести расчеты и анализ. Преодоление трудностей на пути решения
игровых ситуаций связано с четкостью и реальностью представления ¦ситуации, выделения в ней основных правил и элементов игры: игро- игроков, стратегий, ходов и выигрышей. Затем возникает необходимость получения методов решения игры, необходимой информации и реали- реализации. 1.2. КЛАССИФИКАЦИЯ ИГР И ОБЩИЕ СВЕДЕНИЯ О МЕТОДАХ ИХ РЕШЕНИЯ Реальные конфликтные ситуации приводят к различным видам игр. В зависимости от вида игры разрабатывается и метод ее решения. В настоящее время нет вполне четко сложившейся классификации игр. Однако можно отметить основные направления, по которым осу- осуществляется классификация игр: количество игроков, количество стратегий, характер взаимоотношений, характер выигрышей, вид ¦функции выигрышей, количество ходов, состояние информации. Рассмотрим несколько подробнее эти направления. В зависимости от количества игроков определяют игры: одного иг- игрока, двух игроков, п игроков. Игры одного игрока (типа пасьянсов) не представляют интереса и не рассматриваются в теории игр. Игры двух игроков — наиболее распространенные, их исследованию по- посвящено много работ, и достигнуты наибольшие успехи как в теории, так и в практических приложениях. Игры трех и более игроков менее исследованы из-за возникающих принципиальных трудностей и тех- технических возможностей получения решения. Трудности решения игр повышаются с увеличением количества игроков. По количеству стратегий игры делятся на конечные и бесконеч- бесконечные. Если в игре каждый из игроков имеет конечное число возмож- возможных стратегий, то она называется конечной. Если хотя бы один из иг- игроков имеет бесконечное количество возможных стратегий, то такая игра называется бесконечной. Отсюда вытекает, что понятие бесконеч- бесконечной игры связывается не с продолжительностью проведения игры, а с неограниченным количеством стратегий. Пусть, например, первый игрок имеет две стратегии, второй —десять стратегий, а третий — •сто стратегий, тогда это конечная игра трех игроков (все игроки имеют конечное число стратегий). Если, например, в некоторой игре первый игрок имеет две стратегии, второй —десять стратегий, а третий — ¦бесконечное количество (счетное множество или континуум) стратегий, то это бесконечная игра трех игроков (один из игроков имеет беско- бесконечное число стратегий). Если, например, имеются два игрока, для каждого из которых стратегией является число из отрезка [0, 1], то это бесконечная игра двух игроков (оба игрока имеют континуум стра- стратегий). Трудности решения игр зависят от количества стратегий. Как правило, с увеличением количества стратегий повышаются труд- трудности решения игр. По характеру взаимоотношений игры делятся на: бескоалиционные, ¦кооперативные и коалиционные. Бескоалиционными называются игры, в которых игроки не имеют права вступать в соглашения, образовы- образовывать коалиции. Например, бескоалиционной будет военная ситуация-, ю
в которой сражение ведется без компромиссов, до победы. Коалици- Коалиционной игрой называется игра, в которой игроки могут вступать в со- соглашения, образовывать коалиции. Например, коалиционной будет военная игра (ситуация), в которой противники могут вступать в переговоры с целью достигнуть компромиссного решения возникшей ситуации. В кооперативной игре коалиции наперед определены. По характеру выигрышей они делятся на: игры с нулевой суммой и игры с ненулевой суммой. Игра с нулевой суммой будет тогда, когда сумма выигрышей всех игроков в каждой ее партии равна нулю, т. е. в игре с нулевой суммой общий капитал всех игроков не меняется, а перераспределяется между игроками в зависимости от получаю- получающихся исходов. Так, многие экономические и военные ситуации можно рассматривать как игры с нулевой суммой. В частности игра двух игроков с нулевой суммой называется ан- антагонистической, так как цели игроков в ней прямо противополож- противоположные: выигрыш одного игрока происходит только за счет проигрыша другого. Примером игры с ненулевой суммой могут быть торговые взаимо- взаимоотношения между странами. В результате применения своих стратегий все страны могут быть в выигрыше. Всякая игра, в которой надо вносить взнос некоторому лицу за право принимать участие в ней, является игрой с ненулевой суммой. Действительно, в этом случае всегда в выигрыше получается некоторое лицо, которое не прини- принимает участия в игре, а получает взнос от игроков, теряющих свой капитал за счет этих взносов. Другим примером служит лотерея: в ней организатор всегда имеет выигрыш, а участники игры —лица, купившие лотерейные билеты,— в сумме получают выигрыш меньше, чем они внесли. Игры с ненулевой суммой решаются сложнее, так как они содержат все трудности, присущие играм с нулевой суммой и еще дополнитель- дополнительные трудности, связанные с возможностью получения дополнительно- дополнительного выигрыша. В принципе игру с ненулевой суммой можно свести к некоторой искусственной игре с нулевой суммой, введя дополнитель- дополнительного фиктивного игрока, получающего сумму выигрыша, дополняюще- дополняющего до нуля. Однако в этом случае увеличивается количество игроков, и этот дополнительный игрок не является равноценным. Поэтому та- такой подход не улучшает дела. По виду функций выигрышей игры делятся на: матричные, бимат- ричные, непрерывные, выпуклые, сепарабельные, типа дуэлей и др. Матричная игра — это конечная игра двух игроков с нулевой суммой, в которой задаются выигрыши первого игрока в виде матри- матрицы (строка матрицы соответствует номеру применяемой стратегии первого игрока, столбец — номеру применяемой стратегии второго игрока; на пересечении строки и столбца матрицы находится выиг- выигрыш первого игрока, соответствующий применяемым стратегиям). Выигрыш второго игрока равен проигрышу первого. Для матричных игр создана достаточно хорошая теория и разрабо- разработаны практически приемлемые методы решения. Так, доказано, что любая матричная игра имеет решение и она легко может быть сведена 11
к задаче линейного программирования, а затем решена с помощью известных методов, например, симплекс-метода. Биматричная игра —это конечная игра двух игроков с ненулевой суммой, в которой выигрыши каждого игрока задаются матрицами отдельно для соответствующего игрока (в каждой матрице строка соответствует стратегии первого игрока, столбец — стратегии второго игрока, на пересечении строки и столбца в первой матрице находится выигрыш первого игрока, во второй матрице — выигрыш второго иг- игрока). Для биматричных игр также разработана теория оптимального поведения игроков, однако решать такие игры сложнее, чем обычные матричные. Непрерывной считается такая игра, в которой функция выигрышей каждого игрока является непрерывной в зависимости от стратегий (естественно считается, что стратегии выражены числами из определен- определенного отрезка). Доказано, что игры этого класса имеют решения, однако не разработано практически приемлемых методов их нахожде- нахождения. Простым примером непрерывной игры двух игроков является сле- следующая: первый игрок выбирает число х из отрезка [0, 1|, и второй игрок выбирает число у из отрезка [0, 1], после чего первый игрок выигрывает х — у2, а второй проигрывает столько же. Очевидно функция х —у2 является непрерывной и поэтому игра также счи- считается непрерывной. Согласно теореме существования решения такая игра имеет решение. Если функция выигрышей является выпуклой, то такая игра на- называется выпуклой. Для них разработаны приемлемые методы решения, состоящие в отыскании чистой оптимальной стратегии (определен- (определенного числа) для одного игрока и вероятностей применения чистых оптимальных стратегий другого игрока. Такая задача решается сравни- сравнительно легко. Если функция выигрышей может быть представлена в виде суммы произведений функций от одного аргумента, то такая игра называется сепарабельной (разделимой). С помощью определенных преобразований ее решение сводится к решению игры с билинейной функцией выигры- выигрышей и к определению неподвижной точки при специальном отобра- отображении множеств элементов, соответствующих стратегиям. Игры типа дуэлей характеризуются моментом выбора хода и ве- вероятностями получения выигрышей в зависимости от времени, про- прошедшего от начала игры до момента выбора. Например, существуют интерпретации таких игр в экономических ситуациях: каждая фирма делает вклад своего капитала в определенный момент времени с целью овладения рынком сбыта. Чем раньше она сделает свой вклад, тем мень- меньшая вероятность овладеть рынком, но, делая свой вклад слишком по- поздно, она теряет рынок сбыта. Функция выигрышей игроков в играх типа дуэлей принимает специальный вид: она непрерывна при раз- разных значениях моментов времени, когда игроки делают ходы, и она разрывна при совпадении моментов хода игроков. Так что нет гаран- гарантий существования решений для игр типа дуэлей. Существуют опре- определенные методы решения таких игр. По количеству ходов игры делятся на одношаговые и многошаго- 12
вые. Одношаговые игры заканчиваются после одного хода каждого игрока. Например, матричная игра является одношаговой, так как при этом каждый игрок делает только один ход и потом происходит распределение выигрышей. Многошаговые игры делятся на позиционные, стохастические, диф- дифференциальные, типа дуэлей и др. В позиционных играх может быть несколько игроков, каждый из которых может последовательно во времени делать несколько ходов. Выигрыши определяются в зависимости от исходов игры (применяе- (применяемых стратегий). Такие игры с помощью определенных способов сводятся к матричным играм и могут решаться присущими им ме- методами. Если в игре производятся ходы, приводящие к выбору определен- определенных позиций, причем имеется определенная вероятность возврата на предшествующую позицию, то такая игра является стохасти- стохастической. Если в многошаговой игре допускается делать ходы непрерывно и подчинять поведение игроков некоторым условиям, описываемым дифференциальными уравнениями, то такие игры являются дифферен- дифференциальными. Например, в играх типа погони каждый объект может двигаться, подчиняясь определенным условиям, описываемым обыкно- обыкновенными дифференциальными уравнениями. Цель одного объекта — достичь определенной области, цель другого — не допустить первого до этой области. Выигрыш оценивается определенным числом (функ- (функцией). В зависимое™ от состояния информации различают игры с полной информацией и с неполной информацией. Если на каждом ходе игры каждому игроку известно, какие выборы были сделаны игроками рань- раньше, то это игра с полной информацией. Примерами таких игр являются шашки, шахматы. Если в игре не все известно о предыдущих выборах, то это игра с неполной инфор- информацией. Доказано, что всякая игра с полной информацией имеет решение в виде седловой точки в чистых стратегиях. Например, для игры в шах- шахматы это значит, что для каждого игрока имеется такая стратегия, придерживаясь которой, игрок либо выигрывает, либо сведет партию в ничью. Сложность заключается в отыскании такой стратегии. Су- Существуют и другие виды игр, которые здесь не рассматриваются. Воз- Возможны и некоторые другие принципы классификации игр. Контрольные вопросы и задания к главе 1 1. Что такое участники игры и игроки? 2. Что называется стратегией игрока? 3. Что такое ход в игре? 4. Что такое выигрыши и как они измеряются в игре? 5. Какие основные принципы закладываются при классификации игр? 6. Приведите примеры игр согласно изложенной классификации. 13
Г Л А В А 2. МАТРИЧНЫЕ ИГРЫ ДВУХ ИГРОКОВ С НУЛЕВОЙ СУММОЙ 2.1. ОПРЕДЕЛЕНИЕ, ПРИМЕРЫ И РЕШЕНИЯ МАТРИЧНЫХ ИГР В ЧИСТЫХ СТРАТЕГИЯХ Матричная игра двух игроков с нулевой суммой может рассмат- рассматриваться как следующая абстрактная игра двух игроков. Первый игрок имеет т стратегий i =1, 2, ..., т, второй имеет п стратегий / = 1, 2, ..., п. Каждой паре стратегий (/, /) поставлено в соответствие число %, выражающее выигрыш первого игрока за счет второго игрока, если первый игрок применит свою r-ю стратегию, а второй — свою /-ю стратегию. Каждый из игроков делает один ход: первый игрок выбирает свою 1-ю стратегию (/ =1, 2 т), второй —свою /-ю стратегию (/ = = 1, 2, ..., п), после чего первый игрок получает выигрыш atj за счет второго игрока (если щ, < 0, то это значит, что первый игрок платит второму сумму |а,/|). На этом игра заканчивается. Каждая стратегия игрока i = 1, 2 т\ j == 1, 2, ..., п часто на- называется чистой стратегией. Матричная игра двух игроков с нулевой суммой далее будет назы- называться просто матричной игрой. Очевидно матричная игра относится к антагонистическим играм. Из ее определения следует, что для за- задания матричной игры достаточно задать матрицу А = (а,-/) порядка т х п выигрышей первого игрока. Если рассмотреть матрицу ц а12 ¦¦ ¦ aij ¦¦¦ ain А = I an ai2 ¦• ¦ ач • • • ain mi am2 •• ¦ Omj • • • amn' то проведение каждой партии матричной игры с матрицей А сво- сводится к выбору первым игроком г'-й строки, а вторым игроком /-го столбца и получения первым игроком (за счет второго) выигрыша а1/г находящегося в матрице А на пересечении г'-й строки и /-го столбца. Для формализации реальной конфликтной ситуации в виде матрич- матричной игры надо выделить и перенумеровать чистые стратегии каждого игрока и составить матрицу выигрышей. Следующий этап —это определение оптимальных стратегий и вы- выигрышей игроков. Рассмотрим сначала несколько простых примеров формализации конфликтных ситуаций. Пример 2. 1. Игра с двумя пальцами. Два человека одновременно показывают один или два пальца и называют цифру один или два, которая по их мнению означает количество пальцев, показываемое вто- вторым человеком. После того, как пальцы показаны и названы числа, происходит распределение выигрышей по следующим правилам: если оба угадали, сколько пальцев показал каждый человек, то фикси- фиксируется ничья — выигрыш нуль у каждого человека; если оба не уга- 14
дали, сколько пальцев показал каждый человек, то также фиксирует- фиксируется ничья; если только один человек угадал, сколько пальцев показал- второй человек, то он (угадавший) получает выигрыш за счет второго (неугадавшего) в виде денег или очков пропорционально сумме пока- показанных пальцев обоими участниками игры. Итак, в этой конфликтной ситуации принимают участие только два- человека, у которых прямо противоположные цели — получить макси- максимальный выигрыш за счет второго участника, поэтому каждого участ- участника следует считать игроком. Отсюда следует, что формализован- формализованная игра будет игрой двух игроков с нулевой суммой. Что считать стратегией игрока? Очевидно возможностями каждого- игрока есть выбор двух чисел {а, Ь), где а означает количество показан- показанных им пальцев, b — предполагаемое число пальцев, которые покажет противник. Давая возможные значения для а — 1, 2 и для b =1, 2, получим 4 возможных стратегии: {1,1}, {1,2}, {2,1}, {2,2}. Теперь можно ввести следующую нумерацию стратегий: первая —это {1, 1}, показать один палец и назвать цифру 1; вторая —это {1, 2}, показать один палец и назвать цифру 2; третья —это {2, 1}, показать два пальца и назвать цифру 1; четвертая — это {2, 2} показать два пальца и назвать цифру 2. Итак, каждый из игроков имеет по четыре чистых стратегии (ко- (конечное число). Таким образом, мы приходим к построению матрич- матричной игры, в которой следует определить матрицу А выигрышей пер- первого игрока. Проведя простые вычисления и сопоставляя строки и столбцы номе- номерам стратегий, получим Л = Например, если первый игрок применит четвертую стратегию {2, 2}, т. е. покажет два пальца и назовет цифру 2, а второй — вторую стра- стратегию {1, 2}, т. е. покажет один палец и назовет цифру 2, то угадает только второй игрок и он получит от первого сумму 2 -f- 1 = 3, со- соответствующую количеству показанных пальцев обоими игроками, т. е. первый игрок выиграет —3. Четвертой стратегии первого игрока в матрице Л соответствует четвертая строка, а второй стратегии второ- второго игрока соответствует второй столбец в матрице Л, на пересечении четвертой строки и второго столбца ставится цифра —3, соответствую- соответствующая выигрышу первого игрока. Например, если первый и второй игро- игроки применяют одинаковые стратегии, то они оба угадывают и первый' игрок получает нуль, что соответствует элементам главной диагонали матрицы Л (диагональ слева вниз направо). Вторая диагональ мат- матрицы Л (справа вниз налево) соответствует выигрышу 0, получаемому при применении игроками стратегий, приводящих к обоюдному неу- неугадыванию. Положительный выигрыш 2 у первого игрока будет, если, например, первый игрок применит свою первую стратегию {1, 1},. 15 0 2 3 0 2 0 0 — 3 — 3 0 0 ¦4 0 3 — 4 0
а второй свою вторую — {1, 2}, т. е. угадает только первый игрок и он получит от второго игрока сумму 1+1 = 2, соответствующую ко- количеству показанных пальцев обоими игроками. Пример 2.2. Игра в монеты. Первый из двух участников игры на- накрывает рукой монету, которая может быть гербом кверху или решкой. 'Второй участник отгадывает, какой стороной кверху находится эта монета. Если второй отгадал, то первый платит второму сумму, рав- равную единице. Если второй не отгадал, то он платит первому сумму, равную единице. Очевидно, в этой игре каждый из имеющихся двух участников игры является игроком, так как у них противоположные интересы: полу- получить выигрыш за счет другого участника игры. Поэтому рассматрива- рассматриваемая игра принадлежит к игре двух игроков g нулевой суммой. По- Поскольку монета имеет только две стороны (ставить на ребро монету запрещено), то у первого игрока имеется только две стратегии: 1-я — накрыть монету кверху гербом, 2-я — накрыть монету решкой квер- кверху. У второго игрока также имеется только две стратегии: 1-я —ска- —сказать, что монета накрыта гербом кверху, 2-я—монета накрыта реш- решкой кверху. Итак, в этой игре каждый игрок имеет по две чистых стратегии (число стратегий конечное у каждого игрока), поэтому она есть матричная игра. Матрица выигрышей формируется так: если чистые стратегии у обоих игроков совпадают, то это значит, что второй игрок отгадал, какой стороной накрыл монету первый игрок, и, следовательно, вы- 'игрывает второй игрок, а первый выигрывает —1. Если игроки приме- применяют разные стратегии, то это значит, что второй игрок не отгадал, какой стороной накрыта монета, и выигрывает единицу первый игрок. Матрица А выигрышей первого игрока имеет вид: —1 1 . -1 Пример 2.3. Военная игра. Имеется два противника и две позиции. •Один противник —это полковник, второй —генерал. У полковника имеется 4 полка, у генерала — 3 полка. Каждый из этих противников хочет занять данные позиции. Взятие позиции оценивается выигрышем в единицу. Каждый из противников может послать на любую позицию •только целое число полков или совсем не посылать. Позиция считается занятой тем, кто послал на нее больше полков, и выигрыш составляет единицу за счет взятия позиции и плюс количество единиц, совпадаю- совпадающее с количеством полков противника, не занявшего позицию. Если у позиции оказывается одинаковое число полков полковника и генера- генерала, то никто не выигрывает, выигрыш обоих составляет 0. Общий вы- выигрыш каждого участника равен сумме его выигрышей у обеих пози- позиций, и то, что получил один из противников, считается потерей для другого. Ввиду противоположности интересов у полковника и генерала, каждый из них считается игроком. Поскольку выигрыш одного полу- ¦чается за счет проигрыша другого, то это игра с нулевой суммой.
Возможные поведения игроков описываются чистыми стратеги- стратегиями {а, Ь], где а — количество полков, посланных данным игроком на первую позицию; b — число полков, посланных им на вторую пози- позицию. Итак, для полковника имеются следующие чистые стратегии: 1. На первую позицию послать все полки, т. е. {4, 0}. 2. На вторую позицию послать все полки, т. е. {0, 4}. 3. На первую позицию послать 3 полка, на вторую — 1, т.е. {3,1}. 4. На вторую позицию послать 3 полка, на первую — 1, т.е. {1, 3}. 5. На обе позиции послать по два полка, т. е. {2, 2}. У генерала имеются следующие чистые стратегии: 1. На первую позицию послать все 3 полка, т. е. {3, 0}. 2. На вторую позицию послать все 3 полка, т. е. {0, 3}. 3. На первую позицию послать 2 полка, на вторую — 1, т. е. {2, 1}. 4. На вторую позицию послать 2 полка, на первую —1, т. е. {1 2}. Таким образом, у полковника имеется 5 чистых стратегий, а у генерала — 4 чистых стратегии, поэтому данная ситуация может рассматриваться как матричная игра. Формирование матрицы выигры- выигрышей первого игрока (полковника) производится согласно правилам выигрышей. Так, например, пусть полковник применит свою первую стратегию, а генерал применит свою вторую стратегию. Это значит, что на первую позицию полковник пошлет все свои 4 полка (на вто- вторую позицию он никого не пошлет), а генерал на первую позицию ни- никого не пошлет, но пошлет все свои три полка на вторую позицию. Тогда полковник займет первую позицию и получит выигрыш 1, а ге- генерал займет вторую позицию, т. е. полковник потеряет вторую пози- позицию, следовательно, на второй позиции его выигрыш будет равен —1, а суммарный его выигрыш на двух позициях будет 1 — 1 =0. Пусть, например, полковник применит свою вторую стратегию, а генерал — третью. Тогда на первую позицию полковник не пошлет ни одного полка, а генерал пошлет два полка, поэтому полковник по- потеряет первую позицию, т. е. его выигрыш на второй позиции будет ра- равен —1; на вторую позицию полковник пошлет 4 полка, а генерал — один полк, поэтому полковник выиграет 1 за позицию и 1 за полк генерала, т. е. на второй позиции полковник выиграет 2. Общий вы- выигрыш полковника в этом случае будет равен 2 —1 = 1.Пусть, на- например, полковник применит свою 5-ю стратегию, а генерал — вто- вторую. Тогда на первую позицию полковник пошлет 2 полка, а генерал никого не пошлет, поэтому полковник выигрывает позицию, т. е. 1; на вторую позицию полковник пошлет 2 полка, а генерал — три полка, поэтому позицию получит генерал и выигрыш генерала будет равен 1 за позицию и 2 за два полка полковника, т. е. 1 + 2 = 3; это зна- значит, что на второй позиции полковник потерял 3 единицы. Общий вы- выигрыш полковника в этой ситуации составит 1 — 3 = —2. Рассматривая выигрыш полковника для каждой пары чистых стра- стратегий одного и другого игрока, получим следующую матрицу выигрышей 2 6-2853 17
полковника 4 0 1 — 1 — 2 0 4 — 1 1 2 2 1 3 0 2 1 2 0 3 2 А = Из этой матрицы видно, что у полковника положение лучше, чем у генерала. Это легко объяснить тем, что у полковника больше пол- полков, чем у генерала, а по правилам игры побеждает тот, у кого больше полков. Пример 2.4. Оптимальный план. Предприятию поручено выпускать два вида скоропортящихся продуктов Пх и П2. Ежедневные расходы на производство и реализацию продукции не должны превышать 4000 руб. Перед руководством предприятия поставлена задача: опреде- определить ежедневный объем производства каждого вида продукции с целью получения наибольшей прибыли. Для этого были проведены исследо- исследования, которые показали следующее: себестоимость единицы продукции Пх равна 0,8 руб., отпускная цена —1, 2 руб; себестоимость единицы продукции П2 равна 0,5 руб., отпускная цена — 0,8 руб; если продукция не реализуется в день выпуска, то ее качества значительно снижаются, и она продается на следующий день по цене в 4 раза меньше отпускной; реализация продукции зависит от состояния погоды — в хорошую погоду реализуется 1000 единиц продукции \\г и 6000 единиц П2; в пло- плохую погоду реализуется 4000 единиц продукции Г^ и 1200 единиц П2; на реализацию всей произведенной за день продукции расходуется 200 руб. Итак, для предприятия важно знать состояние погоды и тогда про- производить продукцию в таком объеме и ассортименте, чтобы она реали- реализовалась максимально в тот же день. Если бы можно было наперед предсказать состояние погоды, то оптимальным планом производства был бы план, полностью ориентированный на известное состояние погоды. Однако в настоящее время еще нет надежных способов прог- прогноза погоды, и предприятие должно составлять план с учетом появле- появления наиболее неблагоприятных для него состояний погоды. Можно трактовать ситуацию следующим образом: с одной стороны предприя- предприятие заинтересовано производить продукцию с наибольшей пользой для себя, с другой стороны имеется противник — природа, которая может максимально повредить предприятию. Поэтому данную ситуа- ситуацию можно рассматривать, как антагонистическую игру двух игро- игроков: первый игрок — предприятие, второй — природа. Можно, конечно, считать, что природа не разумный противник и она не будет изучать поведение предприятия с целью максимально повредить ему и поэтому не следует считать такую ситуацию, как анта- антагонистическую игру. Такие доводы имеют основания, тогда можно 18
изучить статистические данные о поведении погоды и строить план производства продукции с учетом состояний погоды в среднем. Однако и игровой подход имеет свои преимущества. Действитель- Действительно, рассматривая природу как противника, предприятие может стро- строить свои оптимальные планы с учетом наиболее неблагоприятных действий природы, а если природа отступит от этих своих самых неблагоприятных для предприятия действий, то этот оптимальный план поведения предприятия даст возможность ему увеличить свою прибыль. Итак, в этой ситуации имеется два игрока: человек и природа. Какие же их стратегии? Очевидно у природы имеется две стратегии: 1-я — создать хорошую погоду, 2-я — создать плохую погоду. У предприятия имеется также две стратегии: 1-я — производить про- продукцию в расчете на хорошую погоду, 2-я — производить продукцию в расчете на плохую погоду. Таким образом, у обоих игроков имеется по две стратегии (ко- (конечное число стратегий), поэтому мы приходим к конечной игре двух игроков с нулевой суммой, т. е. к матричной игре, с матрицей а21 а Элемент аг;- (i = 1,2;/= 1, 2) в матрице А выражает прибыль пред- предприятия при условии, что предприятие применяет свою г-ю стратегию, а природа свою /-ю стратегию. Произведем расчеты элементов а(/ (i — 1, 2; / = 1,2). Прибыль Р равна P = Z — C, где Z — сумма выручки за реализованную продукцию, С — зат- затраты на производство и реализацию продукции. Расчеты будут про- производиться для периода в один день. Для получения элемента ап необходимо учесть, что предприятие применяет свою первую стра- стратегию, т. е. берет расчет на хорошую погоду и производит 1000 еди- единиц продукции ГГх и 6000 единиц продукции П2, поэтому затраты Cj составят Сх = 1000 х 0,8 + 6000 X 0,5 + 200 = 4000 руб. Поскольку природа также применяет свою первую стратегию, т. е. погода будет хорошей, то предприятие в тот же день реализует всю продукцию по отпускной цене и получит сумму Z = 1000 х 1,2 + 6000 X 0,8 = 6000 руб. Таким образом, в этом случае прибыль предприятия составит ап =Zl — Cl= 6000 — 4000 = 2000 руб. Для получения а1а следует учесть, что предприятие берет расчет на хорошую погоду, т. е. применяет свою первую стратегию, а природа применяет свою вторую стратегию, т. е. погода будет плохой. В этом случае затраты С будут те же, т. е. Сх = 4000 руб., а сумма выручки Z будет другая. При этом следует учесть, что при плохой погоде в тот 2* 19
же день реализуется 4000 единиц продукции П1( а произведено только 1000 единиц, т. е. вся произведенная продукция Пх будет реализована по цене 1,2 руб. Для продукции П2 будет следующее: при плохой пого- погоде ее реализуется в тот же день 1200 единиц по цене 0,8 руб, а осталь- остальные 6000 — 1200 = 4800 единиц реализуются на следующий день по цене 0,8 : 4 = 0,2 руб. за единицу. Таким образом, сумма выручки Z в этом случае будет Z2 = 1000 X 1,2 + 1200 X 0,8 + 4800 X 0,2 = 3120 руб. Таким образом, в этом случае прибыль предприятия составит а12 = 3120 — 4000 = — 880 руб., т. е. в этом случае предприятие понесет убыток 880 руб. Пусть теперь предприятие применит свою 2-ю стратегию, т. е. возь- возьмет расчет на плохую погоду, тогда будет произведено 4000 единиц продукции Пх и 1200 единиц продукции П2 и его затраты составят С2 = 4000 X 0,8 + 1200 х 0,5 + 200 = 4000 руб. Если погода окажется плохой, т. е. природа применит свою 2-ю стра- стратегию, то вся произведенная продукция будет реализована в тот же день, и предприятие будет иметь сумму выручки Z8 = 4000 X 1,2 + 1200 X 0,8 = 5760 руб. и его прибыль составит «22 = 23 — С2 = 5760 — 4000 = 1760 руб. Если же предприятие применит свою вторую стратегию, а природа свою 1-ю стратегию, т. е. будет произведено 4000 единиц П1 и 1200 единиц П2> а в тот же день будет реализовано 1000 единиц [Ij по 1,2 руб., 1200 единиц П2 по цене 0,8 руб., на другой день 4000 — 1000 = 3000 единиц Пх по цене 0,3 руб. и сумма выручки составит Z4 = 1000 X 1,2 + 1200 X 0,8 + 3000 х 0,3 = 3060 руб., а прибыль Р = Z4 — С2> т. е. а21 = 3060 — 4000 = —940 руб. Итак, матрица А принимает вид 2000 — 880 Л ~ ' — 940 1760 На этих примерах показано, как можно подходить к формализации конфликтных ситуаций. В дальнейшем будут рассмотрены методы решения подобных игр. Главным в исследовании игр является понятие оптимальных страте- стратегий игроков. В это понятие интуитивно вкладывается такой смысл: стратегия игрока является оптимальной, если применение этой стра- стратегии обеспечивает ему наибольший гарантированный выигрыш 20
при всевозможных стратегиях другого игрока. Исходя из этих по- позиций, первый игрок исследует матрицу А своих выигрышей • • • а\, •••а А = I аи • •• аи ••• ain I B.1) \Ctmi ¦¦• От, ¦¦¦ amnJ следующим образом: для каждого значения i (i =1, 2, ..., т) опреде- определяется минимальное значение выигрыша в зависимости от применяе- применяемых стратегий второго игрока (i = 1, 2, ... , т), т. е. определяется минимальный выигрыш для первого игрока при условии, что он применит свою t-ю чистую стратегию, затем из этих минимальных выигрышей отыскивается такая стратегия i = г0, при которой этот минимальный выигрыш будет максимальным, т. е. на- находится max min ац = aio/o = a. B.2) i i Определение. Число а, определенное по формуле B.2.), называется нижней чистой ценой игры и показывает, какой минималь- минимальный выигрыш может гарантировать себе первый игрок, применяя свои чистые стратегии при всевозможных действиях второго игрока. Второй игрок при оптимальном своем поведении должен стремить- стремиться по возможности за счет своих стратегий максимально уменьшить выигрыш первого игрока. Поэтому для второго игрока отыскивается max aij, i т. е. определяется максимальный выигрыш первого игрока, при усло- условии, что второй игрок применит свою /-ю чистую стратегию, затем второй игрок отыскивает такую свою / = j1 стратегию, при которой первый игрок получит минимальный выигрыш, т. е. находит min max а.ц — а^-и = р. B.3) Определение. Число р, определенное по формуле B.3), на- называется чистой верхней ценой игры и показывает, какой максималь- максимальный выигрыш за счет своих стратегий может себе гарантировать пер- первый игрок. Другими словами, применяя свои чистые стратегии первый игрок может обеспечить себе выигрыш не меньше а, а второй игрок за счет применения своих чистых стратегий может не допускать выигрыш первого игрока больше, чем р. Определение. Если в игре с матрицей А нижняя и верхняя чистые цены игры совпадают, т. е. а = р, то говорят, что эта игра имеет седловую точкц в чистых стратегиях и чистую цену игры: v = а = р. 21
Седловая точка — это пара чистых стратегий (/„, /„) соответствен- соответственно первого и второго игроков, при которых достигается равенство а = р. B.4) В понятие седловои точки вложен следующий смысл: если один из игроков придерживается стратегии, соответствующей седловои точке, то другой игрок не сможет поступить лучше, чем придерживаться стратегии, соответствующей седловои точке. Имея в виду, что луч- лучшее поведение игрока не должно приводить к уменьшению его выигры- выигрыша, а худшее — может приводить к уменьшению его выигрыша, эти условия можно записать математически в виде следующих соотноше- соотношений: аЧо < аин < а'-»л B-5) где i, / — любые чистые стратегии соответственно первого и второго игроков; (i0, /0) — стратегии, образующие седловую точку. Ниже будет показана эквивалентность определения седловои точки условиям B.4), B.5). Таким образом, исходя из B.5), седловои элемент о,о/|) является ми- минимальным в 10-й строке и максимальным в /0-м столбце в матрице А. Отыскание седловои точки матрицы А происходит легко: в матрице А последовательно в каждой строке находят минимальный элемент и проверяют, является ли этот элемент максимальным в своем столбце. Если он является таковым, то он и есть седловои элемент, а пара стра- стратегий, соответствующая ему, образует седловую точку. Пара чистых стратегий (i0, /0) первого и второго игроков, образующая седловую точку и седловои элемент а,-о,-о, называется решением игры. Чистые стратегии i0 и /„, образующие седловую точку, называются оптимальными чистыми стратегиями соответственно первого и вто- второго игроков. Пример 2.5. Игра задана следующей матрицей /5 3 4 3\ А = I 7 2 0 —2 . 40 —1 —4 2/ Найти решение этой игры. Решение. Рассматриваем первую строку и определяем в ней минимальные элементы. Это элемент 3 во втором и четвертом столб- столбцах. Проверяем, являются ли они максимальными во втором и четвер- четвертом столбцах. Оказывается так. Поэтому они являются седловыми эле- элементами и образуют решение игры: цена игры v = 3, оптимальная чистая стратегия первого игрока — это первая. Оптимальными чистыми стратегиями второго игрока являются две — вторая и четвертая. Далее, во второй строке минимальный элемент — 2 не является максимальным в своем четвертом столбце, значит он не может быть седловым. В третьей строке минимальный элемент — 4 не является мак- максимальным в третьем столбце, следовательно, он не седловои. Таким образом, последовательно проанализированы все строки матрицы выигрышей, и оказалось, что в этой игре больше нет седло- 22
вых точек в чистых стратегиях. Чистая нижняя цена игры а = 3, чистая верхняя цена игры р = 3. Они совпадают. Аналогично показы- показывается, что в играх примеров 2.1—2.4 нет седловых точек в чистых стратегиях. Рассмотрим теперь теорему о соотношении между верхней и нижней чистыми ценами игры. Теорема 2.1. Пусть f (х, у) вещественная функция двух перемен- переменных х? А и у ? В и существует а, = max min/ (х, у), р = min max/ (x, у), хгА у?В у?В XS.A тогда а < р. Доказательство. Из определения минимума и максимума следует, что min / (х, у) < f(x, у) < max / (x, у) ИЛИ min / (х, у) < max / (x, у). B.6) уйВ х?А Поскольку в левой части B.6) х любое, то max min/ (x, у) < max/ (x, у). B.7) х?А уйВ х?А В правой части неравенства B.7) у любое, поэтому max min f {х, у) < min max f (x, у), х?А у?В у?В х<=А что и требовалось доказать. В частности, матрица (а,,) есть частный случай функции / (х, у), т. е. если положить х = i, у = /, а,7 = / (х, у), то из теоремы 2.1 получим, что нижняя чистая цена не превосходит верхнюю чистую цену игры в матричной игре. Определение. Пусть / (х, у) действительная функция двух переменных х ? А и у ? В. Точка (х0, у0) называется седлоеой для функции / (х, у), если выполняются следующие неравенства / (х, Уо) < / (х0, Уо) < / (х0, у) при любых х ? А, у ? В. Рассмотрим теперь теорему об эквивалентности определений седло- вой точки и соотношений B.4) и B.5). Теорема 2.2. Пусть для вещественной функции f (х, у) при х ? А, у ? В, существуют max min f (x, у), min max f (x, у), XS.A у?В у?В XS.A тогда необходимым и достаточным условием того, что max min f (х, у) = min max / (х, у), XS.A у?В у?В х?А является существование седлоеой точки функции f (x, у), и если (х0, У о) седловая точка f (x, у), то f (*о> Уо) = max mjn / (*. У) = min max / (х> У)- х?А у?В i/ffl х?А 23
Доказательство. Достаточность. Пусть существует сед- ловая точка (х0, у0), тогда справедливы неравенства f (х> Уо) < / (*о> Уо) < / (*о. У) для любых х ? Л и у ? В, следовательно, справедливы неравенства max / (jc, у0) < / (*0, {/„) < min / (х0, у). B.8) х?А уцВ Далее, на основании определений минимума и максимума для любой / (х, у) очевидно справедливы следующие неравенства: min max / (jc, у) < max / (х, у0), У?В х?А х?А ,g дч min / (х0, у) < max min / (x, у). у?В х?А у?В Озпоставляя B.8) и B.9), получим min max / (х, у) < / (х0, у0) < max min/ (x, у). У?В х?А х€А у?В С другой стороны, по теореме 2.1 справедливы обратные соотношения. Это может быть только тогда, когда max min / (х, у) = min max / (x, у). B.10) х?А у?В у€В х?А и достаточность доказана. Необходимость. Пусть справедливо равенство B.10), тогда сущест- существуют такие х0 ? Л, у0 ? В, что max (min/ (х, у)) = min/ (x0, у), х?А у?В у?В min (max / (х, у)) = max / (х, у0). у?В х?А х?А Покажем, что (х0, у0) —седловая точка. Из B.10) вытекает справед- справедливость следующего равенства min / (х0, у) = max / (х, у0). B.11) У?В х?А Из определения минимума следует, что min / (х0, {/)< / (х0, у0) у?В и, учитывая B.11), получаем следующее неравенство тах/(х, {/„) </(*„, у0). х?А На основании определения максимума из последнего неравенства по- получаем требуемое соотношение f(x, yo)<f(xo, Уо). Аналогично доказывается и другая часть неравенства /(*о. Уо)<!(*о, У)- 24
Далее, из B.11) вытекает справедливость следующего равенства: / (хо> Уо) — maxmin/ (x, у) = minmax/ (x, у), что и требовалось доказать. Если положить х — i, у = /, f (х, у) = <Хц, то из теоремы 2.2 выте- вытекает эквивалентность соотношений B.4) и B.5), т. е. для матричной иг- игры седловая точка определённая по B.4) и B.5) совпадает. 2.2. ОПТИМАЛЬНЫЕ СМЕШАННЫЕ СТРАТЕГИИ И ИХ СВОЙСТВА Примеры, приведенные в предыдущем параграфе, показывают, что не каждая матричная игра имеет оптимальные чистые стратегии. Иссле- Исследование матричной игры начинается с нахождения ее седловои точки в чистых стратегиях. Если матричная игра имеет седловую точку в чистых стратегиях, то нахождением этой точки заканчивается иссле- исследование игры. Если же в матричной игре нет седловои точки в чис- чистых стратегиях, то можно найти нижнюю и верхнюю чистые цены этой игры, которые указывают, что первый игрок не должен надеяться на выигрыш больший, чем верхняя цена игры, и может быть уверен в по- получении выигрыша не меньше нижней цены игры. Такие рекомендации относительно поведения игроков в матричной игре без седловои точки в чистых стратегиях не могут удовлетворять исследователей ц практи- практических работников. Улучшение решений матричных игр следует искать в использовании секретности применения чистых стратегий и возмож- возможности многократного повторения игр в виде партий. Так, например, проводится серия игр в шахматы, шашки, футбол, и каждый раз игро- игроки применяют свои стратегии таким образом, что их противники не догадываются об их содержании, и на этом пути в среднем достигают определенных выигрышей, сыграв всю серию партий. Эти выигрыши в среднем больше нижней цены игры и меньше верхней цены игры. Чем больше это среднее значение, тем лучше стратегии применяет игрок. Поэтому возникла идея применять чистые стратегии случайно, с определенной вероятностью. Это полностью обеспечивает секретность их применения. Каждый игрок может изменять вероятности примене- применения своих чистых стратегий таким образом, чтобы максимально уве- увеличить свой средний выигрыш и на этом пути получать оптимальные стратегии. Такая идея привела к понятию смешанной стратегии. Определение. Смешанной стратегией игрока называется полный набор вероятностей применения его чистых стратегий. Таким образом, если первый игрок имеет т чистых стратегий 1, 2, ..., i, ..., т, то его смешанная стратегия х — это набор чисел х = (х1г х2, ..., xt, ,.., хт) удовлетворяющих соотношениям т х1 > О {I = 1, 2, . .., т), 2 xt = 1. B.12) Аналогично для второго игрока, который имеет п чистых страте- стратегий, смешанная стра^гия у — это набор чисел у = (ух, ..., У}, ...г 25
уп), удовлетворяющих соотношениям п {// > О (/=1,2,..., я), Щу, = 1. B.13) Так как каждый раз применение игроком одной чистой стратегии исключает применение другой, то чистые стратегии являются несов- несовместимыми событиями. Кроме того, они являются единственно воз- возможными событиями. Очевидно, чистая стратегия есть частный случай смешанной стра- стратегии. Действительно, если в смешанной стратегии какая-либо /-я чистая стратегия применяется с вероятностью единица, то все осталь- остальные чистые стратегии не применяются. И эта f-я чистая стратегия является частным случаем смешанной стратегии. Для соблюдения сек- секретности каждый игрок применяет свои стратегии независимо от выбо- выбора другого игрока. Определение. Средний выигрыш первого игрока в матрич- матричной игре с матрицей А выражается в виде математического ожидания его выигрышей т п. Е (А, х, у) = 2 2 ацхд,. B.14) Очевидно, средний выигрыш первого игрока есть функция двух наборов переменных хну. Первый игрок имеет целью за счет изменения своих смешанных стратегий х максимально увеличить свой средний выиг- выигрыш Е (А, х, у), а второй — за счет своих смешанных стратегий стре- стремится сделать Е (А, х, у) минимальным, т. е. для решения игры необ- необходимо найти такие х, у, при которых достигается верхняя це- цена игры Р = min maxE (А, х, у). B.15) ч х ¦С другой стороны, ситуация должна быть аналогичной относительно второго игрока т. е. нижняя цена игры должна быть a — max min ? (А, х, у). B.16) * У По аналогии с играми, имеющими седловые точки в чистых стратегиях, вводится следующее определение: оптимальными смешанными стра- стратегиями первого и второго игроков называются такие наборы х°, tf соответственно для первого и второго игроков, которые удовлетво- удовлетворяют равенству min max ? (А, х, у) = max min Е (А, х, у) = Е (А, х°, у0). B.17) УХ X q Определение. Величина Е (А, х°, if), получаемая по фор- формуле B.17), называется ценой игры и обозначается буквой у. Имеется другое определение оптимальных смешанных стратегий: х°, у° называются оптимальными смешанными стратегиями соответ- соответственно первого и второго игроков, если они образуют седловую точку для функции Е (А, х, у), т. е. удовлетворяют неравенствам Е (А, х, {/°)< ? (А, х°, у°)<Е(А, х°, у). B.18) 26
Из теоремы 2.2 следует, что оба эти определения оптимальной смешан- смешанной стратегии являются эквивалентными. Оптимальные смешанные стратегии и цена игры называются решением матричной игры. Теперь возникает два вопроса. 1. Какие матричные игры имеют решения? 2. Как находить решение матричной игры? На первый вопрос отвечает основная теорема матричных игр, дока- доказанная впервые Нейманом. Содержание теоремы состоит в том, что всякая матричная игра имеет решение. Доказательство ее будет при- приведено ниже. Ответом на второй вопрос будет изложение методов решения мат- матричных игр. Для доказательства основной теоремы матричных игр понадобятся следующие две вспомогательные леммы. Лемма 2.1. (теорема об опорной гиперплос- гиперплоскости). Пусть В—замкнутое выпуклое множество из п-мерного евклидова пространства Еп и х = (хъ хъ ...,хп) — точка изЕп, не при- принадлежащая В. Тогда существуют такие числа plt ..., рп, pn+i, что (=1 B-19) % PJli > P«+i Для всех У = Wi. • ¦ •. Уп)?В. B.20) Геометрически эта теорема означает, что через точку х можно про- провести гиперплоскость так, что В полностью будет лежать по одну сторону от этой гиперплоскости. Доказательство. На основании того, что В замкнуто, существует такая точка г ? В, что расстояние от г до х минимально. Положим п P, = zi—xi (I = 1, 2, ..., п), рп+1 = 2 fa — xl). B.21) (=i Очевидно, для таких pl (i = 1, 2, ..., п + 1) равенство B.19) выпол- выполняется. Докажем справедливость B.20) для г. В самом деле, на основа- основании B.21) и, следовательно, 2 Pizt — рп+1 = 2 г? - 2 2 гЛ + Ц *? = S (г; - xtf > 0, i=i i=i i=i i=i ;=i т. е. справедливо B.20). Предположим, что существует такое у ? В, что п S PMi <Pn+i. 27
Тогда, на основании выпуклости В, отрезок yz целиком находится в В, т. е. и% = Яг/ + A — Я) z ? В, О < Я < 1, квадрат расстояния от х до w% выразится формулой л р2 (х, wx) = 2 (xt — Xyl — A — X) ZiJ, отсюда t =22 fe — Уд (xi — ty, — A — Я) zA = OK (.= 1 При Я = 0, т. е. при wx = z, имеем п п So ^^ « ** to oov Pif/г == ^ ^_j PA» ^z.zz^ По предположению (=i t=i поэтому из B.22) следует, что дк а это значит, что для достаточно близких к нулю Я, будет Р (х, ш) < р (х, г), но это противоречит выбору z как точки наименее удаленной от х. Это противоречие доказывает, что для всех у ? В должно выполняться условие B.20). Лемма 2.2. Для любой матричной игры с матрицей А справедли- справедлива одна из двух альтернатив: 1) существует такая смешанная стратегия х = (xlt .... хт), что т 2 (/= 1, 2, .... пу, 2) существует такая смешанная стратегия у = (ylt ..., «/„,) что п 2 а<,{/,<0 (t = 1, 2, ..., т). /=1 Доказательство. Пусть точки а! = (fli,, а2/, ..., ат/) (/ = 1, 2, ... , п), б(= Фи, 6я, ..-, M (i = l, 2, ..., яг), где i 0, если k ФI 6w = I 1, если k = l 28
принадлежат евклидову пространству размерности п + т\ С — вы- выпуклая оболочка точек а1, б' (i = 1, 2, ..., m; / = 1, 2, ..., п); z = @, О, _..., 0) — точка евклидова пространства размерности т. Тогда мо- может быть два случая: z ? С и г ? С. Если г ? С, то г может быть пред- представлена в виде линейной выпуклой комбинации точек б', a! (i = 1, ..., т; j = 1, ..., ft), т. е. справедливы следующие уравнения: m /г 2 «,б' + 2 i>/Q' = z, m n или, расписывая его по компонентам, получим для &-й компоненты т п 2 «А< + 2 о,-а*/ = 0 (k = 1, 2, ..., т), отсюда, учитывая свойства б«, получим «* + 2 vflv = 0 (й = 1, 2, ..., т). B.23) Поскольку, uk ¦> 0, то из последнего равенства следует, что п 2 vflks < 0 (k = 1, 2, ..., т). B.24) Покажем, что 2>,>0. B-25) Действительно, если все о, = О (J — 1, ..., п), то из B.23) следует ик = О (А == 1, ..., т), это противоречит условию о том, что г выпуклая линейная комбинация. Итак, B.25) справедливо. Поэтому можно положить У - Vl+!.+Vn Если Vj из B.26) подставить в B.24), то получим B-26) 2 %% < 0 (i= 1, 2 т), /=1 что показывает справедливость второй альтернативы леммы. Пусть теперь г? С. Тогда по лемме 2.1 существует такая гипер- гиперплоскость Р: что точка г лежит на этой гиперплоскости, а все точки Снаходятся по одну сторону от Р. 29
Поскольку Р проходит через начало координат, то можно подо- подобрать такие рг, ..., рт, что для любой точки t — (tlt ..., tm) ? С бу- будет справедливо неравенство РЛ+ ••• +pJm>0. B.27) В частности, для точек б' будет справедливо неравенство B.27) в таком виде pAi + ••• + рт8ш >0 A = 1,2 т), отсюда следует, что рг > 0, р3 > 0, ..., рт > 0. Неравенство B.27) справедливо и для точек a' (j — 1, ..., ft) m 2 />,*/> 0 (/ = 1, 2 ft). B.28) Положив в B.28) xt = ———^— (t = 1, 2, .. . , m), от получим 2 #/ а,- > О, и тем более т что показывает справедливость второй альтернативы леммы. Таким образом лемма доказана. Теперь сформулируем и докажем основную теорему матричных игр. Теорема 2.3. Для матричной игры с любой матрицей А величины а = max minЕ (Л, х, у), |3 = min max E (Л, х, у) х у ух существуют и равны между собой. Доказательство. Множества значений для х и у замкнутые, а функция Е (А, х, у) непрерывна, поэтому max E (х, у) и min E (х, у) X У существуют и также являются непрерывными функциями. Следова- Следовательно, существуют Р = min max E (Л, х, у), а, — max min E (А, х, у). ух х у Итак, существование аир доказано. Предположим, что для матрицы Л выполняется первая альтернати- альтернатива леммы 2.2, т. е. существует такая смешанная стратегия х, что т 2 <*/*,> О (/= 1, 2 ft), следовательно, Е(А, х, у) = 2 I 2 aijXi )y, > О, min Е (Л, jc, г/) > 0 и max min ? (Л, лс, г/) > 0. B.29) U х у 30
Если же выполняется вторая альтернатива леммы 2.2, тогда суще- существует такая смешанная стратегия у, что п. 2 ОцУ1<Ъ (»= 1, 2, .... 771), следовательно, ? (Л, х, г/) < Ои min max E (А, х, у) < 0. B.30) Поскольку согласно лемме 2.2 справедлива либо первая, либо вторая альтернатива, то несправедливы следующие неравенства: max min E (А, х, {/)<0< min max E (А, х, у). B.31) XI/ у X Рассмотрим матрицу Ак, где k — любое число с элементами а-ц — kx тогда т п Е (Ак, х, у) = g 2 (atj—k)xtyf = Е (А, х, у) — ft. Для матрицы Ak также несправедливы неравенства B.31), которые- записываются в следующем виде: max min Е (А, х,у) — k < 0 <С min max Е (А, х, у) — k, х у ух или, прибавляя k ко всем частям неравенства, получим, что для, любого k несправедливы неравенства max min ? (Л, х, у) <ft<Cmin тахЕ (А, х, у) К и UX или несправедливы неравенства max min Е (Л, х, у) < min max E (Л, х, у), XI/ U X т. е. справедливы следующие неравенства max min Е (Л, х, у) > min max E (А, х, у). х у 1/ х С другой стороны, согласно теореме 2.1, справедливы неравенства max min Е (А, х, у) < min тахЕ (Л, х, у). х У VX Справедливость последних двух неравенств возможна лишь тогда,, когда выполняется равенство max min Е (Л, х, у) = min max E (А, х, у), х у х у что и требовалось доказать. Рассмотрим теперь свойства оптимальных смешанных стратегий. Теорема 2.4. Для того чтобы в матричной игре с ценой игры v- смешанная стратегиях0 первого игрока была оптимальной, необходи- необходимо и достаточно для любой смешанной стратегии у второго игрока выполнение неравенства v^E(A,x°,y). B.32), 31
Аналогично для второго игрока, чтобы смешанная стратегия у0 была оптимальной, необходимо и достаточно для любой смешан- смешанной стратегии х первого игрока выполнение неравенства Е(А, х, г/°)<и. B.33) Доказательство. Докажем первую часть теоремы. Необходимость. Пусть я0 — оптимальная смешанная стратегия первого игрока, тогда по теореме 2.3 существует такая смешанная стра- стратегия у0 второго игрока, что v = E(A, Xй, г/°)<?(Л, хР, у), т. е. выполняется B.32) и необходимость доказана. Достаточность. Пусть х° удовлетворяет B.32). Согласно теореме 2.3 существует пара оптимальных стратегий х1, у1, т. е. таких, что для любых х и у справедливы неравенства, соответствующие седловой точке Е (А, х, у1) < Е (Л, х\ у1) < Е (А, х\ у) B.34) Поскольку v цена игры, то v = E(A, x\ у1). B.35) Из B.32) и B.35) следует, что Е(А, х\ yl)<CE(A, х\ у). B.36) Заменив у на у1 в B.36) и х на х° в первой части B.34), получим Е(А, х°, уг)<СЕ(А, х\ уг)^Е(А, Л у*), т. е. Е(А, х\ у1)=Е(А, х?, у1). B.37) Теперь из B.34), B.36) и B.37) заключаем, что (хп, у1) —седловая точ- точка для Е (Л, х, у), т. е. х° — оптимальная смешанная стратегия для первого игрока. Таким образом достаточность доказана и тем самым доказана первая часть теоремы. Вторая часть теоремы доказывается аналогично. Следствие. Для того чтобы я0 = (х°, ..., х°1г ..., х„) была оп- оптимальной смешанной стратегией матричной игры с матрицей Л и ценой игры v, необходимо и достаточно выполнение следующих не- неравенств т 2 ацхЧ >v (/ = 1, 2, .. ., л). B.38) Аналогично для второго игрока: чтобы у0 = (у1, ..., у°, ..., у%) была оптимальной смешанной стратегией второго игрока, необходимо и достаточно выполнение следующих неравенств: 2 а,#?<» A=1, 2 т). B.39) Из этого следствия вытекает: чтобы установить, являются ли пред- предполагаемые (х, у) и v решением матричной игры, достаточно проверить, удовлетворяют ли они неравенствам B.38) и B.39). С другой стороны, 32
найдя неотрицательные решения неравенств B.38) и B.39) совместно со следующими уравнениями 2 *< = 1 получим решение матричной игры. Итак, решение матричной игры сводится к нахождению неотрица- неотрицательных решений линейных неравенств B.38), B.39) и линейных урав- уравнений B.40). Теорема 2.5. Пусть имеется матричная игра с матрицей А, це- ценой игры v, оптимальными смешанными стратегиями х = (хг, ..., хт), у = (уг, ..., уп) соответственно первого и второго игроков. Тогда, если для некоторого i будет то х, = 0; если для некоторого j будет т 2ед>ч, B.42) то у,- = 0. Доказательство. Пусть для некоторого i справедливо B.41), но xt > 0, тогда п Xi 2 сщУ/ < х-р. B.43) Исходя из свойств оптимальности стратегии B.39), получаем п 2 ацУ\ <v A=1, 2, ..., т; 1ф1), /=' отсюда п х{ 2 ацУ; < vxp Суммируя по / обе части последнего неравенства, получим п п т - xt 2j аИу/ <v 2jXi + x-p. Поскольку справедливо B.43), то второе слагаемое левой части по- последнего неравенства строго меньше второго слагаемого правой части, поэтому т п т 2j Xj2i ацУ\ "С v 2 Х1 = v, 1=1 f=l 1=1 что противоречит тому, что v цена игры и доказывает первую часть тео- теоремы. Вторая часть теоремы доказывается аналогично. 3 6-2853 33
Пример 2.6. Найти решение матричной игры со следующей матри- матрицей: / 1 —1 —Г Л= -1 -1 3 \-1 2 -1, На основании следствия из теоремы 2.4 для нахождения решения этой игры следует найти неотрицательные х1г х2, х3, уи у2, у3, удовлет- удовлетворяющие следующим соотношениям: хх — х2 — xa>v, —Х1 — Х2+ xs>v>) Л "f *J-^2 Лд ^^- V, Л-J -f~ Л-2 "f Лд 1 . J г/i — г/2 — г/з < у. - ft — ft + Зг/3 < и, , B.45) Причем системы B.44) и B.45) можно решать вместе или отдельно. Рассмотрим сначала систему B.44). Для ее решения можно сначала заменить все неравенства на равенства и попробовать их решить. Если получатся все неотрицательные значения xlt x2t xs, то получено реше- решение игры. Решая систему уравнений x1 — x2 — xs = v, —х1 — х2 + 2л:3 = v, xi "г ^хг xs ~ v> xi "г Х2 "г хз == 1 > каким-либо известным способом, получим х1 = -jj- ' Х2 = -j3~ ¦ л:3 = -уз" ' v = [г" ' Поскольку значения хи х2, xs неотрицательные, они определяют оп- оптимальную смешанную стратегию первого игрока. Если бы в резуль- результате решения этой системы получили хоть одно отрицательное зна- значение xt, то это значит: предположение о том, что все неравенства B.44) можно заменить уравнениями, несправедливо и надо только часть не- неравенств заменить равенствами и решать уже такую систему. Переби- Перебирая последовательно все возможные комбинации равенств и нера- неравенств и решая их, получим искомое решение. Это решение обязатель- обязательно будет найдено, так как оно существует согласно теореме 2.3. Составляя теперь систему уравнений для второго игрока и решая ее, получим _ 6 _ 4 _ 3 г/i уз" ' Уг ~ ~ ' у»~ 1з" Поскольку полученные значения у неотрицательные, они составляют оптимальную смешанную стратегию второго игрока. Итак, решением игры является /6 3 4 \ /6 4 з \ 1 х = \1Г ' ~W' ~1з7 ' у = \~W ' IT' IT)' v = —W ' 34
Пример 2,7. Найти решение матричной игры со следующей матри- матрицей: / 3 — 2 4\ А= -1 4 2 \ 2 2 6; На основании следствия из теоремы 2.4 для нахождения решения этой игры надо найти неотрицательные значения хг, *2, *3, уг, ?/2, ys, удо- удовлетворяющие следующей системе: Зх1 — *2 + 2*3 > v, Зух — 2у2 + 4уя < v, — 2*i + 4*2 + 2д;8 > v, — ух + 4г/2 + 2уа < у, 4*1 + 2*2 + 6*8>у, 2ух + 2{/2 + 6г/8 < v, х1 + *2 + ха = 1, ^ + г/2 + г/8 = 1. Составляя систему уравнений заменой неравенств уравнениями и ре- решая ее, получаем некоторые значения отрицательными. Поэтому про* буем составлять систему, состоящую из равенств и неравенств. На- Например, предположим, что первое неравенство останется строгим, а остальные будут уравнениями 3*!— *2 + 2*8>у, 3*! — 2г/2 + 4г/8 = v, — 2х1 + 4*2 + 2*8 = v, — {/, + 4г/2 + 2уа = у, 4*, + 2*2 + 6*8 = v, 2У1 + 2у2 + 6г/8 = у, *!+ *2+ *8=1, ух+ г/2+ ys=l- Поскольку 3*! — хг + 2*з > у, то согласно теореме 2.5 должно быть ух — 0, однако при ух = 0 система уравнений для вектора у оказывает- оказывается несовместной. Поэтому наше предположение несправедливо. Приняв предположение о том, что только второе неравенство яв- является строгим, находим несоответствие. Проведя последовательно та- такие действия, придем к следующей системе: 3*!— *2 + 2*3 = у, Ъух — 2у2 + 4{/8 < v, — 2*х + 4*2 + 2*3 = v, — Ух + 4у2 + 2уа = и, 4*! + 2*2 + 6*8 > v, 2ух + 2уа + 6«/8 = v, *1 + *2+*8=1, У1 + У2 + Уа=1- Поскольку 4*j + 2*2 + 6*з > v, то из теоремы 2.5 следует, что у3 — О, а из Зух — 2г/2 + 4уа < v следует, что хх = 0. Таким образом, прихо- приходим к следующей системе уравнений: — *2 + 2*з = у, — 2/i + 4{/2 = и, 4*2 + 2*з = v, 2ух + 2г/2 = v, *2+ xs= I, ух+ у2 = 1. Решая эту систему известными методами, получим *2 = 0, *8= 1, ух = —¦ , y2=-L, v = 2, 3* 35
т. е. все значения х2, х3, ylt уг неотрицательные и, следовательно, они образуют решение игры, которое имеет вид х = (О, 0, 1), fir = (-§- . -|- » о) > v = 2. Рассмотрим некоторые особенности решений симметричных игр. Определение. Квадратная матрица А — (ач) называется кососимметрической, если ач = —а1( для всех i, /. Матричная игра называется симметричной, если ее матрица кососимметрическая. Теорема 2.2. Цена симметричной игры равна нулю. Если х оптималь- оптимальная смешанная стратегия первого игрока, то х есть также оптималь- оптимальная смешанная стратегия для второго игрока. Доказательство. Пусть х произвольная смешанная стра- стратегия и А квадратная матрица, тогда для симметричной игры ац = = —a,i или где знак Т означает транспонирование. Следовательно, хАхт = — хАтхт = — (хАхт)т = — хАхт, поэтому хАхт = 0 и min xAyT < О, v Т. е. цена игры неположительная. С другой стороны, max yAxT > О X Так, что цена игры неотрицательная. Поэтому цена игры равна нулю. Если х оптимальная стратегия первого игрока, то хА >- 0 и х (— Ат) > 0 или хАт < 0, т. е. Ахт < О, а это значит, что х оптимальная и для второго игрока. Пример 2.8. Рассмотрим решение игры с двумя пальцами, мат- матрицу которой построили в примере 2.1. Поскольку эта матрица кососимметричная, то игра симметричная и цена этой игры v = 0. Поэтому для решения этой игры согласно следствию из теоремы 2.4 надо найти неотрицательные решения сле- следующих систем: — 2х2 + Зх3 > 0, 2хг — Зл:4 > 0, — 3*! + 4х4 > 0, Зх2 — 4х3 > 0, Х1 ~Ь Х2 ~Ь *3 ~Ь Xi ~ 1 > где х = (xlt x2, xs, д:4) — оптимальная смешанная стратегия первого « второго игроков. Предположив, что все неравенства можно заменить равенствами, получим — 2х2 + Зх3 = 0, 2хх — Зд;4 = 0, 36
— 3xt + 4*4 = 0, 3*2 — 4*3 = 0, *i + 4 + xa + *4 = 1. Из первых четырех уравнений получаем, что единственным решением этой однородной системы линейных уравнений будет хг = х2 = ха = = х4 = 0, что противоречит последнему уравнению. Поэтому сделан- сделанное предположение следует отвергнуть. Пусть теперь только первое неравенство будет строгим: — 2хг + 3*8 > 0, 1хх — 3*4 = 0, — 3*1 + 4*4 = 0, Зд;2 — 4*8 = 0, *\ + Ч + ха + Хц = 1. Решение системы четырех уравнений (без первого неравенства) легко получить, это: *t = 0, *2 =r ~J~ ' Ха = -=— ' *4 = 0. Все эти значения неотрицательны и удовлетворяют первому неравен- неравенству, поэтому они составляют оптимальную смешанную стратегию для первого и второго игроков. Эта стратегия состоит в том, что игроки слу- чайно с вероятностью -=- показывают один палец и называют цифру 2, 3 - и с вероятностью -= наоборот, показывают два пальца, а называют, число 1. В среднем выигрыш каждого игрока равен нулю. Из рассмотренных примеров видно, что метод решения перебором возможных равенств и неравенств неприемлем для большой размер- размерности матриц, так как при этом необходимо проводить огромное коли- чество переборов. В дальнейшем будут рассмотрены более совершен- совершенные методы. Часто при нахождении решения матричной игры существенно по- помогает выявление превосходства одной стратегии над другой. Определение. Если для t-й и k-ft стратегий первого игрока выполняются соотношения «</>«*/ (/=1, 2 п), B.46) причем хотя бы одно из неравенств B.46) является строгим, то говорят что стратегия i превосходит или доминирует стратегию k. Аналогично для второго игрока: стратегия / доминирует стратегию г, если выполняются неравенства fl(/>flir (t = l, 2, ..., m), B.47) причем хотя бы одно из неравенств B.47) является строгим неравен- неравенством. Использование соотношения доминирования позволяет сократить размерность матрицы выигрышей в матричной игре. Это свойство формулируется в виде следующей теоремы. Теорема 2.7. Пусть Г матричная игра с матрицей А порядка т х ft, и 1-я стратегия первого игрока доминирует k-to стратегию. 37
Пусть А1 матрица, получаемая из А путем исключения из нее k-u строки, и пусть Г1 матричная игра с матрицей А1. Тогда цена игры Г1 совпадает с ценой игры Г, всякая оптимальная смешанная страте- стратегия второго игрока в Г1 есть также его оптимальная смешанная стра- стратегия в игре V, если и — (ии щ, ..., Щ—i , ы*+ь •••> ит) есть оп- оптимальная смешанная стратегия первого игрока в игре Г\ то его смешанная стратегия х = (и1г и2, ..., Uk—i, 0, щ+i, .-., ит) является оптимальной в игре Г. Доказательство. Поскольку г-я стратегия первого игрока доминирует k-ю, то справедливы неравенства (к, >ащ (/ = 1, .. ., ft), alh > ak,0 B.48) при некотором / = /„. Обозначим через v цену игры в Г1, и у = (уи у2, ..., уп) оптималь- оптимальную смешанную стратегию второго игрока Г1. Тогда по следствию из теоремы 2.4 должны выполняться неравенства: Sfl,yyy<o (/=1, 2, ..., ft—I, ft+1, ..., т), B.49) 1=0 К2й1,«, (/ = 1, ..., п). B.50) Теперь надо показать, что v есть цена игры Г, у — оптимальная сме- смешанная стратегия второго игрока в Г и х = (ии щ, .... и/г_ь 0, и^+ь ..., и~) — оптимальная смешанная стратегия первого игрока в Г. Для этого, согласно следствию из теоремы 2.4, необходимо показать, что для Г удовлетворяются следующие неравенства: и ацу,<о A= 1, 2, ..., т), B.51) v <2 аци, (/= 1, 2 ft). B.52) Сравнивая B.49) и B.51) замечаем, что для / Ф k они совпадают. Остается проверить справедливость B.51) при I = k. Поскольку вы- выполняется B.48), то умножив обе части неравенства B.48) на у) и про- просуммировав их, получим Неравенство B.49) справедливо для / = i, поэтому п v > 2 сщУ1 > 2 /=1 /=] т. е. неравенство B.51) выполняется для I = k. Неравенство B.52) можно переписать так: 38
Поскольку uk = 0, то получим неравенства которые полностью совпадают со справеливыми неравенствами B.50), что и требовалось доказать. Из теоремы 2.7 следует, что если г-я стратегия первого-игрока до- доминирует k-ю стратегию, то i-я стратегия для первого игрока лучше, чем k-я , т. е. первому игроку не выгодно использовать свою k-ю стра- стратегию и она не должна входить в его оптимальную стратегию. Следо- Следовательно вероятность применения k-и чистой стратегии в оптимальной смешанной стратегии первого игрока должна равняться нулю. Вы- Вычеркивая из А эту k-ю строку, получаем матрицу А1, в которой коли- количество строк на единицу меньше. При этом полагаем xk = 0, где xk k-я компонента х. Игру с матрицей А1 решать легче, так как в ней меньше строк. Если в матрице А1 наблюдается доминирование стра- стратегий первого игрока, то далее можно поступать аналогично и таким образом уменьшить размерность матрицы А1. Доминирование стратегий для второго игрока также дает дополни- дополнительные возможности для сокращения размера матрицы выигрышей. С этой целью можно использовать следующее свойство. Теорема 2.8. Пусть Г матричная игра с матрицей А. Пусть q-я чистая стратегия второго игрока доминирует r-ю, матрица А1 по- получена из А исключением q-го столбца, Г1 — матричная игра с матри- матрицей А1. Тогда цена игры Г1 такая же, как цена игры Г; всякая опти- оптимальная смешанная стратегия первого игрока в Г1 есть также его оп- оптимальная смешанная стратегия в Г; если w — (w1,w2, ..., wq—\, aVfi, ..., wa) есть оптимальная смешанная стратегия второго игрока в Г1, то у =- (wi, w2, ..., ш,_1, 0, wg+i, ..., wn) есть оптимальная смешанная стратегия второго игрока в Г. Доказательство этой теоремы аналогично доказательству теоремы 2.7. Таким образом, из теоремы 2.8 следует, что, если q-я чистая стра- стратегия второго игрока доминирует какую-либо его чистую стратегию, то q-u столбец в А можно вычеркнуть, положив yq = 0, где уц — q-я компонента оптимальной смешанной стратегии второго игрока. В результате, получаем матрицу Л1 меньшей размерности чем А. Если в А1 есть доминирование стратегий, то можно поступать с ней аналогич- аналогично и уменьшить ее размерность. Пример 2.9. Рассмотрим матричную игру с матрицей А = Обозначим оптимальные смешанные стратегии первого и второго иг- игроков соответственно через х и у. Очевидно, третья стратегия первого игрока доминирует его первую стратегию, поэтому можно в матрице 39
А вычеркнуть первую строку, положив хх = 0. Тогда получим новую матрицу /4 5 3 5N А1 = I 5 3 5 3 \1 5 4 в которой 4-я стратегия второго игрока доминирует его 2-ю стратегию, и поэтому вычеркиваем четвертый столбец, полагая г/4 = 0, и полу- получаем новую матрицу /4 5 34 А2 = 5 3 5 ¦ \1 5 4/ В этой матрице уже нет доминирования. Таким образом, исходную игру с матрицей порядка 4 X 4 с помощью доминирования свели к игре с матрицей порядка 3x3. Матричные игры обладают еще одним интересным свойством, которое формулируется в виде следующей теоремы. Теорема 2.9. Пусть дана матричная игра Г с матрицей А = (%) и с ценой игры v. Тогда оптимальные смешанные стратегии игроков матричной игры Тв с матрицей В — (&,-,) = (Ьсь,- + с), где Ь > 0 совпадают с оптимальными смешанными стратегиями соответст- соответствующих игроков в матричной игре Т, а цена игры Тв равна vB — bv -f- с. Доказательство. Пусть х — (xlf x2, .... х~), у = {ух, ..., уп) — соответственно оптимальные смешанные стратегии игроков в игре Г; р = (рг pm), q — (qv ..., qn) — оптимальные смешанные стратегии игроков в игре Гв- Тогда согласно следствию из теоремы 2.4. для оптимальности х, у, р, q должны удовлетворять неравенствам: ц^ 7^у' B-53) m n 2 btfit > vB, 2 bt(q, < vB. B.54) В B.54) подставим Ьц = batj + с, тогда получим m n 2 (ban + c)Pi> vB, 2 (Ьац + с)q, <vB. После простых преобразований этих неравенств будем иметь m n Ь 2 CLiiPi + C>VB, Ь 2 (titf) + C<VB или учитывая, что b > 0, получим v> vb —c v vb —c 2j aiiPi > 1 » 2j (kiqi < т • 40
Полагая в последних неравенствах vB— с получим т n 2 ai,pi > v; 2 a-tfli < ", i=l /=1 т. е. последние неравенства совпадают с неравенствами B.53), следо- следовательно, х = р, y = q, vB = bv +c, что и требовалось доказать. Пользуясь теоремой 2.9, можно несколько упрощать элементы матрицы А с тем, чтобы легче было с ними оперировать при нахожде- нахождении решения игры. Пример 2.10. Рассмотрим матричную игру с матрицей /200 300\ А = \600 100/ ' Если каждый элемент этой матрицы разделить на 100 и затем из по- полученных элементов вычесть 1, то получим игру с матрицей 2\ о)' которая имеет более простые элементы. Здесь проведено следующее преобразование: "~ЬЦ = 0,01а?/ —1, т. е. b = 0,01, с = —1. В этой игре нет седловой точки в чистых стратегиях. Поэтому для решения игры с матрицей В обозначим через х = (xlt x2), у = (г/1г у2) оптимальные смешанные стратегии соответственно первого и второ- второго игроков, и — цена игры с матрицей A, vB — цена игры с матри- матрицей В. Согласно следствию из теоремы 2.4, х и у должны удовлетворять соотношениям: хх -f 5*2 > vB, уг -f 2г/2 < vB, 2хг > vB, Ъу1 < vB, *i-f*2=l. г/х Ч- г/а = 1- Предположим, что все эти неравенства являются равенствами. Поз- Позже будет показано, что это всегда так, если в матричной игре с матри- матрицей порядка 2x2 нет седловой точки в чистых стратегиях. Тогда по- получим х± -f 5х2 = vB, Ух + 2у2 = vB, 2xt = vB, Ьух = vB, ^2=1—^, f/2 = 1 — г/1- 41
Отсюда l l *i = т" Vb> У\ = ~г vb, Или подставляя эти значения в первое уравнение, получим 1 , с 5 отсюда имеем — — , — -5- , л; = -^- , — — , — — . Тогда решением матричной игры с матрицей А будет vB—с 0,6+1 1СЛ / 3 7 \ v=—ь—= о,ш = 160' х = [-W ' -W)' — f_L 22 \ У \ 25 ' 25 / " 2.3. ИГРА ПОРЯДКА 2x2 Матричная игра порядка 2x2 задается следующей матрицей вы- выигрышей первого игрока: ) Решение этой игры следует начинать с отыскания седловой точки в чистых стратегиях. С этой целью находят минимальный элемент в первой строке и проверяют, является ли он максимальным в своем столбце. Если такого элемента не нашли, то аналогично проверяют вторую строку. Если во второй строке такой элемент найден, то он является седловым. Отысканием седлового элемента, если такой имеется, заканчивает- заканчивается процесс нахождения ее решения, так как в этом случае найдена цена игры — седловой элемент и седловая точка, т. е. пара чистых стратегий, для первого и второго игрока, составляющих оптимальные чистые стратегии. Если же седловой точки в чистых стратегиях не оказалось, то надо отыскать седловую точку в смешанных стратегиях, которая обязательно существует согласно основной теореме 2.3 матричных игр. Обозначим через х = {х1У х2), у = {уъ у2) смешанные стратегии соответственно первого и второго игроков. Напомним, что хх озна- означает вероятность применения первым игроком своей первой стратегии, а х2 = 1 — х1 — вероятность применения им своей второй стратегии. Аналогично для второго игрока: ух — вероятность применения им первой стратегии, у2 = 1 —yt —вероятность применения им второй стратегии. Согласно следствию из теоремы 2.4, для оптимальности смешан- 42
ных стратегий х и у необходимо и достаточно, чтобы для неотрицатель- неотрицательных хг, х2, уи 2/2 выполнялись следующие соотношения: + a22*2 > v, B.55) B.56) Покажем теперь, что если матричная игра не имеет седловой точки в чистых стратегиях, то эти неравенства должны превращаться в равен- равенства: + а22х2 = v, апух + аг4)г = v, B.57) В самом деле. Пусть игра не имеет седловой точки в чистых стра- стратегиях, тогда оптимальные значения смешанных стратегий удовлет- удовлетворяют неравенствам 1, 0<лс,<1, B>58) Предположим, что оба неравенства из B.55) будут строгими Яц*1 + а21*2 > v, а12х± + awx2 > v, тогда согласно теореме 2.5 должно ух = у2 = 0, что противоречит условиям B.58). Аналогично доказывается, что оба неравенства из B.56) не могут быть строгими неравенствами. Предположим теперь, что одно из неравенств B.55) может быть строгим, например первое Это значит, что согласно теореме 2.5 ух =0, у2 — 1. Следовательно, из B.56) получаем а12 < v, а22 < v. B.59) Если оба неравенства B.59) строгие, то по теореме 2.5 должно л^ = = х2 =0, что противоречит B.58). Если же а12 Ф а22, то одно из не- неравенств B.59) строгое, а другое — равенство. Причем равенство будет выполняться для большего элемента из ап и а^, т. е. одно нера- неравенство из B.59) должно быть строгим. Например а12 < а22. Тогда справедливо ап <С v, а это равносильно тому, что первое неравенство из B.56) строгое. Тогда согласно теореме 2.5 должно х1 — 0, что противоречит условию B.58). Если а12 = а22, то оба неравенства B.59) превращаются в равенства и тогда можно положить хг — 0, что про- противоречит B.58). Итак, предположение о том, что первое неравенство из B.55) может быть строгим, не справедливо. Аналогично можно 43
показать, что второе неравенство из B.55) также не может быть стро- строгим. Таким образом показано, что если матричная игра не имеет седло- вой точки в чистых стратегиях, то для оптимальных стратегий пер- первого игрока неравенства B.55) превращаются в равенства. Анало- Аналогичные рассуждения относительно неравенств B.56) приведут к тому, что в этом случае неравенства B.56) должны быть равенствами. Итак, если матричная игра порядка 2 х 2 не имеет седловой точки, то оптимальные смешанные стратегии игроков и цену игры можно определить, решив систему уравнений B.57). Установлено также, что если в матричной игре порядка 2x2 один из игроков имеет оптималь- оптимальную чистую стратегию, то и другой игрок также имеет оптимальную чистую стратегию. Следовательно, если матричная игра не имеет седловой точки в чистых стратегиях, то согласно теореме 2.3 она должна иметь решение в смешанных стратегиях, которые определяются из уравнений B.57). Решение системы B.57) — °12 — «21 + °22 2 «11 — °12 — т ** °11 — <*12 — =21 + «22 V = °И°22-°21 Пример 2.11. Рассмотрим решение игры в монеты (см. пример 2.2), матрица выигрышей которой 1 — h Очевидно, в этой игре нет седловой точки в чистых стратегиях (мини- (минимальный элемент в строке —1 не является максимальным в своем столб- столбце). Поэтому воспользуемся формулами, B.60), B.61) и получим 1 v _ '' 1 2" *а ~ — 1 — 1 — 1 — I ~ T и = -1-' = J_ У* — 1 — 1 — 1 — 1 2 — 1- — 1 — 1- — 1 — 1 — 1 — 1 — 1 — 1 — 1 2 1 Я Г^ Итак, оптимальным способом проведения этой игры является примене- применение игроками своих стратегий с одинаковыми вероятностями, равны- равными 0,5. На практике часто так и осуществляется эта игра: один игрок подбрасывает монету и после ее падения накрывает рукой так, чтобы второй игрок не увидел, какой стороной она упала; второй игрок так же может подбрасывать монету и, посмотрев какой стороной упала его монета, называть эту сторону. Такие действия игроков обеспечивают 44
применения ими стратегий с вероятностью 0,5, т. е. оптимальных сме- смешанных стратегий, цена игры равна 0, что говорит о безобидности игры {никакой игрок не имеет преимуществ). Пример 2.12. Рассмотрим решение игры «Оптимальный план» (см. пример 2.4). Матрица игры здесь следующая: / 2000 — 880 А = [ — 940 1760 Очевидно, эта игра не имеет седловой точки, поэтому найдем ее решение в смешанных стратегиях, где xlt x2 — соответственно вероят- вероятности применения первым игроком своих 1-й и 2-й стратегий, yv у2 —вероятности применения вторым игроком своих 1-й и 2-й страте- стратегий. Воспользовавшись формулами B.60), B.61), получим *i = 0,483; дг2 = 0,517; ^ = 0,473; у2 = 0,527; v = 482, или приближенно *i = Ч = 0.5; Уу = Уг = 0,5. Полученное решение рекомендует первому игроку (предприятию) примерно с одинаковой вероятностью, равной 0,5, применить свои чис- чистые стратегии, а природа максимально навредит предприятию, если будет также примерно с одинаковой вероятностью, равной 0,5, менять погоду. При этом предприятие в среднем будет иметь ежедневно при- прибыль в размере v = 482 рубля. Применить свою 1-ю стратегию для предприятия —это значит брать расчет на хорошую погоду и произзести 1000 единиц продукции IIj и 6000 единиц продукции П2. Для применения своей 2-й стратегии предприятию следует произвести 4000 единиц продукции Г^ и 1200 единиц продукции П2, т. е. меняя случайно стратегии, как это рекомен- рекомендует оптимальное решение, следует случайно менять технологию производства, что для предприятия невозможно. Поэтому оптималь- оптимальные стратегии лучше использовать так: в среднем ежедневно можно производить продукцию III B количестве 1000*! + 4000х2 = 1000 • 0,483 + 4000 • 0,517 = 2551 единиц, продукции П2 в количестве 6000^ + 1200ха = 6000 • 0,483 + 1200 • 0,517 = 3518 единиц, и независимо от поведения природы ежедневная прибыль предприятия будет составлять 482 руб. Действительно, предприятие затратит на изготовление и реализацию этой продукции 2551 • 0,8 + 3518 • 0,5 + 200 = 4000 руб. При хорошей погоде предприятие реализует 1000 единиц Ц по цене 1,2 руб., остальные 2551 —1000 = 1551 единиц Ц по цене в четыре раза меньше — 0,3 руб., 3518 единиц по цене 0,8 руб., т. е. получит 1000 • 1,2 + 1551 • 0,3 + 3518 • 0,8 = 4482 руб., и его прибыль составит 4482 — 4000 = 482 руб. 45
Если погода плохая, то предприятие реализует 2551 единицу про- продукции IIj по цене 1,2 руб., 1200 единиц продукции Па по цене 0,8 руб., остальные 3518 — 1200 = 2318 единиц продукции П2 по цене в четыре раза меньше — 0,2 руб., т. е. получит 2551 • 1,2 + 1200 • 0,8 + 2318 • 0,2 = 4482 руб., и его прибыль составит 4482 — 4000 = 482 руб. Существенное отличие этой игры от предыдущих заключается в том, что элементы матрицы А не являются точными: они взяты при- приближенно, в среднем (ведь нельзя наперед быть уверенным в продаже, скажем, точно 1000 единиц продукции; ее может быть продано в один день 980 единиц,— в другой 1030 и т. д.). Выводы, сделанные отно- относительно этой игры, будут справедливы только в случае незначитель- незначительного изменения количества проданных изделий (в данном случае, ска- скажем, в пределах 30—50 единиц ежедневно). В противном случае анализ игры усложняется. Предположим, наконец, что в городе имеется бюро прогнозов погоды, предсказания которого оправдываются с вероятностью 0,75 и не оправдываются с вероятностью 0,25. Предприятие поступает в точности по прогнозам. Тогда описанная выше ситуация по суще- существу теряет игровой смысл и может решаться чисто вероятностными методами. Действительно, пусть в данной местности за летний сезон бывает примерно одинаковое число дней с хорошей и плохой погодой, т. е. погода является случайным событием, появляющимся с вероятностью —. Согласно выводам, сделанным из матрицы Л, это наихудший ва- вариант для завода. Следовательно, прибыль завода является случайной величиной, принимающей свои значения: о 2000 с вероятностью 0,75 • 0,5 = -^- > — 880 с вероятностью 0,25 • 0,5 = -g- » — 940 с вероятностью 0,25 • 0,5 = -^- > 1760 с вероятностью 0,75 • 0,5 =-|-• (Например, для получения прибыли 2000 руб. требуется совмещение независимых событий: 1-е—хорошая погода, 2-е—оправдался про- прогноз. Вероятность совмещения этих событий равна произведению их вероятностей @,75 • 0,5). Для остальных величин прибылей рассу- рассуждения аналогичны). При этих условиях математическое ожидание прибыли завода М = 2000 • -|- — 880 • -1. - 940 • -L + 1760 • -|- == 1183 руб. Таким образом, ежедневная прибыль завода в среднем будет значи- значительно больше, чем в предыдущем случае на 1183 — 482 = 701 руб. 46
Значение смешанной стратегии полезно даже в случае проведения игры только один раз. Для иллюстрации приведем следующий пример. Пример 2.13. Дилемма фотокорреспондента. Во время праздника фотокорреспондент сделал для газеты несколько важных снимков, которые необходимо срочно обработать и отправить в редакцию. В своей фотолаборатории он обнаружил готовый проявитель, концен- концентрация которого ему неизвестна. Этот проявитель может быть либо нормальный (для пленки), либо разведенный в два раза (для фотогра- фотографий). Фотокорреспондент хочет знать, сколько времени проявлять пленку в имеющемся проявителе, так как от концентрации прояви- проявителя зависит время ее проявления и качество. Возникшую ситуацию можно рассматривать как игру: первый иг- игрок — фотокорреспондент, второй — природа. У первого игрока имеется две стратегии: 1. Проявлять пленку 15 минут в расчете на нормальный проя- проявитель. 2. Проявлять пленку 30 минут в расчете на разведенный проя- проявитель. У второго игрока имеется две стратегии: 1. Проявитель нормальный. 2. Проявитель разведенный в два раза. Для составления матрицы выигрышей можно провести следующие рас- рассуждения. Если проявитель нормальный, то проявление в течение 15 минут дает наилучший результат, который фотокорреспондент оценивает в 5 баллов (отлично). Если проявитель разведен для печатания фотографий, то проявле- проявление пленки в течение 15 минут дает слабый неконтрастный негатив. Однако из такого негатива все же можно получить фотографии сред- среднего качества: такое положение он оценил в 3 балла (удовлетво- (удовлетворительно). Если проявитель разведен для печатания фотографий, т. е. он разбавлен в два раза по сравнению с нормальным, то проявление пленки в течение 30 минут, учитывая закон обратной пропорциональ- пропорциональности, приведет все же к хорошему негативу. Такое положение он оценил в 4 балла (хорошо). Если же проявитель нормальный, то проявление пленки в течение 30 минут дает крупное зерно, вуаль, большую контрастность и т. д. Снимки получатся очень плохими, и такое положение он оценил в 1 балл (очень плохо). Таким образом, матрица выигрышей в баллах получилась в следующем виде: Очевидно, полученная матрица не имеет седловой точки, поэтому по формулам B.59)—B.61) решение получаем в виде оптимальных смешанных стратегий х = (*,, х2), у — (xv y2) соответственно для, первого и второго игроков: xi=-j- ' х»= — • й = 4" ' & = -if ' V==-J- = 3>4- 47
Если бы такую ситуацию можно было повторять много раз, то про- проявляя пленку в 60% случаев по 15 минут и 40% случаев по 30 минут, фотокорреспондент получит снимки, качество которых оценивается 3,4 балла. Однако для корреспондента важны именно эти снимки, и он не может повторять ситуацию много раз для использования опти- оптимальных смешанных стратегий в вышеуказанном смысле. Поэтому, будучи уверенным, что изменение качества негатива пропорциональ- пропорционально изменению времени проявления пленки, он может использовать те части времени, которые соответствуют его оптимальной смешанной стратегии, т. е. надо проявлять пленку в течение следующего проме- промежутка времени: t = 15*! + 30л:2 = 15 • 0,6 + 30 • 0,4 = 21 мин и качество полученного негатива оценивается в 3,4 балла. Пример 2.14. Бомбардировка. У первого противника имеется два бомбардировщика, один из них нагружен бомбами, другой — сред- средствами охраны и специальной аппаратурой. Эти бомбардировщики вы- вылетают бомбить переправу другого противника. При полете первый из бомбардировщиков находится под более эффективной защитой вто- второго, чем второй под защитой первого. Цель первого противника раз- разбомбить переправу, поэтому ему более важно сохранить бомбардиров- бомбардировщик с бомбами. Второму противнику лучше атаковать истребителями бомбардировщик в менее защищенном положении. Итак, у первого противника имеется две стратегии: 1. Самолет с бомбами летит под прикрытием второго бомбарди- бомбардировщика, т. е. самолет с бомбами летит первым. 2. Самолет со средствами охраны летит первым, т. е. он находится под прикрытием самолета с бомбами. У второго противника имеется также две стратегии: 1. Атаковать первый бомбардировщик. 2. Атаковать второй бомбардировщик. Известны следующие данные. Вероятность бомбардировщику остаться не сбитым и разбить переправу равна: 0,6, если он атакован истребителем в более выгодном для него положении; 0,4, если он атакован истребителем в менее выгодном для него положении; 1, если он не атакован истребителями. Таким образом, матрица выигрышей первого противника, состав- составленная из вероятностей поражения цели, представлена в следующем виде: А - ( \ 1 0,4 Очевидно, эта матрица не имеет седловой точки, а решение игры в смешанных стратегиях следующее: ^ = 0,6; *2 = 0,4; ^ = 0,6; г/2 = 0,4; v = 0,76. 48
Полученное решение показывает, что первый противник, применяя свои оптимальные смешанные стратегии при многократном повторе- повторении полетов с целью бомбардировки, в среднем будет иметь 76% удач- удачных случаев (остаться не сбитым и разбомбить переправу). Второй про- противник, применяя свои оптимальные смешанные стратегии, не позво- позволит бомбардировщику с бомбами прорваться к переправе чаще, чем в 76% случаев, т. е. своими оптимальными действиями он воспре- воспрепятствует бомбардировке переправы в 24% случаев. 2.4. ИГРЫ ПОРЯДКА 2 X л И т X 2 В играх порядка 2 х п первый игрок имеет только 2 чистых стра- стратегии, а второй п чистых стратегий, т. е. матрица выигрышей первого игрока имеет вид: / \ \а21 а22 ... ащ ... а2п/ Если такая игра имеет седловую точку, то ее легко найти и получить решение. Предположим, что игра не имеет седловой точки. Тогда необходимо найти такие смешанные стратегии х = (xv х2) и у = (г/1( у2, ..., уп) со- соответственно первого и второго игроков и цену игры v, которые удов- удовлетворяют соотношениям: аихх + а2/*3 > v (/ = 1, 2, ..., п), B.63) + ai2y2 -f • • • -f ct'2ny'n < v, j *2 = i — *i. У1 + У2+ ••• +уп= и Xl>0, *2>0, г/,>0 (/= 1, 2, ..., n). Поскольку игра не имеет седловой точки, то неравенства B.64) заме- заменяются равенствами Для решения систем B.63), B.65), B.66) целесообразно воспользовать- воспользоваться графическим методом. С этой целью введем обозначения для левой части неравенств B.63) М, {х^ = aijx1 + a2jx2 (/ = 1, 2 ti) или, подставив хг из B.65) и проведя простые преобразования, получим Mj (Xi) = (а,, — а2/) хг + а2/ (/' = 1, 2, ..., п), где Mj (atj) — это средний выигрыш первого игрока при условии, что он применяет свою смешанную стратегию, а второй — свою /-ю чистую стратегию. Каждому значению /=1,2, ..., п согласно выражению Mi (Xj) соот- соответствует прямая линия в прямоугольной системе координат (рис. 2.1, где/ = 1,2,3,4). 4 6-2853 49
Цель второго игрока минимизировать выигрыш первого игрока за счет выбора своих стратегий. Поэтому вычисляем min Mf fa) = М (Xi), i где М (х^ —нижняя граница множества ограничений. На рис. 2.1 график функции М (хг) изображен жирной линией. М м п и, м / А / 1 N. i > ц 1 X, Рис. 2.1 Рис. 2.2 Цель первого игрока максимизировать свой выигрыш за счет вы- выбора хъ т. е. вычислить max М (х^ = М (*?)• На рис. 2.1 точка М° означает максимальное значение M(x°i), которое получается при хг = х\. Цена игры v = М (хЧ), так как v = min max Mj (xj — M (x°i). i * Таким образом графически определяется оптимальная смешанная стратегия х = (я?, х\) первого игрока и пара чистых стратегий вто- второго игрока, которые в пересечении образуют точку М°. На рис. 2.1 изображены 2-я и 3-я стратегии второго игрока. Для таких стратегий неравенства B.63) превращаются в равенства. На рис. 2.1 это страте- стратегии / = 2, / = 3. Теперь можно решить систему уравнений М, (х,) = 0 (/ = 2, 3) и точно определить значения х\ и v (графически они определяются приближенно). Затем положив все значения yt = 0 при тех /, для кото- которых Mj (x,) не образуют точку М°, можно определить yj при тех /, для которых М/ (хг) образуют точку М°, решая систему уравнений 50
B.66). Для примера, приведенного на рис. 2.1, это следующая система: ~Ь @2аУа = ^> а остальные г/1 = г/4 = 0. Эту систему можно решить, полагая уг = = 1 — уь. Если при некоторой j = /0 стратегии второго игрока об- образуют точку М° и aijo = а2/0, то максимальное значение нижней гра- границы множеств ограничений изображается отрезком, параллельным оси Охг. В этом случае первый игрок имеет бесконечно много оптималь- оптимальных значений х°\, а цена игры v = aila = аг/0. Например, этот случай изображен на рис. 2.2, где /„ = 3 и отрезок MN изображают верхнее значение нижней границы множества .. ограничений, оптимальные значения хг находятся в пределах х\, х\. У второго ц игрока имеется чистая оптимальная стра- стратегия / = /0. Пример 2.15. Выбор сельскохозяй- сельскохозяйственной культуры. Сельскохозяйствен- Сельскохозяйственное предприятие имеет возможность вы- выращивать две культуры. Прибыль пред- предприятия от реализации вырощенной культуры зависит от объема полученной. Урожай первой культуры выше при су- сухой погоде, а второй — при более влаж- s ной. Состояние погоды в летний период можно рассматривать как следующие стратегии природы: 1. Лето жаркое сухое. 2. Лето жаркое влажное. 3. Лето теплое влажное. 4. Лето теплое сухое. 5. Лето прохладное сухое. 6. Лето прохладное влажное. Стратегии предприятия: 1. Выращивать первую культуру. Рис. 2.3 ' 2. Выращивать вторую культуру. Будем считать предприятие первым игроком, природу — вторым иг- игроком. Расчеты прибыли предприятия в млн. руб. в зависимости- от состояния погоды сведены в следующую матрицу: 10 8 6 4 2 3 1 2 4 3 12 6 Требуется определить оптимальные стратегии поведения сельскохо- сельскохозяйственного предприятия. Рассматривая полученную ситуацию как матричную игру порядка 2x6, определим оптимальные стратегии игроков. Очевидно, полученная игра не имеет седловой точки в чистых стратегиях, поэтому воспользуемся графическим методом решения 51
для определения оптимальных смешанных стратегий. С этой целью обозначим через хл вероятность применения первым игроком своей первой стратегии, через у = (уъ ..., уе) смешанную стратегию вто- второго игрока. На рис. 2.3 приведены графики средних выигрышей первого игрока М, (хх) (/' = 1, 2, 3, 4, 5, 6), где М1(х1) = (Ю- 1)^ + 1 = 9^+1, М2 (xj = (8 — 2)х1 + 2 = 6х1 + 2, M3(*i)= F—4) х,+4 = 2^ + 4, M4(*i)= D-3) ^ + 3 = *х+3, Мь (Xl) = B — 12) jc, + 12 = — 10хг + 12, М, (х,) = C — 6) х± + 6 = — Зх1 + 6. Нижнйя граница множества ограничений изображена на рис. 2.3 жирной линией. Очевидно, максимальное значение М (хг) достигается в точке М°, образуемой пересечением линий, соответствующих / = 6, /'=4. Поэтому полагаем: у1 == г/2 = у3 = уь = 0, у4 + ув = 1. Для определения значений дгг, д;2, г/4, у6, v надо решить следующие уравнения: 4хг + 3*г = v, 4г/4 + Зг/в = v, Зх! + Ьх2 = v, 3yt + 6г/в = v, *8 = 1 — *i, Уе = 1 — г/4- Решением этих систем является: з 1 з 1 15 о _с , *1 = -4~. *.= —. Л = -4~' ^в = -Г* у = "Г = 3-75 млн-РУб. Использовать это решение сельскохозяйственное предприятие мо- жет следующим образом: на -т- всей площади выращивать первую Культуру, а на остальной выращивать вторую культуру, тогда при- прибыль будет в размере v = 3,75 млн. рублей. Матричные игры порядка пг х 2 решаются также с помощью гра- графического метода. Матрица выигрышей первого игрока в этом случае имеет вид A = Смешанные стратегии х = (xlt .... д;т), г/ = (ylt y2) соответственно первого и второго игроков определяются аналогично, как в случае игр порядка 2 хп. Пусть по горизонтальной оси откладывается значение ух от 0 до 1, по вертикальной — значение среднего выигрыша Et (уг) первого игрока при условиях, что первый игрок применяет свою чистую t'-ю стратегию (i = 1, 2, ..., пг), второй —свою смешанную 52
стратегию (ylt 1 —г/3) =г/. Например, при т =4 графически Ei (ух) могут быть представлены так, как изображено на рис. 2.4. Первый иг- игрок старается максимизировать свой средний выигрыш, поэтому он стремится найти max Et (уг) = Е (yj, где ?¦1 (Уг) — ОцУг + Ягг^/г = (а" — а&) Ух ~Ь я'2* На рис. 2.4 функция Е (уи) изображена жирной линией и представ- представляет собой верхнюю границу множества ограничений. Второй игрок старается минимизировать Е (уг) за счет выбора своей стратегии ух, т. е. величи- величина Ух соответствует min Е (г/j) = Е (yl) = v. На рис. 2.4 значение Е (г/?) обозначено точкой Е°. Другими словами, определя- определяются такие две стратегии i0, ix первого игрока и вероятность уг для второго иг- игрока, при которых достигается равенство min max [(an — а<г) ух -f Щ2] = v, или = v, B.66) Из рис. 2.4 видим, что i0 = 2, it = 3, Рис- 2 4 цена игры v — это ордината точки Е°, вероятность у\ — это абсцисса точки Е°. Для остальных чистых стра- стратегий первого игрока в оптимальной смешанной стратегии должно Xi=0, any1 + al(l—y1)>v (сф1о, 1ф{г). Таким образом, решая систему B.66), получим оптимальную сме- смешанную стратегию второго игрока у = (у1У у2) и цену игры v. Опти- Оптимальную смешанную стратегию для первого игрока найдем, решая следующую систему уравнений: + ait2(l—xta) =v, Xi,= l— Xtt. Если v известно из решения системы B.66), то достаточно в последней системе решить только одно из уравнений для получения оптимальной смешанной стратегии первого игрока. Пример 2.16. Выбор минеральных удобрений. Сельскохозяйствен- Сельскохозяйственное предприятие должно выращивать определенную культуру, на- например картофель, на отведенном для этой цели участке земли. Уро- Урожайность картофеля зэеисиг от количества внесенных удобрений и от состояния погоды. Рассматривается два возможных вида погоды: 53
у; Рис. 2.5 у, 1. Лето сухое. 2. Лето влажное. Возможные варианты внесения удобрений следующие: 1. Количество удобрений на 1 га соответствует определенной норме. 2. Количество удобрений на 1 га больше этой нормы на 30%. 3. Количество удобрений на 1 га меньше этой нормы на 40%. Будем считать сельскохозяйственное предприятие первым игроком, а природу вторым игроком. У первого игрока имеется три страте- стратегии, соответствующие вариантам внесе- внесения удобрений. У второго игрока име- имеется две стратегии в соответствии с видом лета Будем считать, что цена реализа- реализации тонны картофеля не зависит от урожая и является постоянной. Тогда прибыль предприятия зависит от уро- урожайности выращенного картофеля и за- затрат на его получение и реализацию. Предприятию необходимо определить оптимальное количество внесения удоб- удобрений на 1 га для получения наиболь- наибольшей прибыли при возможном максималь- максимально неблагоприятном лете. С этой целью сельскохозяйственное предприятие произвело расчет прибыли в за- зависимости от возможных стратегий своих и природы. Получилась следующая матрица прибылей в млн. руб.: Л = Будем считать эти прибыли, как матрицу выигрышей первого игрока, и найдем решение такой игры порядка 3x2. Очевидно, в этой игре седловой точки в чистых стратегиях нет. Пусть х = (хи х2, xs), у = (уи у2) — смешанные стратегии соответ- соответственно первого и второго игроков. Построим графическое изображе- изображение выигрышей первого игрока для каждой его чистой стратегии (рис. 2.5). Аналитические зависимости выражаются формулами: ЕМ - B - 4) г/, + 4 = - 2г/, -f 4, ?3 Ш = C - 2,5) Уг + 2,5 = 0,5ft -f 2,5. Из рис. 2.5 видно, что точку Е" образуют стратегии i = 1 и i — 2. Следовательно, xs = 0 и для определения ух и v надо составить урав- уравнения, соответствующие этим стратегиям: АУ1 + 2 A - У1) = v, = 1 - Уг- 54
Решение этих уравнений: У\=Т> Уг^-ЗГ' v = 3- Для определения хг и х2 следует решить уравнение 4xt + 2х2 = v, v = 3, или 4^ + 2A-^ = 3, отсюда получим: хх = 0,5, х2 = 0,5. Этот результат можно использовать так: пусть норма внесения удобрений равна 1 в соответствии с 1-й стратегией предприятия, тогда, применяя 2-ю стратегию, предприятие должно внести 1,3 нормы удобрений на 1 га. Поскольку каждая из этих стратегий применяется с вероятностью 0,5, то оптимальный объем внесения удобрений со- составит среднее значение норм при этих стратегиях 1 • 0,5 + 1,3 - 0,5 = 1,15 нормы на 1 га. Тогда сельскохозяйственное предприятие получит прибыль v = 3 млн. руб. 2.5. МЕТОДЫ РЕШЕНИЯ МАТРИЧНЫХ ИГР Рассмотрим удобные методы решения матричных игр с помощью сведения их к линейному программированию и приближенный итера- итерационный метод. Первый метод решения матричной игры с помощью линейного про- программирования. В этом методе предполагается, что цена игры поло- положительная. Это условие не нарушает общности, так как согласно тео- теореме 2.9 всегда можно подобрать такое число с, прибавление которого ко всем элементам матрицы выигрышей дает матрицу с положительны- положительными элементами и, следовательно, с положительным значением цены игры. При этом оптимальные смешанные стратегии обоих игроков не изменятся. Итак, пусть дана матричная игра с матрицей А — (а,,) порядка т х п. Согласно следствию из теоремы 2.4 оптимальные смешанные стратегии х = (*х xt хт), у = (уъ у2, ..., у}, ..., уп) соответ- соответственно первого и второго игроков и цена игры v должны удовлетво- удовлетворять соотношениям: 2*, = 1, *<>0 (i = 1, 2 m), (/ = 1. 2, ..., п), = i. у,>о (/=1, 2, ..., п), ад v, (?= 1, 2, .... т). /=] 55 B.67) B.68)
Разделим все уравнения и неравенства в B.67) и B.68) на v (это можно сделать, так как мы предположили, что v > 0) и введем обозначения: -5- = Pi (i = 1, 2, ..., т), ~=q, (j = 1, 2, ..., п), тогда получим соответственно задачи B.67) и B.68) в следующем виде: т т ?/ ? /7/<1. <7/>0 (/ = 1, 2, .... п). Поскольку первый игрок стремится найти такие значения xt и, сле- следовательно, piy чтобы цена игры v была максимальной, то решение пер- первой задачи сводится к нахождению таких неотрицательных значений pt (i =1, 2, ..., т), при которых т т 2p<^-min, 2аад>1. B.69) Поскольку второй игрок стремится найти такие значения yf и, следо- следовательно, <7/, чтобы цена игры v была наименьшей, то решение второй задачи сводится к нахождению таких неотрицательных значений qf (/ = = 1, 2, 3, ..., п), при которых 7, Sfli/<7, <1. B-70) Формулы B.69) и B.70) выражают двойственные друг другу задачи линейного программирования, для решения которых имеются доста- достаточно хорошие методы, например, симплекс-метод (см. [8]). Решив эти задачи, получим значения pt (i =1, 2, ..., m), qf (j = = 1, ..., n) и v. Тогда смешанные стратегии, т. е. значения хс и yt по- получаются по формулам: Xi = vPi (f= 1, 2, .... т), У1 = Щ1 (/= 1. 2. •••.»)• Второй метод сведения матричных игр к линейному программи- программированию. В этом методе цена игры может быть произвольная. Известно, что оптимальные смешанные стратегии х = (xlt .... хт), У = (Уи •••> Уп) и цена игры с матрицей А = (ai;) порядка т х п должны удовлетворять соотношениям B.67) и B.68). Введя дополни- дополнительные неотрицательные переменные (#т+/ Для /'-го неравенства (/' =1, 2, ..., п) из B.67) и г/п+' для i-ro неравенства (i =1, 2, ..., m) 56
из B.68), получим следующие уравнения: m 2 CLijXi — Xm+j =V (j'=l, 2, .,., й) m X X- = 1 (=1 *(>0 (i = 1, 2, .... m + n) /I fH' = tl (f= 1, 2, ..., m) B.72), B.73) #/>° (/=1. 2, ..., n+ m) Выделим в B.72) первое равенство при / = 1 и вычтем его из всех остальных равенств для / =2, ..., п, тогда получим B.74> }. B-75)- vt — хт+\ = и, т 2 (at/ — fl«0 xi — х™+/ + х'"+1 = ° (/' = 2. A = 1, 2, .... т + «) Поскольку первый игрок стремится максимизировать v за счет сво- своих стратегий, то решение системы B.74), B.75) сводится к следу- следующей задаче линейного программирования: найти максимум линейной формы B.74) при линейных ограничениях B.75). Аналогично поступаем при решении системы B.73): выделяем в B.73) первое равенство при i = 1 и вычитаем его из всех равенств для i =2, ..., т: B.76) _2 I" 0/ + Уп+1 = V, /=1 aij) ys — уп+\ + Уп+i = 0 (i = 2 m) 1 B.77> г/,>0 (/= 1, 2, .... n + m) J Поскольку второй игрок стремится минимизировать у за счет своих стратегий, то решение системы B.76), B.77) сводится к следующей за- задаче линейного программирования: найти минимум линейной формы B.76) при линейных ограничениях B.77). 57
Пример 2.17. Рассмотрим военную игру, изложенную в примере .3. Очевидно, матрица этой игры не имеет седловой точки в чистых стратегиях. Поскольку в матрице этой игры есть отрицательные эле- элементы, воспользуемся вторым методом сведения к линейному про- программированию. Обозначим через х = (xlt х2, ..., х5), у = (уъ у2, ... ..., г/4) оптимальные смешанные стратегии соответственно первого и вто- второго игроков, у —цена игры. Величины хв, х7, ха, х9, уь, ув, у7, уй, у9 — это дополнительные переменные, не входящие в смешанные страте- стратегии игроков. Чтобы найти х, у я V, надо определить максимум B.74) при усло- условиях B.75) и минимум B.76) при условиях B.77). Запишем эти задачи линейного программирования: 1. 4*! 4- 0 • х2 + 1 • х3 — 1 • х4 — 2 • хъ — х6 -> max ¦при ограничениях — 4*j 4- 4*2 — 2*3 + 2xi + 0 - хь — х7 + хв = 0, — 2хх +х2+ 2х3 +-jc4 + 4*5 — ха + хв = 0, — 3jcx + 2х2 — ха + 4х4 + \хъ — х9 + х6 = О, ^>0 A = 1, 2, .... 9). Решая эту задачу известными методами, получим Х1 = ~д~ i Х2 == ~9~ » -"-3 == Х4 == "> *б == ~9~ » V = g » *в = дг7 = xs = jc8 = и. 2. 4y1 + 0-f/24-2-y8 + f/4 + f/B- при ограничениях — 4& + 4г/г — г/3 4- & — ft + У6 = О, — 3{/! — у2 + Уз — У* — Уб + У1 = 0' — 5{/i + ?fa — 2Ув + 2г/4 — Уь + Уа = О, — 6& — 2г/2 + 0 • #8 + г/4 — Ул + У» = О, У,>0 (/=1, 2 9). Решая эту задачу известными методами, получим 118 8 У\ — "J8~ > Уг = -fg- . Уз = ~ig" > i/4 = -jg- » Уь — 0, {/в = О, 4 4 У7 = ~i8~ ' ^8 = "Т8~ ' У» = ^* Итак, решение игры следующее: 1 1 n n M „-М ' 8 э ' 9 ' u' U> "F/» У- [~W' ~W' ~W 58
т. е. при оптимальных стратегиях полковник должен придерживаться в большей степени неравномерного разделения сил между позициями с вероятностью -=-, а генерал — наоборот, должен придерживаться в большей степени равномерного разделения между позициями с час- 4 тотами -Q-, тогда полковник получит выигрыш, оцениваемый примерно 1,5 единицами. Пример 2.18. Две отрасли могут осуществлять капитальные вло- вложения в 4 объекта. Стратегии отраслей: г-я стратегия состоит в фи- финансировании г'-го объекта (t = 1, 2, 3, 4). Учитывая особенно- особенности вкладов и местные условия, прибыли первой отрасли выражаются следующей матрицей: 0 1—1 2 A~\ Л~' 0 1 2-1 0 0 0 В этой ситуации величина прибыли первой отрасли считается такой же величиной убытка для второй отрасли. Поэтому представленная игра может рассматриваться как матричная игра двух игроков с ну- нулевой суммой. Для реыления этой игры первым методом к каждому элементу при- прибавим число 2 и получим следующую матрицу: B 3 1 4\ 4 2 Составим теперь задачу B.69) Рг + р2 + Ря + Р*-+ 2/>i + Рг + 2р3 + 4р4 4px + 4p2 + p3 + 2p4 > 1, Pi>0, p2>0, p3>0, p4>0. Решением этой задачи является: _ 8 3_ Pi~ 69 ' Р*~ 69 ' Поскольку Pi + Р2 + Рз - то о з-—! з- Pi + Pi + Рз + f 59 Pi 7 69 ' 1 ¦ v ' 69 27 ~~ Pi 23 9 " 9 9
Далее из формул B.71) получаем x2 x3 x4 vpz = vp3 = VP* 23 9 23 9 23 9 23 69 8 ¦9" 3 69 7 69 9 69 8 ~~ 27 ' 3 27 ' 7 "" 27 ' 9 27 ' Составим теперь задачу B.70) <?1 + <?2 + <78 + <?4->тах> 2<7i + 3<72 + <7з ~Ь 4^4 ^ 11 Я\ + 2?а + 5<73 + 4^4 ^ 1. <7i>0, <72>0, <7з>0, <74>0. Решением этой задачи является: _5 _7 _3 _3 1Ь - 6" > ^2 — -46" . <?з — -46" . Я* - -Щ- » из формулы B.71) следует, что _ _ 23 5 _ 5 y-i-Щг д^ 46 18"' _ _ 23 7 _ 7 У2 — Щ* — -д 46 18" ' _ _ _23_ _3__ 3 Уъ — Щз — 9 ' 46 ~~ 18 ' _ _ 23 3 _ 3 У* — vc/* — ~~9 46" "~ TF ' Итак, оптимальные смешанные стратегии соответственно первого и второго игроков _!_ -L. ЛЛ » = (-*- -2- -3- J-S 27 ' 27 ' 27 ) ' у { 18 ' 18 ' 18 » 18 ) ' 27 а цена исходной игры Полученные оптимальные стратегии игроки могут использовать так: первый игрок все свои капитальные вложения может распределить по объектам в долях, соответствующих вероятностям применения сво- своих стратегий; второй — аналогично по отношению к своим капиталь- капитальным вложениям — по долям вероятностей применения своих стратегий. Метод последовательного приближения цены игры. При исследо- исследовании игровых ситуаций часто может случиться так, что нет необ- 60
ходимости в получении точного решения игры или в следствие ка- каких-либо причин найти точное значение цены игры и оптимальных смешанных стратегий невозможно или очень трудно. Тогда мож- можно воспользоваться приближенными методами решения матричной игры. Опишем один из таких методов —метод последовательного при- приближения цены игры. Количество вычислений при использовании это- этого метода увеличивается примерно пропорционально числу строк и столбцов матрицы выигрышей. Сущность метода последовательного приближения цены состоит в следующем: мысленно игра проводится много раз, т. е. последовательно, в каждой партии игры каждый игрок выбирает ту стратегию, которая дает ему наибольший общий (суммар- (суммарный) выигрыш. Другими словами, в мысленном проведении игры каждый игрок выбирает такую последовательность своих чистых стра- стратегий, которая обеспечивает первому игроку максимальный сред- средний выигрыш, а второму — минимальный средний проигрыш. После такой реализации нескольких партий вычисляется сред- среднее значение выигрыша первого игрока, проигрыша второго игрока, и их среднее арифметическое принимается за приближенное значение цены игры. Более того, этот метод дает возможность найти прибли- приближенное значение оптимальных смешанных стратегий обоих игроков: надо подсчитать частоту применения каждой чистой^стратегии и при- принять ее за приближенное значение вероятности использования этой чистой стратегии в оптимальной смешанной стратегии соответствую- соответствующего игрока. Можно доказать, что с неограниченным увеличением числа про- проигранных партий (в вышеуказанном смысле) средний выигрыш пер- первого игрока и средний проигрыш второго игрока будет неограниченно приближаться (стремиться) к цене игры, а приближенные значения смешанных стратегий в том случае, когда решение игры единственное, будет стремиться к оптимальным смешанным стратегиям каждого игрока. Вообще говоря, стремление приближенных значений выше- вышеуказанных величин к истинным значениям происходит медленно. Однако этот процесс легко механизировать и тем самым помочь полу- получению решения игры с требуемой степенью точности даже при матри- матрицах выигрышей сравнительно большого порядка Рассмотрим пример. Пусть игра задана следующей матрицей вы- выигрышей: Предположим, что второй игрок выбрал свою 1-ю стратегию, тогда первый получит: О, если он применит свою 1-ю стратегию, 4, если он применит свою 2-ю стратегию, 2, если он применит свою 3-ю стратегию. Полученные значения сведем в табл. 2.1. 61
Номер партии 1 Страте- Стратегия второго игрока 1 Таблица 2.1 Выигрыш первого игро- игрока при его стратегиях 1 0 2 4 3 2 Таблица 2.2 Номер партии 1 Страте- Стратегия первого игрока 2 Выигрыш второго игро- игрока при его стратегиях 1 4 2 1 3 2 Из табл. 2.1 видно, что при 1-й стратегии второго игрока первый получит наибольший выигрыш 4, используя свою 2-ю стратегию. Поскольку первый игрок желает получить максимальный выигрыш, то он на 1-ю стратегию второго игрока отвечает своей 2-й стратегией. При 2-й стратегии первого игрока второй проиграет: 4, если применит свою 1-ю стратегию, 1, если применит свою 2-ю стратегию, 2, если применит свою 3-ю стратегию. Полученные значения сведем в табл. 2.2. Из табл. 2.2 видно, что при 2-й стратегии первого игрока второй игрок будет иметь наименьший проигрыш 1, если он применит свою 2-ю стратегию. Поскольку второй игрок желает проиграть как можно меньше, то в ответ на 2-ю стратегию первого игрока он при- применит свою 2-ю стратегию. Полученные результаты сведем в табл. 2.3. Таблица 2.3 Номер пар- партии 1 2 Стратегия второго игрока 2 2 Выигрыш пер- первого игрока при его стратегиях 1 0 2 4 3 2 Стратегия первого игрока 2 Выигрыш вто- второго игрока при его стратегиях 1 4 2 1 3 2 и 4 W 1 О 5 2 В табл. 2.3 в столбце стратегии второго игрока во второй строке находится цифра 2, которая указывает, что во второй партии второму игроку выгодно применять свою 2-ю стратегию; в столбце и находится наибольший средний выигрыш 4 первого игрока, полу- полученный им в первой партии; в столбце w стоит наименьший средний проигрыш 1, полученный вторым игроком в первой партии; в столбце v находится среднее арифметическое v = — (и + хю) — -^-, т. е. при- приближенное значение цены игры, полученное в результате проигрыва- проигрывания одной партии игры. Если второй игрок применит свою 2-ю стра- стратегию, то первый получит 3, 1, 0 соответственно при своих 1-й, 2-й, 3-й стратегиях, а суммарный выигрыш первого игрока за обе партии составит: 62
0 + 3=3 при его 1-й стратегии, 4 + 1=5 при его 2-й стратегии, 2 + 0=2 при его 3-й стратегии. Эти суммарные выигрыши записываются во второй строке табл. 2.3 и в столбцах, соответствующих стратегиям первого игрока: 1, 2, 3. Из всех суммарных выигрышей наибольшим является 5. Он полу- получается при 2-й стратегии первого игрока, следовательно, в этой пар- партии он должен выбрать свою 2-ю стратегию. При 2-й стратегии первого игрока второй проиграет 4, 1, 2 соот- соответственно 1-й, 2-й, 3-й его стратегиям, а суммарный проигрыш вто- второго игрока за обе партии составит: 4 + 4=8 при его 1-й стратегии, 1+1=2 при его 2-й стратегии, 2 + 2=4 при его 3-й стратегии. Эти суммарные проигрыши записываются во второй строке табл. 2.3 и в столбцах, соответствующих 1-й, 2-й, 3-й стратегиям второго иг- игрока. Из всех суммарных проигрышей второго игрока наименьшим явля- является 2. Он получается при его 2-й стратегии, следовательно, в тре- третьей партии второй игрок должен применить свою 2-ю стратегию. В столбец и ставится наибольший суммарный выигрыш первого иг- игрока за две партии, деленный на число партий, т. е. -к-; в столбец w ставится наименьший суммарный проигрыш второго игрока за две партии, деленный на число партий, т. е. -д-; в столбце v ставится сред- среднее арифметическое этих значений, т. е. -к- [-к- + -у) = -т-. Это чис- ло-т- принимается за приближенное значение цены игры при двух «сыгранных» партиях. Таким образом, получаем следующую табл. 2.4 для двух партий игры. Таблица 2.4 Номер пар- партии 1 2 3 Стратегия второго игрока 1 2 2 Суммарный вы- игрыш первого игрока 1 0 3 2 4 5 3 2 2 Стратегия первого игрока 2 2 Суммарвый ВЫ- игрыш второго игрока 1 4 8 2 1 2 3 2 4 и 4 5 2 w 1 2 2 5 2 7 т В третьей строке табл. 2.4 в столбце стратеги и второго игрока находится число 2, которое показывает, что в третьей партии второй игрок должен применить свою 2-ю стратегию. В этом случае пер- первый игрок выигрывает 3, 1, 0, используя соответственно свои 1-ю 63
2-ю, 3-ю стратегии, а его суммарный выигрыш за три партии соста- составит: 3 + 3 = 6 при его 1-й стратегии, 1 + 5'= 6 при его 2-й стратегии, 0 + 2 = 2 при его 3-й стратегии. Эти суммарные выигрыши первого игрока записываются в третьей строке табл. 2.4 и столбцах, соответствующих его стратегиям 1, 2, 3. Так как наибольший суммарный выигрыш первого игрока получа- получается при 1-й и 2-й стратегиях, то ему можно выбирать любую из них; скажем, в таких случаях, когда имеются два (или несколько) одинако- одинаковых суммарных выигрышей, выбирают стратегию с наименьшим но- номером (в нашем случае надо взять 1-ю стратегию). При первой своей стратегии второй игрок проигрывает 0, 4, 2, при использовании первым игроком соответственно 1-й , 2-й, 3-й стратегии. Тогда суммарный проигрыш второго игрока за три партии составит: 0 + 8 = 8 при его 1-й стратегии, 4 + 2 = 6 при его 2-й стратегии, 2 + 4 = 6 при его 3-й стратегии. Эти суммарные проигрыши второго игрока записываются в третьей строке табл. 2.4 и столбцах, соответствующих стратегиям второго игрока: 1, 2, 3. Из всех суммарных его проигрышей 6 является наи- наименьшим и получается при его 2-й и 3-й стратегиях. В этом случае условимся выбирать стратегию с меньшим номером, а именно: второ- второму игроку надо применить свою 2-ю стратегию. В табл. 2.4 в третьей строке в столбце и записывается наибольший суммарный выигрыш первого игрока за три партии, деленный на число партий, т. е. -у; в столбце w ставится наименьший суммарный проигрыш второго игрока за три партии, деленный на число партий, т. е. -»-; в столбце v ставится их среднее арифметическое Таким образом получаем табл. 2.5 для трех партий. Продолжая этот процесс далее, составим табл. 2.6 партии от чет- четвертой до тридцатой. Из табл. 2.5 и 2.6 видно, что в 30-ти проигранных партиях страте- стратегии 1, 2, 3 для первого игрока встречаются соответственно 3, 12, 15 раз, следовательно, их относительные частоты соответственно равны Ж' Ж' ~зб" (истинные вероятности -^-, -^, -^Л; стратегии 1, 2, 3 для второго игрока встречаются соответственно 15, 11,4 раза, следователь- 15 11 А ( но их относительные частоты соответственно равны -™-, -гтг, -~п истин- О\) оО о\) \ 14 10 6 \ * ные вероятности -gg-, -sg-, ~отг ь приближенное значение цены игры 102 51 / 52 \ -во" = -30" (истинное -м-)- 64
Таблица 2.5 Номер пар- партии 1 2 3 4 Стратегия второго игрока 1 2 2 2 Суммарный вы- выигрыш первого игрока 1 0 3 6 2 4 5 6 3 2 2 2 Стратегия первого игрока 2 2 1 Суммарный вы- выигрыш второго игрока 1 4 8 8 2 1 2 6 3 2 4 6 и 4 5 2 6 3 W 1 2 2 6 3 5 2 7 ? 2 Такое приближение достаточно хорошее. Продолжая этот процесс далее, можно получить приближения цены игры и оптимальных смешанных стратегий обоих игроков сколь угод- угодно близкими к истинным. Таблица 2.6 Номер пар- партии 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Страте- Стратегия второ- второго иг- игрока 2 3 1 3 3 3 2 2 3 3 3 3 2 2 2 3 3 3 3 2 2 2 2 3 3 3 1 Суммарный вы- игрыш первого 1 9 10 10 11 13 14 17 20 21 21 22 23 26 29 32 33 34 35 36 39 42 45 48 49 50 51 51 <грока 2 7 9 13 15 15 17 18 19 21 23 25 27 28 29 30 32 34 36 38 39 40 41 42 44 46 48 52 3 2 5 7 10 13 16 16 16 19 22 25 28 28 28 28 31 34 37 40 40 40 40 40 43 46 49 51 Страте- Стратегия перво- первого иг- игрока 1 1 2 2 2 2 2 1 1 2 2 3 2 1 1 1 1 3 3 3 1 1 1 1 1 1 2 Суммарный ВЫ- игрыш второго 1 8 8 12 16 20 24 28 28 28 32 36 38 42 42 42 42 42 44 46 48 48 48 48 48 48 48 52 грока 2 9 12 13 14 15 16 17 20 23 24 25 25 26 29 32 35 38 38 38 38 41 44 47 50 53 56 57 3 7 8 10 12 14 16 18 19 20 22 24 27 29 30 31 32 33 36 39 42 43 44 45 45 47 48 50 и 9/4 10/5 13/6 15/7 15/8 17/9 18/10 20/11 21/12 23/13 25/14 28/15 28/16 29/17 32/18 33/19 34/20 37/21 40/22 40/23 42/24 45/25 48/26 49/27 50/28 51/29 52/30 W 7/4 8/5 10/6 12/7 14/8 16/9 17/10 19/11 20/12 22/13 24/14 25/15 26/16 29/17 31/18 39/19 33/20 36/21 38/22 38/23 41/24 44/25 45/26 46/27 47/28 48/29 50/30 V 2 18/10 23/12 27/14 29/16 33/18 35/20 39/22 41/24 45/26 49/28 53/30 54/32 58/34 63/36 65/38 67/40 73/42 78/44 78/46 83/48 89/50 93/52 95/54 97/56 99/58 102/60 5 6-2853 65
В заключение отметим, что, если игра имеет больше одного ре- решения, то приближенные значения цены игры по-прежнему будут неограниченно приближаться к истинной цене игры, а относительные частоты появления стратегий игроков уже не обязательно будут при- приближаться к истинным оптимальным смешанным стратегиям игроков. Контрольные вопросы и задания к главе 2 1. Что такое матричная игра двух игроков с нулевой суммой? 2. Что такое чистые нижняя и верхняя цены игры и какие соотношения между ними? 3. Что такое седловая точка в чистых стратегиях и как она определяется? 4. Что называется седловой точкой для вещественной функции двух переменных? 5. Сформулируйте и докажите теорему об эквивалентности понятий седловой точ- точки и равенства max mm f (х, у) = min max / (х, у). х у ух 6. Что называется смешанными стратегиями игроков? 7. Что такое средний выигрыш игрока? 8. Что называется оптимальными смешанными стратегиями и ценой игры? 9. Сформулируйте и докажите лемму об опорной гиперплоскости. 10. Сформулируйте и докажите лемму о справедливости одной из двух альтер- альтернатив. 11. Сформулируйте и докажите основную теорему матричных игр о существо- существовании решения игры. 12. Сформулируйте и докажите теорему о необходимом и достаточном условии оптимальности смешанных стратегий. 13. Напишите линейные неравенства, которым должны удовлетворять оптималь- оптимальные смешанные стратегии игроков. 14. Сформулируйте и докажите теорему об условиях равенства нулю некоторых компонент оптимальных смешанных стратегий. 15. Какая игра называется симметричной? 16. Сформулируйте и докажите теорему о структуре решения симметричной игры. 17. Дайте определения доминирования стратегий. 18. Сформулируйте и докажите теорему о структуре решения матричной игры, в которой имеется доминирование стратегий первого игрока. 19. Сформулируйте теорему о структуре решения матричной игры, имеющей доминирование среди стратегий второго игрока. 20. Сформулируйте и докажите теорему о структуре решения матричных игр, матрицы которых отличаются постоянным множителем и слагаемым. 21. Выведите формулы, по которым находится решение матричной игры по- порядка 2X2. 22. Опишите метод решения игр порядка 2 X я. 23. Опишите метод решения игр порядка т X 2. 24. Опишите первый метод сведения матричной игры к задаче линейного програм- программирования. 25. Опишите второй метод сведения решения матричной игры к задаче линейного программирования. 26. В чем состоит метод приближенного решения игры и к каким играм он при- применим? 27. Найти нижнюю чистую цену игры, верхнюю чистую цену игры, определить седловые точки, оптимальные чистые стратегии и чистую цену игры, если они сущест- существуют: 66
28. Найти решение следующих матричных игр: — 4 9^ 5 —6J /6 3\ а)(о .)• е /1 3\ 29. Найти решения следующих игр: /5 — 2 1\ / 0 — 3 — 4 1\ 3) (о -3 J- б)(-1 -5 -4 о)' д) — 3 3 —1 4 О/ Г2 3 е) 8 0 6 7 ,3631 30. Проверить, являются ли данные смешанные стратегии /1 1 1 \ / 1 , у = 0,4 решением следующей матричной игры: fO,8 0 0 0 0,4 0,6 0,6 0,4 о о о,8; 31. Проверить, являются ли данные смешанные стратегии 1 2 \ /1 1 1 ) Ы решением следующей матричной игры: 14 —4 — 4 4 2 32. Проверить, являются ли данные смешанные стратегии 10 9 23 ~42"' ~42~' ~42~ 5 г/=[о, о, J-. О, -L, О), а ^- 14 14 / 14 67
решением [ следующс! 33. Составить *) / / в) \ \ 0 6 4 5 6 1 • 8 4 0 — 4 — -8 — / \ 1 матричной / 5 / о 0 — 1 ¦ \ 2 \ о • 3 3 0 — 1 1 -2 игры: — 3 0 3 2 2 — 2 3 1 0 -2 -3 3 — 1 3 1 0 2 3 4 5 — 2 2 — — 3 - — 3 задачу линейного программирования для 2 3 1 2 1 1 1 2 ')¦ V -i\ -2\ 3 , Ч 4/ г) 6 2 — 6 / I —: V—- 0 2 20 3 40 0 - 1 -3 -4 — — — — . 17 15 22 15 27 :<:) 2/ -34\ -35 \ -24 . -35 1 -14/ 3\ М 1 Г .3 / з/ следующих игр: 34. Составить матрицу выигрышей для следующей ситуации и решить ее как матричную игру. Два военных подразделения с целью разведки определенного района могут од- одновременно выслать либо танк, либо бойцов с противотанковым оружием, либо бой- бойцов-пулеметчиков. Если в этом районе встретятся боевые единицы одинаковых видов, то разведка ие состоится, и каждая из сторон ничего ие получает. Далее, при встрече разных подразделений: танк побеждает бойцов-пулеметчиков, бойцы-пулеметчики побеждают бойцов с противотанковым оружием, бойцы с противотанковым оружием побеждают таик. Выигрыш оценивается единицей. ГЛАВА 3. ПОЗИЦИОННЫЕ ИГРЫ 3.1. ПОНЯТИЕ ПОЗИЦИОННОЙ ИГРЫ И ЕЕ НОРМАЛЬНОЙ ФОРМЫ Естественным расширением матричной игры двух игроков с нуле- нулевой суммой является позиционная игра, в которой может принимать участие более двух (конечное число) игроков, каждый из них может последовательно делать конечное число ходов, некоторые ходы могут быть случайными, а сведения о них могут меняться от хода к ходу. Такие игры могут быть формализованы, определенным образом пре- преобразованы в игру, эквивалентную некоторой матричной игре двух игроков с нулевой суммой. Процесс сведения позиционной игры к ма- матричной называется нормализацией, а полученная матричная игра — игрой в нормальной форме. Рассмотрим сначала пример, иллюстрирующий этот процесс. Пример 3.1. Игра состоит из трех ходов, которые делают два иг- 'рйка. Первый ход делает первый игрок: он выбирает число х из мно- множества двух чисел {1, 2}. Второй ход делает второй игрок: зная, какое число х выбрано Первым игроком в первом ходе, он выбирает число у из множества двух чисел {1, 2}. 68
Третий ход делает первый игрок: зная, какое число у выбрал вто- второй игрок, и помня, какое число х он выбрал при первом ходе, выбирает число z из множества двух чисел {1,2}. На этом игра заканчивается и происходит распределение выигрышей, второй игрок платит первому сумму, определенную функцией М (х, у, г), где М задана следующим образом: м м м м A, 1, A, 1, A, 2, A, 2, 1) 2) 1) 2) = -2 = —1 = 3 = _4 М М м м B, 1, 1)=5 B, 1, 2) = 2 B, 2, 1) = 2 B, 2, 2) = 6 Для сведения этой позиционной игры к нормальной форме восполь- зуемся понятием стратегии игрока, как набора правил и указаний, как надо поступать ему во всех мыслимых ситуациях или при любом мыслимом состоянии информации, получаемой в любой момент игры. Рассмотрим сначала мыслимые стратегии второго игрока. Ясно, что у него имеется возможность выбора одного из двух чисел 1 или 2, т. е. имеется две возможности. Кроме того, у него есть информация о выбранном числе х при первом ходе, следовательно, он, выбирая число у, может учитывать или не учитывать эту информацию, по- поэтому для каждого у имеется еще два значения х, т. е. всего четыре стратегии: 1-я — выбирать у = 1, не взирая на х, 2-я — выбирать у = 2, не взирая на х, 3-я — выбирать у = х, 4-я — выбирать у — 1, если х — 2, и выбирать у — 2, если х = 1. Другими словами, у второго игрока столько стратегий, сколько име- имеется способов отображения множества {1, 2} в себя. Стратегия для первого игрока должна учитывать результаты сде- сделанных ранее выборов. При каждом выборе на первом ходе может быть два выбора на втором ходе, т. е. уже имеется четыре варианта, а при каждом из этих вариантов может быть сделано два выбора, т. е. всего 8 возможных стратегий. Обозначим через (i, ix, Q стратегию первого игрока: где i означает выбор первым игроком на первом ходе; i± — выбор первым игроком на третьем ходе, если второй игрок на втором ходе выбрал число 1; i2 — выбор первым игроком на третьем ходе, если второй на втором ходе выбрал число 2. Например, A, 2, 1) означает следующую стратегию первого игрока: на первом ходе он выбирает число 1 (первая цифра в скобках), а на третьем ходе он выбирает число 2, стоящее на втором месте в скоб- скобках, если второй игрок на втором ходе выбрал число 1; если же второй игрок на втором ходе выбрал число 2, то первый игрок на третьем ходе должен выбрать число 1, стоящее на третьем месте в скобках. Выигрыши первого игрока определяются так: пусть, например, первый игрок применяет стратегию A, 2, 1), а второй — первую стратегию, тогда из A, 2, 1) следует, что х — 1, далее, второй игрок, не взирая на х, выбирает у = 1, а из A, 2, 1) следует, что первый игрок 69
Таблица 3.1 1,1, > 1, 1,2 1,2, 1 1,2,2 2,1,1 2, 1,2 2,2, 1 2,2,2 1 1, 1, 1 1, 1 1, 1 2, 1 2, ! 2. 1 2. 1 , 1 = —2 , 1 =—2 , 2 = —1 , 2 = —1 ,1=5 ¦ ! =5 , 2 = 2 ,2 = 2 2 1, 2, 1 = 3 1, 2, 2 = —4 1, 2, 1 = 3 1, 2, 2 = —4 2, 2, 1 = 2 2, 2, 2 = 6 2, 2, 1 = 2 2, 2, 2 = 6 3 !, 1, 1=—2 1, 1, 1 =—2 1, 1, 2 = —1 1, 1, 2 = —1 ?, 2, 1=2 2, 2, 2 = 6 2, 2, 1=2 2, 2, 2 = 6 4 1. 2, 1 = 3 1, 2, 2 = —4 1, 2, 1=3 1, 2, 2 = —4 2, 1, 1 = 5 2, 1, 1 = 5 2, 1, 2 = 2 2, 1,2 = 2 Таблица 3.2 —2 —2 —1 —1 5 5* 2 2 3 —4 3 —4 2 6 2 6 —2 —2 — 1 — 1 2 6 2 6 4 —4 3 4 5 5* 2 2 выдаст z = 2. Получим выигрыш М (х, у, z) = М A, 1, 2) = —1. Аналогично рассчитываются остальные выигрыши. Теперь приведем матрицу выигрышей первого игрока в зависимости от применяемых стратегий (табл. 3.1), где столбцы соответствуют стра- стратегиям второго игрока, а строки — стратегиям первого игрока. Дру- Другими словами, составляем матрицу выигрышей первого игрока (табл. 3.1) в матричной игре двух игроков с нулевой суммой. Исследуя эту игру обычными способами, приходим к реше- решению: имеется две седловые точки, отмеченные звездочкой в табл. 3.2. Оптимальная стратегия первого игрока B, 1, 2) состоит в выборе числа х = 2 на первом ходе и числа z — на третьем ходе, равного числу у, выбранного вторым игроком на втором ходе. У второго игрока имеется две оптимальные стратегии: первая и четвертая, т. е. выбирать число у = 1, не взирая на х, или выбирать у, отличное от х. Цена игры равна 5, Рассмотрим некоторую интерпретацию этой игры. Например, имеются две страны, которые хотят установить между собой деловые связи. Они должны решить вопрос о строительстве автомобильного завода. Первая страна может построить завод для второй страны. Эту ситуацию упрощенно представим в виде следующей позиционной игры. Ход 1. Первая страна (первый игрок) делает выбор из двух альтер- альтернатив: 1-я — предложить второй стране построить завод для произ- производства легковых автомобилей, 2-я — построить завод для произ- производства грузовых автомобилей. Ход 2. Вторая страна (второй игрок), зная, какую альтернативу выбрала первая страна на первом ходу, делает выбор из двух альтер- альтернатив: 1-я — строить завод легковых автомобилей и предложить это первой стране, 2-я — строить завод грузовых автомобилей и предло- предложить это первой стране. Ход 3. Первая страна, зная выбор второй страны на втором ходу и помня свой выбор на первом ходу, делает выбор из двух альтер- альтернатив: 1-я—согласиться с предложением второй страны, 2-я — 70
не согласиться с ним. После того, как сделаны все три хода, первая страна получает сумму М (х, у, z), где х выбор 1 или 2 на первом ходу, у — выбор 1 или 2 на втором ходу, z — выбор 1 или 2 на третьем ходу. Функция М (х, у, z) совпадает с функцией, определенной в игре при- примера 3.1. 3.2. ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ПОЗИЦИОННОЙ ИГРЫ В исследовании позиционной игры большую пользу приносит на- наглядное графическое изображение конкретной позиционной игры в ви- виде так называемого дерева игры. Деревом позиционной игры называется плоская фигура, состоящая из узлов и конечного числа направленных вверх прямолинейных отрезков, соединяющих эти узлы, каждый узел обозначается цифрой, соответствующей номеру игрока, делающего ход, и изображает ход этого игрока, поэтому каждому ходу соответствует набор узлов, расположенных на одном определенном уровне. На самом низшем уров- уровне имеется только один узел — основание дерева, каждый узел со- соединяется только с одним узлом на низшем уровне, каждый прямоли- прямолинейный отрезок означает выбор, сделанный игроком на данном ходе, и обозначается номером, соответствующим сделанному выбору. Если в игре используется ход, осуществляемый не игроком, а случайным механизмом, то обычно узлу, соответствующему данному ходу, присва- присваивается номер 0 (нуль). Вершинами дерева являются окончания пря- прямолинейных отрезков, исходящих из узлов последнего уровня. Вет- Ветвью дерева называется ломаная линия, состоящая из прямолиней- прямолинейных отрезков* дерева, которая начинается в самом нижнем узле и идет вверх последовательно через соответствующие узлы до вершины де- дерева. Каждая ветвь дерева отображает партию игры. Для изображения необходимых сведений о сделанных выборах при определенных ходах игроков на дереве игры отмечают пунктиром так называемые инфор- информационные множества узлов определенного игрока. В каждое инфор- информационное множество входят только неразличимые для игрока узлы, т. е. только те узлы, для каждой пары из которых соответствующий игрок не может точно указать, в какой точке дерева он находится, делая этот ход. Так, графическое представление позиционной игры, изложенной в примере 3.1, приведено на рис. 3.1. Поскольку первый ход делает первый игрок, то самый нижний узел соответствует ходу первого игрока и обозначен цифрой 1. Из этого узла исходят два отрезка (ветви), соответствующие выбору 1 или 2, которые обозначены соот- соответственно цифрами 1 и 2. Второй ход делает второй игрок, поэтому уз- узлы второго уровня обозначены цифрой 2. Поскольку второму игроку известен выбор первого игрока на первом ходе, то он, делая свой ход, знает, в каком месте дерева (на какой ветви дерева) находится. Если первый игрок на первом ходе выбрал число 1, то второй игрок нахо- находится на левой ветви дерева, если же первый игрок на первом ходе выбрал число 2, второй находится на правой ветви дерева. Таким об- образом, левый узел с цифрой 2 образует отдельное информационное мно- 71
жество. Аналогично и правый узел с цифрой 2 также образует ин- информационное множество. Поскольку третий ход делает первый игрок, то третий уровень узлов обозначен цифрой 1. Первый игрок, делая третий ход, помнит о своем выборе на первом ходе, и поэтому он зна- знает, на какой ветви дерева находится второй игрок, делая второй ход. Рис 3.1 Далее, так как первому игроку известен выбор второго игрока, то он точно знает, в каком месте дерева сам находится, делая выбор на тре- третьем ходе. Поэтому каждый узел третьего уровня образует отдельное информационное множество. Каждая партия игры представляется на дереве в виде отдельной ветви, которая идет от самого нижнего узла через один узел каждого Рис. 3.2 уровня и заканчивается одной верхней точкой. Всего может быть восемь возможных партий (по количеству самых верхних точек). Любая партия игры характеризуется точкой, координата которой со- соответствует выбору определенного игрока. Всего может быть о точек A, 1, 1), A, 1, 2) A, 2, 1), A, 2, 2) B, 1, 1), B, 1, 2), B, 2, 1), B, 2, 2). Каждой точке соответствует выигрыш первого игрока соглас- согласно функции М (х, у, г). Часто над каждой верхней точкой проставляют 72
выигрыш первого игрока в соответствующей партии. Так, для рассмат- рассматриваемой игры получим рис. 3.2. Приведем еще несколько примеров. Пример 3.2. Первый ход делает первый игрок: он выбирает число х из множества двух чисел {1, 2}. Второй ход делает второй игрок: зная, какое число х выбрал первый на первом ходе, он выбирает число у из множества двух чи- чисел {1, 2}. Третий ход делает первый игрок: не зная о выборе у на втором ходе и забыв, какое число х выбрано на первом ходе, он выбирает -2 -i з -ь 5 2 1 б Рис. 3.3 число z из множества двух чисел {1, 2}. После этого первый игрок по- получает выигрыш М (х, у, г) за счет второго игрока, причем функция М (х, у, z) определена, в примере 3.1. Эта игра отличается от игры в примере 3.1 лишь тем, что первый игрок на третьем ходе не знает выборов, сделанных на двух преды- предыдущих ходах. В этом случае первого игрока можно представить в виде двух лиц, находящихся в двух изолированных комнатах и не имею- имеющих возможности обмениваться информацией; первый ход делает первое лицо, а третий — второе. При графическом представлении игры эти обстоятельства учитываются таким образом, что первый игрок на третьем ходе не знает, в каком из узлов третьего уровня он находится, поэтому все четыре узла третьего уровня образуют информационное множество. Графическое представление этой игры изображено на рис. 3.3. Приведем теперь эту игру к нормальной форме. Очевидно, у вто- второго игрока имеются четыре таких же стратегии, как и в примере- 3.1. У первого игрока возможности уменьшаются за счет недостатка информации, а именно: поскольку он на третьем ходе не знает пре- предыдущих выборов, то его стратегия состоит из пары чисел (х, г), т. е, выбирать х = 1 или 2 на первом ходе и выбирать г = 1 или 2 на тре- третьем ходе. Итак, у первого игрока имеется четыре стратегии: A, 1), A, 2), B, 1), B, 2). Матрица выигрышей первого игрока пред- представлена в табл. 3.3. Пусть, например, первый игрок применяет свою 73
стратегию A, 2), а второй — свою 2-ю стратегию. Тогда первый игрок выбирает х = 1 и г = 2, а второй у = 2 независимо от х. Следователь- Следовательно, выигрыш первого игрока составит М A, 2, 2) = 4 и находится в табл. 3.3 на пересечении второй строки и второго столбца. Получен- Полученная матрица не имеет седловой точки. Решая игру известными мето- методами, находим: @,0, -у-, -=-)> (—¦ -г> 0» Ч — оптимальные смешанные стратегии соответственно первого и второго игрока, цена игры — v = = -=-. Как видим, потеря информации уменьшает цену игры. Заметим, что сокращение объема знаний для первого игрока о сделанных выборах привело к уменьшению количества его возможных -2 -13 -Ь 5 2 2 6 стратегий, и, следовательно, к уменьшению размеров матрицы выигры- выигрышей. Пример 3.3. Первый ход делает первый игрок, выбирая число х из множества двух чисел {1, 2}. Второй ход делает второй игрок, он выбирает число у из множества чисел {1, 2}, не зная значения х. На третьем ходе первый игрок выбирает число г из множества двух чисел {1, 2}, не зная значений ни х, ни у. После этого второй игрок платит первому сумму, равную М (х, у, г) аналогично, как в примере 3.1. Поскольку второму игроку не известен выбор первого игрока на пер- первом ходе, то, выполняя свой ход, он не знает точно, в каком узле на- находится. Поэтому узлы второго уровня образуют информационное множество. Аналогично для первого игрока на третьем ходе. Гра- Графическое представление этой игры изображено на рис. 3.4. Стратегии у первого игрока такие же, как и в примере 3.2, т. е. пары чи- чисел (х, г). У второго игрока всего две стратегии: 1-я — выбирать число 1 и 2-я — выбирать число 2. Матрица выигрышей первого игрока пред- 9fi ставлена в табл. 3.4. Цена этой игры равна v = —. Оптимальные смешанные стратегии для первого и второго игроков соответственно 74
равны fo, 0, —, — j, (—, -yj. Очевидно, цена этой игры и игры при- примера 3.2 совпадают, т. е. отсутствие информации у второго игрока о выборе, сделанном первым игроком на первом ходе, не дало преиму- преимущества первому игроку. Это простая случайность, которая вызвана структурой функции выигрышей. Пример 3.4. В игре участвуют два игрока. Первый игрок — один человек, второй — команда из двух человек А и В. Эти три чело- A,1) A,2) B,1) B,2) 1 2 —1 5 2 2 3 —4 2 6 Таблица З.Ь 3 2 — 1 2 6 4 3 4 5 2 A,1) A,2) B,1) B,2) Таблица 3.4 1 —2 — 1 5 2 2 3 —4 2 6 века находятся в разных комнатах и не могут обмениваться инфор- информацией. Сначала судья входит в комнату первого игрока и предла- предлагает ему выбрать число х из множества двух чисел {1, 2}. Если первый игрок выбрал х — 1, то судья идет в комнату к Л и предлагает ему выбрать число у из множества двух чисел {1, 2}. Если первый игрок выбирает х — 2, то судья предлагает В выбирать число у из множества о 16 at 0 5 б Рис. 3.5 двух чисел {1, 2}. После выбора у судья идет в комнату, в которой на- находится другой член команды второго игрока, и предлагает ему вы- выбрать число г из множества двух чисел {1, 2}. После выбора всех трех чисел х, у, г второй игрок платит первому сумму М (х, у, г), определен- определенную следующим образом: МA, 1, 1) = 0, М{\, 1,2) =2, МA, 2, 1) = 6, М A,2, 2) =8, М B, 1, 1) = 4, М B, 1, 2) = О, М B, 2, 1) = 5, М B, 2, 2) = 6. Графическое представление этой игры изображено на рис. 3.5. Инфор- Информационные множества для второго игрока охватывают второй и третий 75
уровень, так как каждый член его команды, делая свой ход, не знает, делает ли он второй или третий ход. Так как первому ходу первого игрока ничто не предшествует, то он имеет две стратегии: 1-я — вы- выбирать число 1 и 2-я — выбирать число 2. У второго игрока имеется четыре стратегии: 1-я — А и В выби- выбирают число 1; 2-я — А выбирает число 1, а В — число 2; 3-я — А выбирает 2, а В — число 1; 4-я — А и В выбирают число 2. Матрица выигрышей первого игрока представлена в табл. 3.5. Таблица 3.5 Таблица 3.6 1 2 3 4 1 1,5 0 4 2,5 2 1,5 2 0,5 1 3 0,5 0,5 2,5 2,5 4 0,5 2,5 — 1 1 Рассмотрим, например, как вычисляется выигрыш первого игрока, если он применяет свою первую стратегию, а второй игрок — третью стратегию. Тогда первый игрок выбирает число х = 1, судья идет к Л, который выбирает у — 2, а затем к В, который выбирает г — 1, т. е. М(х, у, г) = М{\, 2, 1) = 6. Решение игры следующее: (-=-, Рис. 3.6 3 \ / 3 2 \ -=-), [-=-, 0, -=-, 0 — оптимальные смешанные стратегии соответствен- 5 / V 5 5 / 12 но для первого и второго игроков, цена игры — v = —=-. Пример 3.5. Первый ход производится случайно: выбирается число х, равное 1 с вероятностью 0,5, равное 2 с такой же вероятностью. Вто- Второй ход делает первый игрок. Зная, какое число х выбрано, он выби- выбирает число у из множества двух чисел {1,2}. Третий ход делает второй игрок, не зная х, но зная у, он выбирает число z из множеста двух чи- чисел {1, 2}. После этого второй игрок платит первому сумму, равную М (х, у, z), где М — функция, определенная в примере 3.1. 76
Графически игра представлена на рис. 3.6. Нижний узел обозначен нулем, так как первый ход случайный. По аналогии этот узел также считается образующим информационное множество, и поэтому он окружен пунктиром. Стратегии первого игрока такие: 1-я — выбирать у = 1 независимо от выбора х, 2-я — выбирать у — х, 3-я — выбирать у = 1, если х = 2, и у = 2, если х = 1, 4-я — выбирать у = 2 независимо от х. Стратегии второго игрока аналогичны: 1-я — выбирать 2=1 независимо от у, 2-я — выбирать z — у, 3-я — выбирать г=1, если у ~ 2, и z = 2, если у = 1, 4-я — выбирать г = 2 независимо от у. Покажем, как составлять выигрыш первого игрока. Пусть, на- например, первый игрок применяет свою 3-ю стратегию, а второй — 2-ю. Тогда различаются два случая: а) х — 1, б) х = 2. Если х =|1, третья стратегия указывает первому игроку выбрать у = 2, а вторая стратегия второго игрока указывает выбор z = 2, и, таким образом, М (х, г/, г) = = М A, 2, 2) = — 4. Если * = 2, то первый игрок должен выбрать у = 1, а второй — z=l, таким образом, М (х, y,z) = М B, 1, 1) = 5. Поскольку случаи а) и б) появляются случайно с вероятностями 0,5, то и вышеуказанные выигрыши также появляются с этими же веро- вероятностями, и, следовательно, средний выигрыш первого игрока при таких стратегиях будет -4x0,5 + 5x0,5= 0,5. Аналогично рассчитываются остальные выигрыши. Матрица выигры- выигрышей первого игрока представлена в табл. 3.6. Пример 3.6. Первый ход выполняет случайный механизм: выбира- 1 2 ется х, равное 1 с вероятностью -5-, и х = 2 с вероятностью -*-. Если О О х = 1, то на втором ходу первый игрок, зная х, выбирает число у из множества трех чисел {1,2, 3}. Если х — 2, то на втором ходу вто- второй игрок, зная х, выбирает число у из множества трех чисел {1, 2, 3}. Если у — 1, то на третьем ходу третий игрок, зная у, но не зная х, выбирает число г из множества двух чисел {1, 2}. Если у Ф 1, то на третьем ходу четвертый игрок, зная х и зная, было ли выбрано у = 1 или у Ф 1, выбирает число г из множества двух чисел {1, 2}. После вы- выбора чисел х, у, г первый, второй, третий и четвертый игроки получают соответственно суммы Мг (х, у, г), М2 (х, у, г), Ма (х, у, г), М4 (х, у, г). Графическое представление игры приведено на рис. 3.7. Стратегии первого игрока следующие: 1-я — выбрать число 1, 2-я — выбрать число 2, 3-я — выбрать число 3. Точно такие стратегии у второго иг- игрока. Стратегии третьего игрока следующие: 1-я — выбрать число 1 и 2-я — выбрать число 2. Стратегии четвертого игрока следующие: 1-я — выбирать г = 1 независимо от х, 2-я — выбирать г '= х, 3-я — вы- выбирать 2 = 2, если х = 1, и г = 1, если х = 2, 4-я — выбирать 2 = 2 независимо от х. 77
Для того чтобы понять, как получить элементы матриц выигры- выигрышей игроков, рассмотрим один вариант применения стратегии: пусть первый игрок применяет свою 1-ю стратегию, второй игрок — свою 3-ю стратегию, третий игрок — свою 2-ю стратегию, четвертый иг- игрок — свою 3-ю стратегию. Пусть сначала х = 1, тогда второй ход делает первый игрок и выби- выбирает у = 1; третий ход делает третий игрок — выбирает z = 2, и, Рис. 3.7 Таким образом, г-й игрок получает выигрыш Мс (х, у, z) = М, A, 1, 2) И = 1, 2, 3, 4). Пусть теперь х = 2, тогда второй ход делает второй игрок — выби- выбирает у = 3, третий ход делает четвертый игрок — выбирает 2=1, Рис. 3.8 и, таким образом, /-й игрок получит Мь (х, у, z) = Mt B, 3, I). По- Поскольку х = 1 выбирается с вероятностью -^-, а х = 2 с вероятностью 2 -^-, то средний выигрыш 1-го игрока составит О 4-М, A, 1, 2) +4-М. B, 3) 1). Поступая аналогично, получим матрицы выигрышей каждого игрока. Составляя информационные множества, следует помнить следую- следующее: 78
а) в одно информационное множество могут входить только узлы* относящиеся к одному игроку; б) любая линия игры (ветвь дерева, отображающая партию игры) не должна пересекать одно и то же информационное множество боль* ше одного раза. Например, не может быть игры с таким графическим изображением, как на рис. 3.8, так как информационное множество для первого игрока содержит два узла Л и С, принадлежащих одной партии игры (партияигры содержит три узла А, В, Q, т. е. это инфор- информационное множество два раза в точках А и С пересекает ветвь, ото- отображающую одну партию игры. Условие б) можно сформулировать еще так: в одно информацион- информационное множество не должно входить больше одного узла каждой ветви, отображающей партию игры. Позиционная игра может быть представлена графически в виде де- дерева, которое дает наглядное представление об игре. С другой стороны, графическое представление игры, выполненное с соблюдением правил его построения, дает основание для формального представления по- позиционной игры, и можно рассматривать теоретически не сами пози- позиционные игры, а их графическое представление в виде дерева. 3.3. ОПРЕДЕЛЕНИЕ ПОЗИЦИОННЫХ ИГР Позиционной игрой будем называть конечную игру п игроков^ состоящую из: 1. Дерева Т (понятие дерева игры было дано в 3.2 этой главы). 2. п действительных функций Flt ..., Fn, определенных в каждой из вершин дерева Т таким образом, что если t — вершина, то Ft (f) есть сумма, которая должна быть уплачена игроку Pt, если партия заканчивается в точке t. 3. Набора чисел 0, 1, ..., п, таких, что каждой точке разветвления дерева Т ставится в соответствие число, указывающее, какой игрок делает очередной ход в рассматриваемой точке (число 0 означает, что в этой точке применяется случайный ход). 4. Сопоставления каждой точке разветвления Т дерева, соответст- соответствующей случайному ходу, элемента (хъ х2, ..., xk) множества Sk, где k — число альтернатив (выборов) в точке q, т. е. число прямых, выходя- выходящих из точки q; (хъ х2, ..., xk) полный набор вероятностей примене- применения альтернатив. 5. Разбивки точек разветвления на непересекающиеся и полные множества (информационные множества), удовлетворяющие следую- следующим условиям: а) все точки разветвления, принадлежащие данному информаци- информационному множеству, относятся, согласно пункту 3, к одному игроку; б) все точки разветвления, принадлежащие одному информаци- информационному множеству, имеют одинаковое число альтернатив, которые мы будем нумеровать справа налево; в) если (см. пункт 3) точке разветвления q поставлено в соответст- соответствие число 0, то информационное множество, в котором находится q, состоит из одной точки; 79
г) если 5 — партия игры, т. е. ломаная линия, идущая от осно- основания дерева к одной из его вершин, и если А — любое информаци- информационное множество, то существует не больше одной точки разветвления, принадлежащей обоим множествам S и А. Понятие стратегии также нуждается в уточнении в связи с уточ- уточнением понятия позиционной игры. Стратегией игрока Pt называется функция, определенная для каждого информационного множества, •соответствующего игроку Plt значение которой для каждого такого Рис. 3.9 •информационного множества представляет одну из альтернатив, име- имеющихся у Рг Из этого определения следует, что стратегия указывает игроку, что нужно делать при любой возможной информации. Рассмотрим процесс исследования позиционной игры на сле- следующем обобщающем примере. Пусть задана позиционная игра с помощью дерева игры (см. рис. 3.9). На этом рисунке справа от каж- каждой линии стоит цифра, обозначающая выбор (альтернативу), а сле- слева — вероятность выбора, если выбор делается случайно (при узле 0), узлы пронумерованы в определенной последовательности: qx, <7г. •••» Яи'' вершины также пронумерованы справа налево и обозначе- обозначены tx, t%, .... txb. Каждая партия игры, заканчиваясь в вершине t, (/ = 1, 2, ..., 15), приносит выигрыш первому игроку (за счет второ- второго) согласно следующей функции Нх (^): нх ft) = ю, Нх (tt) = 20, Нх (t7) = -10, нх <д = - ю, Нх (tt) = 30, Нх (Q = 30, нх (у = ю, Нх (Q = 0, Нх (tB) = 20, = ~ 30, Нх (tu) = 40, 80 Нх (tXb) = 15.
В игре для игрока Р1 имеются два информационных множества: {q2, q3} и {<78, ды, Qu}- Для игрока Р2— также два информационных множества: {<74, Я?) и [q5, q6]. Структура информационных множеств игрока Р1 показывает, что он знает следующее: выбрано ли на первом шаге число 3 или одно из чисел 1 или 2. Далее из рисунка 3.9 следует, что Р1 может выбирать альтернативы 1 или 2. Следовательно, у него есть сведения о двух возможностях выбора на первом ходу и при этом он может выбирать две альтернативы, поэтому у него четыре возмож- возможности, т. е. у первого игрока стратегии — это четыре функции, прини- принимающие на каждом информационном множестве значения его выборов: 1 или 2. Другими словами, на каждом информационном множестве стра- стратегия для первого игрока — это функция, принимающая значение 1 или 2. Поскольку есть для него два информационных множества и на каждом функция, выражающая стратегию, принимает два зна- значения, то имеется две функции: Л ({«7* <7з})=1. ^({<7«, «7»}) = 2, C.1) РгпЧв. <7ю. Чи}) = 1. F2({q8, <7ю> <7и}) = 2. C.2) Стратегией игрока Р1 будет сочетание двух функций: одной из C.1) и одной из C.2), т. е. будут следующие 4 стратегии: 1- fi({<72. <7з})= L Л ({ft. <7io> Яп)) = Ь 2- F1([q» q3}) = 1, F2({qg, q10, 4ll}) =2; 3. Ft([qt, qa}) = 2, F1 ({qa, q10, qu}) = 1; 4. F2({q3, q3}) =2, F%({qs, ql0, qn}) = 2. Из рис. 3.9 видно, что для игрока Рг положение следующее: на инфор- информационном множестве {qit q7) он может делать выборы 1 или 2, следова- следовательно, у него есть две функции Gi({?4. <?7}) = 1, G2({<74, <77})=2; C.3) на информационном множестве {q5, qe) он может делать три выбора — 1 или 2, или 3, поэтому у него имеется три функции Gi({<7e. <7в}) = 1, G2({<75, <7б})=2, G3({qb, qe}) = 3. C.4) Стратегией игрока Р2 будет сочетание двух функций: одной из C.3) и одной из C.4), т. е. будут следующие 6 стратегий: 2- G1{{qi, <77})=1, G2({<75, ?s}) = 2; 3. ОА{д„ <77}) = 1, G3({<75, 7.1) = 3; 4. G2({<74, <77})=2, ^({^ <76})=1; 5. G2({<74, <77}) = 2, G2({<75, <7б}) = 2; 6- G2({<74 При случайном выборе альтернативы в узле qx стратегией является набор вероятностей хг = 0,1; ха = 0,2; х3 = 0,7 соответственно выбора 1-й, 2-й и 3-й альтернативы, т. е. чисел 1, 2 или 3. 6 6-2853 81
При случайном выборе альтернативы в узле д6 стратегией является 1 2 набор вероятностей: ух = -у, у2 = -у выбора соответственно 1-й или 2-й альтернативы, т. е. чисел 1 или 2. В общем виде вероятности выбо- выбора альтернатив при случайном выборе обозначаются через р (a, q, i), где а — упорядоченное множество стратегий, которые применяют игроки; q — точка разветвления; i — альтернатива. Заметим, что если стратегия а в некоторой точке q указывает, что надо выбрать определенную альтернативу i, то в этом случае р (а, ц, i) = 1; если же эта стратегия указывает на невозможность выбора t-й альтернативы, то р (a, q, i) — 0. Пусть, например, в данной игре иг- игрок Рг применит свою 2-ю стратегию Л({?2. <7з}) = !. ^я({?8. <7ю. Ян)) =2, игрок Р2 применит свою 6-ю стратегию Эти две стратегии образуют упорядоченное множество а. Тогда в дан- данной игре получим: для точки ql — p(a, qx, 1) =0.1; р (a, qu 2) = 0,2; р (a, qlt 3) = = 0,7, для точки q2 — p(a, q2, 1)== 1; р(а, q2, 2) = 0, для точки qs — p{a, qs, 1) = 1, р(а, qs, 2) = 0, для точки qi — pia, qt, 1) = 0, р(а, qit 2) = 1, для точки qb — p{a, qb, 1) =0, о (a, qb, 2) =0, р{а, qb, 3) = 1, для точки qs — p(a, qs, 1) = 0, р (a, qs, 2) = 0, р(а, qe, 3)= 1, для точки q7 — p(a, q7, 1) =0, р(а, q7, 2)= 1, для точки qs — p(a, qs, 1) = 0, р (a, qa, 2) = 1, для точки qu — p(a, qa, l) = -y, р(а, ^в. 2) = — » для точки ql0 — p(a, q10, 1) =0, р (а, <710, 2) = 1, для точки qn — p(a, qu, 1) =0, р(а, qn, 2)= 1. Часто полезно указывать не число альтернатив выбора при достиже- достижении определенной точки, а перечислить те вершины, к которым мож- можно прийти, достигнув определенной точки в игре. Так, например, до- достигнув точки q2, можно прийти к вершинам tx, t2, t3, tt, tb, t6. Пусть a — выбранное упорядоченное множество стратегий, q — точка разветвления, t — некоторая вершина, тогда через Р (a, q, t) обозначим вероятность достижения вершины t при условиях, что в партии уже достигнута точка q при множестве стратегий а. В данной игре, например, вершины tly t2, ..., t6 будут достигнуты с вероятностью 0, 1, т. е. Р(а, qu 0=0,1 (t = tu t2 g, 82
далее, Р(а, qlt 0 = 0,2 (t=t7, ts, g, P(a, <7e, 0=4" С = 'и. V- Очевидно, P (я, 9, 0 = 0, если t есть вершина партии, не проходящей через точку q. Так, например, Р (a, q2, t7) = 0, поскольку партия, про- проходящая через q2, не может достигнуть вершины t7. Пусть теперь Ь — упорядоченное множество чистых стратегий п игроков; t — вершина, соответствующая некоторой партии; qu q2, ... ..., q, — все точки разветвления, через которые проходит эта партия. Обозначим через Р (b, f) вероятность того, что партия закончится в вершине t, если игроки применяют множество стратегий Ь. Тогда Р(Ь, 0= ПР(&, qt, t). Например, если игроки применят множество стратегий а, определен- определенное ранее, то Р(а, g = P(a, qlt g P (a, q2, g P (a, qb, g = 0,1 • 1 • 0 = 0, Р(а, t2) = P(a, qlt g P (a, q2, tt)P(a, qb, g = 0,1 • 1 - 0 = 0, p(o, g = P(fl, ft, gp(o, <72, <a)P(e, %. g = o,i • i • i =0,1. Поступая аналогично, получим P(a, g = o, P(flf g = o, P(fl, g = o, P (a, /7) = 0,2, P (a, g = 0, P (a, g = 0, P (a, ^10) = 0, P (a, tn) = 0, P (a, ^12) = 0, P (a, tla) = -JL, P (a, ^u) = 0, P (a, <ц) = -jL. Несложно подсчитать, что 15 liPia, g = l. f'=l Теперь можно получить математическое ожидание выигрышей игро- игроков при различных чистых стратегиях. Пусть Hi (tj) (i = 1, 2, ..., n; / = 1, 2, .... 15) означает выигрыш 1-го игрока, если партия игры закончится в вершине tf, Mt (b) — сред- средний выигрыш игрока Р, (/ = 1, 2, ..., п), если применяется множество стратегий Ь, тогда Mi(b)=%Hl(t,)P{b, t,). Так, для игрока Рг и множества стратегий а, получим 15 Mt (а) = 2 Яг (g P (a, g = = 10-0,1+(-10; -0,2+ (-30) ^-+15 .-1- = _1. 6- 83
Итак, можно сделать следующее заключение. Позиционная игра в общем виде сводится к матричной игре. Для этого необходимо пере- перечислить возможные стратегии игроков и значения средних выигры- выигрышей М1У ..., Мп в зависимости от множества этих стратегий. Рассматриваются два вида функций выигрышей Ht (i — 1, 2, ..., п), определенные на множестве вершин дерева игры и указывающие ве- величину выигрыша в зависимости от достигнутой вершины (партии); Mt (i = 1, 2, ..., п), определенные на множестве упорядоченных чис- чистых стратегий и указывающие средний выигрыш каждого игрока при условии, что игроки применяют свои чистые стратегии. Для различия будем называть Hi ~ функциями выигрышей партии, Mt — функция- функциями выигрышей стратегии. Позиционная игра называется игрой с нулевой суммой, если для всякого n-мерного набора b стратегий игроков Plt ..., Рп будет иметь место равенство 2ЛМ*) = 0, C.5) где Mt (b) — функции выигрышей стратегии. Следует отметить, что условие C.5) может быть выполнено в некоторых случаях и тогда, когда сумма выигрышей, определенных функциями выигрышей партии Ht, не будет равна 0. 3.4. ПОЗИЦИОННЫЕ ИГРЫ С ПОЛНОЙ ИНФОРМАЦИЕЙ Позиционная игра называется игрой с полной информацией, если в любой точке любой ее партии игрок, делающий ход, точно знает, какие выборы были сделаны раньше. В графическом изображении каждый узел такой игры будет представлять собой отдельное информа- информационное множество, и поэтому в такой игре мы не отмечаем пункти- пунктиром информационные множества. Примерами игры с полной информацией могут служить шашки, шахматы, крестики и нолики. Большинство карточных игр не являет- является играми с полной информацией, так как игроки не знают, какие кар- карты были выданы другим игрокам. Ниже мы покажем, что матрица любой игры двух игроков с нулевой суммой с полной информацией в нормальной форме имеет седловую точку, т. е. в игре с полной информацией существуют оптимальные чис- чистые стратегии. Это означает, что в таких играх, как шашки, шахматы, крестики и нолики, у игрока существуют стратегии, придерживаясь которых он не проиграет. Другими словами, у первого игрока сущест- существует такая стратегия, придерживаясь которой он может либо выиг- выиграть, если второй игрок будет играть не лучшим образом, либо до- добиться ничьей, если второй игрок будет играть самым лучшим обра- образом. Аналогичное положение и у второго игрока. Игра в крестики и нолики не представляет интеллектуального ин- интереса, так как стратегий в ней немного и очень скоро становятся из- известными оптимальные чистые стратегии, ведущие игроков к ничьей. 84
Игры в шашки и шахматы будут еще долго представлять интел- интеллектуальный интерес для людей, несмотря на то, что для них сущест- существуют оптимальные беспроигрышные стратегии, потому что в этих иг- играх существует чрезвычайно много стратегий, пока невозможно их даже перечислить и тем более выбрать среди них оптимальные. Попытки использовать электронные вычислительные машины для этих целей пока не привели к значительным успехам из-за недостаточности объема памяти и вычислительных возможностей современных ЭВМ. Поэтому исследователи шахматной игры пошли не по пути перечис- перечисления всех возможных стратегий и отыскания среди них лучшей, а по пути обобщения опыта игры, накопленного людьми, и переложе- переложения этого опыта по возможности на формальные или полуформальные процедуры, а затем использования особенностей быстродействия ЭВМ для определения лучших из некоторого, сравнительно небольшого множества стратегий, возникающих в определенном месте игры. Созданные алгоритмы и процедуры игры в шахматы позволяют исполь- использовать ЭВМ как игрока примерно на уровне первого разряда или ма- мастера. Думается, что пройдет еще не один десяток,'лет, пока будут созданы такие ЭВМ, процедуры и алгоритмы игры в шахматы, кото- которые смогут успешно соперничать в игре в шахматы с лучшими гроссмей- гроссмейстерами. Для доказательства того, что всякая игра с полной информацией имеет седловую точку, необходимо ввести некоторые новые определе- определения и обозначения. Пусть имеется позиционная игра и игроков Plt Р2, ..., Pit ..., Рп с функциями выигрышей стратегии соответственно Мг, ..., Mt Мп; Л(- — есть множество чистых стратегий игрока Р{ (i = 1, 2, ..., п); А — декартово произведение множеств Аг, Л2, ..., Ап; (хи х2, ..., х(, ... ..., хп) — элемент множества Л, где xt? At (i = 1, 2, ..., п). Тогда элемент (xlt ..., xt, ..., хп) называется точкой равновесия, если для каж- каждого i (i = 1, 2, ..., п) и для любого элемента у из множества А{ будет справедливо неравенство Mt{xt, ..., хп)>М1(х1, ..., Xi-u У, xi+i, .... х„). Другими словами, интуитивный смысл точки равновесия состоит в в следующем: точка равновесия соответствует такому способу игры, когда все игроки, кроме одного, принимают его и оставшемуся игроку тоже лучше принять этот способ. Покажем, что в случае игры двух игроков с нулевой суммой поня- понятие точки равновесия и седловой точки матрицы для игры в нормаль- нормальной форме совпадают. Действительно, пусть (хи х2) — точка равновесия игры двух игро- игроков с нулевой суммой, с функциями выигрышей стратегии соответ- соответственно М1 и М2; Аг и Л2 — соответственно стратегии игроков Plt Р2; тогда согласно определению точки равновесия получим: мЛхъ х2)>М1{уъ jg для любого tfttAi, M.t (хъ х2) > М2 (хи у2) для любого у2 ? А2. ' ' 85
С другой стороны, эта игра с нулевой суммой, поэтому имеют место равенства: М2 (хи х2) = —Mt (х„ х2), Мг (xv У^) = — М1 fa, у2). Подставляя C.7) во второе неравенство C.6), получим — Мг(хь xi)> — M1(xl, y2), В f,2 *П *9 f, *T tt t5 t, t, tt t, Рис. 3.10 или My (xlt x2) < Мг (xlt y2). C.8) Объединим первое неравенство C.6) с C.8) Mi (Уъ хг) < Mj_ (xv х„) < М, (*!, г/з), что совпадает с определением седловой точки. Итак, доказано, что в случае игры двух игроков с нулевой суммой точка равновесия является и седловой точкой матрицы нормальной формы игры. Аналогично доказывается, что седловая точка матрицы нормальной формы игры двух игроков с нулевой суммой является и точкой равновесия. Далее полезно будет следующее определение. Усечением позиционной игры с полной информацией называется игра, которая получается из данной путем исключения первого хода. Например, для игры с графическим представлением, данным на рис. 3.10, существует три усечения, соответствующие трем альтерна- альтернативам при первом ходе. Эти усечения изображены на рис. 3.11; 3.12; 3.13. В этих усеченных играх функции выигрышей партии определены в тех вершинах, которые остались в усеченной игре. Если функции выигрышей партии в игре, изображенной на рис. 3.10, есть Hl (L) (j = 1, 2 15), то, например, для игры, изображенной на рис. 3.11, функции выигрышей партии Ki ~ Hl (tj) (j = 1, 2, ..., 15). Поскольку стратегия игрока в игре с полной информацией есть функция, опреде- определяющая некоторую альтернативу при каждом ходе игрока, мы можем 86
также рассматривать усечения данной стратегии, соответствующие усечениям данной игры. Усечение стратегии определяется только в точках разветвления соответствующего усечения игры и выбирает те же альтернативы в точках разветвления, что и первоначальная стратегия. Теперь сформулируем и докажем теорему о существовании точки равновесия. Теорема. Пусть ЛA) и ЛB) — множества стратегий, имеющихся у Рг и Р2в игре игроков с полной информацией, и пусть А — их декар- декартово произведение. Тогда А имеет точку равновесия. t,s Рис. 3.11 Рис. 3.12 Доказательство этой теоремы проведем индукцией по длине игры, т. е. по числу точек разветвления в самой длинной возможной партии игры. Для игр длиною 0 (не имеющих ходов) теорема очевидна, так как каждый игрок ничего не делает и декартово произведение А содержит один элемент, который по определению, является точкой равновесия. Предположим, что теорема справедлива для всех игр дли- длины меньше k. Обозначим через Г игру длиной k. Пусть для первого хода имеются г аль- альтернатив, и Г1!, Г2, ..., Г, есть г усечений игры Г; для каждой игры Г, (i = 1,2, ..., г) обозначим через тегий первого игрока Рг и через Af — Рис. 3.13 множество чистых стра- множество чистых стратегий А\) A) и для игрока Р2; At — декартово произведение множеств Л; (i — 1,2 г). Согласно условиям теоремы ЛA) и ЛB) есть возможные стратегии соответственно игроков Ръ и Р2 в первоначальной игре Г; Л — декартово произведение множеств ЛA) и ЛB). Поскольку Г,- (i — 1, 2, ..., г) — игры длины меньше k, то по усло- условию индукции имеется точка равновесия в каждом из множеств At. Обозначим через (f{, g*) точку равновесия из множества At; M{P, 87
M? — функции выигрышей стратегий в Г,- (i — 1, 2 л), тогда по определению имеем: для любого fL из Л;1' и g, из Af] (/=1,2 л). В игре может быть три случая: 1) первый ход в игре Г случайный, 2) первый ход в игре Г делает первый игрок Ръ 3) первый ход в игре Г делает второй игрок Р2. Рассмотрим первый случай. Если q есть точка разветвления одной из усеченных игр Г,-, соответствующая ходу игрока Plt то полагаем г (<7) = /н<7). если же q есть точка разветвления одной из Г?, соответствующая ходу игрока Р2, то полагаем Я* (<7) = &'(<7). Поскольку первый ход случайный (ни Plt ни Р2 его не делают), то очевидно f* определена в любой точке разветвления игры Г, соответ- соответствующей ходу игрока Ру и, следовательно, она есть элемент множе- множества ЛA). Аналогично g* есть элемент множества ЛB). Покажем, что точка (f*,g*), принадлежащая множеству Л, является точкой равнове- равновесия множества Л. Пусть вероятности появления соответствующих альтернатив в первом ходе <хг, .... а, (а, > 0, ах + ••• + <*, — 1); М{1\ МB' — функ- функции выигрышей стратегий, соответствующие игрокам Р1г Р2 в игре Г. Тогда ясно, что если / и g любые стратегии соответственно игроков Ри Р2 в Г, a fit g, (i = 1, ..., г) есть усечения этих стратегий для усе- усеченных ИГр Г;, ТО Ма) if, g) = S а.-М!1» (ft, gl), i—i В частности, если Д, .... Д являются усечениями f* и ^ g* — усечениями g*, то имеем: 1=1 2 C.10) C.11)
Из неравенств C.9) с учетом неотрицательности аг а, получим Т 'Г 2 Подставляя C.10) и C.11) в C.12), получим МA)(Г. g*)>M(I)(/, g*), Mi2)r, g*)>M{2)(f\ g), т. е. доказано, что (f*,g*) есть точка равновесия игры Г. Рассмотрим второй случай, когда первый ход q0 делает игрок Р1. Пусть т такое значение, что М% (/;, gm) = maxMll) (ft, g't). C.13) Определим функцию /*, положив f*(qo)=m, C.14) а если q — точка одной из усеченных игр Г?, соответствующая ходу игрока Рг, то Г(Ч) = П(Я)- Определим функцию g* аналогично первому случаю, т. е. если q — точка хода игрока Р2, принадлежащая игре Г?, то положим 2*(<7) = ?(<7). Таким образом /*, g* являются стратегиями соответственно для игро- игроков Рг и Р2 в игре Г. Покажем, что (/*, ^*) есть точка равновесия в А. Из C.14) имеем: если g — любая стратегия Р2 в игре Г и gm есть ее усечение в Гт, то Af(V, g) = ^»(/m. 8m), C-15) мB)(/*, ^) = ^2)(/;, г„). C.16) Из равенств C.15) и C.16) следует: поскольку g*m есть усечение g* в Гт, то М{1)(Г, g*) = M%(fm,g"m), C.17) МB) (f, gr*) = M$ {fm,g'm). C.18) Таким образом, если g — любая стратегия для Р2 в Г и gm есть ее усе- усечение в Гт, то из C.18), второго неравенства C.9) и C.16) следует, что Пусть / — любая стратегия Рх в Г. Предположим, что / выбирает i-ю альтернативу на первом ходе, т. е. /(<7о)=*. 89
Пусть ft усечение /для Г,, тогда для любой стратегии g игрока Р2 и ее усечения g{ в Г, справедливо равенство МA)(/, g) = All" (/,-, gt) и, в частности, МA) (f, g*) = Mi" (/,, g*). C.20) Из выражения C.13) получим из C.17), C.21), первой части C.9) и C.20) получим мA) (/*, g*) = лдо (/;, g;> > mi11 (/;, §ь > м\1} у{, gi) = = МA)</, g*). C.22) Из C.19) и C.22) заключаем, что (/*, g*) есть точка равновесия игры Г, что и требовалось доказать. Третий случай аналогичен второму. Теорема доказана. Из этой теоремы следует, что матрица любой позиционной игры в нормальной форме двух игроков с нулевой суммой и полной инфор- информацией имеет седловую точку. Эта теорема справедлива для позици- позиционных игр п игроков. По аналогии с определением точки равновесия на множестве чис- чистых стратегий можно определить точку равновесия на множестве сме- смешанных стратегий и доказать, что всякая игра п игроков имеет точку равновесия в множестве смешанных стратегий. 3.5. ПОЗИЦИОННЫЕ ИГРЫ С ИДЕАЛЬНОЙ ПАМЯТЬЮ Игры с идеальной памятью являются интересным обобщением игр с полной информацией. Определение. Игрой с идеальной памятью называется игра, в которой каждый из игроков всегда помнит все, что он делал или знал во время каждого из своих ходов. Например, всякая игра двух игро- игроков, в которой могут играть лишь два человека (а не команда), способ- способные помнить всю информацию о выборах в любом ходе, является иг- игрой с идеальной памятью. Используя понятие информационного мно- множества, игру с идеальной памятью можно определить более точно. Позиционная игра — это игра с идеальной памятью, если для нее вы- выполняются следующие условия: пусть Р и Q — любые два хода, вы- выполняемые одним игроком и такие, что в некоторой партии игры ход Р предшествует ходу Q; U и V — информационные множества, содержащие соответственно Р и Q; каждая точка множества U дает k альтернатив; Ul (i = 1, 1, ..., k) — множество всех узлов дерева (ходов), кото- которые можно достигнуть, выбрав t'-ю альтернативу в некоторой точке множества U, тогда для любого i имеет место соотношение V = U(. 90
Чтобы исследовать подобные игры, удобно ввести понятие страте- стратегии поведения, состоящей в применении случайных выборов на каж- каждом ходу игры. Определение. Стратегией поведения данного игрока на- называется функция, определенная на классе информационных множеств, которая соотносит каждому информационному множеству U элемент — набор вероятностей (хг, х2, ..., х) выбора альтернатив, т. е. из множест- -5 -4 -/ +1 */ -I -5 -Ч ва Sr, где г — число альтернатив, которое дает U. По данной стратегии поведения одного игрока и по данной чистой или смешанной стратегии или стратегии поведения другого игрока можно вычислить ожидаемый выигрыш каждого игрока. Обозначим через Е if, g) математическое ожидание выигрыша иг- игрока Ри если Рх применяет стратегию поведения f, а Р% стратегию по- поведения g. Стратегии поведения /*, g* игроков Рг и Р2 являются опти- оптимальными, если для любых стратегий поведения f, g соответственно игроков Pt и Р2 справедливы неравенства Eif, g*XE(f*, g*)<E(f*, g), т. е. оптимальные стратегии поведения образуют седловую точку для среднего выигрыша игрока. Можно доказать, что, применяя смешан- смешанные стратегии, игрок поступает по крайней мере не хуже, чем в слу- случае применения стратегий поведения, но можно построить примеры игры, в которых игроку лучше применять смешанные стратегии, чем любую стратегию поведения. Можно также доказать, что в позицион- позиционной игре с идеальной памятью всегда имеются оптимальные стратегии поведения. Рассмотрим пример 3.7, графическое изображение которого пред- представлено на рис. 3.14. Напомним, что цифры у вершин дерева показы- показывают выигрыш первого игрока Рх. Стратегия поведения игрока Рх — функция f, определенная на множествах и1г U%, Ua: f(Ul) = (x, 1-х) -iy, i-у) = (z, l-z), 91
где х — вероятность выбора первой альтернативы игроком Рх на пер- первом ходе (множество Ut); 1 — х — вероятность выбора второй альтер- альтернативы игроком Pt на первом ходе; у — вероятность выбора первой альтернативы игроком Рх на втором ходе, если на первом ходе была выбрана вторая альтернатива (множество 112); 1 — у — вероятность выбора второй альтернативы на втором ходе игроком Рх; г — вероят- вероятность выбора первой альтернативы игроком Ръ на втором ходе, если на первом ходе была выбрана первая альтернатива (множество Us); 1 — z — вероятность выбора игроком Рх второй альтернативы. Стратегией поведения игрока Р2 есть функция g, определенная на множестве Ut: f(UJ = (w, l — w), где w — вероятность выбора первой альтернативы игроком Р2 на третьем ходе (множество ?/4), а 1 — w — вероятность выбора им вто- второй альтернативы. Тогда математическое ожидание выигрышей игрока Рх: Е(/, g) = ~ Axzw — 3xzA — w) — х(\ — z)w + хA — z) A — w) + + (l — x)yw — (l—x)y(l — w) — 4(l—x)(l — y)w — — 3 A — x) A — y) A — w) = xzw — 3xyw ~ 4xz — 2xy — — xw + "Zyw + 4x + 2y — w — 3. Для определения оптимального решения надо найти такие х, у, z, w, при которых справедливы равенства max min E (/, g) = min max E (f, g). fa я f Для нахождения оптимальных стратегий и цены игры иным способом представим Е (/, g) в несколько ином виде: E{f, g) = zx(w— 4) + yCw + 2)(l— x) + 4x — xw — w— 3. C.23) Поскольку w — 4 < 0, то коэффициент при z в формуле C.23)-отрица- тельный. Для максимального увеличения своего среднего выигрыша Е (/, g) первый игрок должен положить z = 0. Коэффициент при у в формуле C.23) не отрицательный при любых значениях w и х, по- поэтому, положив у = 1, первый игрок максимально увеличит свой вы- выигрыш. В эти условиях получим E(f, g) = (Зау + 2) A — х) + Ах — xw — w — 3 = = — 4xw + 2x + 2w—l=—Bx—l) Bw — 1). C.24) Из C.24) заключаем, что для обоих игроков оптимальные значения х и w следующие: х = w = 0,5. Цена игры равна 0. Оптимальное поведение первого игрока на пер- первом ходе с вероятностью 0,5 выбирать первую альтернативу; всегда выбирать первую альтернативу в U2 и всегда выбирать вторую альтер- альтернативу в U3. Оптимальная стратегия игрока Р2 заключается в случай- случайном выборе своих альтернатив с равной вероятностью 0,5. Вообще сле- следует отметить, что число параметров, определяемых при нахождении оптимальных стратегий поведения, намного меньше, чем число парамет- 92
ров, связанных с вычислением оптимальных смешанных стратегий. Например, в рассмотренной игре (пример 3.11) у игрока Р1 имеется всего три параметра стратегий поведения и восемь параметров для сме- смешанной стратегии, так как для него имееся восемь чистых стратегий. Тем не менее математическое ожидание выигрышей удобнее выражать через смешанные стратегии, и это обстоятельство до некоторой степени компенсирует вышеуказанный недостаток. Контрольные вопросы и задания к главе 3 1. Что такое позиционная игра? 2. Что такое нормальная форма позиционной игры? 3. Приведите примеры позиционных игр. 4. Что такое дерево игры? 5. Что такое информационное множество дерева игры и каким условиям оно должно удовлетворять? 6. Приведите примеры дерева игры. 7. Дайте точное определение позиционной игры. 8. Что такое функция выигрышей партии и стратегии? 9. Что такое позиционная игра с полной информацией? 10. Что такое точка равновесия для игры с полной информацией? 11. Сформулируйте теорему о точке равновесия в позиционной игре. 12. Что такое позиционная игра с идеальной памятью? 13. Что такое стратегия поведения для игрока в позиционной игре? 14. В чем заключаются методы решения позиционных игр? 15. Приведите к нормальной форме, дайте графическое изображение и найдите решение следующей игры: Ход 1. Игрок Рг выбирает л: из множества {1, 2}. Ход 2. Игрок Р2> не зная значения х, выбирает у из множества {1, 2}. Ход 3. Игрок Plt зная значения х и у, выбирает из множества {1, 2}. Выигрыш первому игроку определяется так же, как и в примере {3.1}. 16. Приведите к нормальной форме, дайте графическое изображение и найдите решение следующей игры: Ход 1. Игрок Pi выбирает число х из множества {1,2}. Ход 2. Выбирается случайно число у из множества {1, 2}, причем числа 1 и 2 выбираются соответственно с вероятностями 0,25 и 0,75. Ход 3. Игрок Р2, зная значение у, но не зная х, выбирает число г из множества {1, 2}, если у = 1, и из множества {1, 2, 3}, если у = 1. После того, как сделаны все три хода, игрок Р2 платит игроку Рг сумму М (х, ц, г), заданную следующим образом: МA, 1, 1) = 2; МA, 1, 2) = —2; МA, 2, 1)=1, МA, 2, 2) = 0, МA, 2, 3) = —2; М B, 1, 1) = 0, МB, 1, 2) = 5, М B, 2, 1) = —1, М B, 2, 2) = — 3, М B, 2, 3) = 3. 17. Дайте графическое представление и приведите к нормальной форме сле- следующую игру: Ход 1. Игрок Pi выбирает число х из , множества {1.2}. Ход 2. Выбирается число у из множе- множества {1, 2} случайно: число 1 выбирается с вероятностью 0,2, а число 2 — с вероят- вероятностью 0,8. Ход 3. Если иа первом ходу выбра- выбрано 1, то игрок Р2> зная значения х и у, выбирает число г из множества {1, 2}, если на втором ходу было выбрано 2, игрок Ръ зная значения х и у, выбирает 2 из множества {1, 2}. Рис. 3.15 93
После трех ходов игроку Pt уплачивается сумма М (х, у, г), где М представлена в игре 3.1. 18. Может ли быть игра с деревом изображенным на рис. 3.15? 19. Дайте графическое изображение следующей игры: Ход 1. Игрок Pt выбирает число х из множества {1, 2, 3, 4}. Ход 2. Игрок Р2, зиая четное или иечетиое х, выбирает число[# из множества {1,2}. Ход 3. Если у = 1, то случайно выбирается число г из множества A, 2}, причем 1 выбирается с вероятностью 0,1, а число 2 — с вероятностью 0,9. Если у = 2, то Pi, зная значения х и у, выбирает число г из множества A, 2}. Рис. 3.16 Ход 4. Игрок Ръ зиая значение у, но ие зиая хяг, выбирает число w из множест- множества {1,2}. 20. Дайте графическое представление, опишите стратегии и найдите средние вы- выигрыши игроков следующей игры: Ход 1. Игрок Pi выбирает х из множества {1, 2}. Ход 2. Игрок Р2, ие зиая значения х, выбирает число у из множества {1, 2}. ХодЗ. Случайно выбирается число г из множества {1, 2}, причем число 1 выбира- выбирается с вероятностью а, а число 2 — с вероятностью A — а). После того, как выбраны х, у, г, игроку Рх выплачивается сумма Мх (х, у, г), а игроку Р2 — сумма Мг (х, у, г). 21. Найдите точки равновесия (их всего 8) для игры с полной информацией, де- дерево игры которой приведено на рис. 3.16, а выигрыши партий игры для трех игроков приведены в табл. 3.7. Таблица 3.7 t к h h к 1 2 3 4 5 6 5 6 7 8 1 2 3 4 1 2 9 10 t h к ко kl "•(') 7 8 9 10 11 12 3 4 11 12 9 10 11 12 5 6 7 8
Г Л А В А 4. БЕСКОНЕЧНЫЕ АНТАГОНИСТИЧЕСКИЕ ИГРЫ 4.1. ОПРЕДЕЛЕНИЕ БЕСКОНЕЧНОЙ АНТАГОНИСТИЧЕСКОЙ ИГРЫ Естественным обобщением матричных игр являются бесконечные антагонистические игры, в которых хотя бы один из игроков имеет бесконечное количество возможных стратегий. В этой главе будут рассматриваться игры двух игроков, делающих по одному ходу, и после этого происходит распределение выигрышей. При формали- формализации реальной ситуации с бесконечным числом выборов можно каж- каждую стратегию сопоставить определенному числу из единичного ин- интервала, так как всегда можно простым преобразованием любой ин- интервал перевести в единичный и наоборот. Для дальнейшего изложения теории игр этого класса введем опре- определения и обозначения: [0, 11 — единичный интервал, из которого игрок может делать выбор; х — число (стратегия), выбираемое первым игроком Рг; у — число (стратегия), выбираемое вторым игроком Р2; Мс (х, у) — выигрыш t-ro игрока; Г (X, Y, М1У М2) — игра двух иг- игроков, с ненулевой суммой, в которой первый игрок выбирает число х из множества X, второй игрок выбирает число у из множества Y, и после этого первый и второй игроки получают соответственно вы- выигрыши Мг (х, у), М2 (х, у); Г (X, Y, М) — игра двух игроков с нуле- нулевой суммой, в которой первый игрок выбирает число х, второй — число у, после чего первый игрок получает выигрыш М (х, у) за счет второго игрока. Итак, игра двух игроков с нулевой суммой Г (X, Y, М), заключаю- заключающаяся в выборе первым игроком числа х ? X, вторым игроком числа у ? Y и с дальнейшим получением выигрыша М (х, у) первым игро- игроком за счет второго, называется бесконечной антагонистической иг- игрой, если хотя бы одно из множеств X пли Ксодержит бесконечное ко- количество элементов (чисел). Для решения такой игры можно поступить по аналогии с матрич- матричными играми, однако в этом случае задача очень усложняется. Большое значение имеет вид функции выигрышей М (х, у). В зависимости от вида функций классифицируются игры и разрабатываются методы их ре- решений. Оказывается, не для всякой функции М (х, у) существует решение (в отличие от матричных игр). Будем считать, что выбор оп- определенного числа игроком означает применение его чистой стратегии, соответствующей этому числу. По аналогии с матричными играми на- назовем чистой нижней ценой игры величину Vt = max inf M (х, у) х у или V, = max min M (х, у), *ех у$у а чистой верхней ценой игры величину V2 = min sup M (х, у) 95
или V? — min max M (x, y). 1/iY X?X Для матричных игр величины Vt и 1/2 всегда существуют, а в беско- бесконечных играх оки могут не существовать. Естественно считать, что, если для какой-либо бесконечной игры величины Vu V2 существуют и равны между собой (Vt = V2 — V), то такая игра имеет решение в чистых стратегиях, т. е. оптимальной стратегией первого игрока есть выбор числа х0 ? X и второго игрока — числа у0 ? Y, при которых М (хоуо) = V, в этом случае V называет- называется ценой игры, а (хоуо) — седловой точкой в чистых стратегиях. Рассмотрим несколько примеров. Пример 4.1. Первый игрок Рг выбирает число х из множества X, которое представляет собой замкнутый промежуток [0, 1], второй иг- игрок Р2 выбирает число у из множества Y, представляющего замкну- замкнутый промежуток [0, 1]. После этого второй игрок платит первому сум- сумму М(х, у) = 2х* — у2. Поскольку второй игрок хочет минимизировать выигрыш первого иг- игрока, то он определяет min Bл:2 — у2) = 2х2 — 1, т. е. при этом у = 1. Первый игрок желает максимизировать свой выигрыш, и поэтому определяет max (minМ (х, у)) = maxBx2— 1) = 2— 1 = 1, х<=Х у$У х?Х который достигается при х = 1. Итак, нижняя цена игры равна Vl = 1. Верхняя цена игры V2 = min (max Bx2 — у2)) = min B — у2) = 2 — 1 = 1, У& х?Х УЧУ т. е. в этой игре Vx = V2 =1. Поэтому цена игры V = 1, а седловая точка A.1). Пример 4.2. Первый игрок выбирает х ? X, где X — открытый интервал @, 1), второй игрок выбирает у ? Y, где Y —открытый ин- интервал @, 1). После этого первый игрок получает сумму М(х, у)=х + у за счет второго игрока. Поскольку X и Y открытые интервалы, то на них Vj и 1/2 не существуют. Если бы X и Y были замкнутые интервалы, то, очевидно, было бы следующее: 1^ = 1^ = 1 при хо=1, уо = О. С другой стороны, ясно, что, выбирая х достаточно близкое к 1, первый игрок будет уверен, что он получит выигрыш не меньше, чем число, близкое к цене игры V = 1; выбирая у близкое к нулю, второй игрок не допустит, чтобы выигрыш первого игрока значительно отличался от цены игры V = 1. 96
Степень близости к цене игры может характеризоваться числом е > 0. Поэтому в описываемой игре можно говорить об оптимальности чистых стратегий х0 = 1, у0 = 0 соответственно первого и второго иг- игроков с точностью до произвольного числа е > 0. Можно обобщить и уточнить соответствующие понятия теории игр с учетом точности ДО 8 > 0. Точка (хе, уе), где хе ? X, ye(zY, в антагонистической непре- непрерывной игре Г называется точкой е-равновесия, если для любых стра- стратегий х ? X первого игрока, у ? Y второго игрока имеет место нера- неравенство М (X, уЁ) — 8 < М (Хе, уе) < М (ХЕ, у) + 8. D.1) Точку е-равновесия (хе, г/е) еще называют е-седловой точкой функции М (х, у), а стратегии хе и уе называются е-оптимальными стратегиями. Эти стратегии являются оптимальными с точностью доев том смысле, что, если отклонение от оптимальной стратегии никакой пользы игроку принести не может, то его отклонение от е-оптимальной стратегии мо- может увеличить его выигрыш не более, чем на е. По аналогии с матричными играми можно сформулировать и дока- доказать следующие критерии существования у функции е-седловых точек: 1. Если (xz, 2/Е) —е-седловая точка функции двух переменных М (х, у), то inf М (хе, У) + 2е > sup inf M (х, у), D.2) В х U sup М (х, уе) — 2е < inf sup M (х, у). D.3) х УХ 2. Если при всяком е > 0 функция М имеет е-седловые точки, то sup inf М (х, у) — inf sup M (х, у). D.4) * У V 1 3. Если выполняются соотношения D.2), D.3), D.4), то (хЕ, уе) является 4е-седловой точкой. 4. Если имеет место равенство D.4), то при любом е > 0 функция М (х, у) имеет е-седловую точку. Доказательство этих критериев приведено в [5]. Пользуясь этими критериями, часто можно определить суще- существование е-седловых точек непрерывных игр. Если игра Г не имеет седловой точки (е-седловой точки) в чистых стратегиях, то оптимальные стратегии можно искать среди смешанных стратегий. Однако, в качестве вероятностной меры здесь вводятся функ- функции распределения вероятностей применения игроками чистых стра- стратегий. Пусть F (х) выражает интегральный закон распределения вероят- вероятностей применения чистых стратегий первым игроком. Если число ё — чистая стратегия первого игрока, то где Р {| < х] означает вероятность того, что случайно выбранная чистая стратегия \ не будет превосходить числа х. Аналогично рас- 7 6-2853 97
сматривается интегральная функция распределения вероятностей применения чистых стратегий г\ вторым игроком Функции F (х) и G (у) называются смешанными стратегиями соответ- соответственно первого и второго игроков. Если F (х) и G (у) дифференци- дифференцируемы, то существуют их производные, соответственно f (x) и g(y). В общем случае дифференциал интегральной функции распреде- распределения вероятностей dF (х) выражает вероятность того, что стратегия \ находится в интервале х < \ < х + их. Аналогично для второго игрока: dG (у) означает вероятность того, что его стратегия т) нахо- находится в интервале у < г\ <; у -f- dy. Тогда выигрыш первого игрока составит М(х, y)dF(x), а выигрыш второго игрока равен М(х, y)dG(y). Средний выигрыш первого игрока при условии, что второй игрок применяет свою чистую стратегию у, получим, если проинтегрируем выигрыши по всем возможным значениям х, т. е. E{F, у) = \м(х, y)dF{x). D.5) о Напомним, что множество значений X для х является замкнутым интервалом [О, П. Аналогично, получаем средний выигрыш первого игрока при условии, что он применяет свою чистую стратегию х, а второй игрок — свою смешанную стратегию G (у) i E{x,G) = \M{x,y)dG{y). D.6) о Напомним, что множество Y для у является замкнутым интервалом [О, 1]. Если первый игрок применяет свою чистую стратегию*, второй —у, то выигрыш первого игрока составит М(х, y)dF(x)dG(y). Средний выигрыш первого игрока при условии, что оба игрока применяют свои смешанные стратегии F (х) и G (у), будет равен 1 1 Е (F, G) = J J М (х, у) dF (х) dG (у). D.7) о о По аналогии с матричными играми определяются оптимальные сме- смешанные стратегии игроков и цена игры: в антагонистической непрерывной игре Г (X, Y, М) пара смешан- смешанных стратегий F* (х) и G* (у) соответственно для первого и второго иг- игроков образует седловую точку в смешанных стратегиях, если для 98
любых смешанных стратегий F (х) и G (у) справедливы соотношения Е (F, G*) < Е (F*, G*) < Е (F*, G). D.8) Из левой части неравенства D.8) следует, что если первый игрок от- отступает от своей стратегии F* (х), то его средний выигрыш не может увеличиться, но может уменьшиться за счет лучших действий второго игрока, поэтому F* (х) называется оптимальной смешанной страте- стратегией первого игрока. Из правой части неравенств D.8) следует, что если второй игрок отступит от своей смешанной стратегии G* (у), то средний выигрыш первого игрока может увеличиться, а не уменьшиться, за счет более разумных действий первого игрока, поэтому G* (у) называется опти- оптимальной смешанной стратегией второго игрока. Средний выигрыш Е (F*, G*), получаемый первым игроком при применении игроками оптимальных смешанных стратегий, называется ценой игры. По аналогии с матричными играми рассматривается нижняя цена непрерывной игры в смешанных стратегиях Vx = max min E (F, G) F О и верхняя цена игры Vi = min max E (F, G). P G Если существуют такие смешанные стратегии F* (х) и G* (у) соответ- соответственно для первого и второго игроков, при которых нижняя и верх- верхняя цены непрерывной игры совпадают, то F* (x), G* (у) естественно назвать оптимальными смешанными стратегиями соответствующих игроков, a Vt = Va = V — ценой игры. Можно показать, что существование седловой точки в смешанных стратегиях игры Г (X, Y, М) равносильно существованию верхней 1/2 и нижней Vt цен игры в смешанных стратегиях и их равенству V± = Vz = V. Таким образом, решить игру Г (X, Y, М) означает найти седловую точку или такие смешанные стратегии, при которых нижняя и верхняя цены игры совпадают. Теперь возникает два вопроса: 1. Когда существует решение непрерывной игры Г (X, Y, М)? 2. Какими методами найти решения игры Г (X, Y, М)? Ответ на первый вопрос не аналогичен ответу в матричных играх. Оказывается, что не для всякой бесконечной антагонистической игры Г (X, Y, М) существует решение. Позже будет рассмотрена теорема существования решения бесконечных игр. Для получения ответа на второй вопрос необходимо рассмотреть свойства оптимальных смешанных стратегий и цены игры, из которых будут следовать некоторые методы решения непрерывных игр. Эти свойства будем формулировать в виде теорем. Теорема 4.1. Для того чтобы пара смешанных стратегий F*, G* соответственно первого и второго игроков в антагонистической беско- бесконечной игре Г (X, Y, М) была оптимальной (образовывала седловую 7- 99
точку), необходимо и достаточно, чтобы при всех х ? X и у ?Y имело место неравенство J М {х, у) dG* (у) < Е (F*, G*) < С М (х, у) dF* (x). D.9) Y X Доказательство. Необходимость очевидна, так как в левой 'части неравенства D.9) средний выигрыш получается, когда пер- первый игрок применяет свою чистую стратегию х, что является частным случаем смешанной стратегии, а правая часть неравенства D.9) озна- означает средний выигрыш при условии, что второй игрок применяет свою чистую стратегию, которая не лучше смешанной. Достаточность. Пусть неравенство D.9) справедливо, тогда х, y)dG*(y)^E(F*, G*). С другой стороны, пусть Y тогда, проинтегрировав по функции F (х), получим E(F, G*) = J jM(x, y)dF (x)dG* Qj) < $ adF (x) = a. X Y X Поскольку справедлива левая часть неравенства D.9), то и справед- справедливо неравенство E(F, G*)<?(F*. G% D.10) Аналогично рассматривается правая часть неравенства D.9) F(F*. G»)<$M(x, y)dF*(x). х Пусть справедливо ЛГ(х. y)dF*(x), х тогда, проинтегрировав последнее неравенство по функции G (у), получим E(F*, G) = J \М{х, y)dF*{x)dG(ti)>a, поэтому справедливо неравенство E(F\ G*)<?(F*, G). D.11) Неравенства D.1С) и D.11) показывают, что (F*, G*) образуют седло- вую точку для функции Е (F, G), что и требовалось доказать. Смысл теоремы 4.1 состоит в следующем: каждый игрок поступит Не лучшим образом, если он применит свою чистую стратегию, а не опти- оптимальную смешанную стратегию. С другой стороны, смешанные стра- 100
тегии игроков будут оптимальными, если средний выигрыш игрока при этих смешанных стратегиях будет больше, чем при любой чистой стра- стратегии одного игрока и смешанной стратегии другого игрока. Другими словами, если мы желаем проверить оптимальность пары смешанных стратегий (F*, G*) игроков, то достаточно проверить, выполняются ли соотношения D.9) только для всех чистых стратегий обоих игроков, а не смешанных. Для получения других свойств оптимальных смешан- смешанных стратегий будут полезны следующие леммы: Лемма 4.1. Пусть Г (X, Y, М) —бесконечная антагонистиче- антагонистическая игра. Для любой смешанной стратегии G второго игрока справедливо равенство sup J М (х, у) dG (у) = sup J J М (х, у) dF (x) dG (у). D.12) * v F у v Для любой смешанной стратегии F первого игрока справедливо равен~ ство inf \ М (х, у) dF (х) = inf j J M (x, у) dF (x) dG (y). D.13) V X ° X Y Доказательство. Покажем справедливость D.12). По- Поскольку область смешанных стратегий шире области чистых страте- стратегий, то sup J М (х, у) dG (г/)< sup J J M (х, у) dF (x) dG (у). D.14) х у F X Y J J X Y Предположим, что в D.14) выполняется строгое неравенство, это зна- значит, что найдется такая F1 (х), при некотором е >¦ О j ^(x, y)dF1{x)dG(y)-e, х Y X Y т. е. что при всех х ? X J M (х, у) dG(y)<\\M (х, у) dF* (x) dG (у) - е. Y X Y Переходя в последнем неравенстве к смешанным стратегиям, получа- получаем, что должно быть справедливо следующее неравенство: J J M (х, у) dF1 {х) <Ю(у)<Пм (х, у) dF1 (х) dG (у) - г. X Y X Y Очевидно, последнее неравенство несправедливо, следовательно, в D.14) имеет место равенство. Аналогично доказывается справедливость D.13). Лемма 4.2. Для бесконечной антагонистической игры Г (X, Y, М) справедливы следующие соотношения: при любой смешанной стратегии G второго игрока максимумы max [ М (х, у) dG (у), max \ j" M (х, у) dF (x) dG (у) D.15) * у F х у существуют или нет одновременно, и если существуют, то равны; 101
при любой смешанной стратегии F первого игрока минимумы min [ М (х, у) dF (х), min \ \ М (х, у) dF (x) dG (у) D.16) У X ° X Y существуют или нет одновременно, и если существуют, то равны. Доказательство этой леммы можно найти в [5]. Следующее важное свойство сформулируем в виде теоремы. Теорема 4.2. Если существует решение бесконечной антагони- антагонистической игры Г (X, Y, М), то смешанные стратегии F*, G* соответ- соответственно первого и второго игроков являются оптимальными, а V — ценой игры тогда и только тогда, когда удовлетворяются следующие равенства: max [ М (х, у) dG* (у) = min f M (х, у) dF* (x) = V. D.17) х у Ч X Доказательство. Необходимость. Пусть решение игры Г (F, G, М) существует. Тогда по теореме 4.1 существуют такие F*, G* и V, что выполняются неравенства D.9) и существует цена игры Е (F*, G*) = J J М {х, у) dF* {х) dG* (у) = V. Тогда согласно лемме 4.2 существует max \ M (х, у) dG* (у) X $ и равен Е (F*, G*), т. е. левая часть D.17) выполняется. Аналогично доказывается, что будет выполняться и правая часть равенства D.17). Итак, необходимость доказана. Достаточность. Пусть выполняется D.17). Из теоремы 4.1 следует, что стратегии F* и G* оптимальные, если выполняются неравенства D.9). Рассмотрим левую часть этого неравенства: М{х, y)dG*(y)*?E(F*, G*), Y отсюда следует, что max \ М (х, у) dG* (у) < Е (F*, G*). X у Аналогично, правая часть неравенств D.9) приводит к следующему неравенству: Е (F*, О*) < min { М (х, у) dF* (x). ч х Объединяя последние неравенства, получим max f М (х, у) dG* (у) < Е (F*, G*) < min f М (х, у) dF* (x). * Y УХ 102
Поскольку справедливо равенство D.17), то max ( М (х, у) dG* (у) = Е (F*, G*) = min f M (х, у) dF* (x) = V, * У У X т. е. стратегии F* и G* оптимальные. Итак, достаточность доказана. Теорема 4.2 показывает, что для проверки на оптимальность какой- либо пары смешанных стратегий первого и второго игроков достаточ- достаточно для них проверить существование левой и правой части равенства D.17) и справедливость равенства D.17). Пример 4.3. Пусть имеется бесконечная антагонистическая игра двух игроков с нулевой суммой и функцией выигрышей М (х, у) = = (х —уJ, заданной на единичном квадрате х ? [0, 1], у ? [О, 11. Требуется проверить на оптимальность следующие стратегии: для первого игрока Р {х = 0} =Р {х = 1} =0,5, для второго игрока У = 0,5. Итак, предполагается, что функции распределения вероятностей есть оптимальные смешанные стратегии соответственно для первого и второго игроков. Напомним, что /о (я) — ступенчатая функция: [О при л:<а при х>а. Для этой цели воспользуемся теоремой 4.2 и проверим справедливость равенства D.17). Левая часть равенства существует в виде max \ М (х, у) dG (у) = max М (х, -$-) = max [х ^-1 =-т- X g X \ ^ I X \ А I * и достигается при хх =0 и х2 = 1. Правая часть равенства D.17) существует в виде тт\М(х, у) dF(x) = min \-±-М@, у) + ±-М A, у)] = = min [-i-у2 + 4~ A — УJ] = min (у2 — у + 0,5) = -\- и достигается при у = 0,5. Итак, для данных функций F(x) hG (у) равенствоD.17) выполняет- выполняется, и поэтому они являются оптимальными смешанными стратегия- стратегиями: первый игрок выбирает х = 0 или х = 1 с вероятностью 0,5, а а второй игрок выбирает у = 0,5, цена игры равна V = 0,25. Теорема 4.3. Для любой бесконечной антагонистической игры Г (X, Y, М), имеющей цену игры V, справедливы неравенства sup inf М (х, #)< V < inf sup M (х, у). D.18) х у их 103
Доказательство. Согласно лемме 4.1 для любых страте- стратегий F (х) и G (х) соответственно первого и второго игроков inf { М (х, у) dF (х) = inf | { М (х, у) dF (x) dG (у), и поэтому sup inf М (х, у) < sup inf \ M (х, у) dF (x) = * у F у х = sup inf Г J M (x, у) dF (x) dG (у) = V. Левая часть неравенства D.18) доказана. Аналогично доказывается правая часть неравенства D.18). Смысл теоремы 4.3. заключается в том, что если существует нижняя и верхняя цены игры, то нижняя цена игры не превосходит, а верх- верхняя — не меньше цены игры, т. е. где 7] — нижняя цена игры, V2 — верхняя цена игры. Теорема 4.4. Если бесконечная антагонистическая игра Г (X, Y, М) имеет цену игры V, то функция F (х) является оптимальной смешан- смешанной стратегией первого игрока тогда и только тогда, когда для вся- кого у ? Y справедливо неравенство V<c\M(x, y)dF(x); х функция G (у) есть оптимальная смешанная стратегия для второго игрока, тогда и только тогда, когда для всякого х ? X справедливо неравенство \, y)dG{y)<V. Y На основании теоремы 4.2 получаем: V = min Г М (х, y)dF(x)*c[M(x, y)dF (x), ч х х \ M[x, y)dG(y), у что и доказывает теорему. Теорема 4.5. Если в бесконечной антагонистической игре Г (X, У, М) первый игрок имеет чистую оптимальную стратегию, а второй игрок —произвольную (смешанную цли чистую стратегию), то цена игры V = max min М (х, у) = min М (х0, у) D.19) хи У и х0 определяется из уравнения D.19). 104
Аналогично, если второй игрок имеет чистую оптимальную стра- стратегию у0, а первый — произвольную, то V = min max М(х, у) = max Л! (х, у0) D.20) ух х и у0 определяется из уравнения D.20). Доказательство. Рассмотрим первую часть теоремы. Пусть х — оптимальная чистая стратегия первого игрока, тогда V = max min \ [М(х, у) dF (x) dG (у) = F G х Y = max min \ \M(x, y)dIa{x)dG(y) = ', » Н = max min \ М (а, у) dG (у) = а?Х О $ — max min М (а, у) = max min M {х, у), чех у х у С другой стороны, если /„ — оптимальная стратегия первого игрока, то (, y)dla(x), У X или V = ттМ(а, у). у Для любого а, удовлетворяющего последнему равенству, имеем , y)dla(x), т. е. на основании теоремы 4.4 1а — оптимальная стратегия, что и требовалось доказать. Аналогично доказывается вторая часть теоремы. Из этой теоремы следует, что информация о существовании оптималь- оптимальной чистой стратегии у игрока приводит к упрощению нахождения оптимальных стратегий. Теорема 4.6 (основная теорема теории непре- непрерывных игр на единичном квадрате). Всякая ан- антагонистическая бесконечная игра двух игроков Г с непрерывной функ- функцией выигрышей М (х, у) на единичном квадрате имеет решение (игро- (игроки имеют оптимальные смешанные стратегии). Доказательство этой теоремы можно найти в [5], [12]. Таким об- образом, теорема 4.6 дает ответ на первый вопрос о существовании реше- решения бесконечной антагонистической игры. Теорема 4.7. Пусть Г бесконечная антагонистическая игра с непре- непрерывной функцией выигрышей М (х, у) на единичном квадрате и ценой 105
игры V. Тогда, если G (у) — оптимальная стратегия второго игрока и для некоторого х0 1 с0, y)dG(y)<V, то х0 не может входить в точки спектра оптимальной стратегии первого игрока; если F (х) — оптимальная стратегия первого игрока и для некоторого у0 \ y)dF{x)>V, о то у0 не может быть точкой спектра оптимальной стратегии вто- второго игрока. Доказательство этой теоремы можно найти в [5]. Теорема 4.7 показывает, что если один из игроков применяет опти- оптимальную стратегию, а другой — чистую, когда средний выигрыш первого игрока отличается от цены игры, то эта чистая стратегия не может войти в его оптимальную стратегию (или она входит в нее с вероятностью нуль). Теорема 4.8. Пусть в бесконечной антагонистической игре функ- функция выигрышей М (х, у) непрерывная для х ?[0, 1 j, у ? [0, \\ и М(х, у) = —М(у, х), тогда цена игры равна нулю, любая оптимальная стратегия одного игрока будет также оптимальной стратегией другого игрока. Доказательство. Пусть V — цена игры, F0 (х) и G° (у) — оптимальные стратегии соответственно первого и второго игроков, F (х) и G (у) — произвольные смешанные стратегии соответственно первого и второго игроков: 1 1 E(F, G, М(х, #)) = J jAf(*, y)dF(x)dG(y), о о тогда из условий оптимальности следует E(F, G°, M(x, y))<?E(F>, G°, M(x, y))<E{F°, G, M(x, у)). Произведя замену М (х, у) на —М (у, х) в последнем неравенстве, получим E(F, G°, -M(y, *))<?(/*, G°, M(x, y))^E(P, G, -М(у, х)) или E(F°, G, M(y, x))>-E(F°, G°, M(x, y))> E(F, G°, M(y, x) Изменив обозначения переменных в последнем неравенстве, получим E{G, P, M(x, y))>-E(F«, G°, M(x, y))> >E{G°, F, М(х, у)), D.21) у = _E(F>, G°, M(х, у)) = — V, 106
откуда следует, что V = 0. Из D.21) вытекает, что F° есть оптимальная стратегия второго игрока, a G° — оптимальная стратегия первого игрока. Таким образом, теорема доказана. Часто можно отыскать решение игры, воспользовавшись догадкой о функции F и G для смешанных стратегий игроков. Рассмотрим это на примере. Пример 4.4. Найти решение бесконечной антагонистической игры с непрерывной функцией на единичном квадрате М(х, у) = sin 2л (х— у). Проверим, являются ли F (х) = х, G (у) = у оптимальными сме- смешанными стратегиями соответственно для первого и второго игроков. Поскольку М (х, у) = sin 2л (х — у) = — sin 2л (у — х) — — М (у, х), то согласно теореме 4.8 получаем значение цены игры V = 0. Проверим справедливость равенства D.17). Левая часть равна 1 1 max \ М (х, у) dG (у) = max \ sin 2л (х — y)dy = max -5— X X „ X „ X Л X [cos 2л (х — у)]0 = -х— max [cos 2л (х — 1) — cos 2n*J = = — max sin л sin л Bх — 1) = 0. Правая часть равенства D.17) равна нулю, так как М(х, у) = —М(у, х). Поэтому F (х) = х и G (у) = у — оптимальные стратегии игроков. Сформулированные свойства оптимальных смешанных стратегий и цены игры помогают находить или проверять решения, но они еще не дают в общем виде приемлемых методов решения игры. Поэтому рассматриваются частные виды антагонистических бесконечных игр. 4.2. ИГРЫ С ВЫПУКЛЫМИ ФУНКЦИЯМИ ВЫИГРЫШЕЙ Одним из интересных классов антагонистических бесконечных игр, для которых легко находить решения, являются игры с выпуклыми непрерывными функциями выигрышей. Такие игры будем называть выпуклыми. Напомним, что выпуклой функцией / действительной переменной х на интервале {а, Ь) называется такая функция, для которой выполня- выполняется неравенство где хх и х2 — любые две точки из интервала (а, Ь); Хг и Х2 — неотрица- неотрицательные числа, причем X, + Х2 =1. Если для Хг Ф 0, Х2 ф 0 всегда имеет место строгое неравенство + Х2х2) < XJ (Xl) + V (дс,), 107
то функция / называется строго выпуклой на (а, Ь). Геометрически выпуклая функция изображает дугу, график которой расположен лиже стягивающей ее хорды (рис. 4.1). Точка D, лежащая на кривой и имеющая координаты \^ххх + ^2*2» / (^Л + ^2х2)), находится ниже точки В, имеющей координаты (К1х1 + %^х2, KJ (х^) -j- XJ (х2)), так как QD < QB. Аналогично определяются выпуклые функции для п переменных: / (хъ xt, ..., хп) —выпуклая на множестве X, если для любых двух I 1 b x Рис. 4.1 точек ство x2, хп) ? X; (уи у2, ..., уп) ? X выполняется неравен- неравенКХ2 + К У 2, ¦¦-, КХп + ^аУпХ xn) + KJ(yv .... уп) при Л,1>0, Хг>0 Хх + Х2= 1. ! Если при "кг Ф ОД2 =5^ 0 выполняется строгое неравенство для функ- функции, то она называется строго выпуклой на X. Напомним, что непрерывная и строго выпуклая функция / на зам- замкнутом интервале принимает минимальное значение только в одной точке интервала. Выпуклая функция при увеличении аргумента не может перехо- переходить от возрастания к убыванию. Для дальнейших исследований необходимо пользоваться свой- свойствами выпуклых функций, сформулированных в виде лемм. Лемма 4.3. Если функция f (x, у) выпукла (строго выпукла) по у на У при любом значении х ? X, a F (х) — функция распределения на X, тогда также является выпуклой (строго выпуклой) функцией по у. Доказательство. Пусть К такое, что 0 < Я, <1 1, тогда на основании выпуклости / для любых у1 и у2 из У получим 108
что и требовалось доказать. Лемма 4.4. Если f выпукла на сегменте [a, b],a F (х) функция рас- распределения вероятностей на la, b], то / JxdF(x) <J/(x)dF(x). \ J J Доказательство можно найти в [5]. Для нахождения решения выпуклой игры можно воспользоваться следующей теоремой. Теорема 4.9. Пусть М (х, у) — непрерывная функция выигрышей первого игрока, на единичном квадрате и строго выпуклая по у для любого х. Тогда имеется единственная оптимальная чистая стратегия у, = у0 ? [0, 1] для второго игрока, цена игры определяется по фор- формуле V = min max M (х, у), У х значение у0 определяется как решение следующего уравнения тахУИ(А;) у0) = V. D.22) Доказательство. Поскольку М (х, у) непрерывна, то согласно основной теореме существования, решение игры существу- существует. Пусть V—цена игры, F (х)—оптимальная стратегия первого игрока, G (у) —второго игрока. Тогда для любого х ? [0, 1] 1 1 1 J М {х, у) dG U/)< J J М (х, у) dF (х) dG (у) = V. D.23) О 0 0 Положим тогда на основании леммы 4.4 при любом х х, J ydG (у) < J M i,x, у) dG (у). D.24) о /о Учитывая неравенство D.23), получим М(х, yo)<V для всех х^[0,1]. поэтому у0 является оптимальной чистой стратегией второго игрока. 109
Далее, на основании теоремы 4.5 получим V = minmaxAf (я, у), D'25) С Уо), x т. е. у0 есть решение уравнения D.22), что и требовалось доказать. Замечание. Если в теореме 4.9 не предполагать строгую выпуклость функ- функции М (х, у) по у, а просто выпуклость, то теорема остается в силе с тем отличием, что у второго игрока оптимальная чистая стратегия не будет единственной. Итак, если М (х, у) непрерывна и выпукла по у, то цена игры опре- определяется по формуле D.25), и второй игрок имеет оптимальную чис- чистую стратегию, определяемую из уравнения D.22). Точно также обстоит дело и для первого игрока: если функция вы- выигрышей М (х, у) непрерывна по обоим аргументам и строго вогнута по х при любом у, то в этом случае первый игрок имеет единственную оптимальную стратегию. Цена игры определяется по формуле V = max min M (х, у), D.26) X у а чистая оптимальная стратегия х0 первого игрока определяется из уравнения ттМ(л:0, у) = V. D.27) У Пример 4.5. Пусть на квадрате [0, 1] задана функция М(Х, y) = smnix + y) ¦ D.28) Поскольку -&F- = —(if) sinn(*;j-y)-<:0 для Х?[0> цг ?,?@, 1), то М (х, у) строго вогнута по х для любого у ? @, 1). Следовательно, цена игры находится по формуле D.26) ,, л(х-\-у) V = max min sin— ' ¦ х у г Заметим, что при 0 < х <; 0,5 справедливо равенство л (х + У) • лх min sin—* 2 sin~2~' а при 0,5 < х < 1 я (х + у) . л (х 4- 1) min sin— о — sin— о • Поэтому V =» max f max min sin "^+y), max min sin 110
[. Jt* . Я (X + 1) I max sin -y-, max sin ——^—-1 = max1 ' " ^2 2 J 2 • При этом значение л: получается равным х0 = 0,5. Это же значение получается из решения уравнения так как min достигается при у = 0, и это уравнение превращается у в следующее: откуда следует, что х = 0,5. Заметим, что если в функции выигрышей D.28) поменять местами х и у, то она не изменится, следовательно, эта функция выпукла и по у при всех х ? [0, 1]. Поэтому к ней применима та же теория, т. е. у второго игрока существует оптимальная чистая стратегия у0, опреде- определяемая из уравнения D.22) 1^^ D<29> Очевидно, максимум по;е достигается при х = 0,5, и уравнение D.29) примет вид: . я @,5 +у) __ /2 sm g — —2— * Решением последнего уравнения будет у0 = 0. Итак, второй игрок имеет оптимальную чистую стратегию у0 = 0. Рассмотрим теперь метод определения оптимальных стратегий, того игрока, для которого функция выигрышей не обязательно выпук- выпукла. Пусть непрерывная функция выигрышей М (х, у), заданная на единичном квадрате, выпукла по у. Нас будет интересовать вопрос нахождения оптимальных стратегий первого игрока. Предположим также, что для х ? [0, 1], у ? [0, 1] существует частная производная, функции М (х, у) по у, которую мы обозначим М'у (х, у), причем в край- крайней левой точке при у = 0 выражение Му (х, у) понимается как правая производная, а в крайней правой точке при у = 1 она понимается как левая производная. Обозначим через у0 одну из оптимальных чистых стратегий второго игрока (эта стратегия существует в соответствии с теоремой 4.9) Согласно теореме 4.7 чистые стратегии х первого игрока могут вхо- входить в его оптимальную стратегию с положительной вероятностью, если для них выполняется равенство М(х, уо)=7. D.30) Такие чистые стратегии х называются существенными. Полезной может быть следующая теорема. 111
Теорема 4.10. Пусть в бесконечной антагонистической игре на еди- единичном квадрате функция выигрышей М (х, у) непрерывна, выпукла по у при любом х ? [0, 11, дифференцируема по у, и у0 —оптималь- —оптимальная чистая стратегия второго игрока, тогда: 1) если у0 >¦ О, то найдется такая существенная чистая стратегия хх первого игрока, что Л?(*1, й>)<0; D.31) 2) если у0 < 1, то найдется такая существенная стратегия х2 первого игрока, что М'и(х* Уо)>О. D.32) Доказательство этой теоремы можно найти в [5]. Теорема 4.11. Пусть дана бесконечная антагонистическая игра с непрерывной и дифференцируемой по у на единичном квадрате при любом х функцией выигрышей М (х, у), с оптимальной чистой страте- стратегией у0 второго игрока и ценой игры V, тогда: 1) если у0 = 1, то среди оптимальных стратегий первого игрока имеется существенная чистая стратегия хъ для которой 2) если у0 = 0, то среди оптимальных стратегий первого игрока имеется существенная чистая стратегия х2, для которой Му(х2, 0)>0; 3) если О < у0 < 1, то среди оптимальных стратегий первого иг- игрока найдется такая, которая является смесью двух существенных стратегий хх и х2. Для этих стратегий Му(хх, #0)<0, М'у(хг, уо)>О, стратегия хх употребляется с вероятностью а, стратегия х2 — с ве- вероятностью 1 — а, где а находится из уравнения аМу(хх, уо) + A—а)М'у(х2, уо)=О. D.33) Доказательство. Пусть у0 = 1, тогда согласно теореме 4.10 найдется существенная стратегия хх первого игрока, для которой выполняется неравенство D.31), следовательно, вблизи у0 = 1 функ- функция М (xlt у) убывает, т. е. Му (хъ 1) < 0. Но выпуклая функция не может переходить от возрастания к убыванию, поэтому М (х1г у) убы- убывает на всем сегменте [0, 1], достигая при у = 1 своего минимума, т. е. M(xlt yo)^.M(x1, у) при всех у?[0, 1]. С другой стороны, для существенной стратегии хг имеет место неравен- неравенство М(х, yo)^M(xlt у0) при всех х?[0,1]. Объединяя последние неравенства, получаем М(х, yo)<CM(xv уо)<М(хъ у), 112
т. е. (xlt у0) —седловая точка, и первый случай рассмотрен. Второй случай рассматривается аналогично. Рассмотрим теперь третий случай. Поскольку О < у < 1, то соглас- согласно теореме 4.10 существуют такие существенные стратегии хх и х2, которые удовлетворяют неравенствам D.31) и D.32). Введем функцию fa)=tMy(xlt уо) + A—1)Му(хг, Уо). На основании неравенств D.31) и D.32) получаем, что Поскольку / (!) непрерывна, то найдется такое а ? [0, 1], что /(а) = 0. Рассмотрим теперь смешанную стратегию / (х) первого игрока в следу- следующем виде: a/«,(x) + (l—а)/«,(*), т. е. он применяет свою чистую стратегию хх с вероятностью а и х2 — с вероятностью A —а). Тогда 1 J М (х, у) dF (х) = аМ (xlt y) + (l—a)M (х2, у) D.34) о также является выпуклой функцией по у. Производная от этой функции в точке у = Уо совпадает с / (!) при | = а и равна нулю: аМу(хи yo)+{l — a)M'y(x2, yo)=f(a) = O. Поэтому в точке у0 функция D.34) достигает минимума при у = у0, а это значит, что 1 1 \М{х, yo)dF(x)^^M(x, y)dF(x) при у?[0, I]. D.35) С другой стороны, хг — существенная стратегия, поэтому 1 [ М (х, у0) dF(x) = M (xv у0) = V = max M(x, уо)>М (х, у0) о * при всех х?[0, 1]. Из соотношений D.35) и последнего следует, что F (х) и у0 образуют седловую точку, и поэтому F (х) является оптимальной стратегией, что и требовалось доказать. Пример 4.6. Пусть функция выигрышей в бесконечной антагони- антагонистической игре задана на единичном квадрате и равна М(х, y) = (x-yf. Эта функция непрерывна по х и у, и поэтому эта игра имеет решение. Кроме того, 8 6-2853 ИЗ
Следовательно, М (х, у) выпукла по у, и поэтому согласно теореме 4.9 цена игры определяется по форме D.25), второй игрок имеет чистую оптимальную стратегию у0, определяемую из уравнения D.22). Итак, V = min max (x — yf = min max [у2, A — уJ] = -j- д х у при #о=-4~- Определим теперь оптимальные стратегии для первого игрока. Поскольку у0 = ~. то 0 < у0 < 1. Согласно теореме 4.11 рассмотрим третий случай. Определяем х из уравнения М (х> Уо) = v> т. е. (х—г) =—• Решая последнее уравнение, получим хх = 0, х2 =1. Теперь необхо- необходимо определить величину а — вероятности применения чистой стра- стратегии хх = 0. С этой целью используем уравнение D.33) аМ'у (О, 4") + A - «) М'у A, 4~) = 0. Нетрудно найти Тогда уравнение для а примет вид а —A—а) = 0, откуда а = 0,5. Итак, стратегия первого игрока а для второго 4.3. СЕПАРАБЕЛЬНЫЕ (РАЗДЕЛИМЫЕ) ИГРЫ Игры этого вида получили название от вида функции выигрышей. В сепарабельной игре, т. е. в бесконечной антагонистической игре функция выигрышей М (х, у) — сепарабельная на замкнутом квадра- квадрате, т. е. может быть представлена в виде суммы произведений функ- функций, зависимых только от одного аргумента п т М {х, у) = S 2 а#/'* (х) s, (у), D.36) 114
где функции г{ (х) и st (у) —непрерывны на замкнутом единичном квадрате, ац — вещественные числа. Для определенности будем полагать, что Если в равенстве D.36) обозначить через m Г.\Х) = ^j ditTi \%)t ' l=\ то получим h M(x, y) = 2 r)(x)s/(y). D.37) Пусть по-прежнему F (х) — смешанная стратегия первого игрока, G (у) — смешанная стратегия второго игрока, тогда средний выигрыш E(F, G) = j j M(x, y)dF(x)dG{y) = = 2 %all\rl(x)dF(x))sl(y)dG(y). Введем обозначения 1 § (t = l, 2, .... т), D.38) о i w, = J s,(y)dG{y) (/ = 1, 2, ..., n). D.39) о Тогда средний выигрыш составит л т E(F, G)=2 Ъаци1ш1 = Е{и, w), D.40) где и = («л, и2 ит), w = (wlt w2, ..., ш„) —точки соответственно m-мерного и л-мерного пространств. Итак, средний выигрыш Е (и, w) представляет собой билинейную форму относительно переменных иъ ..., ит и щ, ..., wn, следователь- следовательно, отыскание оптимальных смешанных стратегий сведено к отыска- отысканию значений точек и и w, удовлетворяющих соотношению min max E (и, w) = max min E (и, w) = V. w и и w Поскольку г, (х) и S/ (у) (i = 1, ..., т; ] = 1, 2, ..., п) —непрерывные функции, то и М (х, у) — непрерывная функция, следовательно, се- парабельная игра имеет решения. Очевидно, каждой функции F (х) по формуле D.38) соответствует вполне определенная точка и, а для G (у) — определенная точка w. Обозначим через U множество точек, полученных для всевозмож- всевозможных функций распределения F (х), а через W — множество точек, 8* 115
полученных для всевозможных функций распределения G (у). Множе- Множества U и W относятся к данному представлению М (х, у). С другой стороны, одной и той же точке и (или w) будет соответствовать не одна функция F (х) или G (у). Однако F1 (х) и F2 (х) будем считать эквива- эквивалентными, если им соответствует одна и та же точка и. Аналогично функции G1 (у) и G2 (у) считаются эквивалентными, если им соответ- соответствует одна и та же точка w. Это определение эквивалентности исходит из того, что для экви- эквивалентных функций F1 и F2, а также G1 и G2 средние выигрыши игрока совпадают Е (Я, G1) = Е (F2, G2) = Е (и, w). Теперь необходимо дать описание методов решения игры. С этой целью рассмотрим сначала свойства множеств 0 и W, а также струк- структуру функций распределения F и G, образующих оптимальные смешан- смешанные стратегии игроков. Эти свойства будем формулировать в виде теорем. По аналогии с определением выпуклой линейной комбинации точек эвклидова пространства будем называть функцию F выпуклой линей- линейной комбинацией функций F1, ..., Fr с весами av ..., ar, если точка a =(alt ...,<*,) ? 5, и F = a1Fi(x)+a2F*(x)+ •¦¦ +arFr(x). Напомним, что a ? 5,., если at > 0, ..., пг > 0 и Oj + ... + о, = 1. Напомним, что если F1, ..., Fp —функции распределения вероятностей, то F — также функция распределения вероятностей. Теорема 4.12. Пусть F1,..., F" —функции распределения, и1, и2, ... ..., и" —соответствующие им точки пространства U разделимой иг- игры и а = (alt .... <хр) —любой элемент из Sp, тогда выпуклая линей- линейная комбинация и = агиг + а2и* + ••¦ + ари" есть точка множества U и соответствует функции распределения F(x)=a1F1(x)+a2F*(x)+ ¦¦¦ +apFp(x). Аналогичное утверждение справедливо для множества W. Доказательство. Пусть М (х, у) представлена в виде 44.36), а точки и == (щ, ..., ит) (i = 1, 2, ..., р) имеют координаты (x)dFi(x) (i»l р;/ = 1 т). D.41) Пусть и = («j, ..., ит). Поскольку и есть выпуклая линейная комби- комбинация точек и1, ..., и", то и, = аги) + а2и) + • • • + «X (/ = 1.2, .... т). Подставляя D.41) в последнее равенство, получим 116
и, следовательно, i 1 «/ =• J О (х) d [aj* (x)+ • • • + <xDFp (x)] = f r, (x) dF(x). о 6 Так как всякая выпуклая линейная комбинация функций распреде- распределения вероятностей является также функцией распределения вероят- вероятностей, то F является функцией распределения вероятностей и, сле- следовательно, и принадлежит множеству U, что и требовалось доказать. Для множества W доказательство аналогичное. Итак, на основании теоремы 4.12 можно сказать, что всякая выпук- выпуклая линейная комбинация точки из множества U принадлежит этому множеству, а это значит, что множество U выпуклое. Выделим из мно- множества U подмножество U* точек, которые соответствуют одноступен- одноступенчатым функциям распределения вероятностей. Аналогично W* состо- состоит из точек множества W, соответствующих одноступенчатым функци- функциям распределения вероятностей. Теорема 4.13. Для сепарабельной игры множество U* по отноше- отношению к данному представлению D.36) состоит из всех точек и = (иъ ... .... ит), таких, что для некоторого t ? [О, И щ. = гг (t), и, = г2 @ ит = тт (*). Аналогично множество W* состоит из точек w = (wlt ..., wn), таких, что для некоторого t ? [0, 1 ] И>1 = Si (t), W2 = S2 (t) Wn = Sn (f). Доказательство. Поскольку точка и = (их, ..., ит) при- принадлежит U* тогда и только тогда, когда ей соответствует одноступен- одноступенчатая функция Iit то для некоторого t ? [О, И получим 1 1 "i = J *х (х) dlt (х) = гг (t) ит = f rm (х) dl, (х) = rm (t), что и требовалось доказать. Для второй части теоремы доказательство аналогично. Из теоремы 4.13 и определения сепарабельной игры вытекает, что множества U* и W* — ограниченные, замкнутые, связные множества. Следующая теорема дает возможность описать границы множеств U и W. Напомним, что выпуклой оболочкой множества А называется пе- пересечение всех выпуклых множеств, подмножеством которых яв- является А. Теорема 4.14. Множество U для любой разделимой игры является выпуклой оболочкой множества U*, а множество W —выпуклая обо- оболочка множества W*. Доказательство. Обозначим через U1 выпуклую оболочку множества U* и покажем, что IIх = U. Поскольку U* cz U, то из теоремы 4.12 следует, что U1 с: U. Остается показать, что 117
Предположим, что имеется точка г = (zu ..., гт) ? U, но г ? U1. Поскольку 11* ограничено и замкнуто, то U1 также ограничено и зам- замкнуто и, кроме того, оно выпукло. Так как z ? U1, то существует гиперплоскость С, содержащая z, и такая, что U1 есть подмножество одного из полупространств, определенных гиперплоскостью С, т. е. существуют такие с^ ..., ст, Ь и б > 0, что СА+ ••• +cmzm + b>0 D.42) и для любой точки и ? IIх Clu1+ ... +Стит + Ь<-Ь<0. D.43) Из D.42) и D.43) получаем для всякой точки и ? U1 или (clZl+ ... +Cm2m)_(ClUl+ ... +Cm«m)>6. D.44) Так как D.44) справедливо для любой и ? U1, то оно справедливо для всякой точки и ? U*. Поэтому из теоремы D.13) заключаем, что для всех /?[0,1] [clZl+ ••¦ + cmzm] - [с1Г1 (t) + ... +cmrm(t)]>8. D.45) Пусть теперь F —функция распределения, которой соответствует точка z ? U, тогда, интегрируя левую и правую часть D.45) по F, получим J {[СА + • • ¦ + cmzj - [сЛ Ю + ... + cmrm (О]} dF (/) > J Ш ГО. с о Поскольку б, сх, ..., ст, гъ ..., zm постоянны, a F —функция распре- распределения вероятностей, то последнее неравенство примет вид 1 1 или [са+ ••• +стгт] — [с1г1— ••• — cmzm]>6. Это противоречит условию положительности S и доказывает, что U cz О1, т. е. доказывает требуемое. Поскольку U1 = U и f/1 ограничено, замкнуто и выпукло, то ?/ также ограничено, замкнуто и выпукло, что и требовалось доказать. Вторая часть теоремы для W доказывается аналогично. Из теоремы 4.13 и 4.14 следует, что границами множества U является кривая С, описываемая следующими уравнениями в параметрическом виде (па- (параметр t ? [0, 1]) «,=/-!(*), .... um = rm{t), D.46) а границей множества W является кривая С1, заданная параметриче- параметрическими уравнениями Щ = ^(t), .... в>„ =sn(t). 118
Следующая теорема показывает структуру оптимальных смешанных стратегий для игроков сепарабельной игры. Теорема 4.15. В сепарабельной игре с функцией выигрышей п M(x,y)='2lrt(x)tt{y), i=\ где т U (У) = 2 aitSf (у), всякая смешанная стратегия обоих игроков эквивалентна ступенчатой функции с числом ступеней не больше п; в частности, каждый игрок имеет оптимальную смешанную стратегию, которая является ступен- ступенчатой функцией с числом ступеней не больше п. Доказательство. Пусть F — любая функция распреде- распределения, и = (иъ ..., ит) ? U и соответствует F. Согласно теореме 4.14 множество и —выпуклая оболочка множества (/*, и U есть подмно- подмножество эвклидова л-мерного пространства, тогда имеются точки и1, ... ..., ип из множества (/*, для которых точка и ? U является их выпук- выпуклой линейной комбинацией, т. е. имеется точка а ? Sn такая, что и = агиг + ... + апип. Поскольку и1, ..., ип ? ?/*, то имеются соответствующие им сту- ступенчатые функции /*„ ..., Itn. Тогда по теореме 4.12 функция соответствует точке и. Очевидно, / есть ступенчатая функция, имеющая не более п ступеней, и / эквивалентна F, так как обе функции / и F соответствуют одной и той же точке и. В частности, любая оптималь- оптимальная стратегия F эквивалентна ступенчатой функции /, имеющей са- самое большее п ступеней, и такая функция / сама оптимальна. Доказательство теоремы для второго игрока проводится аналогич- аналогично. С целью определения решения игры целесообразно рассмотреть понятия отображения множеств и точки равновесия. Отображение U на W: пусть и любая точка U, тогда образом точки и называется множество точек w ? W таких, что Е (и, w) — min E (и, у); образ точки и будем обозначать через W (и). Отображение W на U: пусть w — любая точка W, тогда образом точ- точки w называется множество всех точек и из U таких, что Е (и, w) = max E (x, w); образ точки w обозначим через U (w). Если для и ? U и w ?W окажется, что w ? W (и), а и ? V (w), то и называется неподвижной точкой множества U, a w — непо- неподвижной точкой множества W. Теорема 4.16. Если F —любая функция распределения, а и соответ- соответствующая ей точка из U, то F является оптимальной стратегией 119
первого игрока тогда и только тогда, когда и есть неподвижная точ- точка из U. Аналогично функция распределения G является оптимальной стра- стратегией второго игрока тогда и только тогда, когда соответствующая ей точка до является неподвижной точкой из W. Доказательство. Пусть F1 — функция распределения, и — соответствующая ей точка из U. Если и — неподвижная точка из U, то и ? U (до) и до ? W (и), т. е. Е (и, до) = min Е {и, у), Е (U, W) = max E (х, до) ИЛИ Е (F1, (?) = min Я (F, G1) = max E (Я, G), F О где G1 —функция распределения, соответствующая w ? W. Послед- Последнее равенство означает, что F1 является оптимальной стратегией пер- первого игрока, что и требовалось доказать. Для второго игрока доказа- доказательство аналогично. Теорема 4.17. Если и — любая неподвижная точка из U, a w —лю- —любая неподвижная точка из W, то и ? U (до) и w ? W (и). Доказательство. Из неподвижности точки и следует, что существует точка ш1 ? W, такая, что и ? U (ш1) и w1 ? W (и), т. е. Е (и, w1) = max E (x, w1), E (и, w1) = min E (и, у). x?U y?W D.47) Из неподвижности w ? W следует существование такой и1 ? U, что Е (и1, до) = max E (x, w), E (и1, w) = min E (и1, у). D.48) По определению максимума и D.48) получим Е (и, w) < max E (x, w) = Е (и1, до) = min E (и1, у). По определению минимума получим min Е {и1, у)<Е (и1, w1), D.50) а по определению максимума и D.47) получим Е (и1, w1) < max E (x, w1) = Е (и, до1) = min E (и, у). D.51) ?U ?W По определению минимума получим minE(и, у)<Е(и, до). D.52) В последовательности неравенств D.49) — D.52) начальное выражение равно конечному, поэтому все промежуточные неравенства явля- являются равенствами, в частности Е {и, до) = max Е (х, до) = min E (и, у). ?U ?W Следовательно, и g U (до) и до ? W (ы), что и требовалось доказать. Теоремы 4.16 и 4.17 показывают, что неподвижные точки соответ- соответствуют оптимальным стратегиям игроков, поэтому для решения сепа- 120
рабейьных игр можно находить неподвижные точки, а затем им соот- соответствующие ступенчатые функции. Для определения неподвижных точек можно поступать так: пред- представим средний выигрыш в виде n I m — V I V положим m f, («) = 2 а-чЩ (/ = 1,2, ... , n), gt (w) = Zi atiwi (i = 1» 2, ... , m), тогда получим n E(u,w) = 'Zfl(u)wl, D.53) m ? («, w) = 2 g/ (^) «r D.54) Плоскости /; (ы) = 0(/ = 1,2, ..., л) делят множество ?/ на конечное число областей (подмножеств) 11Ъ U2, ..., ^4, .-., Uv Каждой точке и ? Ut находится множество Wt точек ш? f (и), отвечающих п min 2 // (") ai- Множество точек Wt расположено на границе W. Затем плоскости gt (w) = 0 делят множество W на подмножества (области) /?!, /?2, ..., /?„ ..., Rk. Каждой точке w ? Rt ставим в соот- соответствие точки и ? U (w), отвечающих т max 2 ^i (ю) ui~ и (=1 Если точка и такая, что W (и) содержит w такую, что 11 (w) содержит и, то и — неподвижная точка, соответствующая оптимальной страте- стратегии первого игрока. Рассматривая все области Uu ..., Ut, ..., 111 и применяя к ним вы- вышеописанные отображения U на W, а затем W на U, можно опреде- определить все неподвижные точки. Пример 4.7. Определим оптимальное решение сепарабельной игры с функцией М (х, у) = у2 (cos -?- х + sin -|- х — 1J + + ~п- У cos-к-л;—3 sin-^- х + -^- 5 sin -75-х — 3cos-^- x , заданной на единичном квадрате к G Ю, 1], у g [О, II Поскольку М (х, у) непрерывна на единичном квадрате, то игра имеет решение. 121
Поскольку седловой точки в чистых стратегиях нет, то имеется реше- решение в смешанных стратегиях. Введем очевидные обозначения гх (х) = sin -^- х 0 < х < 1 г2 (х) = cos -^- х 0 < х < 1 Si(i/)=y 0<у<1 / щ о D.55) D.56) I ц Рис. 4.2 Рис. 4.3 тогда функция выигрышей будет иметь вид М (х, у) = s2 (у) \гг {х) + rx (xi — 1J + 4- «1 (У) [г% (х) — Згг I Обозначив через F (х) и G (у) соответственно стратегии первого и вто- второго игроков, получим 1 1 "i - (' гг (х) dF (х) = f sin \ xdF (x), о о 1 1 «2 = J Гг (х) dF (х) ~ ) COS~Y xdF (х)> о о I 1 =^s1(y)dG(y)=jydG(y), w1= 122
Тогда точки и = (иъ u2),w = (wu w2) и средний выигрыш Е (и, w) = w2 {их + и2 — 1) + -|- wx (и2 — Змл) + -^- E«j — Зма), D.57) или Е (и, до) = «j (до2 — 4©! + -g-j + ма (до2 + -у а>! — 11 — до8. D.58) Уравнения D.55) задают параметрически границу С множества (облас- (области) U и выражают геометрически дугу окружности единичного радиу- радиуса с центром в начале координат, рас- расположенную в первом квадранте. ( Поскольку U — выпуклая оболочка s^ точек границы, то U есть сегмент, \ ограниченный дугой окружности и / прямой, соединяющей крайние точки окружности. На рис. 4.2 этот сегмент изображен дугой окружности и пря- прямой AQ (он заштрихован). Уравнения D.56) задают параметрически границу С1 множества (области) W и выража- выражают геометрически ветвь параболы с вершиной в начале координат, распо- расположенную в первом квадранте. По- „ скольку W — выпуклая оболочка то- ' \"' чек границы, то W есть сегмент, рис# 4.4 ограниченный дугой параболы и пря- прямой, соединяющей ее крайние точки @, 0) и A, 1). На рис. 4.3. этот сегмент показан штриховкой. Исходя из представления D.57) и D.58), можно записать: f2(и)—иг + и2—1, функция при w% в D.57), fi(u) — "з~м2— 4mj, функция при дох в D.57), , 5 gi(w) —w2 — , функция при их в D.58), g2 iw) —w2-\- -3-&ZJ1—1. функция при и2 в D.58). Приравнивая к нулю fx (и), f2 {и), gx (w), g2 (w), получим прямые: -д-м2 — 4uj = 0 —прямая 1г в области 11, ui + и2— 1 =0 — прямая 12 в области U, w2 — 4©! + ~ = 0 —прямая т1 в области W, w2 + -g- wz — 1 =0 — прямая т2 в области W. Прямые 1Х и /2 изображены на рис. 4.4, а прямые т1 и т2 — на рис. 4.5. 123
Прямые /j и 4 (см. рис. 4.4) делят область U на три части Ult U2, Us: U1 = ABD, где /j^-0, 12>0, за исключением точки D, где lx = = к = 0; U2 = SQD, где /j < 0, /2 > 0, за исключением точки D, Us = D — точка, где 1г = 12 = 0; Прямые ffljHffij (рис. 4.5) делят W на пять областей Rv R2, Rs, Rit Rb- Rx = OQLH, где т1 > 0, m2 < 0 за исключением точки L, где m1 = m2 = 0; /?2 = QFL, где mt > 0, m2 > 0, за исключением точки L; R3 = LVNT, где m, < 0, m2 > 0, за исключением точки L; /?4 = HLT, где mj < 0, m2 <; 0, за исключением точки L; Rb = LM, где m^=m2^i 0. Рассмотрим на двух примерах, как применять отображения. Возь- Возьмем, например, любую точку и ? Uu тогда в формуле D.57) коэффи- коэффициенты при Ша и w2 положительные, и минимальное значение Е (и, w) по w достигается при w\ = w\ = 0, т. е. в этом случае множество W (и) состоит из одной точки w1 = @, 0). При этом Е (и, w1) достигает мак- максимума по и при и1 =A, 0), лежащей вне области Ux. Поэтому ни одна точка области f/j не может быть неподвижной. Рассмотрим, например, область R3. Для всех точек w ? R3 в сред- среднем выигрыше Е (и, w) согласно формуле D.58) коэффициент при иг не положительный, а при ыг не отрицательный, поэтому Е {и, w) дости- достигает максимума по и при их = 0, ы2 = 1, т. е. 11 (w) = и2 = @, 1) состоит из одной точки, принадлежащей области Uv Но мы уже виде- видели, что любая точка области 11Х отображается в точку w = @, 0), не принадлежащую области R3. Поэтому любая точка области R3 не может быть неподвижной. Приведем теперь сводку отображений точек из выделенных областей. В области U: всякая точка области Ux отображается в точку @, 0) области W; всякая точка области 112 отображается в некоторую точку W области W; точка D отображается в любую точку области W. В пространстве W: всякая точка Rx отображается в точку Q облас- области 11; всякая точка области R2 отображается в некоторую точку 11Х или U; всякая точка области R3 отображается в точку А из Ux; вся- всякая точка области /?4 отображается в точку А и Q области 11; всякая точка области R& отображается в любую точку области ADQ из 11. Теперь надо проследить, какие точки при каком отображении будут неподвижными. Мы уже видели, что в области 11г не может быть неподвижной точ- точки. Если точка и ? 112, то она отображается в W из R3, а точка W переходит в А, которая не принадлежит 112. Поэтому в 112 тоже нет неподвижных точек. Точка D из U3 переходит в любую точку W, и, в частно ти, она пере- переходит в точку из R&, w из Rb переходит в любую точку и из U, в част- частности, и в точку!), следовательно, точкаD — неподвижная точка из U. Поступая аналогично с областями Rlt R2, R3, R4, и R5, приходим к выводу, что все точки w из Rlt /?2, Rs, Rt не являются неподвижны- неподвижными в W. 124
При рассмотрении области Rb подставим т = пг1 = щ в D.58), тогда получим Е (и, w) = ихт -+- и2т — w2 =m(u1 -\-u^j — w2. Поскольку т. < 0, их + ы2 должно быть минимальным, что при т < О достигается на прямой AQ (заметим: уравнение прямой AQ есть щ + + «2 = 1). При m = 0 область /?5 отображается на всю область 11. Так как прямая AQ или вся область U содержат точку D, которая, в свою очередь, переходит во всю область W, содержащую область /?Б» то об- область /?5 (прямая LM) является множеством неподвижных точек в W. Рис. 4.5 Рис. 4.6 Для определения координат точки D решаем систему уравнений: иг + и2~-1 =0, -j-и2 — Аиг =в О, отсюда получаем их = 0,25, щ = 0,75. Для определения координат точек области Rb составим уравнение полагая т1 = т2: wi + -j-wt—l =ш2 —4шх + —, отсюда получаем wx = 0,5; вторая координата w2 изменяется от точки М до L. Ордината точки М равна w1? = (-^-l —~r\ ордината точки L равна ~^- и находится из уравнения ш2 — 4шх + -д- = 0 при vL =-^-. Таким образом, Цена игры V =* ^- получается из D.57) при _ 1 _ з _ 1 1 1 "i - -4- > «» - — . Ш1 - — ' "Г <¦ Ш2 <¦ х' Для второго игрока шг находится на отрезке Z-УИ и принимает значения сегмента -j,-?-, поэтому любую точку 5 (рис. 4.6) отрезка LM 125 из
можно представить в виде поэтому точка равновесия для второго игрока запишется так: Теперь можно найти функции распределения вероятностей, соот- соответствующих неподвижным точкам и = l-j-, -т-\, w = (-5-, ay, где -?- < о>2 < ~з~- Поскольку число функций Гл (х) и г2 (х) равно 2, функ- функций Si (x) и s2 (х) также равно 2, то согласно теореме 4.15 функции распределения должны состоять из двух (п = 2) одноступенчатых функций: F (х) - а/0 (х) + A - а) /, (*) D.59) G(ff) =-РЛ to)+0—P)/*(»). D.60) где а совпадает с коэффициентом линейной комбинации крайних то- точек и1 и й2 из множества U, причем точка и должна лежать на прямой, соединяющей эти точки иг и ы2, т. е. й = сш1 + A— а) и2, D.61) а Р совпадает с коэффициентами при линейной комбинации крайних точек w1 и w2 из множества W, причем w должна лежать на прямой wxw2, т. е. w = рда1 + A — Р) да2. D.62) Крайними точками множества U являются точки А и Q, имеющие ко- координаты U1 = А @, 1), U2 =Q =A, 0), поэтому а = 0, ft = 1, и на основании D.61) для координат точки и имеют место уравнения: их = аи\ + A — а) и?, -L = а • 0 + A — а) . 1, откуда а = -j-. Ha основании D.59) F (х) имеет вид Для второго игрока любая точка 5 из LM является неподвижной точ- точкой. Она выражается линейной комбинацией точек О и К (см. рис. 4.6), причем точка К образуется путем пересечения прямой, про- проходящей через точки О и S, с границей С1 — параболой. Чтобы найти координаты точки К, надо сначала найти уравнение прямой 05, а затем решить совместно это уравнение и уравнение параболы, выра- выражающей границу С1. Уравнение прямой OS следующее: ay2=-2 126
а уравнение параболы Решая совместно эти уравнения, получим следующие координаты точки К: ->--Н'+4). -ь-И' + тI- Итак, для нахождения Р на основании D. 62) можно составить урав- уравнение, принимая w1 = (О, 0) и ш2 = j-i- (l + -|-j, -i- (l + -i-J j . Приравнивая первые координаты, получим откуда Р = т^з- @<*<1). На основании D.60) запишем смешанную стратегию для второго игрока ^ ^ TV+1) Таким образом, на этом абстрактном примере мы рассмотрели возмож- возможность применения теории игр к решению сепарабельных игр. Рассмот- Рассмотрим теперь некоторые экономические примеры. 4.4 ПРИМЕРЫ ИЗ ЭКОНОМИКИ Задача устойчивого расширенного производства (Неймана). Про- Производство рассматривается как замкнутая система, в которой произ- производимая продукция находит спрос. Обозначим через i виды технологий (i = 1, 2, ..., т), которые могут применяться для производства п видов продукции, обозначаемых через / = 1, 2, ..., п. Экономически процесс производства задается технологическими коэффициентами: Ш/ — количество /-й продукции (сырья), используемой в произ- производстве при применении t-й технологии с единичной интенсивностью (/ = 1, 2, ..., п\ i = 1, 2 m); Ьц — количество продукции /-го вида, производимой при исполь- использовании t-й технологии с единичной интенсивностью (t = 1, 2, ... ..., т\ i = 1, 2, ..., п). Пусть, далее, х = (хи х2, ..., х{, ..., хт) —относительные интен- интенсивности применяемых технологий, т. е. xt>0 (i = l,2 т), хх + х2 + ¦•• +хт = \; относительные цены продукции у = (уг, у2, ..., yj7 ..... уп), т. е. У! > 0 (/=1,2 п), уг + уг + • • • + Уп = 1. Система считается устойчивой в течении некоторого времени, если в этот период времени векторы технологий х и цен у постоянны. 127
Производство считается расширенным, если в конце каждого периода времени, принятого за единицу, выполняется неравенство т т S Ь</*«>?2 а*Л (Б> 1, / = 1> 2 я), где | — показатель расширенного производства. Поскольку в неравенстве сумма слева означает количество произ- произведенной продукции каждого вида, а сумма справа означает количе- количество потребляемой продукции, то указанные неравенства показывают, что количество производимой продукции должно быть больше, чем используемой, т. е. выполняются условия расширенного производства. В стоимостном выражении условия расширенного производства будут следующими: п m 2 2 biiXjiJi >> | 2я'/ОД| (?> !)• D.63) /=.1 (=1 !\/ С другой стороны, слишком большое производство продукции (пере- (перепроизводство) снижает прибыли, поэтому необходимо ограничить ее выпуск. Пусть т) > 1 — некоторый коэффициент, показывающий, во сколько раз можно увеличить выпуск продукции по отношению к по- потребляемой продукции, т. е. должны выполняться неравенства: п п 2 bijy, < тJ Oijy, (i = 1, 2, ... , m), или по всем технологиям т п т п 2 2 **/»/*( < Л 2 ? */^(. D-64) где т) называется степенью заинтересованности производства. Допус- Допустим, что неравенства D.63) и D.64) реально выполняются в некоторый начальный период для некоторого набора интенсивностей х и цен у. Предположим, что ац > 0 (i = 1, 2,:... т; j = 1, 2, ..., п) и рассмот- рассмотрим функцию 2 2 ьцЩ М (х, у) = '~' f'~' . D.65) ,5, Требуется определить оптимальные технологии х°, цены у0 и показа- показатели производства ? и т]. Очевидно, технология должна способствовать увеличению выпуска продукции, а цены — уменьшению, т. е. из D.63) и D.64) следует, что должны быть У т) > max М (х, у0), ц=М (х°, у0) X 128
или s = т), что означает I = min М (л:0, у) = max [min / (х, у)} — min [max / (х, у)] = У XI/ ух = maxf(x,y°) =г). X Очевидно, предположение щ > 0 при i = 1, 2, ..., m; / = 1, 2, ..., п необходимо для того, чтобы в D.65) знаменатель не обращался в нуль. Это условие можно ослабить и рассматривать функцию 21 21 <*i/ + °i/> щ где аг,- + Ьц > 0. Итак, задача расширенного производства может рассматриваться как игра двух игроков с функцией выигрышей D.65). Решение игры существует, так как функция М (х, у) непрерывна на замкнутом множестве [0, 1]. Борьба за рынки. Две частные фирмы борются за рынки сбыта в условиях конкуренции. Одна из фирм (первый игрок Рг) пытается вытеснить другую фирму (второй игрок Р2), имеющую два рынка сбы- сбыта, с одного из этих рынков. Первый рынок сбыта приносит доход вто- второму игроку в размере kx на один рубль проданного товара, а второй рынок — в размере к2 на один рубль проданного товара. Каждая из фирм выделяет капитал s для проведения операций. Стратегии игро- игроков — это количество средств, выделенных на каждый рынок сбыта. Обозначим через х количество средств (стратегию), выделяемых первой фирмой на первый рынок сбыта, тогда s — х выделяется первой фир- фирмой на второй рынок сбыта. Стратегия второй фирмы аналогична: чтобы сохранить за собой первый рынок сбыта, она выделяет для него у, а для второго — сумму s — у. Условия борьбы следующие: фирма, вложившая большую сумму в рынок сбыта, завоевывает его и полу- получает выигрыш, пропорциональный избытку своих средств. В этих усло- условиях функция выигрышей первой фирмы имеет вид: л*/ I ki(~y), если х>у М (х, у) = \ Действительно, если первая фирма выделяет на первый рынок сбыта больше средств, чем вторая, то избыток составит х — у, а коэффици- коэффициент дохода равен kly поэтому доход первой фирмы составит kt (x — у). Если же первая фирма на первый рынок сбыта выделяет меньше средств, чем вторая фирма (х<Су), значит первая фирма выделяет больше средств на второй рынок сбыта, чем вторая, т. е. s — х >> > s—у. В этом случае первая фирма получит выигрыш на втором рынке сбыта пропорционально избытку средств k2[s^- x~(s — у)] = k2(y — x). 9 6-2853 129
Функция М (х, у) для этой игры непрерывна и выпукла по у при лю- любом х, поэтому рассматриваемая игра остносится к классу игр с выпук- выпуклой функцией выигрышей, и решение находится так: V = minmaxM (x, у). У X Очевидно, тахМ(х, у) = max {max kx (x — у), max k2 (у — х)] = ^,(s — у), Величина kt (x — у) убывает, k2y возрастает с ростом у, поэтому при малых у максимум достигается на kx (s — у), а при больших у — на вто- втором k2y. Следовательно, минимальное значение этот максимум прини- принимает при таком у = у0, для которого будет выполняться равенство ki(s — y0) = k2y0 или т. е. оптимальная чистая стратегия второго игрока — выделить на первый рынок сбыта у0 средств, а на второй — Цена игры определяется по формуле: V = тахМ(х, у0) = k2yn = Для определения оптимальной смешанной стратегии первого игрока Pt найдем сначала существенные чистые стратегии х из уравнения М (х, у0) = V. Если х > у0, то ) следовательно, х0 = s. Если х < уп, то M(x,yo)=k2(yo-x) =^ отсюда получим Arx = 0. '-" Итак, существенные чистые стратегии — это х0 = s и хх = 0. Чтобы найти вероятности а в смешанной стратегии, составим урав- уравнение aMv @, у0) -f A — a) Afj, (s, г/0) = 0. Определим частые производные Ми @, у0) и Mv (s, г/0): Л1» @, Уо) = -щ;- КУ ^Wy (s, У о) = -^-k1(s — 130
тогда или а = * , т. е. F (х) — ki 4- *2 j «1 Т ^2 *1 Ч"  Таким образом, оптимальная стратегия первого игрока состоит в концентрации всех средств на одним из рынков сбыта, а вероятность выбора рынка обратно пропорциональна его важности. Это согласует- согласуется с интуитивным представлением: чем важнее рынок, тем больше средств вложит в него противник для его сохранения и тем меньше средств остается на нем после вытеснения противника. Распределение производственных мощностей. При составлении плана развития двух районов возникла потребность в строительстве двух однотипных предприятий, по одному в каждом районе так, чтобы суммарная их мощность равнялась некоторой постоянной величине, равной единице. Если обозначить через у мощность предприятия в пер- первом районе, то A —у) — мощность предприятия во втором районе. Общий спрос на продукцию равен также единице, однако он точно не известен для каждого района. Обозначим через х спрос в первом районе, тогда A — х) — спрос во втором районе. Напряженностью работы предприятия назовем отношение спроса к мощности, т. е. напряженность работы предприятия в первом районе, — напряженность работы предприятия во втором районе. Необходимо составить такой план, чтобы максимальная напряжен- напряженность из двух — или -г—— была минимальной. Итак, имеется ситуа- ситуация, в которой второй игрок (составитель плана) имеет стратегии у, а первый игрок (природа) имеет стратегии х, и выигрыш первого игрока1 M(x,y) = max\~, i=f| . Будем далее считать, что потребности в первом районе ограничены чис- числами а, Ь, т. е. а < х < Ь < 1. Очевидно, пределами изменения у являются числа 0 и 1, т. е. 0<г/< 1. Поскольку у Ф О, у Ф 1, то при у = О или у = 1 функция М (х, у) не определена, и, строго го- говоря, данная игра не является игрой на единичном интервале. Одна- Однако, если в ходе рассуждений не обращаться к крайним точкам у = О, у ¦= 1, то эту игру можно рассматривать как игру на единичном интер- интервале для у. Нетрудно проверить, что М (х, у) в этом случае непрерывна и выпукла по у (на рис. 4.7, гдех0 — некоторое значение х, график функ- функции М (х, у) выделен жирной линией). Поэтому для второго игрока 9* 131
• min max I max JL 0<г/<1 1о^а;^Ь у оптимальной стратегией является значение у, получаемое из условия V = min max М (х, у) =г min max max j— , ~* 1 — max 1-"*\ = min max [A ' —fl\ a^x^b 1-У) 0<y<l (y ' \—y\' Очевидно, этот минимум достигается при У = Уо. удовлетворяющим уравнению _Ь_ 1 — а 8о 1 — go Отсюда получаем, что цена игры V =— = \+Ь^а. Уо Очевидно, а < у0 < Ь, причем у0 = а или Уо = b лишь тогда, когда а ~ Ь, ~5*~ что не представляет интереса с точки зрения выбора спроса и мощностей. По- Поэтому рассмотрим случай, когда а < <Су0 < Ь. Существенными стратегиями первого игрока являются х = а и х = Ь, так как значение V получается именно при этих значени- значениях х. Частные производные Рис. 4.7 .. lt_ . о A+0 — о) -. л My (b, y0) = -г- = g < 0. Уравнение для вероятности а имеет вид: а—j^^ A —а) 5 -U, откуда а = \~а 1+6 — о' смешанная стратегия первого игрока Так, например, если а = 0,2 и i = 0,6, то составитель проекта дол- должен выбрать мощность предприятия в первом районе 0,6 1+0,6 — 0,2 цена игры (коэффициент перегрузки) v = 1 + 0,6 — 0,2 = 1,4, ве- вероятность а = — <=> 0,6. 132
Таким образом, оптимальная мощность в первом районе будет у предприятия, сосредоточившего 43% общего выпуска продукции, а наиболее неблагоприятный спрос получится, если минимальное зна- значение спроса а = 0,2 наступает с вероятностью а = 0,6 и максималь» ное Ъ = 0,6 — с вероятностью 1 — а = 0,4. Контрольные вопросы и задания к главе 4 1. Что такое бесконечная антагонистическая игра? 2. Что такое нижняя и верхняя цена бесконечной антагонистической игры? 3. Что такое цена бесконечной антагонистической игры? 4. Что такое точка равновесия, седловая точка, точка 8-равновесия (е-седловая точка), оптимальные стратегии бесконечной антагонистической игры? 5. Сформулируйте критерии существования е-седловой точки. 6. Что такое смешанные стратегии игроков в бесконечной антагонистической игре? 7. Что такое седловая точка в смешанных стратегиях бесконечной игры? 8. Что называется решением бесконечной антагонистической игры? 9. Сформулируйте и докажите теоремы о необходимых и достаточных условиях оптимальности смешанных стратегий в бесконечной антагонистической игре. 10. Сформулируйте условия, которым должна удовлетворять цена игры в бес- конечной антагонистической игре. 11. Сформулируйте теорему существования решения для бесконечных антаго- антагонистических игр. 12. Сформулируйте и докажите теорему, выражающую условие равенства нулю цены бесконечной антагонистической игры. 13. Дайте определение выпуклой игры. 14. Сформулируйте и докажите теоремы о решении выпуклых игр. 15. Что называется сепарабельной игрой? 16. Сформулируйте и докажите теорему о неподнижной точке сепарабельной игры. 17. Как находить решение сепарабельной игры? 18. В чем состоит задача устойчивого расширенного производства? 19. В чем состоит задача борьбы за рынки сбыта? 20. В чем состоит задача распределения производственных мощностей? 21. Покажите, что оптимальными стратегиями бесконечной игры на единичном квадрате с функцией выигрыша М (х, у) = ху— -^-х —у является пара чистых о Z стратегий х = у, у = —. 22. Покажите, что бесконечная антагонистическая игра на единичном квадрату с функцией выигрышей ) не имеет седловой точки в чистых стратегиях. 23. Функция выигрышей для бесконечной антагонистической игры на единичном квадрате определена так: М (х, у) = 10ху — у — 5х, х Ф 0,1, М@,1; у) = -у. Найдите цену игры. Какая стратегия первого игрока гарантирует ему получение выигрыша не меньше V — 8? 24. Докажите, что бесконечная антагонистическая игра на единичном квадрате с функцией выигрышей М(х, у) = \у — х\(\—\у — х\) имеет оптимальные смешанные стратегии F (х) = х, G (у) = у. 133
25. Покажите, что бесконечная антагонистическая игра на единичном квадрате с функцией выигрышей М (х, у) = О для х = у — 1 для дс = 1, у < 1 и х < 1/ < 1 + 1 для г/ = 1, х<\ иК«<1 не имеет решения. 26. Покажите, что бесконечная антагонистическая игра на единичном квадрате с функцией выигрышей 4 где 0 < X ^ -^-, имеет следующее решение: оптимальные стратегии о f (х) = i± (х), G(y) = ~Y /о (у) + ~y h (г/). цена игры V = . 27. Найдите решение бесконечной антагонистической игры на единичном квад- квадрате с функцией выигрышей М {х, у) = 80у8 — 5ху + хг. 28. Найдите решение бесконечной антагонистической игры на единичном квад- квадрате с функцией выигрышей М (х, у) = 16г/в — Ъху + *2. 29. Найдите решение разделимой игры на единичном квадрате со следующей функцией выигрышей: М (х, у) = cos 2я* • cos 2лу + х + 2у. 30. Найдите решение разделимой игры на единичном квадрате со следующей функцией выигрышей: М (х, у) = 3 cos 4л: cos 5г/ -f- 5 cos ix sin Ъу -\- sin 4л: cos 5y -f- sin 4л: sin 5y + + 4 cos 4* + sin 4* +- cos by -\-1 sin by 4- 3. 31. Составьте пример бесконечной антагонистической игры с выпуклой функ- функцией выигрышей, в которой отражены экономические интересы двух стран. 32. Составьте пример бесконечной антагонистнческой разделимой игры, в кото- которой отражены экономические интересы предприятий. ГЛАВА 5. ИГРЫ ТИПА ДУЭЛЕЙ Многие игровые ситуации сводятся к бесконечной антагонистиче- антагонистической игре двух игроков, в которой выбор стратегий отождествляется с выбором момента времени осуществления хода. Они называются играми типа дуэлей, или играми с выбором момента времени. Кон- Конфликтная ситуация, приводящая к игре типа дуэлей,сводится к сле- следующему: каждый из игроков может сделать один ход в какой-либо момент из данного промежутка времени, зависящий от его решения, и получить свой выигрыш. Чем позже он сделает ход, тем больше ве- вероятность его выигрыша, но, с другой стороны, если он слишком 134
затянет ход, то другой игрок может сделать свой ход раньше и полу- получить весь выигрыш. Таким образом, в этой ситуации каждый игрок старается максимально задержать свой ход, чтобы более уверенно полу- получить выигрыш, но, с другой стороны, он боится слишком задержать этот ход, так как может потерять выигрыш из-за того, что другой игрок раньше сделает свой ход. Типичной иллюстрацией таких ситуаций являются дуэли с огнестрельным оружием, когда каждый участник старается максимально приблизиться к противнику, чтобы увереннее его поразить, хотя каждый из них опасается, что слишком большая задержка выстрела даст возможность противнику раньше выстрелить и поразить его. Если рассматривать бесконечные антагонистические игры на квад- квадрате, то в играх типа дуэлей функция выигрышей М (х, у) первого игрока разрывна на диагонали х — у квадрата, где х — момент хода первого игрока, у — момент хода второго игрока. Рассмотрим методы решения таких игр. Пусть функция выигрышей первого игрока М (х, у) задана на единичном квадрате 0 < х < 1, О < у < 1 в следующем виде: К(х, у), если х<у М {х, #) = ф (*), если х = у E.1) L (х, у), если х > у, где функция К (х, у) определена и непрерывна на множестве 0 < х < < у < 1, а функция L (х, у) определена и непрерывна на множестве О «С У < х < 1, функция ф (х) непрерывна на множестве 0 <; х < 1. Поскольку функция М (х, у) разрывна, то нет гарантии, что решенге игры типа дуэлей существует. Если предположить, что решение игры типа дуэлей существует, то можно дать некоторые свойства оптимальных стратегий и цены иг- игры, из которых будут следовать возможные методы решения такой игры. Пусть F {х) — смешанная стратегия первого игрока, тогда для лю- любого у ? [0, 1] E[F,y)=*\M{x,y)dF{x)= \K{x,y)dF(x) + о о 1 + Ф (У) [F (У) — F (у — 0)] + J L (х, у) dF {x). E.2) V Если F (х) — непрерывная функция, то F (у — 0) = F (у) и из E.2) получим, что У 1 Е (F, у) = J К (х, у) dF (х) + f L (х, у) dF (x). E.3) О и Пусть непрерывные и дифференцируемые на единичном квадрате функции F (х) и G (у) — соответственно оптимальные смешанные стра- стратегии первого и второго игроков. Тогда, если плотность распреде- 135
ления вероятностей в некоторой точке у0 больше нуля, то и средний выигрыш первого игрока равен E(F,yo)=V, E.5) где V — цена игры. Поскольку G (у) дифференцируема на [О, И, то из E.4) следует, что G' (у) > 0 и в окрестности точки у0, поэтому для у, близких к у0, получим Е (F, у) = V, т. е. дЕ (F, у) „ ду = °- <5-6> Учитывая E.3), уравнения E.6) можно переписать в виде у 1 [L{У, У)-К (у, у)] F' (у) = j ^Л F (х) dx + j ^ML F> (x) dx. о и E.7) Оптимальная стратегия первого игрока должна удовлетворять инте- интегральному уравнению E.7), если она представляет собой дифферен- дифференцируемую функцию. Решая уравнение E.7) относительно F' (х), по- получим оптимальную смешанную стратегию первого игрока. 'Итак, в игре типа дуэлей, т. е. в антагонистической бесконечной игре с функцией выигрышей E.1) мы не можем гарантировать суще- существование решения игры. Однако, если можно предположить (это часто имеет место), что оптимальные стратегии F и G соответственно первого и второго игроков являются дифференцируемыми функциями, причем F' (х) > 0 при 0<а<*<Ь<1, a G' (у) > 0 при 0 < с < у < < & < 1 и равны нулю вне этих интервалов, то F (х) и G (х) должны удовлетворять следующим соотношениям: E(F,y) =V для y?(c,d), E.8) Е (F, у) > V для всех у, E.9) E{x,G) = V для *?(а, b), E.10) Е(х, G) < V для всех х, E.11) У [L (у, у)-К (у, у)] F' (у) = j д-Щ$- F' (х) dx + о 1 + j dL(Qyy) F' (x) d (x) для у ? (с, d), E.12) У х [К (х, x)-L (х, х)] С (х) = j *L!*JL G' (у) dy + о Кдх У) °' {У) dy ДЛЯ Х € (°' Ь)- E-! 3) 136
Если система E.8) — E.13) имеет решение с учетом, что F (х) и G (у) должны быть функциями распределения вероятностей (а не любые функции), то это решение будет оптимальным решением игры типа дуэ- дуэлей. Если же эта система решения не имеет, то можно заключить, что эта игра либо не имеет решения вообще, либо не такого вида, как мы предполагали. Часто дополнительные сведения об игре помогают на- нахождению решений. Например, если в E.1) L(x,y)= — K(y,x), E.14) Ф(*)=0, E.15) то согласно теореме 4.8 должно быть 7=0, F = G, а = с, b = d, и система E.8) — E.13) примет вид: E(F, у)=0 для у?(а,Ь), E.16) E(F,y)>0 для всех у, E-17) [L (у, у)-К {У, У)} F' (у) = j ^Л F (х) dx + F' (х) dx для у g (а, Ъ). E.18) Рассмотрим некоторые примеры. Примера. 1. (Бесшумная дуэль). Две фирмы борются за рынок сбыта. Один раз в течение определенного промежутка времени каждая из фирм должна сделать вклад, который может привести к овладению рынком сбыта. С течением времени сведения о коньюнктуре повышают вероятность того, что сделанный вклад приведет к овладению рынком сбыта, поэтому каждая фирма старается сделать вклад как мсл-но поз- позже, чтобы повысить вероятность овладения рынком сбыта. С другой стороны, одна из фирм, сделавшая ранее свой вклад, может завоевать рынок сбыта, а другая фирма потерять его даже если сна внесет свой вклад. Пусть каждая из фирм может сделать свой вклад тайно. Другая фирма не будет знать об этом, если фирма, сделавшая вклад, не ов- овладеет рынком сбыта (дуэль в таком случае считается бесшумной). Если же одна фирма овладела рынком сбыта, то игра заканчивается выигрышем этой фирмы. Если обе фирмы сделали вклад и ни одна из них не овладела рынком сбыта, то игра заканчивается вничью. Пусть рассматривается единичный промежуток времени: х означа- означает момент времени вклада первой фирмы, у — момент времени вклада второй фирмы @ < х < 1; 0 < у < 1). Пусть, далее, вероятность овладения рынком сбыта для каждой фирмы пропорциональна вре- времени, соответственно х и у, т. е. вероятность овладения рынком сбыта первым игроком, сделавшим свой вклад в момент х, равна х (или у — для второй фирмы). Овладение рынком сбыта оценивается величиной 1 (единица), т. е. если первая фирма овладела рынком сбыта, то она получает 1 с вероятностью х, если не овладела, то она получает вы- выигрыш равный —1 с вероятностью 1 — х. 137
Аналогично для второй фирмы. Пусть х <с у, тогда М(х,у)=К(х,у) = х — у + ху. E.19) Действительно, первая фирма делает свой вклад раньше, чем вторая, и поэтому средний ее выигрыш состоит из выигрыша +1 с вероятно- вероятностью х, выигрыша —1 (проигрыша) с вероятностью у A — х), т. е. К(х, у)=х-\-(— \)(\—х)у = х — у + ху. Пусть х = у, тогда М (х, у) =дг A — у) + у{\ — х) (— 1) = хA — х) + х A — х) = = Ф (х) = 0. Если у<х, тогда по аналогии с E.19) получим Л1(дс, y) = L(x, y)~y(—l) + (l — y)x = x — y — xy. E.20) Поскольку для этой игры выполнено условие E.14), то V = 0, F — G. Составим уравнение E.18) для определения F (х). С этой целью найдем L {У, У) —К (у, у) =. — у2 —у2 = — 2у\ =_{ Х, Ж =_i_* ду и запишем уравнение E.18) в следующем виде: и ь — 2y*F' (у) = J (— 1 + х) Г (jc) d* + J (— 1 — х) F' (x) dx. E.21) а и Дифференцируя E.21) по у, получим следующее дифференциальное уравнение: — 4yF' — 2y2F" = (y—\)F' + (y+l)F' или у Г = — 3F'. E.22) Решая E.22), получим F' (У) = ky-3. E.23) Теперь надо найти a, b, k. Пусть & < 1. Известно, что для всех у ? (а, Ь) E(F,y)=0. Так как Е (F,y) непрерывна по у, то Е (F, Ь) = 0, E.24) следов ател ь н о, ь а Но если Ь < 1, то Л f (х — 1 + *) dF (x) < 0, П8
и поэтому Е (F, 1) < 0, что противоречит условию E 17), и таким образом Ь = 1. Подставляя это значение и значение F' в E.24), по- получим Отсюда следует, что За2 — 4а + 1 = О, и получаем а = 1 и а = -=-. Значение а = 1 невозможно, следова- о тельно, а = -=- . Поскольку Я*) — функция распределения вероятное- О тей, то ь j ftf (л:) djc = 1 а ИЛИ откуда k = —. Поэтому получаем оптимальную стратегию О, если х < -у если х > -S- , которая указывает, что первую треть периода не следует делать вклад, а в оставшемся периоде следует делать его с вероятностью 0,25л:~ . Аналогична оптимальная стратегия второй фирмы. Пример 5.2 (Шумная дуэль). Пусть имеются две фирмы, как и в примере 5.1, желающие овладеть рынком сбыта с помощью вкладов. С этой целью они делают свои вклады в определенные моменты времени по их желанию. Каждая фирма стремится сделать свой вклад как можно позже, так как это повышает вероятность овладения рынком. С другой стороны, каждая из них может овладеть рынком сбыта, если раньше сделает свой вклад. Условие, отличное от примера 5.1, заключается в том, что, как только одна из фирм сделает свой вклад, это становится известным. В этом случае также сразу становится известным, овладе- овладела ли фирма рынком сбыта. Если она овладела, то выиграла 1, а вторая выиграла 0; если она не овладела, то другая фирма, сделав свой вклад, обязательно овладеет им и выиграет 1, а первая фирма — 0. Если фирмы одновременно делают вклады, то каждая из них может получить рынок сбыта с определенной вероятностью. 139
Вообще говоря, возможны варианты исходов, когда обе фирмы сделали вклад и ни одна не овладела рынком сбыта или обе фирмы овладели рынком сбыта, такие исходы считаются ничейными, т. е. каждая фирма получает выигрыш, равный нулю. Пусть по-прежнему [0, 1] — интервал времени, в течение которо- которого фирмы могут делать вклады: х означает момент, когда первая фирма делает вклад @ < х < 1); у — момент вклада второй фирмы @ < у < < 1); Рх (х) — вероятность овладения рынком сбыта первой фирмой, если она делает свой вклад в момент х; р2 (у) — вероятность овладения рынком сбыта второй фирмой, если она делает свой вклад в момент у. Очевидно, значения функций рг и р2 увеличиваются с увеличением аргументов, так как вероятность овладения рынком сбыта увеличи- увеличивается с увеличением времени от начала до момента вклада. Функция выигрышей М (х, у) первой фирмы (игрока) формируется следующим образом. Пусть х > у, тогда выигрыш первой фирмы будет с вероятностью рх (х), а проигрыш — с вероятностью 1 — рх (х) и K(x,y) = l- Pl (х) + (— 1) [1 — Pl (x)] = 2Pl (x)—l. Пусть х = у, тогда вероятность того, что первая фирма выиграет, а вторая проиграет, равна рг (х) [1 — р2 (у)\ = рг (х) [1 — р2 (х)]; вероятность того, что вторая фирма выиграет, а первая проиграет, равна р2 (у) [1 — рг (х)] = р2 (х) [1 — рг (х)], т. е. Ф (х) = Рг (х) [1 — р2 (х)) +р2(х)[1— рх (х)) (— 1) = Pl (х) — р2 (х). Пусть у~>х, тогда вероятность того, что вторая фирма выиграет, равна р2 (у), а вероятность того, что вторая фирма проиграет, равна [1 — р2 (#)], поэтому Цх,у) = (—1)рл{у) + [\—р,(у)]\. 1 = \—2р,(у). Для решения такой игры с функциями М (х, у) можно применить вы- вышеизложенный метод решения дифференциального уравнения. Од- Однако, учитывая, что функции рг (х) и рг (у) возрастающие, можно оп- определить решение прямо, отыскивая max min М (х, у) = max min [2Pl (x) — 1, рг (х) — р% (х), 1 — 2ръ (х)]. х у к Разобьем интервал [0, 1] на три части: интервал А характеризуется теми х, для которых Pi(x) + Pt(x)>l, интервал В для тех х, что Pi(x)+P,(x) = 1, интервал С для тех х, что Pi(x) + P*(x)< 1. Обозначим через ц (х) = min [2pt (x) — l, pt (x) — Ръ(х), 1 — 2p2 (x)], тогда max min M (x, y) = max \i (x) = max [max \i (x), max \i (x), max x у х х?А х?В x?C 140
Для интервала А справедливо рх (х) + р2 (х) > 1, поэтому справед- справедливы неравенства: Л (х) + Р2 {х) — 1 > О, 1 — 2р2 (*)< 1 — 2/73 (х) + [р, (х) + р2 (х) — 1] = р, (*) — р2 (х), Л (*) — Р2 (X) < Л (*) —Рг (^) + [Л W + Л W — Н = 2/7j {x) — 1. Отсюда следует 1 — 2р2 (х) < Pl (х) — р2 (х) < 2Л (jr) — 1. или И*) = 1—2Л(*). Для интервала В имеем: ftW + ftW = 1. 1 — 2/72 (jf) = Pl (х) ~ р2 (х) = 2Pl (x) — 1, откуда Для интервала С имеем: 2pi W — 1 < Pi W — Pi (x)< 1 — 2/72 (x), ¦откуда [i М = 2Р1 (*)-!• Для интервала А функция \i (x) достигает своего максимума при мини- минимальном значении рг (х), удовлетворяя условию РЛх) + р2(х)>1- Поскольку функции рг (х) и рг (х) возрастающие, то минимальное значение /?2 (х) достигается при выполнении уравнения Р1(х)+Р2(х)^1- E.25) Пусть хх — значение х, удовлетворяющее этому уравнению, тогда max \л(х) = I — 2р2 (xt). Аналогичные рассуждения приводят к следующим равенствам: ( max ц (х) = 2/7j (хг) — I, т?С где хх удовлетворяет равенству E.25) и, следовательно, max min M(x,y) = p^xj — p^xj, достигается на интервале В и max min М (х, у) = pt (xj — рг (Ху), где Xi удовлетворяет уравнению E.25). Аналогично можно показать, что min max М (х, у) = рг (yt) — p2 (yt), и х где ух удовлетворяет уравнению E.25) Pi(yi) + РАУг) = 1- 141
Таким образом, функция М (х, у) имеет седловую точку (л^, уг). Оптимальной стратегией фирм является делать вклады одновременно в момент t, удовлетворяющий уравнению л @ + р. @ = 1- цена игры равна рх (/) — р2 (f). Если, например, рг (х) = х, р2 (у) = у2, то оптимальное время вклада для каждой фирмы определяется из уравнения /+ Р = 1, откуда t = 0,62, цена игры равна V = х — х2 = t — f — 0,24, т. е. первая фирма выигрывает 0,24, что и следовало ожидать, так как на интервале [0, 1] вероятность овладения рынком сбыта у нее больше, чем у второй фирмы. Контрольные вопросы и задания к главе 5 1. Что такое игра типа дуэли или с выбором момента времени? 2. Опишите структуру функции выигрышей первого игрока в игре типа дуэли. 3. Опишите метод решения игры типа дуэли. 4. Опишите игру — бесшумную дуэль. 5. Опишите игру — шумную дуэль. 6. Формализуйте конфликтную ситуацию и найдите решение игры, подобной игре примера 5.1., с тем отличием, что фирма, сделавшая удачно свой вклад раньше второй, выигрывает вдвое больше (две единицы), чем она выигрывает, если сделает удачно свой вклад после неудачного, но ранее сделанного вклада другой фирмы. 7. Найдите решение игры, аналогичной игре примера 5.1, с тем отличием, что каждая фирма может делать второй вклад, если оказалось, что первый вклад был сделан ею неудачно. 8. Формализуйте конфликтную ситуацию и найдите решение игры, подобной игре 5.2, с тем отличием, что каждая фирма может делать второй вклад, если оказалось, что первый вклад ею сделан неудачно. 9. Формализуйте конфликтную ситуацию, подобную примеру 5.1, с тем отличи- отличием, что вторая фирма может делать еще один вклад, если она неудачно сделала свой первый вклад (первая фирма может делать свой вклад только один раз). ГЛАВА 6. МНОГОШАГОВЫЕ ИГРЫ К многошаговым относят такие игры, в которых хотя бы один из игроков делает больше одного хода. Так, позиционные игры также являются многошаговыми, поскольку там можно делать несколько ходов. Однако в многошаговых играх рассматриваются большие воз- возможности по сравнению с позиционными играми, так как в них может быть бесконечно много шагов (ходов). В настоящей главе мы рассмотрим три вида многошаговых игр: игры на разорение, стохастические и дифференциальные игры. 6.1. ИГРЫ НА РАЗОРЕНИЕ Играми на разорение называются многошаговые игры, в которых каждый игрок, начиная игру, имеет ограниченные ресурсы и с каждым ходом или шагом ресурсы одного из игроков уменьшаются на единицу. 142
Проигравшим считается тот, кто раньше истощит свои ресурсы, а вы- выигравшим — тот, у кого останутся ресурсы. Игра на разорение может быть сформулирована как игра на вы- выигрыш, если считать, что игроки начинают игру с нулевыми ресур- ресурсами, а затем на каждом шаге ресурсы одного из игроков увеличива- увеличиваются на единицу. Выигравшим считается тот, кто раньше достигнет определенного количества ресурсов (это количество обусловливает- обусловливается перед началом игры). Поскольку количество ресурсов конечное и на каждом шаге оно изменяется на единицу, то игра на разорение всегда заканчивается через конечное число шагов. Игры на разорение, в частности, могут представляться в виде многошаговых игр, в которых на каждом шаге рассматривается отдель- отдельная игра. После выбора стратегий на каждом шаге определяется либо обычный выигрыш в виде числа, если игра заканчивается на этом шаге, либо переход к следующему шагу — розыгрышу следующей игры. Так, например, двухшаговая игра может быть представлена в виде следующей матрицы: 'а,, ГЛ Г а)' FЛ) 12 2/ где ап — действительные числа, выражающие выигрыш первого игро- игрока за счет второго, если первый и второй игрок применят свои первые стратегии; а22 — выигрыш первого игрока, если оба игрока применя- применяют свои вторые стратегии; 1\ — игра, которую они должны разыграть, если первый игрок применит свою первую стратегию, а второй — свою вторую стратегию. В частности, Г\ и Г2 представляют собой мат- матричные игры двух игроков с нулевой суммой, заданные соответственно следующими матрицами выигрышей первого игрока: Эта игра состоит из двух одношаговых игр: 1-я — первый игрок вы- выбирает свою стратегию 1 или 2, второй игрок — свою стратегию 1 или 2, после чего первый игрок получает ап или а22, если они выбрали од- одноименные стратегии, и на этом игра заканчивается; либо они перехо- переходят ко второму шагу (второй игре 1\ или Г2), если они выбрали раз- разные стратегии. На втором шаге игра заканчивается; и первый игрок получает выигрыш согласно результату в игре 1\ или Г2. Если рассматривать оптимальные решения таких игр, то следует пользоваться понятиями среднего выигрыша и смешанных стратегий. Поэтому с точки зрения оптимизации стратегий и получения цены игры в матрице F.1) можно заменить Гх и Г2 соответственно на цены игры у, для Гг (i = 1,2) и получить следующую матрицу игры: F.2) 143
Решая игру с матрицей F.2), получим решение двухшаговой игры в виде: v — цена игры, х = (хъ х2) — оптимальная смешанная стра- стратегия первого игрока, у = (*/i,*/2)—оптимальная смешанная стратегия второго игрока. Вообще говоря, общий метод решения многошаговых игр сводится к составлению рекуррентных соотношений для цены игры, начиная с конца игры, т. е. для последних двух или нескольких шагов. Имея эти рекуррентные соотношения и начальное значение цены игры, мож- можно получить цены игры для каждого шага (каждой отдельной игры, представленной на каждом шаге развития игры). Получив цену игры на предпоследнем шаге, определяем решение игры на последнем шаге и тем самым — решение всей игры. Если уравнения, выражающие рекуррентные соотношения, не удается решить в виду их сложности, то все же их можно использовать для нахождения приближенных значений цены игры и затем оптималь- оптимальных смешанных стратегий. Пример 6.1. (Игра инспектирования). Имеется два лица: первое лицо —• нарушитель, второе лицо — инспектор. Нарушитель может совершить свое действие — нарушение в один из п периодов времени 1, 2, ..., t, ..., п. Инспектор может сделать проверку только один раз в любой из этих периодов времени. Если нарушитель и инспектор дей- действуют одновременно, то считается, что нарушитель пойман и он (на- (нарушитель) проиграл единицу каких-то благ, если нарушитель и ин- инспектор действуют в разные периоды времени, то нарушитель выигры- выигрывает 1. Если нарушитель не действует вовсе, то его выигрыш равен нулю. Для формализации этой ситуации назовем нарушителя первым игроком, а инспектора —вторым. С каждым периодом времени свяжем шаг игры. Так, на первом шаге (в первом периоде) первый игрок может совершить свое действие (стратегия 1) или не совершить его (стратегия 2); второй игрок также может инспектировать (стратегия 1), не инспек- инспектировать (стратегия 2). Рассмотрим теперь результаты игры на первом шаге: если первый игрок действует, а второй инспектирует, то игра заканчивается на этом шаге выигрышем второго игрока, т. е. первый игрок получит —1; если первый игрок действует, а второй не инспекти- инспектирует, то выигрывает первый игрок 1; если первый игрок не действует, а второй инспектирует, то инспекция оканчивается безрезультатно, и первый игрок в любой другой период выигрывает 1 (второй игрок уже исчерпал свою возможность инспектировать); если первый игрок не действует, а второй не инспектирует, то действия переносятся на второй период, т. е. разыгрывается игра Гп_], у которой количество шагов п — 1 на единицу меньше, чем в первоначальной игре, с учетом первого шага. Итак, полученная игра формализуется с помощью следующей матрицы: г; l в которой первая строка соответствует выигрышам первого игрока, если он применяет свою первую стратегию; вторая строка соответ- 144
ствует ситуации, когда он применит свою вторую стратегию; первый столбец соответствует выигрышам первого игрока, если второй игрок применит свою первую стратегию, второй столбец соответствует ситуа- ситуации, когда второй игрок применит свою вторую стратегию; значение Г„_1 в матрице означает, что надо провести игру Г„_1. Пусть vt — цена игры на t-ы шаге (t = 1,2, ..., п), тогда при п ;> 2 игру с матрицей F.3) можно заменить на игру с матрицей 1 Vn-l ) и для цены игры справедливо следующее рекуррентное соотно- соотношение: /—11 \ vn = цена игры! I. F.5) \ I vn—1 / Очевидно, vn-i <; 1, поэтому игра с матрицей F.4) не имеет седловой точки, и можно найти оптимальные смешанные стратегии х = (хи х2), У — (Уи Уг) соответственно для первого и второго игроков и vn. С этой целью составляем уравнения: — Ч + хг = vn, — yt + у2 = vn, xt + x2 = 1, xr + у„_,х2 = vn, yx + vn-iy2 = vn, yx + y2 = 1. Решение этих уравнений следующее: В игре с одним периодом п = 1 при 2-й стратегии первого игрока он получит 0, и матрица выигрышей первого игрока имеет вид: -1 П о о)ш Эта матрица имеет седловую точку B,1) и цену игры vx = 0. Поэтому, имея щ = 0 как начальное условие, из F.8) можно определить по- последовательно vt (t = 1,2, ..., п), т. е. vn — цену всей л-шаговой игры. Сделав в F.8) подстановку wn = (vn— I)", получим шп=ш„_, L,Wl=—\. F.9) Уравнение F.9) имеет, очевидно, решение wn =— ^. , откуда Оп=я1=^.. F.10) 10 6-2853 145
Подставляя vn-i из F.10) в F.4), получим игру с матрицей f—\ 1 1 ILz п решая которую, находим оптимальные смешанные стратегии для пер- первого игрока: xi = тг+Т , *2 = тг+Т (п для второго игрока: цену игры: v = " n + 1 • Таким образом, на 1-м шаге имеем игру с матрицей г: г, с решением v „ „ Т+Т • Х2 ~ Г+Т • У1 ~ Т+Т ' У2 = 7Г+Т ' цена игры у1 = vn = — ~ л Я+1' Для второго шага имеем игру с матрицей ^ 1 с решением у2 — 1 г2 — гс—1 „2 _ ! . „2 я —1 цена игры у2 = vn-\ = ——— . На t-м шаге имеем игру с матрицей -п-Ч 1 Я —^— I |. с решением j. _ 1 ^ = n — t+l t _ i « _ Xl n — t Л~9 ' 2 „_/_LO>i/l — „ /_L9>~~ n-t + 2 цена игры г/ = vn-t+\ — п1_^^_2 • 146
Следовательно, вероятность применения игроками своих первых стратегий (действий) с каждым шагом игры увеличивается и на по- последнем шаге при t = п становится равной -^-; вероятность применения их вторых стратегий (бездействий) уменьшается с каждым шагом игры и на последнем шаге при t = п становится равной —; цена игры v уменьшается с каждым шагом, приближаясь к 0; чем больше п шагов в игре, тем больше общая цена игры vn и тем ближе она к 1. 6.2. СТОХАСТИЧЕСКИЕ ИГРЫ Разновидностью многошаговых игр являются стохастические игры, в которых имеется несколько игровых позиций, и переход от одной позиции к другой совершается с определенной вероятностью. В прави- правилах игры предусматриваются выигрыши на каждом шаге игры. Таким образом, в стохастической игре возможны возвращения к предшествую- предшествующей позиции и теоретически возможно бесконечное продолжение иг- игры и бесконечно большой выигрыш. Однако, чтобы исключить такую возможность, в правилах игры предусматривается задание таких пе- переходных вероятностей, что бесконечное продолжение игры может быть с вероятностью нуль, а математическое ожидание выигрыша ко- конечно. Стохастическая игра задается набором т игровых элементов или позиций Гк (k = 1, 2, ..., /я); каждый игровой элемент Гк представ- представляется матрицей Ак порядка mk x nk, где mk — число стратегий пер- первого игрока, nk — число стратегий второго игрока. Элементы ац матрицы Ак задаются в следующем виде: где i — номер стратегии первого игрока (i = 1, 2, ..., mk)\ } — номер стратегии второго игрока (/ = 1, 2, ..., nk)\ cf, — выигрыш первого игрока на k-м шаге, если первый игрок применит стратегию i, а вто- второй /; qff — вероятность перехода на позицию Г; с позиции k, если на /г-й позиции первый игрок применил свою стратегию i, а второй — /, причем с вероятностью т 9 = 2<$<1 F.12) осуществляется переход на игровой элемент, а с вероятностью qif = l—q>0 F.13) игра заканчивается. Условие F.12) или F.13) показывает, что вероятность бесконечно- бесконечного продолжения игры равна 0, а математическое ожидание выигрыша конечно. 10* 147
Смешанной стратегией первого игрока называется полный набор вероятностей х? применения его чистых стратегий на t-u шаге игры в игровом элементе Гк (i = 1, 2, ..., mk; k= 1,2, ..., т; t = 1, 2, ...). Очевидно, х? удовлетворяет соотношениям (=1 F.14) Смешанной стратегией второго игрока называется полный набор вероятностей г/f применения его стратегий на t-u шаге игры в игровом элементе Г\ (/ = 1, ..., nk; k = 1, 2, ..., т; t = 1,2, ...). Очевидно, для tjf должны удовлетворяться следующие соотношения: #/' = 1; yf>0. F.15) 'Смешанная стратегия игрока называется стационарной, если вероят- вероятности применения его чистых стратегий не зависят от шага игры t. "Стационарные смешанные стратегии записываются так: A yk. Поскольку средний выигрыш игрока зависит от того, с какой по- позиции начинается игра, то и цена игры зависит от этого. Обозначим через У/, цену игры, если первым шагом игры был игровой элемент Гй. Таким образом определяется вектор цены игры у = (у1; у2, ..., уп). Каждому значению vk (k = 1, 2, .„, т) соответствуют оптимальные смешанные стратегии игроков. Если вектор у существует, то можно заменить игровой элемент Гй на yfe, т. е. получается, что vk = val Bk (k = 1, 2, ... , т), где val Bk означает цену игры с матрицей Bk, а элементами Bk будут т bktl=cki! + ^iqfilvl. F.16) Теперь возникают следующие вопросы: Существует ли вектор у? Единственный ли вектор у? Как найти вектор у и оптимальные стратегии? На эти вопросы дает ответ следующая лемма и теорема. Лемма 6.1. Пусть матрицы А = || а(/1] и В — || Ьц \ порядка т X п, удовлетворяющие условию at, ^.btj + k (i = 1, 2, . .. , m; / = 1,2 n), где k — действительное число, тогда val A < val В + k. 148
Доказательство. Пусть v = val В, у — оптимальная стра- стратегия второго игрока в игре с матрицей В. Тогда для всех i п п п 2 at/У/ < 2 Ьиу, + k Ц у, < v + Л, (=1 (=| /=i так что у дает верхнюю границу проигрыша в игре с матрицей А, кото- которая меньше v + k. Теорема 6.1. Существует в точности один вектор цен игры v = = (vlt v2, v3, ..., vm), удовлетворяющий соотношениям vk = val Bk, (k = \,2 m), F.17) где Bk определена по формуле F.16). Доказательство. Покажем сначала единственность. Пред- Предположим, что существуют два вектора цен v и ш, удовлетворяющих соотношениям F.17). Пусть k — номер компоненты, для которой max |vt — w,| = |vk — wk\, и пусть для определенности vk — wk — с > 0. Определим две мат- матрицы Bk и Dk следующими соотношениями: т ?И = с% + 2 qtfa, d% = el,- + 2 qfiWl. Очевидно, Из леммы 6.1 следует, что val Bk < val Dk + с Поскольку v и w удовлетворяют F.16) и F.17), то vk < wk + С, что противоречит предпосылке vk — wk = с и доказывает единствен- единственность. Докажем существование. Доказательство конструктивное, осно- основанное на построении последовательности векторов, сходящейся к тре- требуемому вектору. Пусть г — номер члена последовательности. Опре- Определим члены последовательности следующими соотношениями: у° = @, 0, ..., 0), F.18) Ь% = с% + 2 qiffi (г = 1, 2, ...), F-19) vrk+l =val Brk = val |^|. F.20) Требуется доказать: 1) последовательность векторов г/ = (v[, ... ..., vrm) сходится; 2) предел этой последовательности удовлетворяет условиям F.16), F.17). Положим т 2<$- F-21) i /=i 149
Поскольку выполняется F.12) и множества индексов к, i, j конечные, то s существует и s< 1. Если положить t, =max|y[+1— vrk\, к то по лемме 6.1. следует, что /, < st,—\ и, следовательно, tT < srt0. Поэтому согласно признаку сходимости Коши последовательность vk должна сходиться к пределу, который обозначим через v. Пусть теперь а>к = ма\Вк = ч/ где Покажем, что wk — vk для всех k. Действительно, на основании сходи- сходимости последовательностей v'k для любого е > 0 можно выбрать г столь большим, чтобы для всех k выполнялись неравенства: |о? — 0* !<-?-, F.22) |0*+1—»*K-f-- F-23) Из F.22) и леммы F.1) следует, что для всех k а это вместе с F.23) означает, что для всех k I Wk — Vk | < Б. Поскольку б произвольно, то vk = wk, что и требовалось доказать. Используя конструктивный способ доказательства теоремы 6.1, можно построить аппроксимацию цен игровых элементов Гк следую- следующим образом: предположим, что игра будет продолжаться как стохас- стохастическая, пока не будет сыграна г раз, а затем ее необходимо заканчи- заканчивать (если она не закончилась естественно раньше), тогда получим усеченную игру на разорение, а не стохастическую игру. Решив ее известными методами, получим вектор цен г/ и оптимальные страте- стратегии в матричных играх с матрицами В'к. Число s, оппределенное фор- формулой F.21), обладает тем свойством, что вероятность продолжения игры более г шагов, какие бы стратегии не использовались, не пре- превосходит / (здесь s в степени г). Поэтому, если г достаточно велико, то s' мало, и мы можем аппроксимировать стохастическую игру игрой, усеченной после г шагов. Оптимальные стратегии хкг и укг усеченных игр сходятся к оптимальным стационарным стратегиям стохастиче- стохастической игры. Пример 6.2. Два игрока разыгрывают сумму 5 единиц, т. е. у них вместе на двоих имеется капитал, состоящий из 5 единиц. У каждого 150
из игроков имеется по две стратегии: 1, 2. Если оба игрока выбирают свои первые стратегии, то второй игрок платит первому 3 единицы; Чсли оба игрока выбирают свои вторые стратегии, то второй игрок пла- платит первому одну единицу; если игроки применяют разные стратегии, то первый игрок платит второму одну единицу. Ни один игрок не может платить больше, чем он имеет. После каждого выбора стра- стратегий и распределения выигрышей с вероятностью 0,5 игра про- продолжается, с вероятностью 0,5 игра заканчивается. Кроме того, иг- игра заканчивается, если один из игроков разорится. Рассмотренная игра может быть представлена четырьмя игровыми элементами Гк (k = 1, 2, 3, 4), где k — величина капитала, которую имеет первый игрок в начале данного шага: Действительно. Рассмотрим, например, первое выражение Г\. У пер- первого игрока есть одна единица: если он выиграет три единицы, то он может разыгрывать 4 единицы с вероятностью 0,5 (этому соответству- соответствует элемент а'ц матрицы Ах игрового элемента Г\); если он проиграет свою единицу, то он разорится, и игра заканчивается (это соответст- соответствует элементам а\2 и а2\ матрицы Ах игрового элемента Г\); если он вы- выигрывает одну единицу, то у него станет 2 единицы капитала, он может продолжать игру Г2 с вероятностью 0,5 (это соответствует элементу а.22 игрового элемента Г:). Аналогично объясняются и остальные игро- игровые элементы Г2, Г3, Г4. Используя для этой игры формулы F.18), F.19), F.20) и в каче- качестве начального приближения и0 = @,0,0, 0), получим 1-е приближе- приближения для Г\, Г2, Г3, Г4, обозначенные соответственно TJ, Гг, Г3, Г\, заменяя которые в матрицах для Г\, Г2, Г3, Г4 значениями цены игры V\ = V2 = Уз = у?, = 0, получим 3 —2 _ 1 -2 -[-2 1 15!
Решая эти игры, найдем вектор v1 = (v\, v\, у3, v\). Например, для цены игры с игровым элементом Г\ получим уравнения: A— х11) =v\, — х11) =v\, где х11 — вероятность применения первым игроком в игровом элемен- элементе Г] своей первой чистой стратегии. Исключим х11 из последних урав- уравнений, тогда у! = -j « 0,33. Аналогично составляем уравнения для игрового элемента Гг и полу- получаем |_2A— Jt21) = y2, — 2x21 + 1 — x21 = у2) где х21 — вероятность применения первым игроком в игровом элемен- элементе Г? своей первой чистой стратегии. Исключая х21 из последних урав- уравнений, получим у2 = —-5 =» —0,13. Аналогично находим у3 =» —0,29; у| = —0,5. Таким образом, нашли вектор у1 = @,33; —0,13; —0,29; -0,5). Подставляя теперь в матрицы для Гь Г2, Г3, Г4 соответственно зна- значения у] , yL уз, v\ вместо Гь Г2, Г3, Г4, получим матрицы игр для второй итерации:/ /О 7К 1\ / Г> О\ р2 1^,10 — 1\ р2 / о ^\ 1 \— 1 0.94У' 2~\— 2 0,85/' Г2 = / 1 -2,06 -1,84 0,75/ \-2,06 1 Решая игры с матрицами, соответствующими этим игровым элементам, соответственно получим вектор цены игры для второй итерации у2 = @,26; —0,19; —0,29; —0,53). Проведение аналогично третьей и четвертой итерации дает ^ = @,26; —0,19; —0,31; —0,55), у* =@,26; —0,19; —0,32; —0,55). Итак, соответственные компоненты векторов v3, у4 отличаются друг от друга вторым десятичным знаком, следовательно, можно считать, что вектор цены игры у4 получен с точностью до двух десятичных зна- знаков. Если такая точность нас удовлетворяет, то вычисляем оптималь- оптимальные смешанные стратегии, соответствующие этой четвертой итерации, решая игры с матрицами, которые получены из Г^ Г2, Г3, Г4 путем подстановки в правые части этих игровых элементов вместо Гь Г2, Г3, 152
Г4 соответственно значения v\, v\, v\, v\, т. е. (о 79 i\ / 3 о — 1 0,91 j' 8 \— 2 0,84 2 -1,87V / 1 -2,1 —1,87 0,72/ \—2,1 1 Решая отдельно игры с этими матрицами, соответственно получим *i = @,34; 0,66), у1 = @,34; 0,66), х2 = @,38; 0,62), 0» = @,38; 0,62), х? = @,40; 0,60), у3 = @,40; 0,60), х* = @,50; 0,50), if = @,50; 0,50). Эти векторы дают оптимальные стационарные смешанные стратегии игроков в стохастической игре, т. е. находясь в игровом элементе 1\ (имея капитал одну единицу), игроки должны применить свои стра- стратегии согласно векторам х1 и у1, и средний выигрыш составит vt = = 0,26; находясь в игровом элементе Г2 (имея капитал 2 единицы), игроки должны применить свои стратегии согласно векторам х2, у2, и средний выигрыш составит у2 = —0,19; находясь в игровом элемен- элементе Г, (имея капитал 3 единицы), игроки должны применять свои стра- стратегии согласно векторам х3, у3, и средний выигрыш составит v3 = = —0,32; находясь в игровом элементе Г4 (имея капитал 4 единицы), игроки должны применять свои стратегии согласно векторам х*, у*, и средний выигрыш составит у4 = —0,55, т. е. тогда на каждом шаге (игровом элементе) будет выигрыш в среднем соответствовать вектору цены игры у4 = @,26; —0,19; —0,32; —0,55). 6.3. ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ Точное определение дифференциальной игры следующее: 1) игровой элемент представляется в виде вектора х из веществен- вещественных чисел х = (хг, хг, ..., хп), называемых переменными состояниями (х зависит от времени f); 2) в каждый момент t первый игрок выбирает управляющий век- вектор— чистую стратегию и= (иг, и2, ..., ир), компоненты которого зависят от времени t и ограничены отрезками а,- < щ < bt (i = 1,2, ... ..., р); аналогично второй игрок в момент времени t выбирает управляющий вектор — чистую стратегию w = (wl, w2, ...,wq), ком- компоненты которого зависят от времени t и ограничены отрезками с,.<ш;<^ (/ = 1, 2, .. . , <7); 3) векторы х, и, w удовлетворяют системе дифференциальных урав- уравнений -4*<- = Д(х, и, w) (i = l, 2, ..., п), F.24) где —?¦ правая производная xt no t, a fc — некоторые заданные функции от переменных х, и, w; 153
4) выбор управляющих воздействий и, w в любой момент t приводит к выбору вектора х, удовлетворяющего уравнению F.24), игра прово- проводится в промежуток времени 0 < t < Т до тех пор, пока точка х до- достигнет границы С некоторого замкнутого множества А; эта граница называется терминальной поверхностью; 5) выигрыш первого игрока определяется как сумма т Л* = J tf (*i. ... , xn)dt + G (х*), F.25) о где К. (хи ..., хп) — плотность выигрыша первого игрока в зависимос- зависимости от состояния игрового элемента х, функция G (х*) — это выигрыш, который получает первый игрок за счет достижения терминальной поверхности С, точка х* принадлежит терминальной поверхности С. Экономическая интерпретация дифференциальной игры. Дей- Действующее предприятие оценивает свою деятельность посредством опре- определенных показателей: объем выпускаемой продукции, прибыль, себе- себестоимость, рентабельность, заработная плата и т. д. Эти показатели характеризуют состояние системы (предприятия) и образуют игровой элемент х. Руководство предприятия может применять управляющие воздействия: нормы выработки, систему премиальных и т. д. Эти пока- показатели образуют вектор управления и. Внешняя среда может влиять на ход производства, применяя свои управляющие воздействия: постав- поставки сырья, оборудования и т. д., которые образуют вектор w. В зависи- зависимости от достигнутого уровня показателей х предприятие получает удельные отчисления для своего развития и оплаты труда в виде функ- функции К. (*!, хг, ..., хп). Кроме того, перевыполнив план, т. е. достигнув определенных значений компонент вектора х (эти значения образуют терминальную поверхность С), предприятие дополнительно получаст оплату G (х*). При этом параметры предприятия удовлетворяют урав- уравнениям функционирования F.24). Предприятие можно рассматривать в качестве первого игрока, который стремится максимально увеличить свои доходы г М= за счет выбора своих управленческих решений и, т. е. получить maxAf и при условиях F.24). С другой стороны, внешнюю среду можно рассматривать как против- противника и учитывать применение им самых неблагоприятных для пред- предприятия действий, т. е. внешняя среда может рассматриваться как вто- второй игрок, который желает, чтобы выигрыш первого игрока был возмож- возможно меньшим, т. е. min max M w и при условиях F.24). 154
Итак, получаем игру двух игроков с нулевой суммой, в которой на- надо найти такие и и w, при которых достигается равенство min max Л! = maxmin M = v, F.26) w и и w где v = v (х) — цена игры. Как уже отмечалось ранее, соотношение F.26) равносильно сущест- существованию седловой точки в чистых или смешанных стратегиях. Вопросы существования решения для дифференциальных игр связаны с сущест- существованием решений уравнений F.24) и являются сложными. Мы будем излагать метод решения дифференциальной игры в предположении, что решение существует. Метод решения дифференциальных, как и в случае дискретных многошаговых игр, состоит в замене игровых элементов их ценами с последующим решением рекуррентных соотношений для цен. Для дифференциальных игр эти соотношения — уравнения F.24). Пусть v (х) = v (xlt ..., хп) — цена игры, начинающейся в точке х = (хи ..., хп). Для определенности предположим, что игра начина- начинается в момент t = О, первый игрок выбирает управление и1, второй — w1. Рассмотрим развитие игры за малый интервал времени At, в течение которого вектор х получит приращение Ах = (Axlt ..., Ахп), где Axt = ft(x, u\ wl)At, F.27) общий интегральный выигрыш приближенно равен К (*ь хъ .... хп) At, F.28) вектор элемента состояния будет х+Ьх={хг + Ахх хп+ Ахп]. F.29) Если рассматривать теперь развитие игры с достигнутой точки F.29) так, что используются оптимальные стратегии, то общий выигрыш первого игрока будет равен цене игры и составит v (х) = К (*! xn)At + v(x + Ax). F.30) При малых At приращения Axt также малы, и поэтому можно счи- считать существенным только линейную часть приращения v(x), т. е. Заменяя Ах1 по формуле F.27) в последнем соотношении, получим U*. и1, и»1) А*- Подставляя v (х + Ах) из F.30) и Ах, из F.27) в последнее соотно- соотношение, получим v(x)-K (х) At = v(x) + ^ ^L A (x, u\ ш1) At, 1=1 155
или К(з откуда при ht -*¦ О получим п Уравнение F.31) эквивалентно равенству F.26) при условиях F.24), т. е. эквивалентно соотношению {п ) к(*) + yi-^rLft(*. и> w)\ = °- Уравнение F.31) называется основным уравнением. Теперь по аналогии с дискретными многошаговыми играми для по- получения уравнения траекторий можно двигаться назад вдоль траекто- траекторий, начиная с терминальной поверхности. С этой целью рассмотрим уравнение F.31). Дифференцируя левую часть F.31) по xjt получим сумму членов -^-+У^ gL, F.32) (=i 2" ~J^—f., F.33) (=1 dv р \ dti^ ,n пл\ которая должна равняться нулю (производной от правой части). Рассмотрим выражение F.34). Если оптимальные значения и1 нахо- Дятся внутри интервала (at < и, <С ЬХ то F.34) равно нулю за счет того, что выполняется F.31). Если оптимальные значения и1 находят- находятся на границе (и\ = at или и] = bt), то и выражение F.34) также равно нулю, т. е. выражение F.34) при опти- оптимальных управлениях равно нулю. Аналогично рассуждая, получаем, что выражение F.35) также рав- равно нулю. Заменяя в F.33) значения ft из уравнения F.25), получим 2d2v с yi d2v dxi d dv dXjdXj '' Zi dxidx,- dt dt dx/ ' 156
Введем обозначения тогда равная нулю сумма выражений F.32), F.33), F.34), F.35) примет вид: -^- = - Г/С, (х, ц\ w1) + 2 vft! (х, и\ w1)]. F.36) Уравнения F.36) совместно с системой F.24) называются уравнениями траекторий дифференциальной игры. Эти 2п уравнений вместе со значением функции G в качестве конечных условий являются фор- формальным решением игры. Пример 6.3. Состояние игры описывается двумя параметрами х и у, управляющие параметры каждого игрока по одному — и >¦ О, w >> 0, уравнения состояний следующие: -?- = у cos и + (х + у) cos w, ~- = у sin и + (х + у) sin w. Терминальная поверхность — ось Ох, выигрыш равен 7 2 J' где х0 — абсцисса точки, в которой заканчивается партия. Основное уравнение F.31) для этой игры имеет вид: у (ух cos u1 + f2 sin и1) + (х + у) (ух cos w1 + у2 sin да1) = — 1. F.37) Оптимальные значения и1 и xsP- находятся из условий максимума левой части F.37) max min [у (vt cos и + v2 sin и) + (x -f- у) (ух cos ш + y2 sin ш)]. F.38) и w Очевидно, от и зависит первое слагаемое F.38), поэтому максимум левой части достигается, когда cosh1 =—у=ч sinu1^——^ , F.39) Т/99 Т/9 0 Vrf 4 V 4 а минимум по w достигается за счет второго слагаемого при cos w1 = — cos и1, sin w1 = — sin и1. F.40) Подставив эти значения в F.37), получим VJ+?, = ±. F.41) Выражения для производных следующие: /п = cos w, f12 = cos и + cos w, fa = sin w, f22 = sin u + sin w. 157
Подставляя сюда значения из F.39) и F.40), получим 1 +  1 + у2 1 +  E.42) • fn = ' /и = — = 0. Уравнения траекторий F.36) имеют вид: Подставляя F.42) в F.43) и в F.24), получим dvi _ _L J^_ _ л J?L x2v dy - r*v dt ~ x ' dt ~u' dt ~ XVl' ~dT XVv Поскольку решения надо начинать с терминальной поверхности, то введем обратное время т = Т — in получим уравнения dvi L dv* - о -^_ - x*v -4L- r*v dx ~ х ' dx ~и' dx ~xvi' d% ~xvv Введем следующие начальные условия при т = 0: Из этих условий следует, что 0 < х0 < 2. Дифференцируя —р- по т, получим dt2 ~ л:2 " ~~dT ~ хг ' х Vl = Wl> т. е. Решением этого уравнения является Vl = cxi + откуда с2е~х — < Используя начальные условия, получим уравнения для определения сх и с2 в следующем виде: Решая эту систему уравнений и полагая х0 = а, получим __ а2—4 _ 4 +а2 158
1аким образом, имеем 8а х = —о2)ет> F.44) Вторую координату у можно найти из уравнения dy _ v2 где у2 = const, так как —р- = 0, a v1 из F.44) можно найти как функ- функцию от х. Тогда dy х dx -i/ 16a2 ' V 16 —a* * откуда Гбо2 Г 16-а* -* • Учитывая начальное условие найдем с3 и получим У= — или „ , / о3 \2 16а2 /с ,с, х +{У г —-Гк—м". F.45) \3 1^16 —а4/ 16 —а* ' т. е. оптимальная траектория — это окружность с центром на оси Оу. Цена игры определяется так: из первого уравнения F.44) опреде- определяем ех в зависимости от х и подставляем во второе уравнение F.44), затем второе уравнение интегрируем по х и снова вместо х подстав- подставляем выражение через т, тогда получим _ _1_ °2 Оптимальные стратегии игроков: первому — следовать касательной вверх к окружности F.45), а второму — вниз к оси Ох. Контрольные вопросы и задания к главе 6 1. Что называется игрой на разорение? 2. Как решаются игры на разорение? 3. Что называется стохастической игрой? 4. Как решается стохастическая игра? 5. Сформулируйте и докажите теорему о существовании и единственности векто- вектора цен в стохастической игре. 159
6. Что называется дифференциальной игрой? 7. Что такое основное уравнение для дифференциальной игры и проведите вывод этого уравнения? 8. Что такое уравнение траекторий, и сделайте вывод их уравнений для диффе- дифференциальной игры. 9. Что называется решением дифференциальной игры? 10.. Приведите пример конфликтной ситуации в экономике, которая формали- формализуется в виде игры на разорение. 11. Приведите пример конфликтной ситуации в экономике, которая формали- формализуется в виде стохастической игры. 12. Приведите пример конфликтной ситуации в экономике, которая формализу- формализуется в виде дифференциальной игры. 13. В чем состоит трудность решения дифференциальных игр? 14. Рассмотрим дифференциальную игру на плоскости у > О с терминальной поверхностью у = О, терминальным выигрышем Уравнения траектории имеют вид: Ограничения на управления следующие: 0< «< 1, 0<ю< 1. Показать, что оптимальные траектории образуют семейство кривых, начинающихся на оси Оу. Что надо делать в точке на оси Оу (где встречаются оптимальные пути)? 15. Дифференциальная игра называется игрой качества, если она имеет только два возможных исхода, например, выиграть или проиграть (для первого игрока). Таким образом, можно представить себе, что терминальная поверхность разделена [п — 2)-мерным многообразием на два множества А а В. Первый игрок пытается закончить игру в А, второй — в В. Вообще говоря, про- пространство игры Rn будет так разбито на две части, называемые выигрывающей зоной (WZ) и проигрывающей зоной (LZ), что из точки в WZ первый игрок может окончить игру в Л; а из точки в LZ второй игрок может окончить игру в В. Рассмотреть игру, когда игроки управляют соответственно движением точек Р и Е в верхней полуплос- полуплоскости пространства /?2 (двух измерений). Эти точки могут двигаться в любом направ- направлении со скоростями соответственно 1 и w < 1. Игра заканчивается выигрышем пер- первого игрока, как только расстояние РЕ становится меньше d; она заканчивается про- проигрышем первого игрока, как только Е достигнет прямой у = 0. Вывести уравнения траекторий этой игры, если (хъ yi) и (x%, у%) — координаты точек соответственно Р и Е, а и и w — управления. Решить эту игру. ГЛАВА 7. ИГРЫ п ЛИЦ Реальные конфликтные ситуации часто приводят к формализации в виде игры с количеством игроков больше двух, например, п игроков. Такие игры называются играми п лиц (игроков). Поскольку в них участвуют не менее трех игроков (участников), то возможны два ва- варианта правил: 1) игрокам не разрешается вступать в соглашения, 2) игрокам разрешается вступать в соглашения. В первом случае каждый игрок должен самостоятельно и независимо от желания других выбирать свои стратегии с целью максимального увеличения своего выигрыша, т. е. игрокам не разрешается образо- образовывать коалиции. Поэтому такая игра называется бескоалиционной. 160
Во втором случае некоторые игроки могут по соглашению объединять- объединяться (кооперироваться) в действиях против других игроков, образовы- образовывать коалиции с целью максимизации выигрыша коалиции. Такие иг- игры называются коалиционными, или кооперативными. Методы исследования игр п лиц зависят от возможностей образовы- вания или запрета коалиций. 7.1. БЕСКОАЛИЦИОННЫЕ ИГРЫ Пусть в бескоалиционной игре п лиц каждому игроку присвоен но- номер 1, 2,..., л. Обозначим через /множество номеров игроков 1, 2, ...п. Будем считать, что каждый игрок имеет конечное число чистых стра- стратегий. Игра состоит в выборе каждым игроком одной из своих страте- стратегий, а затем происходит распределение выигрышей согласно прави- правилам игры. Пусть S; есть стратегия, выбранная t'-м игроком, тогда набор стратегий s = (sl7 s2 s,, ..., sn) называется системой стратегий, или ситуацией. Множество всех ситуаций обозначим через S, которое равно декартовому произведению множеств стратегий игроков St (i = 1,..., п), т. е. Каждой ситуации соответствуют выигрыши игроков. Пусть Я, (s) — выигрыш 1-го игрока в ситуации s (i = 1, 2, ..., п). Имея введенные обозначения, можно точно сформулировать опре- определение бескоалиционной игры. Бескоалиционной игрой называется система Г={/, {S()l?t, {//,},?,}, G.1) в которой S и St (i ? I) являются множествами, Ht — вещественные функции на множестве S. Бескоалиционная игра G.1) называется игрой с постоянной суммой, если существует такое постоянное с, что H1(s) + H2(s)+ ... +Hn(s) = c для всех s?S. В частности, если с — 0, то игра называется бескоалиционной игрой с нулевой суммой. Введем теперь понятие приемлемой ситуации для игрока. Пусть име- имеется некоторая ситуация s = (slt...., s:_i, s(, s/+i, ..., sn) в игре Г, а s\ — некоторая стратегия t-го игрока. Через s [| s\ обозначим ситуа- ситуацию, которая отличается от s лишь тем, что в s стратегия st заменена на стратегию s\, т. е. S II si = (Slt . . . , Sj_i, S(, Si+U ..., Sn). Ситуация s называется приемлемой для 1-го игрока, если для любой его стратегии s< выполняется неравенство /7, (s || s|)</7, (s). G.2) Другими словами, неравенство G.2) показывает, что выигрыш t-ro игро- игрока в приемлемой ситуации s не меньше, чем при других ситуациях, П 6-2853 161
полученных из s путем замены в ней стратегии st на любую другую стратегию Si. Если ситуация s приемлема для всех игроков, то она называется ситуацией равновесия. Другими словами, если неравенства G.2) вы- выполняются для всех i = 1, 2, ..., п, то s есть ситуация равновесия. Из определения ситуации равновесия следует, что в бескоалицион- бескоалиционной игре ни один игрок не заинтересован в отклонении от ситуации равновесия. Так стратегия 1-го игрока в бескоалиционной игре, которая вхо- входит в ситуацию равновесия, называется его равновесной стратегией. Решением бескоалиционной игры считается ситуация равновесия. Найти решение бескоалиционной игры — это значит найти ситуацию равновесия. Две бескоалиционные игры П={/, {St}ieI, {H]}i?/}, в которых функции выигрышей линейно зависимы Н\ (s) = kH\ (s) + ct (i = 1, 2 п), G.3) где k > 0, с{ — вещественное, а множества игроков и стратегий оди- одинаковы, называются стратегически эквивалентными. Отношение эк- эквивалентности будем обозначать так: Г1 ~ Г2. Понятие стратегической эквивалентности помогает в исследовании бескоалиционных игр. Это- Этому весьма способствует следующая теорема. Теорема 7.1. Стратегически эквивалентные игры имеют одни и те же ситуации равновесия. Доказательство. Пусть Г1 ~ Г2, s* — ситуация равнове- равновесия в игре Г1. Это значит, что для всех i ? I и st ? St справедливы не- неравенства Используя равенства G.3), получим Ш\ (s* || s?) + сi < Ш\ (s*) + ct, или Н\(s* у ^) < Н\ (s*) (i = 1, 2 n; st?S,), т. e. s* — ситуация равновесия в Г2, что и требовалось доказать. Основываясь на теореме G.1), можно сказать, что, зная решение одной из стратегических эквивалентных бескоалиционных игр, решение другой игры найти просто: ситуация равновесия та же, а выигрыши определяются формулой G.3). Ситуации равновесия в чистых стратегиях для бескоалиционных игр аналогичны седловой точке в чистых стратегиях для игр двух игро- игроков с нулевой суммой. Однако такие ситуации равновесия встреча- встречаются не часто. В большинстве бескоалиционных игр они отсутствуют, и по аналогии с играми двух игроков используются смешанные страте- 162
гии игроков и вводится понятие смешанного расширения бескоали- бескоалиционной игры в следующем виде. Пусть аг — произвольная смешанная стратегия i-ro игрока (i = = 1, 2, ..., п) в бескоалиционной игре, т. е. а,— полный набор ве- вероятностей применения его чистых стратегий st/, где / — номер чистой стратегии i-ro игрока. Через а; (s() обозначим вероятность примене- применения чистой стратегии s, = si,- игрока i (i = 1, 2, ..., п). Множество всех смешанных стратегий 1-го игрока обозначим через Z,-. В бескоалиционной игре каждый игрок применяет свои чистые стратегии независимо от решения других игроков, поэтому вероят- вероятность сг (s) появления ситуации s равна произведению вероятностей применения чистых стратегий st, образующих ситуацию s, т. е. о (s) = о (Si, ... , sn)=o1 (s,) ... оп (sn). Вероятность a (s) называется ситуацией игры Г в смешанных стратегиях. Выигрыш каждого игрока в бескоалиционной игре теперь понимается как средний его выигрыш в зависимости от вероятност- ных распределений a (s), т. е. средний выигрыш i-ro игрока равен Hi(o)=I,Hl(s)a(s)= 2 ... 2 //,(%, ...,sJa(Sl sn)< *es s.65, $nesn G.4) Смешанным расширением игры Г называется игра в которой множество игроков есть /, множество стратегий г-го игрока ecTbZ,, а функция выигрышей определяется равенством G.4). Ситуацией равновесия смешанного расширения Г* игры Г назы- называется ситуация равновесия игры Г в смешанных стратегиях, т. е. ситуация а* является ситуацией равновесия в игре Г*, если для лю- любого игрока i (i = 1, 2,..., п) и любой ее смешанной стратегии а,- име- имеет место неравенство Н, (а* || а,) < Я, (о*). G.5) Теперь необходимо выяснить, когда ^существуют решения бескоали- бескоалиционных игр и как их находить. На первый вопрос отвечает следую- следующая теорема. Теорема 7.2. В каждой бескоалиционной игре существует хотя бы одна точка равновесия в смешанных или чистых стратегиях. Доказательство. Очевидно, множество всех ситуаций о образует замкнутое выпуклое и ограниченное множество, которое обо- обозначим через Z. Пусть функция Ф«7 (a) = max {0, Ht (а || *,) - Ht (a)}, G.6) где а — произвольная ситуация, &/ — чистая /-я стратегия i-ro игро- игрока. Очевидно, ф(-/ (а) > 0 и показывает только увеличение выигрыша t-ro игрока за счет замены его стратегии а,- ? а на некоторую чистую стратегию s//. и* 163
Введем числа у{, по формуле уч = V+y*'1™ " G'7) Очевидно, ytf > 0 и поэтому Yt/ можно понимать как вероятности соответствующих чистых стратегий s,, игрока i при фиксированных а и i, набор y«/ Для каждо- каждого i можно понимать как смешанную стратегию t-го игрока, или как не- некоторую ситуацию в игре Г. Эта ситуация является функцией f (а) от исходной ситуации а. Функция / (а) преобрязует множество Z в се- себя. Кроме того, / (а) непрерывная по а, так как каждая компонента ситуации, являющейся значением /, есть дробь вида G.7) — непре- непрерывная функция. Поэтому на основании теоремы Брауэра о неподвиж- неподвижной точке, согласно которой непрерывное преобразование / выпуклого подмножества конечномерного пространства в себя должно иметь хотя бы одну неподвижную точку а0, такую, что / (а0) = а0. Это значит, что i Для любого игрока i существует такая его чистая стратегия Sflj, что а° (Sio) > 0 и фш (о°) = 0. Для этой стратегии равенство G.8) будет иметь вид: о =: ¦ Откуда получаем а° (si0) Ц ф, (а0) = 0. Поскольку о° (s/o) > 0, то из последнего равенства следует, что Поскольку ф,-; (о0) > 0, то ф(;- (а0) = 0 при всех /. Следовательно, в равенстве G.6) под знаком максимума нет положительных чисел, т. е. Н{ (а01| sn) <?H{(&>) (i = 1, 2, ... , п). G.9) Последнее неравенство справедливо для всех i и любой чистой страте- стратегии Si/. 164
Умножим левую и правую часть неравенства G.9) на произвольную смешанную стратегию о( (s<) и просуммируем по всем s,, тогда 2 Ht (о° || */) ot (s(.) < 2 о, (s^) Яг (о0). G.10) Поскольку Я, (о0) не зависит от s,, то в G.10) справа его можно вы- вынести за знак суммы 2 о, (s,) Я, (о») _ fl( (о0) 2 о,- (s;). Поскольку о, (s() — полный набор вероятностей, то 2 o,(S|)=i, тогда в G.10) величина справа равна Я, (о0). Выражение слева соглас- согласно G.4) и G.2) равно Я, (о" || о,). Таким образом, из G.10.) получа- получаем т. е. а0 есть ситуация равновесия в смешанных стратегиях для Г, что и требовалось доказать. Отметим теперь некоторые свойства ситуаций равновесия в виде теорем. Теорема 7.3. Для того чтобы ситуация а0 в игре была ситуацией равновесия этой игры (в смешанных стратегиях), необходимо и доста- достаточно, чтобы для любого i и любой чистой стратегии s, выполнялось неравенство Я,(а0Ц8(.)<Я,(ст0). Доказательство этой теоремы можно найти в [5]. Эта теорема показывает, что если в ситуации равновесия о0 заменить смешанную стратегию на чистую, то средний выигрыш игрока не уве- увеличится. И наоборот, если для некоторой ситуации о0 средний выигрыш каждого игрока будет не меньше, чем средний выигрыш для ситуации ст°, у которой сделана замена смешанной стратегии каждого игрока, вхо- входящей в о0, на его любую чистую стратегию, то о0 является ситуацией равновесия. Теорема 7.4. Если стратегия ст,- игрока i входит в ситуацию рав- равновесия а и для его чистой стратегии Sw имеет место строгое неравенст- неравенство H{(a\\si0)<Hi(a), то а{ (sl0) = 0. Доказательство. Предположим, что at ($о) > 0. Тогда Я,- (в II Si0) О; (ЗД) < Я; (О) О, (Sfl)) . G.11) Для всех чистых стратегий s, игрока i, отличных от s,0> по определе- определению ситуации равновесия должно быть Я(-(а||5()<Я(.(а), и тем самым 165
Суммируя по s, Ф s@ в левой и правой части последнего неравенства и прибавляя G.11), получим S Я, (а || s,) а, (s,) < 2 Ht (о) <*t &), откуда, замечая, что Яг (а) не зависит от s,- и получим явное противоречие в виде неравенства Ht (a) < Ht (a), что доказывает теорему. Из теоремы 7.4 следует также, что для всякой существенной стра- стратегии sio игрока i, т. е. такой, что для нее a (s@) > 0 в ситуации равно- равновесия а Я, (а || sia) = Н, (а). Эти свойства ситуаций равновесия аналогичны свойствам оптималь- оптимальных стратегий матричных игр двух игроков с нулевой суммой. Одна- Однако не все свойства матричных игр игроков с нулевой суммой имеют аналогии в бескоалиционных играх, и это обстоятельство сильно за- затрудняет нахождение ситуаций равновесия. В настоящее время еще не разработаны общие способы нахождения решения бескоалиционных игр п игроков. Однако можно выделить отдельные классы бескоали- бескоалиционных игр, для которых имеются приемлемые методы решения. Значительные упрощения при решении конечных бескоалицион- бескоалиционных игр происходят в случаях, когда в игре имеется только две стра- стратегии у каждого игрока или имеются только два игрока (биматрич- ные игры). Пусть в бескоалиционной игре п игроков каждый из них имеет две стратегии st = {1, 2}, тогда смешанная стратегия 1-го игрока опи- описывается вероятностью х{ применения его первой стратегии (вероят- (вероятность применения его второй стратегии равна 1 — х{), т. е. множество Z[ смешанных стратегий 1-го игрока есть сегмент [0, 1J, а множество всех ситуаций в смешанных стратегиях — это л-мерный единичный куб. Ситуации в чистых стратегиях будут соответствовать вершинам этого куба, и каждая вершина куба соответствует последовательности п чисел единиц или двоек. Рассмотрим множество всех ситуаций, приемлемых для каждого игрока. Пусть К1 — произвольное множество игроков, не содержа- содержащее t'-го игрока, (а(, К1) — ситуация, в которой 1-й игрок выбирает свою чистую стратегию, игроки из К! выбирают свою первую стратегию, а все остальные — вторую; а — произвольная ситуация в смешанных стратегиях; xt — вероятность применения /-м игроком (/ Ф i) своей первой стратегии, тогда х, П A— х,), l i?KL, I Ф I (о) = xt 2 Ht A, К1) о (К1) + A - *,) 2 Н{ B, К') о (К1); к1 к1 166
ситуация а для ?-го игрока приемлема, если Н{ (а || а,)< Н{ (а) а, = 1, 2 или 2 Я, (а„ /Г) а (К') < х, 2 /7, A, /<*) а (*') + A - *«¦) 2 Я, B, К1) о (К1). К1 К' К1 Полагая в последнем неравенстве аг = 1, а2 = 2 и произведя некото- некоторые упрощения, получим A _ Х{) ^ Я, A, К1) о (К{) < A - х{) S Я, B, К<) а (К), к1 к' ** 2 Я* A - **) о (К) < *< 2 Я, B, /С') а (*'). к1 к1 При д;( = 0 второе неравенство выполняется всегда, а первое имеет вид 2 Яг A, К1) о (К') < 2 Ht B, /С*) а (К). К* К' При xt = 1 первое неравенство выполняется всегда, а второе имеет тот же вид. Пусть А{ — множество комбинаций стратегий всех игроков, кро- кроме t-ro, для ситуации вида A, о*), где а' ? Л' — последнее неравен- неравенство превращается в строгое неравенство; В1 — множество таких комбинаций стратегий этих же игроков, при которых последнее нера- неравенство превращается в равенство; С — множество таких комбина- комбинаций стратегий этих же игроков, при которых последнее неравенство не выполняется. Тогда для 1-го игрока будут приемлемы ситуации вида: A, а') где ol?Al, B, а'), где al^C, (х{, а') при любых xt?[Q, 1] и о{?В\ Пример 7.1. Охрана окружающей среды. Имеется 3 предприятия, которые используют реку для своих технических надобностей. Каж- Каждое предприятие имеет две возможности: построить очистные соору- сооружения A-я стратегия), сбрасывать в реку отработанную воду без очист- очистки B-я стратегия). Если неочищенную воду сбрасывают в реку не более одного предприятия, то вода в реке остается пригодной для использо- использования, и предприятия убытки не несут. Если неочищенную воду сбра- сбрасывают в реку не менее двух предприятий, то пользоваться речной водой становится невозможно, и каждое предприятие несет убытки в размере 3 единиц независимо от того, строили они очистные сооружения или нет. Стоимость очистных сооружений оценивается в 1 единицу. Куб ситуаций изображен на рис. 7.1. Каждая его вершина соответ- соответствует набору чистых стратегий игроков (по 1-й оси — стратегии пер- первого игрока, по 2-й — второго, по 3-й ¦— третьего, внизу обозначен набор выигрышей последовательно первого, второго, третьего игроков в зависимости от выбранных стратегий,, вверху в скобках приведены значения стратегий соответственно первого, второго и третьего игро- игроков). Например, первая вершина характеризуется набором первых 167
стратегий A, 1, 1) игроков и соответственно убытками — 1, —1, —1 (см. рис. 7.1). Неравенство, которому должны удовлетворять приемлемые сме- смешанные стратегии хи хг, х3 соответственно первого, второго, третьего 3 0,1,2) '1.-1,0 A.2,2) / A,2, 0 -1,0,-1/ 2 / V B 2,2 -3,-4,-* U,1,1) -1,-1,-1 И 12,1,2) -з,-*,-з B, 1, 1) 0,-1,-1 П2, 2.1) -3,-3.-* Рис. 7.1 Рис 7.2. игроков, например, для третьего игрока (i = 3), имеет вид: — хгх^ — хл{\ — х2) — A — ^)^ — 4 A — xv)(l — х,) < Зх, A — хг) — 3 A — хг) х% — 3 A - xt) A - хг). После упрощений оно принимает вид: Рис. 7.3 Рис. 7.4 х, Множества А3, В3, С3 изображены на рис. 7.2 без индексов. Множест- Множество В состоит из двух дуг гиперболы A — Зд:J A — Зх2) = Зл:л, а множество всех приемлемых ситуаций для третьего игрока изображе- изображено на рис. 7.3. 168
Аналогично составляются множества ситуаций, приемлемых для первого и второго игроков. Пересечение множеств всех приемлемых ситуаций всех игроков дает множество ситуаций равновесия в данной игре (см. рис. 7.4). На этом рисунке изображены три ситуации ррвно- весия: @'°'0LlTW* ТТ7Г' 1ГУГР 3-/3 ' 3 —/3 ' 3 — При первой приемлемой ситуации каждое предприятие выигрывает Н = — 3, т. е. несет убытки в 3 единицы. При второй приемлемой си- ситуации каждое предприятие выигрывает Н = — 2,8, т. е. несет убы- убыток 2,8 единиц. При третьей приемлемой ситуации каждое предприя- предприятие выигрывает Я = — 1,1, т. е. несет убыток 1,1 единиц. 7.2. БИМАТРИЧНЫЕ ИГРЫ В конечной бескоалиционной игре двух игроков каждый из них де- делает один ход — выбирает одну стратегию из имеющегося у него ко- конечного числа стратегий, и после этого он получает свой выигрыш со- согласно определенным для каждого из них матрицам выигрышей. Дру- Другими словами, конечная бескоалиционная игра двух игроков полно- полностью определяется двумя матрицами выигрышей для двух игроков. Поэтому такие игры называются биматричными. Пусть у первого иг- игрока имеется т стратегий, i = 1, 2,..., m, у второго игрока имеется п стратегий,/ = 1, 2,..., п. Выигрыши первого и второго игроков соот- соответственно задаются матрицами А = | аа ... ац ... aln I, В = I Ьц ... btj .. . Ьт J. у ат\ ... ат/ ... йтп ' \Ът\ ... bml ... b,r, Umn Будем считать по-прежнему полный набор вероятностей х = {хг, ... ..., хт) применения первым игроком своих чистых стратегий смешанной стратегией первого игрока, и у = (уъ ..., уп) — смешанной стратеги- стратегией второго игрока. Тогда средние выигрыши первого и второго игроков соответственно равны m n нх(А, м)=2И' m n Н2(В, х, !/) = G.12) Ситуация равновесия для биматричной игры составляет пару (х, у) таких смешанных стратегий первого и второго игроков, которые 169
удовлетворяют неравенствам: 2 ааУ, m m n 2 М« < 2 2 Viff/ (/ = 1, 2, ... , л). G.14) i=l i=l /=1 Для определения ситуаций равновесия необходимо решить систему неравенств G.13) и G.14) относительно неизвестных х = (хъ ..., хт), У = (Уъ ¦••> Уп) ПРИ УСЛОВИЯХ 2 *i= 1. 2 У{ = 1> ,=i /=i Поскольку получение такого решения, т. е. определение всех ситуа- ситуаций равновесия для произвольных биматричных игр, является слож- сложным и громоздким, мы рассмотрим более простой случай нахождения ситуаций равновесия для биматричных игр, когда каждый игрок име- имеет две чистые стратегии. В этом случае матрицы А и В равны: Смешанные стратегии для первого и второго игроков имеют вид: (х, 1 — х), (у, 1 — у), 0 < х < 1, 0 < у < 1, а средние выигрыши Н1 (Л, д;, у) = апху + а12х (l—y) + a21(l—x)y + a22 A — л;) A — у) = = («и — Oia — «at + «22) ^ + (ам — а22) х + (а21 — а22) у + а22, Я2 (В, х, у) = *цдс^ + Ьпх {\—у)+ b21 (l — x)y + bM(l — x)(l—y) = = Фп - Ьа — Ь21 + Ь22) ху + фи — Ь22) х + ф21 — Ь22) у + Ь22. Условия G.13) и G.14) для ситуаций равновесия имеют вид: «12 A — У) < Нг (А, х, у) | а21у + а22A — у)^.Н1 (А, х, у) j ' bllX + bu A - х) < Я2 E, ^, у) | Г Проведя простые алгебраические преобразования в G.15), получим (ап — а12 — а21 + а22)A—х)у+ {а1г —а22) {\ — х) <0, (й1х — а12 — а21 + а22) ху + (fl^ — ^ х > 0. С целью упрощения запиеи в последних неравенствах положим ai = flii — «is — «2i + «22. (h = a22 — an, тогда получим G.15) в следующем виде: ^A— х)у— Ml— *)<0, G.17) сцх^-0. G.18) 170
Итак, множество всех приемлемых стратегий для первого игрока удо- удовлетворяет условиям G.17), G.18), 0 < л: < 1, 0 < # < 1. Чтобы найти х, рассмотрим 3 случая: Если х = 0, то G.18) верно при любом у, а G.17) имеет вид: аху — Оа^О. G.19) Если х = 1, то G.17) верно при любом у, а G.18) имеет вид: агУ — а2>0. G.20) Если 0 < х < 1, то G.17) разделим на A — х), а G.18) — на л: и получим аху — (ц < 0, ахг/ — а2 > 0, или ^г/ —а2-0. G.21) Итак, множество К решений систем G.17), G.18) состоит из: 1) всех ситуаций вида @, у), где аху— <% < 0, 0 < у < 1; 2) всех ситуаций вида (х, у), где аху — а2 = 0, 0 < х < 1, 0 < у < < 1; 3) всех ситуаций вида A, у) а^у— а2 > 0, 0 < у < 1. Если ах = Оз = 0, то решением является л: ? [0, 1], у ? [0, 1], так как все неравенства G.19)—G.21) выполняются при таких х и у. Если аг = 0, а2 ф 0, то выполняется либо G.19), либо G.20), и поэтому решением является либо х = 0, либо х = 1 при 0 <; у < 1. Если ах > 0, то из G.19) получается решение из G.20) следует еще решение х = 1, # ;> а, из G.21) следует еще ре- решение 0 < х <z 1, у = а. Если ал < 0, то решение следующее: 1, # = а. При этом надо помнить, что дополнительно должно быть 0<#<1. Для второго игрока исследования аналогичны. Если ввести обозна- обозначения то множество L приемлемых для него ситуаций состоит из: 1) всех ситуаций вида (х, 0), где Ьхх— Ь2 < 0, 0 < х < 1, 2) всех ситуаций вида (х, у), где Ьхх— Ьг = 0, 0 < х < 1, 0< у< 1, 3) всех ситуаций вида (х, 1), где Ьгх — Ьг > 0, 0 < х < 1. Результаты следующие: если Ьг = Ь2 = 0, то решение 0<x< l,0<#< 1; если 62 = 0, Ь2 Ф 0, то решение либо у = 0, либо у = 1 при 0 ^ < х < 1; 171
если Ьг > 0, то решения следующие: если Ь2 ¦< 0, то решения следующие: у=0, *>р; г/=1, *<|3; 0<г/<1, х = р. При этом надо помнить, что 0 < х <; 1. Решением игры является пересечение множеств К и L, т. е. те зна- значения л: и г/, которые являются общими для множеств К и L. Средние выигрыши при этом определяются по формулам G.12), если в них под- подставить полученное решение х и у. Очевидно а входит в смешанную стратегию второго игрока, хотя зависит только от выигрышей первого игрока; р входит в смешанную стратегию первого игрока, хотя зави- зависит только от выгрышей второго игрока. Сравнение этих результа- результатов с результатами решения матричных игр с нулевой суммой показы- показывает, что а совпадает с оптимальной стратегией первого игрока в мат- матричной игре с матрицей А, а Р — с оптимальной стратегией второго игрока в матричной игре с матрицей В. Отсюда можно сделать вывод, что равновесная ситуация направляет поведение игроков не столько на максимизацию своего выигрыша, сколько на минимизацию выигрыша противника. С другой стороны, естественно также рассматривать подходящим поведение игроков в конечных бескоалиционных играх, направленное на максимизацию своего выигрыша с учетом максимального противо- противодействия игрока, т. е. подходящей стратегией первого игрока счи- считать оптимальную смешанную стратегию первого игрока в матричной игре с матрицей А, а подходящей стратегией второго игрока считать оптимальную смешанную стратегию второго игрока в матричной игре с матрицей В, если в ней рассматривать решение с позиций максимиза- максимизации выигрыша второго игрока, т. е. решать ее, как для первого игрока, с матрицей Вт. Пример 7.2. Министерство желает построить один из двух объек- объектов на территории города. Городские власти могут принять предложе- предложение министерства или отказать. Министерство — первый игрок — име- имеет две стратегии: строить 1-й объект, строить 2-й объект. Город — вто- второй игрок — имеет две стратегии: принять предложение министерства или отказать. Свои действия (стратегии) они применяют независимо друг от друга, и результаты определяются прибылью (выигрышем) согласно следующим матрицам: /-10 2\ „ / 5 —2 \ 1 —1Г \-1 1 Некоторые пояснения к элементам выигрышей матриц А и В могут быть, например, такие: если игроки применяют свои первые страте- стратегии, министерство решает строить первый объект, а городские власти разрешают его постройку, тогда город получает выигрыш 5 млн. руб., а министерство теряет 10 млн. руб; аналогично объясняются остальные выигрыши. 172
Для этой игры имеем: ai = аи — ai2 — ап + а22 — — Ю — 2 — 1 — 1 = — 14 < 0, Й2 = а22 — а12 = — 1 — 2 = — 3, _ а2 __ —3 _ _з_ а~Т, -И ~" 14 * Поскольку ах < 0, то множество ре- у шений К имеет следующий вид: ; где , —V -i- где A, где 14 ' Рис. 7.5 Множество К ситуаций, применяемых для первого игрока, изображено на рис. 7.5 жирной линией. Для второго игрока имеем: Ъг = Ьи — Ь1г — Ьп + Ьп = 5 + 2 + 1 + 1 = 9 > О, 2 Р ~~ ~9~* Поскольку Ьх > 0, то множество решений L имеет следующий вид: (х, 0), (х, 1), где 0 <*<-§-; где где -|"<л;< 1. Множество L ситуаций, приемлемых для второго игрока изображе- изображено на рис. 7.5 пунктирной линией. Точка пересечения множеств L и К есть точка С с координатами х = 2 3 = —, у = -ту и является соответственно приемлемыми стратегиями министерства и города. При этом их выигрыш соответственно равен 14 72 126 Н2(А, х, у) = 5 • -g- --J4 —* • — • ~f4~ ~~ 173
Интересно отметить, что, если решить эту игру как матричные игры двух игроков с нулевой суммой, то для игры с матрицей А оптималь- оптимальные смешанные стратегии для первого игрока и цена игры получа- получаются из решения уравнений — IOjc1 + A — х1) = vv x1 — A — х1) =vlt откуда вероятность применения первым игроком первой стратегии 1 2 4 „ равна х = -ГГ-, цена игры — Щ — f, что совпадает с пх, вероят- , 3 ность применения вторым игроком первой стратегии у1 = т-г; для игры с матрицей В оптимальные смешанные стратегии и цена игры для вто- второго игрока получаются из уравнений 5^-2A-/) = о,, -?/2 + A-?/2)=у2. Следовательно, вероятность применения вторым игроком своей стра- 1 2 1 тегии уг = -г-, а первым игроком х2 = -д-, цена игры — v2 = -»-, что совпадает с //2. Таким образом, если каждый из игроков будет применять свои стратегии в этой игре, исходя только из матриц своих выигрышей, то их оптимальные средние выигрыши совпадают с их выигрышами при ситуации равновесия. 7.3. КООПЕРАТИВНЫЕ ИГРЫ Кооперативные игры получаются в тех случаях, когда в игре п игроков разрешается образовывать определенные коалиции. Обозна- Обозначим через N множество всех игроков, N = {1, 2, ..., п), а через К — любое его подмножество. Пусть игроки из К договариваются между со- собой о совместных действиях и, таким образом, образуют одну коали- коалицию. Очевидно, число таких коалиций, состоящих из г игроков, рав- равно числу сочетаний из п по г, т. е. w- п(п—\) .. . (» —г+1) а число всевозможных коалиций равно V С — 9" 1 Из этой формулы видно, что число всевозможных коалиций значитель- значительно растет в зависимости от числа всех игроков в данной игре. Для ис- ' следования этих игр необходимо учитывать все возможные коалиции, и поэтому трудности исследований возрастают с ростом п. Образовав коалицию, множество игроков К действует как один игрок против ос- остальных игроков, и выигрыш этой коалиции зависит от применяемых стратегий каждым из п игроков. Функция v, ставящая в соответствие каждой коалиции К наиболь- наибольший, уверенно получаемый ею выигрыш v (К), называется характерис- характеристической функцией игры. Так, например, для бескоалиционной игры 174
п игроков v (К) может получиться, когда игроки из множества К оп- оптимально действуют как один игрок против остальных N \ К. игроков, образующих другую коалицию (второй игрок). Обозначим через Vr характеристическую функцию бескоалиционной игры. Эта функция обладает следующими свойствами: 1) персональность Уг@) = О, т. е. коалиция, не содержащая ни одного игрока, ничего не выигры- выигрывает; 2) супераддитивность vr (К U Ц > Уг (К) + vr (L), если К, LczN, KftL=?0, т. е. общий выигрыш коалиции не меньше суммарного выигрыша всех участников коалиции; 3) дополнительность vr(K) + v(N\K)=v(N), G.22) т. е. для бескоалиционной игры с постоянной суммой сумма выигры- выигрышей коалиции и остальных игроков должна равняться общей сумме выигрышей всех игроков. Доказательство этих свойств можно найти в [5]. Распределение выигрышей (дележ) игроков должно удовлетворять следующим естественным условиям: если обозначить через xt выигрыш i-ro игрока, то, во-первых, должно удовлетворяться условие индиви- индивидуальной рациональности х,>«(9, Для i?N, G.23) т. е. любой игрок должен получить выигрыш в коалиции не меньше, чем он получил бы, не участвуя в ней (в противном случае он не будет участвовать в коалиции); во-вторых, должно удовлетворяться условие коллективной рациональности 2*, = 0(ЛО, G-24) т. е. сумма выигрышей игроков должна соответствовать возможностям (если сумма выигрышей всех игроков меньше, чем v (N), то игрокам незачем вступать в коалицию; если же потребовать, чтобы сумма вы- выигрышей игроков была больше, чем v (N), то это значит, что игроки должны делить между собой сумму большую, чем у них есть). Таким образом, вектор х = (хи ..., хп), удовлетворяющий услови- условиям индивидуальной и коллективной рациональности, называется де- дележом в условиях характеристической функции v. Система {JV, v), состоящая из множества игроков, характеристи- характеристической функции над этим множеством и множеством дележей, удовлет- удовлетворяющих соотношениям G.23), G.24) в условиях характеристиче- характеристической функции, называется классической кооперативной игрой. Из этих определений непосредственно вытекает следующая теоре- теорема: чтобы вектор х = (лгь ..., хп) был дележом в классической ко- кооперативной игре {N, v], необходимо и достаточно, чтобы 175
причем Ч>0 (i?N), Ца( = у(ЛО- S»(t). G.25) Теория кооперативных игр имеет много сходного с теорией бескоали- бескоалиционных игр, однако есть и различия. В бескоалиционных играх исход формируется в результате дейст- действий тех самых игроков, которые в этой ситуации получают свои выигры- выигрыши. Исходом в кооперативной игре является дележ, возникающий не как следствие действий игроков, а как результат их соглашений. По- Поэтому в кооперативных играх сравниваются не ситуации, как это име- имеет место в бескоалиционных играх, а дележи, и сравнение это носит более сложный характер. Поэтому и принципы оптимальности в ко- кооперативных играх весьма разнообразные и сложные. Так как признак супераддитивности играет важную роль в теории кооперативных игр, то отметим их некоторые особенности. Кооперативные игры считаются существенными, если для любых коалиций К и L выполняется неравенство v(L)<v(KU L), т. е. в условии супераддитивности выполняется строгое неравенство. Если же в условии супераддитивности выполняется равенство v(K) + v(L) = v(K[j L), т. е. выполняется свойство аддитивности, то такие игры называются несущественными. Справедливы следующие свойства: 1) для того чтобы характеристическая функция была аддитивной (кооперативная игра — несущественная), необходимо и достаточно выполнение следующего равенства: 2) в несущественной игре имеется только один дележ {оA), v{2) v(л)}; 3) в существенной игре с более чем одним игроком множество де- дележей бесконечно вб1, УB)+а2 v(п)+ап), где а, > 0 (i g ЛО, v (N) - 2 v @ > 0. Доказательство этих свойств можно найти в [5]. С целью систематизации исследований кооперативных игр вводит- вводится понятие стратегически эквивалентных игр. Кооперативная игра с множеством игроков N и характеристикой функций v называется стратегически эквивалентной игрой с тем же множеством игроков и характеристикой функций v1, если найдутся такие k > 0 и произволь- 176
ные вещественные с,- (i ? N), что для любой коалиции К ci N имеет место равенство у1 (К) = ko (К) + 2 с,. G.26) Содержательная интерпретация стратегической эквивалентности ко- кооперативных игр состоит в том, что характеристические функции стратегически эквивалентных кооперативных игр отличаются лишь масштабом измерения выигрышей k и начальными капиталами с,. Стратегическая эквивалентность кооперативных игр с характеристи- характеристическими функциями у и у1 обозначается так v ~ v1. Часто вместо стра- стратегической эквивалентности кооперативных игр говорят о стратеги- стратегической эквивалентности их характеристических функций. Справедливы следующие свойства для стратегически эквивалентных игр: 1. Рефлексивность, т. е. каждая характеристическая функция эк- эквивалентна себе у ~ у. Действительно, положив k = 1, ct = 0 (i ? N) в G. 26), получим требуемое. 2. Симметрия, т. е. если у ~ у1, то у1 ~ у. Действительно, решив уравнение G.26) относительно у (К), получим v (К) = -^ у1 (/С) — У -j- , (k>0) или, полагая -г- = k1; с-~ = с\, получим где k > 0. 3. Транзитивность, т. е. если v ~ у1 и v1 ~ у2, то v ~ у2. Дейст- Действительно, поскольку у ~ v1, то справедливо G.26), а поскольку спра- справедливо v1 ~ v2, то справедливо следующее: у1 = kV (К) + Ц cj (^>0). Подставляя это значение в G.26), получим v(K) = kkW (К) + 2 (с, + 6с1,) или, полагая &&1 = &2, сг + kd = с», получим о(К) = №(К) + ±<%. где #>0. Из свойств рефлексивности, симметрии и транзитивности вытекает, что множество всех характеристических функций единственным обра- образом распадается на попарно непересекающиеся классы, которые на- называются классами стратегической эквивалентности. 12 6-2853 177
Отношение стратегической эквивалентности игр и их характери- характеристических функций переносится на отдельные дележи: пусть v ~ у1, т. е. выполняется G.26), и х = {хъ..., хп) — дележи в условиях характеристической функции у; рассмотрим вектор х1 = = (х\ *'„), где х\ = kxt + c{; для него х\ = kxt + с, > kv @ + с, = v1 (i), т. е. выполняется условие индивидуальной рациональности, и 2 х\ = 2 (^, + cj = ^ 2 *, + 2 с. = bv№ +2 с, = у1 (ло. т. е. выполняется условие коллективной рациональности. Поэтому вектор хх является дележом в условиях у1. Говорят, что дележ х1 со- соответствует дележу х при стратегической эквивалентности у ~ Л В дальнейшем полезно рассмотреть определенные игры, характерные для каждого класса несущественных кооперативных игр. Кооператив- Кооперативная игра называется нулевой, если все значения ее характеристиче- характеристической функции равны нулю. Содержательное значение нулевой игры состоит в том, что в ней игроки не имеют никакой заинтересованности. Оказывается, что всякая несущественная игра стратегически эк- эквивалентна нулевой. Действительно, для несущественной игры спра- справедливо поэтому стратегически эквивалентная ей характеристическая функция у1 имеет вид: у1 (К) = kv (К) + 2 с, == у (К) - Ц у @ = 0. Отсюда следует, что все несущественные игры с данным множеством игроков N стратегически эквивалентны между собой, т. е. составляют один класс стратегической эквивалентности. Определение. Кооперативная игра с характеристической функцией у имеет 0—1 редуцированную форму, если выполняются следующие соотношения: y(i) = 0 (»?#), у(Л0 = 1. Оказывается полезной следующая теорема. Теорема 7.5. Каждая существенная кооперативная игра страте- стратегически эквивалентна одной и только одной игре в 0— 1 редуцированной форме. Доказательство. Пусть у — характеристическая функция произвольной существенной игры п игроков. Для нее подберем такую стратегически эквивалентную характеристическую функцию, что у1 (I) = to @ + с1 = 0 (t = 1, 2, .... п), G.27) у1 (N) = kv (N) + Ц с, = 1. G.28) Суммируя по i левую и правую части G.27), получим kl 0@ + 2 с, = о, 178
откуда 2с,=-*2]о@. G.29) Подставляя G.29) в G.28), получим ko(N) — k%v(i)=l. G.30) Поскольку игра существенная, то v(N) — 2 f@>0, и из G.30) получаем Из G.27) получаем 1 >0. G.31), с, = _ kv (i) = Щ, (i € ЛО. G.32) W 2 (о Значения k и с,-, выраженные по формулам G.31) и G.32) и полученные как решения системы уравнений G.27) и G.28), являются единствен- единственным ее решением, поэтому получена игра в 0—1 редуцированной фор* ме, что и требовалось доказать. В игре в 0—1 редуцированной форме дележом является любой век- вектор х — (хи х2 х,г), для которого *, >0 (i?N), 2 *, = 1. В теории игр рассматриваются игры в а — Ь редуцированной форме, подобно 0—1 редуцированной форме, понимая под" ними игры с такими характеристическими функциями у1: Vх {[) = a (i ? N), v1 (N) = Ь, (па Ф Ь). Можно показать, что всякая существенная кооперативная игра имеет ровно одну а — b редуцированную форму при любых а и Ь, если па Ф ФЬ. Рассмотрим несколько подробнее возможные классы игр, имея в виду отношение стратегической эквивалентности. Как было сказа- но ранее, для каждого множества игроков N существует единствен- единственный класс стратегически эквивалентных несущественных игр с множе- множеством игроков N. Таким образом, остается рассмотреть классы сущест- существенных кооперативных игр. Остановимся на описании классов игр в 0—1 редуцированной форме. Рассмотрим сначала кооперативные игры с нулевой суммой. 1. Игры 2-х игроков. Оказывается, что всякая кооперативная игра двух игроков с нулевой суммой является несущественной. Действительно. Предположим, что имеется существенная коопе- кооперативная игра двух игроков с характеристической функцией v. Тогда 12* 179
она должна быть стратегически эквивалентна некоторой игре в 0—1 ре- редуцированной форме с характеристической функцией о1, что означа- означает следующее: o»(l) = 0, о1 B) = 0, ^A, 2) = 1. G.33) По свойству дополнительности должно v1B)=v1(l, 2) — о*A) = 1 — 0= 1, что противоречит G.33). А это значит, что наше предположение о су- существенности кооперативной игры двух игроков с нулевой суммой не верно. Итак, класс кооперативных игр двух игроков с нулевой суммой ограничивается несущественными играми. 2. Игры 3-х игроков. Пусть о — характеристическая функция су- существенной игры в 0—1 редуцированной форме, тогда оA) = оB) =оC) = 0, оA,2,3) = 1. По свойству дополнительности имеем: оA, 2) =оA, 2, 3) —оC) = 1 — 0=1, оA,3) = оA,2,3)-оB) = 1-0=1, о B, 3) = о A, 2, 3) — о A) = 1 — 0 = 1. И Таким образом характеристическая функция полностью определе- определена. Итак, имеется два класса кооперативных игр 3-х игроков с нуле- нулевой суммой: класс существенных и класс несущественных игр. 3. Игры 4-х игроков. Рассмотрим все классы стратегической экви- эквивалентности таких игр. |Прежде всего имеется класс несущественных игр. Для получения классов существенных игр в 0—1 редуцированной форме определим характеристическую функцию у такой игры оA) = оB) = оC) = оD) = 0, оA, 2, 3, 4) = 1. Исходя из свойства дополнительности, получаем: оA, 2,3) = vA,2,3, 4)-оD) = 1—0 = 1; оA,2, 4) = оA, 2, 3,4)-оC)= 1—0=1; оA,3, 4) = оA, 2,3, 4) — v B) = 1 — 0-1; оB, 3, 4) = оA, 2, 3, 4) —оA) = 1 —0= 1. Теперь необходимо определить значения характеристической функции на коалициях 2-х игроков. Всего таких коалиций шесть—A, 2), A, 3), A, 4), B, 3), B, 4), C, 4). Характеристическая функция на этих коалициях согласно свойству дополнительности удовлетворяет толь- только следующим соотношениям: оA, 4) = 1-0B,3), 0A,3) = 1-оB, 4), оA, 2) = 1-оC, 4). Поскольку значений неизвестных шесть, а соотношений только три, 180
то три значения из шести могут быть выбраны произвольно. Обозна- Обозначим эти произвольные значения через xlt x2t xs, т. е. тогда -. /о о\ _. 1 у. т) /\ 3^ = 1 х о (\ 2^ 1 у Кроме того, должно быть 0<д;1< 1, 0 < Xj < 1, 0 < х3 < 1, так как значение характеристической функции на коалиции из двух игро- игроков не может быть меньше, чем значение характеристической функции для одного из этих игроков (равное нулю для одного игрока), и не мо- может быть больше, чем значение характеристической функции для коа- коалиции из трех игроков (равное 1 для трех игроков). Геометрически (xlt x2, х3) можно изобразить как точку единичного куба, т. е. каждо- каждому классу стратегической эквивалентности игр четырех игроков будет соответствовать точка единичного куба. Итак, множество классов стратегической эквивалентности сущест- существенных игр четырех игроков бесконечно и трехпараметрично, т. е. зависит от трех произвольных параметров. 4. Игры, состоящие из более чем 4-х игроков, имеют еще большее разнообразие классов стратегической эквивалентности существенных игр. Так, размерность множества классов игр п игроков равна 2п~1 —¦ — п— 1, т. е. имеется 2"~1— п— 1 произвольных параметров. Рассмотрим теперь кооперативные игры без условия постоянства суммы. 1. Для игр 2-х игроков множество N = {1, 2}, условия редуциро- редуцированности дают о@) = оA) =оB) = 0, оA, 2) = 1. Таким образом, существенные кооперативные игры двух игроков с ненулевой суммой составляют один класс стратегической эквивалент- эквивалентности. 2. Для игр 3-х игроков множество N = {1, 2, 3), условия редуци- редуцированности дают о@) = оA) = оB) = оC) = 0, оA, 2, 3) = 1. Значения характеристической функции на множествах коалиций двух игроков произвольные (здесь нет условия дополнительности) 0A, I.) = Cg, и (I , о) = С2, О (Z, о) = С1У но удовлетворяющие условию 0<с,<1, 0<с2<1, 0<es<l. Таким образом, классы стратегической эквивалентности общих коопе- кооперативных игр трех игроков могут быть поставлены в соответствие точ- точкам трехмерного единичного куба подобно тому, как это получалось для игр 4-х игроков с нулевой суммой. Для игр более 3-х игроков с ненулевой суммой рассмотрения ана- аналогичны. 181
Для исследования игр большое значение имеет возможность учета предпочтения дележей, который осуществляется с помощью понятия доминирования. Определение. Пусть имеется два дележа х — (xlt ..., хп) и У = (Уъ •••> Уп) в кооперативной игре Г = [N, v), и KczN— неко- некоторая коалиция. Тогда дележ х доминирует у по коалиции К, если 1) 2 *<»(*), G.34) 2) xt > уi для всех / ? К- Соотношение доминирования х над у по коалиции К обозначается так: х> у К Из этого определения следует, что, если х доминирует у по коалиции К, то дележ х предпочтительнее дележа у для коалиции К- Определяется также общее доминирование. Определение. Дележ х доминирует у, если существует такая коалиция К, для которой дележ х доминирует у. Это доминирование обозначается так: х > у. Наличие доминирования х > у означает, что в множестве игроков N найдется коалиция, для которой х предпочтительнее у. Отношение доминирования не обладает полностью свойствами рефлексивности, симметричности, транзитивности, возможна лишь частичная симметрия и транзитивность. Соотношение доминирования возможно не по вся- всякой коалиции. Так, невозможно доминирование по коалиции, состоя- состоящей из одного игрока или из всех игроков. Соотношения доминирования инвариантны относительно страте- стратегической эквивалентности. Это свойство можно записать в виде теоре- теоремы: если v и vi — две стратегически эквивалентные характеристические функции, причем дележам х и у соответствуют дележи х1 и у1, то из х > у следует х1 > у1. Доказательство этой теоремы можно найти в [51. Очевидно, все явления, описываемые в терминах доминирования дележей, относятся к классам стратегической эквивалентности, по- поэтому достаточно изучать эти классы (а не сами игры) для существен- существенных игр по их 0—1 редуцированной форме, а для несущественных игр — по нулевым играм. В любой несущественной игре имеется только один дележ, поэто- поэтому никаких доминирований в ней нет. Рассмотрим доминирование дележей в существенной игре на сле- следующем примере. Пример 7.3. Пусть имеется 0—1 редуцированная форма существен- существенной игры трех игроков с постоянной суммой (равной 1). Поскольку до- доминирование невозможно ни по одной из одноэлементных коалиций 1, 2 3, а также по коалиции, состоящей из всех трех игроков, то доми- доминирование возможно лишь по одной из двухэлементных коалиций {1, 2}, {1,3}, B, 3}. 182
Для наглядности доминирования дележей введем понятие бароцен- трических координат. Осями координат служат три оси хъ х2, х3, со- составляющие между собою одинаковые углы 60°, ось хэ находится на расстоянии единицы от точки пересечения осей х1 и х2 (см. рис. 7.6), координаты точки х = (хи хг, х3) — соответственно расстояния от этой точки до осей xlt х2, х3, взятые с такими знаками, как указано на рис. 7.6. (Например, для точки х на рис. 7.6 хг < 0, х2 > 0, х3 > 0). \ к,<0 Рис. 7.6 Рис. 7.7 В барицентрической системе координат всегда выполняется равен- равенство xi + xt + xa = l. G.35) В плоскости всегда имеется точка с координатами хг, хг, хэ, удовлетво- удовлетворяющими равенству G.35). Поэтому бароцентрическая система коорди- координат автоматически удовлетворяет одному из условий, определяющих исход игры трех игроков. С другой стороны, поскольку игра в 0—1 редуцированной форме, то точка х должна находиться в за- заштрихованном треугольнике (см. рис. 7.7). Дележи хъ х2, х3 должны удовлетворять неравенствам xl+xa<v(l,2), Ar1 + jc3<y(l,3), х2 + х»<УB, 3). Очевидно, из условия дополнительности, что *i + *2 = 1 — х3 < 1 = v A, 2), хх + х3 < 1, х2 + х3 < 1. Дележ х — (xlt x2, х3) доминирует дележ у = (у1у у2, у3) по коалиции {1, 2}, если хг>у1г хг>у2; по коалиции {1, 3}, если хг>уг, х3>у3; по коалиции {2, 3}, если хг>у2, т. е. если дележ у находится в одном из заштрихованных параллело- грамов (за исключением трех граничных прямых, проходящих через 183
точку х) на рис. 7.8, то дележ х доминирует дележ у, а всякая точка, находящаяся в незаштрихованных треугольниках, является предпоч- предпочтительнее исхода х. Таким образом, если х и у — два исхода и ни один из них не пред- предпочтительнее другого, то соответствующие точки лежат на прямой, параллельной одной из координатных осей. xt-f Рис. 7.8 Рис. 7.9 Пример 7.4. Пусть имеется 0—1 редуцированная игра трех игроков с ненулевой суммой. Рассмотрим сначала условия доминирования дележа х = {х1У x2, х3) над дележом у = (ylt уг, у3) по коалиции {1, 2}. В этом случае имеем: дс1 + х8<»A, 2) = с3, у1 < х1г у2 < х2. Поскольку может быть, что с3 < 1, то первое из условий G.36) нель- нельзя отбросить, как это делается в играх с постоянной суммой. Это зна- значит, что х должно быть не ниже прямой Х1 Т Х2 = ^3 или, учитывая G.35), последнее уравнение принимает вид: Хд — 1 Cg. Таким образом, если дележ х таков, что *X>1— clt х2>1—с2, *3>1 — с3, G.37) то имеется три параллелограма, заштрихованных на рис. 7.9, нахо- находясь в которых, точки х доминируют у. Если в G.37) одно из неравенств, например, третье не имеет места, то есть только 2 параллелограмма, заштрихованных на рис. 7.10, на- находясь в которых точки х доминируют у. Если в G.37) не имеют места два неравенства, например, второе и третье, то имеется лишь один параллелограм, заштрихованный на рис. 7.11, находясь в котором, точка х доминирует у. Из рассмотренного примера видно, что возможно много вариантов, которые возникают при изучении вопросов, связанных с доминиро- 184
ванием дележей в кооперативных играх. С ростом числа игроков чрез- чрезвычайно быстро растет количество таких вариантов. Заслуживает вни- внимания выделение вполне устойчивых дележей, т. е. таких дележей, ко- которые не доминируются никакими другими дележами. Множество впол- x.-f-c. Рис. 7.10 Рис. 7.11 не устойчивых дележей в кооперативной игре называется с-ядром этой игры. Следующая теорема дает признак принадлежности дележа к с-ядру. Теорема 7.6. Для того чтобы дележ х принадлежал с-ядру коопера- кооперативной игры с характеристической функцией v, необходимо и доста- достаточно, чтобы для любой коалиции К вы- з полнялось неравенство 0(/t)<2*f G-38) Доказательство этой теоремы можно найти в 15]. Поскольку неравенства G.38) линей- линейны относительно х, то из теоремы 7.6 следует, что с-ядро в любой коопера- кооперативной игре является выпуклым много- многогранником. Отметим некоторые особенности ко- кооперативных игр относительно существо- существования с-ядра. В несущественной игре с-ядро существует и состоит из единствен ного дележа этой игры. Во всякой существенной игре с постоянной суммой с-ядро пусто. Для общей игры трех игроков в 0—1 редуцированной форме имеем следующее. Ее характеристическая функция имеет вид: о@) =оA) = оB) =оC) = 0, оA, 2, 3) = 1, оA,2)=с„ оA,3)=с„ оB, 3)=clt гдеО<с1<1, 0<с,<1, 0<с3<1. Рис. 7.12 185
На основании теоремы 7.6 для принадлежности дележа х с-ядру не- необходимо и достаточно выполнение неравенств х\ "Ь Х2 <^ ^з> Х1 ~Ь хз ^ С2> хг ~t~ хз ^ С1 или, используя равенство xx + дг2 + лг3 = 1, получим ,х3 < 1 — с3, х2 < 1 — с2, *г < 1 — с,. G.39) Это значит, что точка х должна лежать ближе к i-й вершине основного треугольника (см. рис. 7.12), чем прямая Ь=1-с, (i = l, 2, 3). G.40) Из неравенств G.39) путем суммирования получим х1 + хг + х3 < 3 — (сг + с2 + с3) или, учитывая, что х1 + х2 + х3 = 1, получим с1 + с2 + с3<2. G.41) Неравенство G.41) является необходимым условием существования не- непустого с-ядра. С другой стороны, если G.41) выполняется, то можно взять такие неотрицательные е1г е2, е3, чтобы 2 (с, + в») = 2, и положить *г=1 — с,— Si A=1,2,3). Такие значения х{ и удовлетворяют неравенствам G.39), т. е. такой дележ х = (хи х2, х3) принадлежит с-ядру. Геометрически непустое с-ядро является заштрихованным тре- треугольником (рис. 7.12), со сторонами, выраженными уравнениями G.40) при условии, что выполняется соотношение li + h + ls^h и решения любой пары уравнений G.40) являются неотрицательны- неотрицательными. Так, например, рассмотрим систему Ь = 1 — clt ?2 = 1 — с2. Поскольку 0 < сх < 1, 0 < с2 < 1, то \г > 0 и |2 > 0. Отсюда полу- получаем ?з = 1— Ь — Ег = 1 — A— сО — A — с2) =Cl + c2—1. Для того, чтобы было |3 >• 0, надо или В этом случае с-ядро представлено на рис. 7.12 в виде заштрихованно- заштрихованного треугольника внутри основного треугольника. Аналогично рас- рассматриваются остальные возможные варианты сочетаний неравенств. Например, если сх + с2 < 1, то с-ядро имеет вид заштрихованного че- 186
тырехугольника внутри основного треугольника (рис. 7.13). Вообще многогранник, представляющий с-ядро, образуется как выпуклый мно- многогранник пересечением прямых G.40) и сторон основного треуголь- треугольника. Если, например, неравенства сг + с2 < 1, с2 + с3 < 1, сг + + с3 < 1, то с-ядро представляется в виде шестигранника, заштрихо- заштрихованного на рис. 7.14. Перейдем теперь к вопросу определения и нахождения решения кооперативных игр. Очевидно, в решение игры должны входить деле- дележи, лучшие с определенной точки зрения. Так, дележи, входящие в с-ядро, являются устойчивыми в несколько пассивном смысле, т. е. при этих обстоятельствах нет оснований отклоняться от такого деле- дележа. Можно использовать дележи для построения решения игры, же- желательно найти дележ, который не только не доминировался бы каки- Рис. 7.13 Рис. 7.14 ми-либо другими дележами, но сам доминировал бы любой другой де- дележ. Такой дележ был бы идеальным для решения игры. Однако та- такого дележа не удается найти в кооперативных играх. Безуспешны попытки определить лучший дележ даже при несколько ослабленных требованиях. Поэтому решение отыскивают на пути расширения клас- класса дележей. И это расширение состоит в том, что решением игры дол- должен быть не один дележ, а некоторое их множество. Рассмотрим ре- решение кооперативной игры, предложенное Нейманом и Моргенштер- ном. Определение. Решением кооперативной игры по Нейману — Моргенштерну называется такое множество R дележей в ней, что: 1) никакие два дележа из R не доминируют друг друга; 2) каков бы ни был дележ s, не принадлежащий R, найдется дележ г, принадлежащий R, который доминировал бы s. Такое решение для краткости обозначим Н—М решение. Первое условие определения выражает внутреннюю устойчивость решения, а второе — внешнюю. Содержательная интерпретация Н—М решения состоит в том, что любые две нормы поведения, соответствующие Н—М решению, не могут быть противопоставлены друг другу; каково бы ни было откло- отклонение от допустимых поведений, найдется такая коалиция, которая будет стремиться к восстановлению нормы. 187
Между с-ядром и Н—М решением имеется тесная связь, выражен- выраженная следующей теоремой. Теорема 7.7. Если в кооперативной игре существует с-ядро С и Н—М решение R, то С с R. Доказательство. Если дележ х ? С, то он не может до- минироваться каким-либо другим дележом. Если же х ? R, то он дол- должен доминироваться некоторым дележом из решения. Поэтому, если х ? С, то х ? R, что и требовалось доказать. Известны следующие свойства Н—М решения. Н—Мх решение кооперативной игры не может состоять только из одного дележа, так как в этом случае характеристическая функция игры несущественная. Существуют такие кооперативные игры, в которых нет Н—М ре- решений. В настоящее время еще не известны критерии, позволяющие судить о наличии у кооперативной игры Н—М решения. Поэтому зало- заложенный в Н—М решении принцип оптимальности не является уни- универсально реализуемым, и область его применения пока остается неопределенной. Этот принцип оптимальности не является полным, так как он не в состоянии указать игрокам единственную систему норм распределения выигрышей. Существуют кооперативные игры, имеющие несколько Н—М решений. Н — М решение еще не определяет выигрыша, каждого из игроков. Эти свойства показывают, что Н—М решение имеет особенности, которые надо учитывать при исследовании конфликтных ситуаций. Так, например, реальные конфликтные экономические ситуации до- допускают множество решений, между которыми нельзя провести чет- четкого и полного сравнения по признаку предпочтительности. Поэтому Н—М решение может дать полезную информацию для специалистов, принимающих решения в данной ситуации. Рассмотрим подробнее вопросы нахождения Н—М решений. Для несущественных игр и произвольных игр 2-х игроков вопрос нахожде- нахождения Н—М решения аналогичен нахождению с-ядра в этих играх. Действительно, среди дележей в играх двух игроков нет доминирова- доминирования, поэтому Н—М решениями оказываются множества всех деле- дележей. Для каждой из несущественных игр имеется только один дележ, который и является Н—М решением. Интерес представляют вопросы нахождения решений существенных игр, имеющих 3-х и более иг- игроков. Рассмотрим сначала кооперативные игры 3-х игроков с постоян- постоянной суммой. Покажем, что для такой игры Н—М решение состоит из трех дележей х1 = (о, -*- , ~), х% = D-, 0, 4г) , х3 = { 2 ' 2 ' U/ ' Очевидно, достаточно рассматривать эти игры в 0—1 редуцирован- редуцированной форме. Поскольку Н—М решение R имеет внутреннюю устойчивость, то никакие два дележа из R не должны доминировать друг друга, и, следовательно, они должны лежать на прямой, параллельной одной из 188
сторон основного треугольника дележей. Итак, все отрезки, соединяю- соединяющие попарно дележи из R, должны быть параллельны трем направле- направлениям, соответствующим сторонам треугольника. Может быть только два случая: 1) все дележи из R лежат на одной прямой; 2) не все дележи из R лежат на одной прямой. Исследуем первый случай, когда все дележи из R лежат на одной пря- прямой, например АВ (рис. 7.15), параллельной стороне 12 основного тре- треугольника дележей 123. Поскольку АВ параллельна стороне 12, то никакие два дележа из R не доминируют друг друга, и имеется внутреняя устойчивость де- дележей из R. Рассмотрим вопросы внешней устойчивости. Ни один дележ от- отрезка АВ не доминируется всеми остальными дележами этого отрезка, поэтому внешняя устойчивость R связана с необходимостью, чтобы в R входил весь отрезок Л В. Дележ х, находящийся на АВ (см. рис. 7.15), доминирует по коалиции {1, 2} дележи из параллелограмма xFSE. Поскольку х — любое из А В, то совокуп- совокупность дележей, которые доминирует х, со- составит треугольник АВЗ. Исследуем теперь дележи, находящиеся ниже АВ, т. е. образующие трапецию \АВ2. Дележ х доминирует по коалиции {1,3} де- ° c~7i 3 /Г леж из параллелограмма xD2B. Посколь- рис. 7.15 ку Jt — любая точка из АВ, то л; доми- доминирует по коалиции {1,3} любой дележ из параллелограма АВ2М. Аналогично дележ х доминирует по коалиции {2,3} дележ из парал- параллелограмма ВША. Объединяя дележи из параллелограмов АВ2М и ВН\А, получим, что дележ л; доминирует все дележи из трапеции 1АВ2. Чтобы дележи из А В доминировали все дележи из 1АВ2, необходимо, чтобы точка пересечения прямых AM и ВН была ниже треугольника 123. Очевидно, для этого отрезок АВ должен быть ниже средней линии треугольника. Таким образом, если дележи из R лежат на одной пря- прямой, то эта прямая должна быть ниже средней линии основного тре- треугольника. Содержательный смысл этого в том, что Н—М решения состоят в предоставлении третьему игроку некоторой доли айв последующем произвольном распределении оставшейся части 1 —а между игроками 1 и 2. Поскольку АВ параллельны стороне 12, то сумма, получаемая игроками 1, 2, останется постоянной для дележей из АВ. Следователь- Следовательно, в этом случае и 3-й игрок для любого дележа из АВ получает одну и ту же сумму. Такие решения в теории кооперативных игр называют дискриминационными, а игроков, получающих во всех дележах ре- решения один и тот же выигрыш,— дискриминированными. Аналогич- Аналогично строятся решения в тех случаях, когда дележи R лежат на прямой, параллельной любой другой стороне основного треуголь- треугольника. 189
Перейдем теперь ко второму случаю, когда дележи из R не лежат на одной прямой. Пусть даны три дележа из R, не лежащие на одной прямой. Поскольку дележи из R не должны доминироваться никаки- никакими другими дележами, то каждая пара из данных трех дележей должна лежать на одной из прямых, параллельных сторонам основного тре- треугольника. Итак, эти три дележа образовывают треугольник со сто- сторонами, параллельными сторонам основного треугольника. Если бы имелся четвертый дележ из R, то он должен был бы с любым из осталь- остальных трех дележей из R образовывать отрезок, параллельный одной из сторон основного треугольника. А это невозможно. Поэтому R может состоять только из трех дележей, если они не лежат на одной прямой. Если дележи из R находятся внутри основного треугольника, то будут такие дележи, которые не доминируются из R, поэтому эти три дележа из R не могут находиться внутри основного треугольника, они должны быть на его сторонах. Каждая пара из них должна лежать на стороне, параллельной одной из сторон основного треугольника, а это возможно лишь тогда, когда эти три дележа из R лежат на серединах сторон основного треугольника (рис. 7.16). Итак, доказано необходимое условие существования Н—М ре- решения, т. е. если существует Н—М решение в существенной игре трех игроков с постоянной суммой, дележи которого не лежат на одной пря- прямой, то оно может состоять только из трех точек А, В, С, лежащих на серединах сторон основного треугольника: с = D-, -4-, о Такое решение называется симметричным. Докажем теперь достаточность, т. е. что множество {А, В, С}, ко- которое может быть Н—М решением, действительно является решением. Для этого надо показать, что {А, В, С} обладает свойствами внутрен- внутренней и внешней устойчивости. Внутренняя устойчивость следует из способа построения этого мно- множества. Определим внешнюю устойчивость. Дележ А доминирует все дележи из параллелограмма \АВС (рис. 7.16), за исключением внут- 190
ренних точек отрезков ВА и ВС. Дележ В доминирует все дележи из параллелограмма 2САВ, кроме внутренних точек отрезков АС и ВА.. Дележ С доминирует все дележи из параллелограмма СВЗА, кроме- внутренних точек отрезков ВС и АС. С другой стороны, внутренние точки отрезка ВС доминируются дележом А, внутренние точки АС — дележом В, внутренние точки ВА — дележом С. Таким образом, все дележи, за исключением дележей А, В, С, доминируются дележами А, В, С, поэтому множество [А, В, С] является внутренне и внешне устой- устойчивым и оно является Н—М решением. Рассмотрим теперь Н—М решение общих кооперативных игр. Сначала предположим, что с — ядро игры пусто. Это значит (рис. 7.17), что точки А, В, С попарных пересечений прямых 3 = 1 — с2 = 1 — с. Рис. 7.18 составляют треугольник ABC внутри ос- основного треугольника. Из свойств домини- доминирования следует, что дележи, находящиеся внутри треугольника ABC, не могут дом и- нироваться дележами, лежащими вне его. Поэтому всякое подмножество треугольника ABC, устойчивое внутренне и внешне по отношению к доминированиям в пределах треугольника ABC, является таковым и по отношению к доминированию в пределах треугольника 123 и наоборот. Для удобства треугольник ABC бу- будем называть малым, а множество дележей всякого подмножества иа малого треугольника будем называть Н—М решением в малом. Та- Таким образом, если в общей игре имеется некоторое Н—М решение, то его пересечение с малым треугольником должно быть Н—М реше- решением в малом. Но эти решения уже описаны при исследовании Н—М решений кооперативной игры 3-х игроков с постоянной суммой. Для того, чтобы получить Н—М решение игры, надо Н—М реше- решение в малом пополнить дележами, лежащими вне малого треугольника. Пусть Н—М решение в малом дискриминирующее (рис. 7.18). Тогда имеются множества дележей — это треугольники KLM, SHT, EFG, заштрихованные на рис. 7.18, которые не доминируются дележами из малого треугольника ABC. Следовательно, для получения Н—М решения к треугольнику ABC необходимо добавить дележи, доминирующие дележи из треу- треугольников KLM, SHT, EFG. Очевидно, что такая добавка для доми- доминирования над дележами треугольника KLM есть любая линия, на- находящаяся в треугольнике KLM и соединяющая любую точку осно- основания КМ с точкой L: для треугольника EFG — это любая линия, находящаяся в треу- треугольнике EFG и соединяющая любую точку основания FG с точ- точкой Е; для треугольника HST — это любая линия, находящаяся в треу- треугольнике HST и соединяющая любую точку основания ST с точкой Я_ 191
Пусть теперь Н—М решение в малом симметрично. Этот случай аналогичен предыдущему. Для получения Н—М решения надо Н—М решение в малом дополнить кривыми линиями, как это делалось на рис. 7.18. Пусть, наконец, игра имеет непустое с-ядро, тогда совокупность дележей из с-ядра (треугольника ABC на рис. 7.19) доминирует все дележи, за исключением множества дележей, заштрихованного на рис. 7.19. Очевидно, с-ядро входит в Н—М решение. Для того, чтобы полу- получить Н—М решение, надо к с-ядру (треугольнику ABC) добавить де- дележи, находящиеся на кривых в заштрихованных треугольниках з / з Рис. 7.20 (рис. 7.19). Каждая из этих кривых соединяет основание соответствую- соответствующего треугольника с его вершиной. В остальном эти кривые произ- произвольные. Если с-ядро доходит до стороны основного треугольника, то для получения Н—М решения исчезает надобность дополнять с-ядро кривой, исходящей из этой стороны основного треугольника. Например, такой случай изображен на рис. 7.20. Здесь с-ядро доходит до стороны 23 основного треугольника, и поэтому дополнительной кри- кривой, исходящей из стороны 23, не требуется для построения Н—М решения. Исследование игр более трех игроков сложнее. В них нельзя дать наглядной геометрической интерпретации, так как размерность про- пространства увеличивается. Пример 7.5. Пусть имеется игра двух игроков с ненулевой суммой, заданная матрицами соответственно для выигрышей первого и второ- второго игроков 1 — 2\ /1 3^ \) \4 — Характеристическая функция v этой игры следующая: v A) = = — 0,2 — есть цена игры с первой матрицей (она получается в ре- результате решения игры двух игроков с нулевой суммой для первой мат- 13 рицы); v B) = -= это цена игры для второго игрока с матрицей >\ 4 3 — 1 192
о A, 2) = 3 получается как максимум из сумм соответствующих эле- элементов данных исходных м-атриц, т. е. оA, 3) = 4—1 «max {1 + 1, —2 + 3, —1+4, —1 — 1} = = max{2, I, 3, 0}, о@)«=О. Следовательно, Н—М решение этой игры есть дележи для первого игрока хх, для второго хг, удовлетворяющие условиям хх + х2 = 3, хх > — 0,2; х2 > -^-. Из последних соотношений получаем где ? определяется путем переговоров между игроками. Пример 7.6. Игра двух игроков задана матрицами: (О 10), (—1000 0). Характеристическая ее функция v имеет вид: о@)= 0, оA) = оB) =0, оA, 2) = 10, Н—М решение этой игры следующее: *! + *,=* 10 Да>0 х2>0. Эти исходы хх и х2 определяются путем переговоров между игроками. Поскольку второй игрок интуитивно находится в худшем поло- положении, то его выигрыш должен быть меньше выигрыша первого игро- игрока. Однако на вопрос, как разделить эти выигрыши, Н—М решение не дает ответа. Ясно лишь одно, что Н—М решение состоит в приме- применении вторым игроком своей второй стратегии и при этом первый игрок получит 10. Но чтобы второй игрок применил свою 2-ю страте- стратегию, первый игрок должен часть своего выигрыша отдать второму игроку. С другой стороны, первый игрок видит, что для второго игро- игрока потеря будет слишком большой, если он не применит свою 2-ю стра- стратегию, и первый игрок постарается выделить второму игроку наимень- наименьшую часть своего выигрыша. Недостатки Н—М решения коалиционных игр способствуют по- поискам новых подходов. В частности плодотворным является подход Шепли, суть которого в том, что он строится на основании аксиом, отражающих справедливость дележей. Прежде чем сформулировать ак- аксиомы, вводят новые понятия. Определение. Носителем игры с характеристической функ- функцией v называется такая коалиция Т, что v (S) — v (S f\ T) для лю- любой коалиции S. Содержательный смысл носителя Т состоит в том, что любой игрок, не принадлежащий Т, является нейтральным, он не может ничего внес- внести ни в какую коалицию и ему ничего не следует выделять из общих средств. Определение. Пусть v — характеристическая функция ко- кооперативной игры п игроков, л — любая перестановка множества N 13 6-2853 193
игроков. Через nv обозначим характеристическую функцию и такой игры, что для коалиции 5 = {iu i2, ..., is) будет и ({я (У, я (у, .... Jt(g})=D(S). Содержательный смысл функции nv состоит в том, что если в игре с характеристической функцией v поменять местами игроков согласно перестановке п, то получим игру с характеристической функцией nv. Определение. Вектором цен игры с характеристической функцией v называется п мерный вектор q> (у) = (фх (у), <р2 (и), ... ..., ф„ (и)), удовлетворяющий следующим аксиомам Шепли. А 1. Аксиома эффективности. Если 5 — любой носитель игры с характеристической функцией v, то А 2. Аксиома симметрии. Для любой перестановки п и i ? N долж- должно быть Фжо {nv) = ф/ (у), т. е. игроки, одинаково входящие в игру, должны по справедливости получать одинаковые выигрыши. _ 4 3. Аксиома агрегации. Если есть две игры с характеристически- характеристическими функциями vи и, то т. е. ради справедливости надо считать, что при участии игроков в двух играх их выигрыши в отдельных играх должны складываться. Вектор ф {v), удовлетворяющий аксиомам А\ — A3, называется векто- вектором Шепли. Существование такого вектора вытекает из следующей теоремы. Теорема 7.8. Существует единственная функция ф, определенная для всех игр и удовлетворяющая аксиомам А\ — A3. Для доказательства этой теоремы понадобятся следующие опреде- определения и леммы. Определение. Характеристическая функция ws {T), опре- определенная для любой коалиции S, называется простейшей, если ._. f 1 при S<=T ws (Г) = I v \ 0 при S (? Т. Содержательно простейшая характеристическая функция описывает такое положение дел, при котором множество игроков S выигрывает единицу тогда и только тогда, когда оно содержит некоторую основную минимальную выигрывающую коалицию S. Лемма 7.1. Для любой коалиции S с числом игроков s — при i ? S Ф,- (ws) = \ s О при i ? 5. 194
Доказательство. Очевидно, S есть носитель игры с ха- характеристической функцией ws, тогда по аксиоме А\ имеем ¦ег где Т гэ S. Поскольку может быть Т = S, то ф; (шй) = 0 для i ? S. Если зт — любая перестановка, переводящая S в себя, то nws = ws и по аксиоме Л2 для любых i, ) ?S будет <р( (ws) = Фг (t«s). т. е. все Ф,- (ws) одинаковы, их количество s. Кроме того, их сумма равна 1. Поэтому q>{ (ws) = —, если i ? S. Из этой теоремы легко получается следствие: если с > 0, то ( — при i G S у{ (cws) = j s [ 0 при tgS. Лемма 7.2. Если v — характеристическая функция кооперативной игры, то для S а N существует 2" — 1 таких вещественных чисел cs, что У = 2 CSWS, SCN где ws — простейшая характеристическая функция. Доказательство. Положим T<ZS где t — число элементов в Т. Пусть U — любая коалиция, тогда 2 csws(U) = 2 cs= 2 С2 (— i)s~'yCO\ = 2 2 (— 1Г'»(Л. S<ZU \T<ZS / TCU S<ZU Для каждого s между t и ы имеется C^Z? таких множеств S с s-элемен- тами, что rcSct/. Следовательно, sau s=t что является биномиальным разложением A — l)""*. Следовательно, для всех t ¦< и оно равно 0, а для t = и оно равно 1. Поэтому для всех U а N имеем: 2 cstos (U) = v(U), S<ZU что и требовалось доказать. Проведем теперь доказательство теоремы 7.8. Из Леммы 7.2 следу- следует, что характеристическая функция любой коалиционной игры мо- может быть представлена в виде линейной комбинации простейших. На 13* 195
основании леммы 7.1 для игр с простейшими функциями функция <р единственная. Некоторые из коэффициентов cs отрицательные; одна- однако из аксиомы A3 следует, что <р (и — v) = <р (и) — ср (о) и функция Ф определяется единственным образом. Теперь для функции <р полу- получим явное выражение. На основании равенства SCN аксиомы A3 и леммы 7.1 и 7.2 можна записать cs ScN SCN S i?S где TCS Поэтому SCW S 7"CS TCN I SCW Положим, что Из последнего равенства следует, что если i ^ Г1 и Г = Т1 [} {i}, то поскольку все члены в правой части для yt (T) будут в обоих случаях одинаковы, за исключением того, что t — t1 + 1, и будут отличаться лишь знаком. Поэтому 2 TCN Если i g Г, то имеется C^llt таких коалиций S с s-элементами, что Т cz S, поэтому v« (^) = 2 -г (- 1У~'С^< t l О -у-о' о s=* о Теперь компоненты вектора Шепли можно записать в явном виде % (v) = 2 {t-l)]Jn-ty [v (T) -v(T\ {,"})]. тел? 196
Можно легко проверить, что полученное значение для ф, (v) удовлет- удовлетворяет всем аксиомам Щепли и поэтому ф, (V) > V ({/}), и, следовательно, ф (у) является дележом. Вектор Шепли содержательно можно интерпретировать следую- следующим образом: предельная величина, которую вносит t-й игрок в коали- коалицию Т, выражается как v (Т) — v(T \ {i}) и считается выгрышем г-го игрока; у{ (Т) — это вероятность того, что i-й игрок вступит в коали- коалицию Т \ {i}; фг (у) — средний выигрыш г-го игрока в такой схеме ин- интерпретации. В том случае, когда v — простейшая, II, если Т выигрывающая коалиция, О, если Т выигрывающая коалиция, а Т\ {i} невыигрывающая коалиция. Следовательно 22 г г где суммирование по Т распространяется на все такие выигрывающие коалиции Т, что коалиция Т \ {i} не является выигрывающей. Пример 7.7. Рассматривается корпорация из четырех акционеров, имеющих акции соответственно в следующих размерах: аг = 10, а2 = = 20, а3 = 30, а4 = 40. Любое решение утверждается акционерами, имеющими в сумме большинство акций. Это решение считается выигры- выигрышем, равным 1. Поэтому данная ситуация может рассматриваться как простая игра четырех игроков, в которой выигрывающими коалиция- коалициями являются следующие: {2, 4), [2t 1], {1, 2, 3}, {1, ?, 4), {2, 3, 4}, {1,3, 4,}, {1, 2, 3, 4}. Найдем вектор Шепли для этой игры. При нахождении у у надо учитывать, что имеется только одна коа- коалиция Т = {1, 2, 3}, которая выигрывает, коалиция Т \ {1} = {2, 3} не выигрывает. В коалиции Т имеется t = 3 игрока, поэтому Далее, определяем все выигрывающие коалиции, но не выигрываю- выигрывающие без 2-го игрока: {2, 4}, {1, 2, 3}, {2, 3, 4}. Поэтому _ 1 . 1 1 _ 1 Аналогично получаем, что ф3 = -т-, Ф4 = ту • Итак, вектор Щепли равен (-ттр, —г , -т- . —fo~) ¦ Если считать, что вес голоса акционера пропорционален количеству имеющихся у 197
/ 1 2 3 него акции, то получим следующий вектор голосования ! —т—-, —-. -^-> т—1, который, очевидно, отличается от вектора Шепли. Анализ игры показывает, что компоненты 2-го и 3-го игроков равны, хотя третий игрок имеет больше акций. Это получается вследствие того, что возможности образования коалиций у 2-го и 3-го игрока одинако- одинаковые. Для 1-го и 4-го игрока ситуация естественная, отвечающая силе их капитала. Пример 7.8. Четыре акционера обладают соответственно следую- следующим количеством акций: ах= 10, а2 = 30, а3 = 30, а4 = 40. Можно показать, что любые два игрока из {2, 3, 4} образуют выигрывающую коалицию, а 1-й игрок не может ничего внести ни в какую коалицию. Поэтому фл = 0, а остальные значения <р2 = <р3 = <р4 = -ъ-. Таким об- образом, с точки зрения решения по Шепли акции 1-го игрока бесполез- бесполезны, а избыточные акции 4-го игрока не дают ему преимуществ по сравнению со 2-м и 3-м игроками. Контрольные вопросы и задания к главе 7 1. Что такое бескоалиционная игра «игроков? 2. Что называется ситуацией равновесия в бескоалиционной игре? 3. Какие бескоалиционные игры называются стратегически эквивалентными? 4. Сформулируйте и докажите теорему о ситуациях равновесия для стратеги- стратегически эквивалентных игр. 5. Что называется смешанным расширением бескоалиционной игры? 6. Сформулируйте и докажите теорему существования решения для бескоали- бескоалиционной игры. 7. Сформулируйте и докажите теорему, выражающую необходимое и достаточ- достаточное условие ситуации равновесия в бескоалиционной игре. 8. Опишите метод решения бескоалиционных игр п игроков в том случае, когда каждый игрок имеет только две стратегии. 9. Что такое биматричная игра? , 10. Каким условием должны удовлетворять смешанные стратегии игроков в си- ситуации равновесия биматричной игры? 11. Опишите метод биматричных игр 2-х игроков, каждый из которых имеет только 2 стратегии. 12. Что называется кооперативной игрой? 13. Что называется характеристической функцией кооперативной игры? 14. Что называется дележом в кооперативной игре? 15. Что называется классической кооперативной игрой? 16. Сформулируйте необходимое и достаточное условие, которым должен удов- удовлетворять дележ в кооперативной игре. 17. Какие кооперативные игры считаются существенными и несущественными? 18. Сформулируйте условия, которым должна удовлетворять характеристиче- характеристическая функция несущественной кооперативной игры. 19. Какие кооперативные игры называются стратегически эквивалентными? 20. Каким условиям удовлетворяет понятие стратегической эквивалентности для кооперативных игр? 21. Как распространяется понятие стратегической эквивалентности в коопера- кооперативных играх на их дележи? 22. Какая кооперативная игра называется нулевой? 23. Что такое 0 — 1 редуцированная форма кооперативной игры? 24. Сформулируйте и докажите теорему о существенных кооперативных играх в 0 — 1 редуцированной форме. 198
1 2 0 0 1 2 2\ 0 1/ /5 \0 \ • / 10 1 25. Что такое доминирование дележей в кооперативных играх? 26. Что такое с-ядро кооперативной игры и каким условиям должен удовлетво- удовлетворять дележ,чтобы он принадлежал с-ядру? 27. Опишитеоядро игр 3-х игроков. 28. Что называется Н—М решением кооперативной игры? 29. Опишите Н—М решение кооперативной игры трех игроков с постоянной сум- суммой. 30. Опишите Н—М решение кооперативной игры трех игроков с непостоянной суммой. 31. Что называется вектором Шепли? 32. Сформулируйте и докажите теорему существования вектора Шепли в коо- кооперативной игре. 33. Какая характеристическая функция кооперативной игры называется прос- простейшей? 34. Напишите формулу компонент вектора Шепли. 35. Решите биматричные игры. /4 0\ /10 а) А =\ ], В = \0 I] \0 4 /2 0 1 с) А = I 1 2 0 ) , В = \0 1 2 36. Построить характеристическую функцию для следующей игры. Каждый из игроков выбирает число из множества {1,2} и получает выигрыш согласно следую- следующему правилу: AMI, 1,1)= 1 AMI, 1,1)= 1 AMI, 1,1)= —2 AMI, 1,2) = —1 MAU 1,2) = — 1 AMI, 1,2)= 2 Mt A,2,1)= 1 M2 A.2,1)= 1 AMI, 2,1) = -2 AMI. 2,2)= —1 AMI, 2,2) = —1 AMI, 2, 2)= 2 Al,B, 1, l) = — 1 AI2B, 1, 1) = — 1 AI3B, 1, 1)= 2 AI, B, 1, 2)= 1 AI2B, 1,2)= 1 Af3B, 1, 2) =— 2 AIx B, 2, 1) = — 1 AIaB, 2,1) = — 1 M3B,2,l) = 2 AM2, 2, 2)= 1 AI2B, 2, 2)= 1 M3 B, 2, 2) = — 2 37. Найдите характеристическую функцию игры в 0 — 1 редуцированной форме для игры со следующей характеристической функцией: о@) = 0, оA) = — 1, оB) = —2, оC) = — 2, о D) = 0, оA, 2) = о A, 3) = о A, 4) = о B, 3) = о B, 4) = о C, 4) = 0. оA, 2,3) = 0, о A,2, 4) = 2, 0A,3, 4) = 2, о B, 3, 4) = I, оA, 2, 3, 4)=0. 38. Игра, называемая «один лишний», проводится следующим образом: каждый нз трех игроков выбирает число из множества A, 2}. После этого распределяются выигрыши по следующему правилу: если все игроки выбрали одинаковые значения, то — ничья (никто ничего не выигрывает), если один из них выбрал число, отличное от выбранных чисел двух других игроков, то он проигрывает (платит по единице ка- каждому из игроков). Например, первый игрок выбрал 1, а второй и третий выбрали 2, тогда первый игрок проиграл 2 единицы, которые он платит остальным игрокам по- поровну. Найдите характеристическую функцию этой игры. 199
39. Характеристическая функция о некоторой игры пяти игроков задана следу- следующим образом: О (Т) = О, если Т содержит 0 элементов, о (Г) = — 1, если Т содержит 1 элэмент, v (Г) = 0, если Т содержит 2 или 3 элемента, и(Г)= 1, если Т содержит 4 элемента, и (Г) = 0, если Т содержит 5 элементов. Покажите, что каждый из двух дележей лг = (— 0,1; —0,1; —0,2; —0,2; 0,6), !/ = (— 0,2; —0,2; —0,1; —0,1; 0,6) предпочтительней другого. 40. Найдите Н — М решение игры трех игроков с такой характеристической функцией: о@)=О, оA) = —4, оB)= — 3, оC) = — 8, оA, 2) = 8, оA, 3) = 3, оB, 3) = 4, о A,2, 3) = 0. 41. Покажите, что если о — характеристическая функция кооперативной игры с постоянной суммой, то компоненты вектора Шепли выражаются формулой 2 SCN i€S 42. Найдите вектор Шепли для корпорации из 4-х акционеров, имеющих соот- соответственно следующее количество акций: а, = 10, <ц = 20, а3 = 20, а4 = 40. Предполагается по аналогии с примером 7.7, что любое решение может быть ут- утверждено акционерами, имеющими простое большинство акций. ГЛАВА 8. ДЕЛОВЫЕ ИГРЫ Моделирование производственных, планово-экономических и управленческих ситуаций, т. е. представление этих ситуаций в виде фор- формализованной системы взаимодействующих с определенной целью элементов, в настоящее время приобретает большое значение. Слож- Сложность возникающих ситуаций не позволяет произвести полную ее фор- формализацию, и в любом случае человеку отводится решающая роль в про- процессе выработки и принятия решения в зависимости от сложившихся обстоятельств. Математические методы и формализации оказывают человеку большую помощь при научном обосновании принимаемых им решений. Так, для исследования любой производственно-хозяйствен- производственно-хозяйственной ситуации необходимо провести большое количество вычислений, сравнений, предсказаний и т. д. И здесь услугу человеку оказывают ЭВМ и математические модели. Динамичность производственных про- процессов в современных условиях требует от управляющих работников быстрой ориентировки в ситуации и принятии решений в сложной об- обстановке. Большую помощь в этом деле оказывают деловые игры, т. е. игровые модели производственных ситуаций, в которых участвуют груп- группы людей, принимающих решения, и система вычислительных средств, помогающих этим людям проводить необходимые расчеты. 200
Игровая модель, или деловая игра — это набор участников игры и правил, отражающих производственно-хозяйственную ситуацию. Уча- Участники игры должны, подчиняясь этим правилам, достичь наилучших успехов на пути к поставленной цели. На определенных этапах при- принятия решений им оказывает помощь система экономико-математиче- экономико-математических моделей и методов, реализующая на ЭВМ основные вариантные и рутинные расчеты, связанные с данной игрой производственно-хо- производственно-хозяйственной ситуации. Деловые игры создаются и функционируют для разных целей: обу- обучение участников игры выработке лучших решений в сложных и меняющихся во времени условиях производственно-хозяйственной деятельности; выработка лучших плановых решений на определенный период; улучшение взаимоотношения, сглаживание конфликтности в выработке решений и др. Участники деловой игры, проведя несколько ее циклов (партий), приобретают навыки уверенного поведения в сложной обстановке, вырабатывают точность и внимание при выполнении своего дела, по- получают возможность быстрее осязать и анализировать результаты деятельности, обнаруживать способности к эффективной работе в коллективе. Создание деловой игры требует больших усилий и затрат средств. Так, например, в Гарвардской школе бизнеса США группой около 10 человек такая игра разрабатывалась около восьми лет; в Институте технологии Карнеги группа из 9 человек около 6 лет разрабатывала деловую игру, имитирующую конкретную борьбу сорока предприятий моющих средств на пяти рынках. В современных условиях создание деловой игры по затратам средств и трудоемкости можно сравнить с разработкой автоматизированной системы управления небольшого звена народного хозяйства. Процесс создания деловой игры состоит из этапов: 1. Определение цели игры. 2. Определение круга звеньев народного хозяйства, охваченных игрой, описание воспроизводимой ситуации. 3. Разбивка всех участников на группы, определение правил игры, прав и обязанностей участников и арбитров. 4. Разделение всей игры на два комплекса, в одном из которых будут участники игры — люди, в другом — ЭВМ и правила. 5. Определение функциональных связей между участниками игры. 6. Разработка предварительного варианта деловой игры (установ- (установление количественных характеристик, сбор информации, програм- программирование, обработка документов, подготовка к проведению игры). 7. Проверка предварительного варианта в работе. 8. Доработки предварительного варианта. 9. Сдача в эксплуатацию. В деловой игре участники игры разбиваются на группы, представ- представляющие интересы определенного звена (предприятия, отрасли, объ- объединения и т. д.). Участники игры принимают решения, которые дей- действуют в течение определенного периода времени (цикла). Например, решения принимаются для составления плана работы на месяц. Если 14 6-2853 201
надо составить план на год, то можно последовательно провести 12 циклов игры для 12 месячных планов. Обычно игра начинается с инструктажа, т. е. участникам игры дается описание предприятий, от- отраслей, которыми они будут руководить, особое внимание уделяется описанию видов выпускаемой продукции и потребляемого сырья, прав и обязанностей руководителей и арбитров, определяются функции участников игры, возможные решения, информационное обеспечение. Получив инструкции, члены каждой группы проводят совещания для уяснения своих целей выработки стратегий поведения, составления планов взаимодействий для достижения целей, определения мето- методов работы и видов контроля, создания типичных организационных структур. Так, например, целью может быть достижение наибольшей прибыли или рентабельности; в качестве ограничивающих условий — стабили- стабилизация процесса производства, равномерный расход и поставка ре- ресурсов и т. д. Принимая решения, участники игры могут советоваться со свои- своими коллегами или с партнерами. Эти решения быстро обрабатываются на ЭВМ по программе, ими- имитирующей деятельность всех звеньев народного хозяйства, представ- представленных в данной игре участниками игры. Результаты решений на ЭВМ передаются участникам игры и арбитрам. Если игра проводится по- последовательно в несколько циклов, то после проведения последнего цикла происходит анализ деятельности участников игры и оценка ра- работы каждого ее участника. Разбор проведенной игры обычно проис- происходит совместно со специалистами, и это приносит большую пользу участникам игры, так как они анализируют свои решения и приобре- приобретают опыт в принятии лучших решений. Пример 8.1. Деловая игра «Реформа». Эта игра разработана в лабо- лаборатории экономико-математических методов Ленинградского госуни- госуниверситета под руководством И. М. Сыроежина с целью ввести участни- участников (студентов) в основные условия функционирования новой экономи- экономической реформы и служить тренажером в принятии решений при неполной информации. В игре моделируются спрос на продукцию и тех- технический прогресс. Основное внимание уделено анализу имеющейся информации, ведению переговоров, выработке и принятию решений в условиях риска, выбору критериев, исследованию ряда дискуссион- дискуссионных вопросов планирования и управления. В игре представляются три отрасли промышленности: А — добы- добывающая, В — перерабатывающая, С — производящая предметы на- народного потребления. Отрасль подчиняется министерству, которое представлено мини- министром и тремя его заместителями. Отрасль А состоит из трех пред- предприятий: Аг — производящее энергию, А2 — выпускающее металл, А3 — выпускающее неметаллическое сырье. Отрасль В представле- представлена следующими предприятиями: Вг — машиностроительное, б2 — электротехническое, Bs — химическое. Отрасль С — следующими предприятиями: Сх — производящее продукты питания, С2 — выпус- выпускающее одежду, С3 — выпускающее предметы быта. Каждое пред- 202
приятие представлено директором и тремя его заместителями. В игре имеется группа арбитров. Отрасли А и В поставляют продукцию в виде сырья для отрасли С, которая выпускает конечную продукцию. В правилах игры отражены условия хозяйственной обстановки в экономике страны. В инструкциях установлены основные права и обя- обязанности участников игры. Для министерства: министерства ведут переговоры друг с другом; все вопросы реша- решаются путем обсуждения, но принимает решение главный; спорные во- вопросы решают арбитры; министерство в начале игры обеспечивает свои предприятия необходимыми средствами; министерство получает прогноз о спросе на продукцию каждого предприятия; министерство утверждает план для предприятия по объему реализации продукции, сумме прибыли и рентабельности; министерство и предприятия несут взаимную ответственность за свою деятельность; министерство имеет свой расчетный счет в банке; банк представляет министерству кредиты. Для банка: банк представляет кредиты министерствам и предприятиям на опре- определенных условиях; на произведенную, но не реализованную продук- продукцию банк кредитов не дает; кредит представляется не более, чем на 3 периода игры. Для предприятий: предприятия устанавливают прямые связи с помощью договоров, которые заключаются в каждом периоде (если предприятие не произ- произвело расчет по прежнему договору, новый договор не заключается); средства предприятия хранятся на расчетных счетах в банке; предприя- предприятие составляет техпромфинплан на текущий период (директивные пока- показатели утверждаются министерством); 10—25% плановой балансо- балансовой прибыли отчисляется на счет министерства, основная ее часть идет на погашение кредита банку, министерству в виде платы за фонды, а остальная — хранится в банке на счету предприятия и может быть ис- использована на образование фондов экономического стимулирования; сверхплановая прибыль распределяется почти аналогично плановой; если предприятие понесло убытки из-за производства не имеющей спроса продукции, но запланированной министерством, то убытки покрываются в размере 65% затрат за счет резервного фонда мини- министерства; предприятия реализуют появляющиеся технические и орга- организационные усовершенствования. Для арбитров: арбитры разрешают спорные вопросы, вводят систему штрафов и поощрений деятельности министерств, пересматривают цены на про- продукцию предприятий, но не чаще одного раза в три периода; органи- организуют учет итогов работы по периодам; рассматривают предложения по усовершенствованию и изменению правил игры, принимают решения в неожиданных и непредвиденных ситуациях. После ознакомления с правами и обязанностями участники игры изучают правила игры и последовательность операций. Последовательность проведения операций деловой игры можно считать следующей: 14* 203
1. В начале каждого периода директора предприятий, министры, арбитры и управляющий банком получают информацию об основных технико-экономических показателях предприятий: мощности, основ- основных фондах, оборотных средствах, объемах реализованной продукции, плановой балансовой прибыли, фактической балансовой прибыли, рен- рентабельности, свободных мощностях, себестоимости производимой про- продукции, цене продукции, нормах амортизации, нормах рентабельности, нормах прибыли, амортизационном фонде, фонде развития, сумме на расчетном счете в банке, личных сбережениях работников, нормати- нормативах затрат и выпуска продукции в стоимостном и натуральном выраже- выражениях. Эти показатели выдаются в виде заполненных форм. 2. Предприятия сверяют счета в банке и министерствах, т. е. по- получают сведения о своих возможностях. 3. Министерство С, его предприятия получают прогноз о возмож- возможном спросе, который рассматривается как плановый показатель для предприятий Сх, С2, С3. Этот спрос может быть определен с помощью соответствующих вычислений, проводимых на ЭВМ. 4. Получение информации о достигнутом прогрессе каждой отрас- отрасли: об использовании нового оборудования (в процентах от основных фондов), совершенствовании технологии по более рациональному ис- использованию сырья (в процентах от оборотных средств предприятий), совершенствовании в сфере организации производства (в процентах от мощности предприятий). Измерение влияния технического прогрес- прогресса производится в процентах снижения себестоимости продукции за счет технического прогресса. Директор предприятия решает вопрос о внедрении достижений технического прогресса. 5. Предприятие отрасли С получает от министерства С план по раз- размеру реализуемой продукции, сумме прибыли и рентабельности. 6. Предприятия, анализируя план министерства, составляют план выпуска продукции. 7. Предприятия разрабатывают свои решения по выполнению пла- плана, имея в виду возможности кредитов в банке, фонд развития, прогресс, свободные мощности, кредит министерства, кредит отраслевого пред- предприятия. 8. Решения директоров предприятий утверждаются министерствами. 9. Предприятия при поддержке министерств обращаются в банк для финансового обеспечения принятых решений. 10. Предприятия отрасли С, используя нормативы затрат — вы- выпуска, составляют проект заказов другим предприятиям. 11. Эти проекты обсуждаются в министерствах и утверждаются. 12. Предприятия и министерства обеспечивают принятые проекты финансированием в банке. 13. Предприятия отрасли С договариваются с другими предприя- предприятиями отраслей А и В о выполнении заказов. 14. Предприятия отраслей А, В принимают на себя обязательства по выполнению договоров с предприятиями отрасли С. 15. Производство продукции происходит сразу же после заключе- заключения договоров. 204
16. Расчет фактической реализации продукции отрасли С произ- производится с помощью ЭВМ. 17. Определяется результат деятельности предприятий: разность между фактической и плановой реализацией, выплата заработной платы, определение прибыли и рентабельности. 18. Оценка деятельности участников игры. 19. Решение арбитров на основе оценок деятельности. Оценкой деятельности министра является прибыль, получаемая в виде отчисле- отчислений от прибыли предприятий, курируемых им. Критериями оценки деятельности участников игры может быть сте- степень выполнения текущих планов. Если имеются разработанные прог- раммы на ЭВМ и необходимая информация для использования этих программ с целью принятия решения, то можно получать оптимизаци- оптимизационные решения на ЭВМ, и затем сравнивать их с решениями, приня- принятыми участниками игры без применения ЭВМ. Такие сравнения помо- помогают оценить работу участников игры и способствуют обучению в принятии решений по управлению в условиях неопределен- неопределенности. Пример 8.2. Деловая игра ЭПОС. Слово ЭПОС означает «Экспери- «Экспериментальное планирование ограниченных средств». Эта игра разработа- разработана в Ленинградском государственном университете совместно с Ленин- Ленинградским финансово-экономическим институтом и используется прак- практически для обучения. Деловая игра ЭПОС имитирует процесс распределения и использо- использования дефицитных ресурсов с целью сокращения сроков работ в служ- службе главного технолога. Система отношений между главным технологом и его службами строится на стимулировании обмена ресурсами между ними, на общей заинтересованности в освоении нового изделия в усло- условиях разнонаправленности интересов каждой службы по использова- использованию ее ресурсов. Проведение такой игры дает возможность получить новый подход к планированию, распределению и реализации производственной про- программы в службе главного технолога, привлечь работников бюро к процессу планирования и более рационального использования соб- собственных возможностей, стимулировать творческий подход, выявить достоверную информацию о действительных возможностях конструк- торско-технологических бюро, накопить данные для совершенствова- совершенствования нормативов, получения свободного резерва времени, проверки изменений в действующей системе стимулирования. Цели игры подчи- подчинены поискам новых путей стимулирования работников производст- производства при условиях опережающего роста производительности труда по сравнению с ростом заработной платы. Игра стимулирует участников к выработке и принятию реального напряженного плана, к перераспреде- перераспределению ответственностей при его выполнении. Главный технолог и его заместители представлены в игре решаю- решающим центром — стратегом, т. е. распорядителем. Конструкторско-технологические бюро (в игре их четыре) пред- представлены решающими центрами — тактиками, которые являются по- потребителями. 205
Все остальные службы рассматриваются как среда либо как обслу- обслуживающие решающие центры. Условия проведения игры следующие: распорядитель имеет ад- административные полномочия по отношению к потребителям, он обла- обладает некоторым дефицитным ресурсом; потребители также имеют не- некоторый дефицитный для распорядителя ресурс, который с помощью административных директив полностью изъять нельзя; потребители независимы друг от друга в административном подчинении; потреби- потребители не располагают полной информацией о ходе дел друг у друга; потребители стараются получить дефицитный ресурс, который имеет- имеется у распорядителя; распорядитель имеет фонд материального поощ- поощрения, с помощью которого он может проводить реализацию скрытых резервов, отвечает за общее выполнение плана, организует и координи- координирует работу по составлению и выполнению плана. Общие ресурсы (материалы, сырье, фонды, рабочее время и т. д.) распорядителя и потребителей для освоения нового изделия остаются неизменными, поэтому сокращение сроков работ в службе главного технолога вызывает рост производительности труда. Отметим факторы, от которых зависит рост производительности труда: рост образовательного уровня, использование научно-техни- научно-технических достижений в практике, применение технических усовершенст- усовершенствований, лучшее использование рабочего времени за счет уменьшения непроизводительных расходов рабочего времени, рост заработной пла- платы, материальное поощрение. Для оценок индивидуальных возмож- возможностей используется специальная шкала. За основу взята производи- производительность труда Ьо нормативного работника, a bt означает верхнюю границу производительности труда i-ro работника, тогда предельным резервом считается величина Производительность труда i-ro работника обозначается dt; вводится параметр надежности kt, т. е. k: есть вероятность правильно выполнен- выполненной работы 1-м работником; отзывчивость на премии оценивается пара- параметром v{, причем vt = О, если i-й работник не заинтересован в полу- получении премии, и v,, = 1, если он максимально заинтересован в полу- получении премии, в остальных случаях 0 < vt <; 1; приоритетность бюро выражается параметром af — вес /-го бюро (чем больше значимость бюро, тем больше а;), наименьшее значение а), = 1. Бюро различается по составу работников, их числу, количеству разрабатываемых оригинальных деталей. Вводится коэффициент Bf возможностей /-го бюро по данной группе работ в изыскании резервов и коэффициент у;- приведения численности сотрудников. Например, bj может определяться как суммарный резерв времени всех сотрудни- сотрудников /-го бюро, а у;- — как средний резерв времени, приходящийся на одного сотрудника /-го бюро. Для каждого бюро отдельно на основании действующих норм формируется план выполнения работ, Тпл плано- плановый срок выполнения работ, ТЖел — желаемый срок выполнения ра- работ и Т = Тпл — Тжел — сокращение сроков выполнения работ. 206
Фонд материального поощрения, известный только распорядите- распорядителю, должен распределяться в соответствии с временными резервами бюро, т. е. распорядитель, поощряя бюро, как бы покупает у него резерв времени. Для осуществления такого обмена вводятся цены ct для /-го бюро, т. е. с, — это доля дневной суммарной заработной платы, ко- которую распорядитель может дать в качестве поощрения за сокращение сроков работ. Устанавливается нижняя граница цены с/н и верхняя граница с,-в. Для оценки выплат каждому бюро в зависимости от по- поданных предложений проводится изучение цен в интервалах (с/н, с/в), куда попадает данное бюро. Для сопоставления оценок резервов бюро применяются коэффициенты a,-, Bjt у,-. Игра проводится в несколько эта- этапов, туров. Количество этих этапов определяется распорядителем в за- зависимости от суммарного поощрения А по всем бюро, от сокращения срока Т выполнения работ и от поведения потребителей. На k-ш туре объявляется доля ак общего фонда А. Эта доля зависит от результатов деятельности на предыдущих k — 1 этапах. Поскольку каждое бюро представлено руководителем и сотрудни- сотрудниками и их вклад по разному влияет на работу, то а делят на две час- части: ей — сумма для распределения среди сотрудников бюро, а\—сум- а\—сумма для руководителя бюро. Вся информация о ценах, коэффициентах, долях суммы А неизвестна представителям бюро. С другой стороны, распорядитель не знает точных оценок В,-, k,, Vj и размеров скрытых резервов бюро. Поэтому игра проводится в условиях неполной информации. Во время игры бюро подает предложения, а распорядитель может: 1) распределить а между бюро, подавшими предложения, учиты- учитывая цены бюро и интервалы цен; 2) отдать все ак тому бюро, предложение которого целиком устраи- устраивает распорядителя и укладывается в рамки интервала цен, а предло- предложения остальных бюро не принимать; 3) аннулировать результат труда, если поступившие предложения не выгодны одной из сторон; 4) иногда в зависимости от обстановки отклоняться от интервала цен в невыгодную для себя сторону. Распорядитель должен научиться выбирать лучший вариант, при- приводящий к наибольшей выгоде. Результаты игры фиксируются в протоколе игры в виде установ- установления сроков выполнения плана по отдельным пунктам и гарантиро- гарантированных сумм по каждому из них. Протокол подписывают все участни- участники игры. После оформления протокола и установления всех позиций плана каждому сотруднику из бюро выплачивается 25% отыгранной суммы. Это поощрение сотрудникам бюро за участие в процессе состав- составления плана, за умение четко оценивать свои возможности, за грамот- грамотно составленный план работы. Если сроки, указанные в протоколе игры, не выдерживаются или в план вносятся директивные изменения, то в действие вступает кор- корректирующая система, которая составляется на основе согласованных 207
в начале игры «Технических условий проведения экспериментально- экспериментального планирования». Во время игры каждое бюро может получать оплату своих резер- резервов в интервале цен (с/н, с/в). Потребитель может в любой момент пре- прекратить отдачу резервов, если ход игры его не устраивает. Потреби- Потребители в игре практически не могут образовывать коалиции против рас- распорядителя, так как они не располагают полной информацией; цена образуется лишь на основании объявленной ставки и отдаваемых резер- резервов, интервал цен и коэффициенты а, Ь, у также полностью не известны потребителям, число предполагаемых этапов и общая сумма фонда ма- материального поощрения не известны заранее потребителям. Структура проведения игры следующая: Первый этап. Формирование плана и поиск резервов. Второй этап. Корректировка плана. Третий этап. Реализация плана. Четвертый этап. Анализ результатов и подведение итогов. Рассмотрим подробнее эту структуру. Первый этап. Формирование плана и поиск резервов связаны с боль- большой трудоемкостью при выполнении последовательности следующих операций. 1. Чертежи на новое изделие получает служба главного технолога и изучает их. 2. На основании действующих нормативов составляется план ра- работы по всем бюро с разбивкой на виды работ и установлением сроков Тпл. Этот план отдают в бюро за месяц до начала второго этапа игры. 3. Назначается распорядитель, т. е. ответственный за проведение экспериментального планирования в службе главного технолога. 4. Он проводит анализ плана, определяет общее положение запла- запланированных работ в заводском плане деятельности на рассматривае- рассматриваемый интервал времени. 5. Распорядитель определяет Тжел — желаемые сроки выполнения работ по отдельным позициям плана и устанавливает время сокраще- сокращения рабОТ (Т = Гпл — Гжел)- 6. Проводится анализ плана бюро сотрудниками этого бюро и его руководитель устанавливает прикидочные оценки параметров Bh djy kj, V/. 7. Распорядитель на основании собственных сведений устанавли- устанавливает свои оценки В/, kj, Vj, которые могут существенно отличаться от соответствующих оценок, полученных руководителем бюро. 8. В службе проводится экспертиза с целью возможного сокраще- сокращения сроков выполнения установленных плановых показателей. В каче- качестве экспертов выступают специалисты как данного предприятия, так и родственных ему предприятий. 9. Распорядитель, сопоставляя свои оценки Bt, kh v-t с оценками экспертов, уточняет желаемые сроки выполнения Гжел и пересчиты- пересчитывает Т. 10. На основании штатного расписания и коэффициентов bt, k/r Vj распорядитель формирует коэффициенты сс;-, В;-, 7/- 208
11. На основании прогноза Т распорядитель оценивает возможную экономию фонда заработной платы по дайной группе работ. 12. Исходя из суммарной заработной платы по бюро за одни день по данной группе работ, общего положения предприятия и службы главного технолога, распорядитель устанавливает интервал цен (сн, св). 13. В каждом бюро проводится оценка возможных резервов по каж- каждой группе работ. Руководитель бюро уточняет значения Bs, k,-, Vj. 14. Распорядитель определяет функции поощрения на основе ин- интервалов (сн, ев). Обычно эти функции выражают общее увеличение поощрения в зависимости от отданных использованных резервов, но* уменьшение рассчитывается на единицу отданного резерва. 15. Проводится обоснование необходимой суммы А и устанавлива- устанавливается окончательное ее значение. 16. Распорядитель проводит анализ предполагаемой политики. 17. Потребители, проведя денежную оценку своих резервов, уста- устанавливают собственный интервал цеи (р„, рв), который может не совпа- совпадать с интервалом (сн, ев). В зависимости от степени совпадения или несовпадения этих интервалов развивается ход игры. Например, если Рв < сн> т0 потребитель слишком иизко оценивает свои резервы и рас- распорядитель не может их покупать (их оплата выходит за нижнюю гра- границу цены распорядителя), и такой потребитель выбывает из игры. К определению (ри, рв) и (с„, св) надо относиться очень внимательно, так как их значения оказывают большое влияние на ход игры. 18. Распорядитель готовит необходимую документацию ко второму этапу игры. 19. Проводятся тренировочные упражнения по второму этапу. В результате определяются и уточняются процедурные вопросы ве- ведения игры, величины параметров Bjf kf, vf, (pH, pB), (cH, св). Прово- Проводится технологическая тренировка всех участников по работе с новым, методом экспериментального планирования. 20. Распорядитель и потребители вносят коррективы в свои подго- подготовленные материалы. 21. Представители бюро, руководители службы, представители организации вырабатывают «Технические условия проведения эк- экспериментального планирования», в которых предусматриваются воз- возможные отклонения от полученных результатов после игровой кор- корректировки планов, и принимаемые в этих случаях решения. 22. Уточняется состав участников игры, назначается дата прове- проведения игрового эксперимента. Второй этап — корректировка плана. Это наиболее важный этап. На этом этапе по-существу проводятся действия участников игры, они принимают решения в сложной обстановке, и на основании этих ре- шеиий проводится обмен дефицитными ресурсами. 23. Участники игры размещаются в специальном помещении, обес- обеспечиваются всем необходимым справочным материалом, техническими средствами, при необходимости им предоставляется возможность опе- оперативной связи с ЭВМ. 209
24. Распорядитель определяет и сообщает сумму а1 фонда поощре- поощрения, предполагаемую на первом туре. Обычно эта сумма назначается в пределах суммарной оценки одного резервного дня по всем группам работ в принятых средних оценках интервала цен. 25. Потребители оценивают сумму а1, сопоставляют с собственными резервами и интервалами цен (рн, рв) и принимают решения об участии в этом туре. 26. Свое решение потребитель в закрытом виде подает распоряди- распорядителю. Это делается для снятия психологического давления с тех, кто подает первым, на остальных, чтобы все игроки находились в одинако- одинаковых условиях информационной обеспеченности. Если потребитель ре- решил не участвовать в этом туре, то он ждет начала следующего. Если потребитель согласен участвовать в данном туре, то он передает распоря- распорядителю вместе с согласием предлагаемый резерв на этот тур. 27. Распорядитель оценивает поданные предложения, сопоставляет с интервалом цен, поправочными коэффициентами, функциями поощ- поощрения. 28. Распорядитель принимает решения по данным предложениям и проводит расчет отдаваемых сумм. 29. Потребители получают решения распорядителя по итогам тура. 30. Распорядитель подводит общий баланс тура: считает разницу между полученной экономией и отданной суммой, сопоставляет с про- прогнозами. 31. Распорядитель и потребители вносят определенные корректи- коррективы в заранее сформулированные планы действий. 32. Распорядитель готовит новую сумму а2 фонда поощрения для второго тура. 33. Объявляется эта сумма, и происходит вся процедура, описанная в п. п. 24—32. Так повторяется несколько первых туров (до шести), и затем окончательно устанавливается картина психологического по- поведения игроков, определяются коэффициенты, границы интервалов цен. По ходу игры распорядитель регулирует суммы а* фонда поощре- поощрения на k-м туре (k = 1, 2,...), определяет число туров и пропорции (Х\ и п2 для руководителя бюро и сотрудников. После проведения по- последнего тура проводятся общие итоги игры. 34. Оформляется «Протокол экспериментального анализа програм- программы работ», который подписывается всеми участниками игры. 35. Подготавливаются проекты приказов на выплату 25% оты- отыгранных сумм за участие в процессе планирования. После этого все бюро, начиная с указанного планом срока, приступают к выполнению работ. Третий этап— реализация плана. 36. В соответствии с принятыми техническими условиями все из- изменения в ходе выполнения плана вносят в соответствующие дополне- дополнения и предлагаемую оплату. Контроль осуществляется распорядите- распорядителем в течении всего рассматриваемого периода. По мере реализации отдельных позиций протокола в соответствии с принятой процедурой взаимных расчетов по техническим условиям оформляются приказы по заводу с соответствующим содержанием. 210
Четвертый этап — анализ результатов и подведение итогов. 37. После завершения всех запланированных сроков распоряди- распорядитель подводит итоги реализации работ по протоколу. Оформляются и выполняются соответствующие суммы поощрений. 38. Проводится общий разбор результатов со всеми участниками игры с доведением выводов до каждого из сотрудников бюро. 39. Если принимается решение о проведении нового цикла экспери- экспериментального планирования, то уточняются технические условия, участ- участники игры делают соответствующие выводы. 40. Начинается новый цикл. Проведение игр типа ЭПОС на предприятиях дает большую пользу, особенно на этапе планирования. Работников производства несколь- несколько настораживает новизна и необычность предлагаемого метода и ин- интересует законность применения игровых методов и выделение соот- соответствующих сумм А поощрительных фондов. Ответом на эти сомнения являются следующие документы: 1. Постановление Государственного Комитета Совета Министров СССР по вопросам труда и заработной платы и Секретариата ВЦСПС от 22 апреля 1965 года № 298/11. В этом постановлении отмечается, что руководителям предприятий совместно с комитетами профсоюзов предоставляется право устанавливать для отдельных участков служб предприятий показатели премирования с учетом конкретных задач, стоящих перед соответствующими подразделениями предприятия. 2. Решения XXIVсъезда КПСС по пятилетнему плану развития на- народного хозяйства СССР на 1971—1975 гг. В них сказано, что необходимо обеспечить дальнейшее совершенствование системы планирования и эко- экономического стимулирования производства, повысить научную обо- обоснованность планов, повысить заинтересованность и ответственность предприятий и объединений в деле выработки оптимальных планов, максимально учитывающих возможности интенсивного использования действующих производственных фондов, улучшения организации тру- труда и производства. Необходимо обеспечить более тесную зависимость размеров поощрительных выплат от роста производительности труда, освоения новой техники. 3. Решения XXV съезда КПСС по пятилетнему плану разви- развития народного хозяйства СССР на 1976—1980 гг. В них сказано, что надо усилить роль экономических стимулов в росте эффектив- эффективности производства, повышении качества продукции, ускорении научно- технического прогресса, улучшении использования трудовых ресурсов, повышать заинтересованность коллективов объединений, предприя- предприятий и строек в разработке и выполнении планов, наиболее полно учитывающих возможности и резервы производства, усилить зависи- зависимость размеров фондов экономического стимулирования, а также пре- премий работников от выполнения плана. Руководители предприятий по согласованию с комитетом профсою- профсоюзов могут вырабатывать и утверждать местные положения о премиро- премировании. В частности, они могут разработать и утвердить систему по- поощрений, связанную с выработкой плановых показателей по лучшему использованию имеющихся ресурсов, т. е. деловая игра ЭПОС, как 211
метод планирования, дающий возможность получения показателей напряженного плана и повышающих эффективность плановых реше- решений, заслуживает одобрения и применения в практике. Такие игры про- проводились как с учебной целью, так и для практического использова- использования результатов на предприятиях. Отметим некоторые особенности практического использования та- таких игр. В формируемую группу конструкторов обязательно должны вхо- входить представители служб, чтобы построение и проведение игры шло грамотно, с правильным отражением производственных процессов. Проводится предварительная подготовка всех предполагаемых участ- участников, детально разъясняются задачи1 и цели проводимой игры, руко- руководитель и все сотрудники бюро должны сами убедиться в необходи- необходимости, своевременности и полезности этого метода, все службы должны быть заинтересованы в проведении игры. Здесь могут оказать большую помощь выступления представителей предприятия — членов конструк- конструкторской группы игры — на собраниях всех участников игры. Все участники игры должны получить подробные правила игры и инструкции. Они должны готовить материал для технических условий ее проведения. Необходимо добиться такого положения, чтобы все участники игры полностью поняли ее суть, овладели правилами, инструкциями, ее движущим механизмом. Для этого проводится не- несколько учебных циклов игры на условных примерах. После каждого цикла обязательно проводится детальный анализ результатов, вскры- вскрываются ошибки, указываются пути их устранения, делается акцент на экономическое содержание игры. Отдельно проводится подготовка ко второму этапу игры. Сначала этот этап разыгрывается только конструкторами и распорядителем. Это дает распорядителю возможность лучше овладеть принципами об- обмена ресурсами. Так, например, на практике проводилось 9 учебных циклов. Сначала использовались простые условия, затем они посте- постепенно усложнялись до реальных. Все учебные циклы должен вести распорядитель при помощи представителей конструкторской группы. Количество учебных циклов распорядителя совместно с потребителя- потребителями составляет около 12. Во время обучения может происходить улучше- улучшение организации игры, внедрятся предложения о новых формах доку- документов и т. д. После обучения первому и второму этапам игры приступают к про- проведению экспериментальной игры. Для определения конкретных зна- значений параметров взаимодействия проводится сопоставление и анализ текущей производительности труда, показателей за предыдущие пе- периоды в целом по бюро и отдельно по каждому сотруднику. Рекомендуется размещать группы участников таким образом, чтобы они не мешали друг другу в работе. Поведения участников при проведении учебных и реальных игр значительно отличаются. В учеб- учебных играх не обращают внимание на долю я2-фонда поощрения для со- сотрудников, а в реальных играх сумме а* уделяется большое внимание. Не рекомендуется назначать слишком низкие или слишком высокие 212
суммы ак. Небольшие суммы о* вызывают у представителей бюро по- повышенную настороженность, что затрудняет работу распорядителя. Слишком завышенная сумма ак, как правило, приводит к аннулиро- аннулированию тура, так как потребители делают слишком низкие предло- предложения. С целью ослабления психологического давления рекомендуется ограничивать число участников, присутствующих на реализации второго тура: от бюро до двух человек, от распорядителя — до трех. На каждом туре необходимо подводить общий итог полностью по прибы- прибыли, экономии, максимальному размеру фонда поощрения, выплаченной сумме. Игру следует проводить до тех пор, пока либо распорядитель не израсходует всю сумму А, либо не будут исчерпаны все резервы у бюро. Проведенные реальные игры дают высокую эффективность. Как указывается в [20], два цикла учебного варианта игры ЭПОС в 1970 и 1971 гг. на курсах повышения квалификации управленческих работ- работников завода счетных машин в Вильнюсе показали высокую заинте- заинтересованность участников в подобных методах решения производствен- производственных задач. Изложение материала по деловым играм на курсах, в шко- школах и институтах повышения квалификации руководящих работников всегда вызывает большой интерес. Деловые игры развиваются и сфе- сфера их применения расширяется. Контрольные вопросы и задания к главе 8. 1. Что такое деловая игра? 2. С какой целью проводятся деловые игры? 3. Дайте краткое описание игры «Реформа». 4. Дайте краткое описание игры «ЭПОС>\. 5. Какое практическое значение имеют разработки и применения деловых игр?
СПИСОК ЛИТЕРАТУРЫ 1. Айзеке Р. Дифференциальные игры. М., «Мир», 1967. 2. Блекуэл Д., Г и р ш и к М. Теория игр и статистических решений. М., ИЛ, 1958. 3. Б е р ж К. Общая теория игр нескольких лиц. М., ИФМЛ, 1961. 4. Воробьев Н. Н. Математическая теория игр. Л., «Знание», 1963. 5. Воробьев Н. Н. Теория игр. Лекции для экономистов-кибернетиков. Изд-во Леииигр. ун-та, 1974. 6. Г р е н ь Е. Статистические игры и их применение. М., «Статистика», 1975. 7. К а р л и и С. Математические методы в теории игр, программировании и эко- экономике. М., «Мир», 1964. 8. Крапивин В. Ф. Теоретико-игровые методы синтеза сложных систем в кон- конфликтных ситуациях. М,, «Советское радио», 1972. 9. Коваленко А. А. Сборник задач по теории игр. Львов, «Вища школа», Изд-во при Львов, ун-те, 1974. 10. К Р У ш е в с к и й А. В. Элементы теории матричных игр. КВИРТУ, 1960. 11. Л ьк> с Р. Д., Р а и ф а X. Игры и решения. М., ИЛ, 1961. 12. М а к - К и и с и Д. Введение в теорию игр. М., Физматгиз, 1960. 13. Н е й м а и Д., Моргеиштерн О. Теория игр и экономическое поведе- поведение. М., «Наука», 1970. 14. О у э и Г. Теория игр. М., «Мир», 1971. 15. Лииейиые неравенства и смежные вопросы. (Сборник статей). Под ред. Г. У. Ку- иа и А. У. Таккера. М., ИЛ., 1959. 16. Матричные игры. Под ред. Н. Н. Воробьева. М., Физматгиз, 1961. 17. Позиционные игры. Под ред. Н. Н. Воробьева, И. Н. Врублевской. М., «Наука», 1967. 18. Бесконечные антагонистические игры. Под ред. Н. Н. Воробьева. Физматгиз, 1963. 19. С ы р о е ж и и И. М. Очерки теории производственных организаций. М., «Эко- «Экономика», 1970. 20. Экономическая кибернетика. Под ред. И. М. Сыроежина, ч. 2. Л., 1973 (ЛФЭИ). 21. К о л б и и В. В., С ы р о е ж и н И. М. Анализ деловой игры с применением ЭВМ. Экономика и математические методы, т. 5, вып. 1, 1969.
ОГЛАВЛЕНИЕ Предисловие 3 Введение 5 Глава 1. Основные определения и положения теории нгр 1.1. Участники игры, игроки, стратегии, выигрыши .... 7 1.2. Классификация игр и общие сведения о методах их решения . . Ю Глава 2. Матричные игры двух игроков с нулевой суммой 2.1. Определение, примеры и решение матричных игр в чистых стратегиях 14 2.2. Оптимальные смешанные стратегии и их свойства... 25 2.3. Игра порядка 2X2 42 2.4. Игры порядка 2 X п и т X 2 49 2.5. Методы решения матричных игр 55 Глава 3. Позиционные игры 3.1. Понятие позиционной игры и ее нормальной формы . . 68 3.2. Графическое представление позиционной игры ... 71 3.3. Определение позиционных игр 79 3.4. Позиционные игры с полной информацией .... 84 3.5. Позиционные игры с идеальной памятью 90 Глава 4. Бесконечные антагонистические игры 4.1. Определение бесконечной антагонистической игры . . 95 4.2. Игры с выпуклыми функциями выигрышей 107 4.3. Сепарабельные (разделимые) игры 114 4.4. Примеры из экономики 127 Глава 5. Игры типа дуэлей 134 Глава 6. Многошаговые игры 6.1. Игры на разорение 142 6.2. Стохастические игры 147 6.3. Дифференциальные игры 153 Глава 7. Игры п лиц 7.1. Бескоалиционные игры 161 7.2. Биматричные игры 169- 7.3. Кооперативные игры 174 Глава 8. Деловые игры 200 Список литературы 214,
Аркадий Владимирович Крушевский Теория игр Редактор Л. П. Оннщенко Обложка художника П. Т. Вишняка Художественный редактор С. П. Духленко Технический редактор И. И. Левченко Корректоры Н.В.Волкова, Т. В. К о в т у н Информ. бланк № 2664 Сдано в набор 27.10. 76 г. Подписано к печати 14 02. 77 г Формат бумаги 60X90Vie. Бумага типографская Л"» 1. 13, 5 печ л 13,68 уч.- нзд. л. Тираж 10000. Изд. №3115 БФ 08181 Цена 74 коп. Зак № 6—2853 Головное издательство издательского объединения «Вища школа», 252054, Киев, 54, Гоголевская, 7 Отпечатано с матриц Головного предприятия республиканского производственного объединения «Полиграфкннга» Госкомизда- Госкомиздата УССР, г. Киев, Довженко, 3, в Киевской книжной типографии научной книги, г. Киев, Репина, 4. Зак. 7-391.