Текст
                    Строили Р.Г.
Исследование операций и модели
экономического поведения
2-е издание, исправленное
Стронгин Р.Г.
Национальный Открытый Университет "ИНТУИТ"
2016

Исследование операций и модели экономического поведения Стронгин Р-Г. ХЦК 519.7(075.8) ББК10 С86 Исследование операций. Модели экономического поведения / Стронгин Р.Г. • М.: Национальный Открытый Университет "ИНТУИТ", 2016 (Основы информационных технологий) ISBN 978-5-94774-547-4 Курс посвящен теории исследования операций и теории игр, которые читаются студентам математических специальностей. Рассматриваются модели выбора решений в условиях неопределенности и несовпадения интересов сторон, участвующих в экономических взаимодействиях Основное внимание уделено вопросам анализа реализуемости (устойчивости) принимаемых решений в задачах с двумя участниками, определяемой стремлением сторон к увеличению выгодности решений. Рассматриваются также модели прогноза договоренностей, которые достигнут участники в условиях существования механизмов, обеспечивающих выполнение принятых сторонами обязательств. (с) ООО "ИНТУИТ.РУ", 2007-2016 (с) Стронгин Р.Г., 2007-2016
Стронгин Р.Г. Исследование операций и модели экономического поведения Противоречия и компромиссы в задачах выбора решений Исследование операций как математическая теория моделирования процессов принятия решений. Оперирующие стороны н нх цели. Конфликт интересов. Неопределенность условий выбора. Проблема рационального поведения. Деятельность, осуществляемая людьми, обычно носнт целенаправленный характер, т.е. связана с достижением определенных целей. Указанная направленность обеспечивается соответствующими действиями, реализация которых предполагает наличие ресурсов. Таким образом, выбор способа поведения, переключающий процесс принятия решений, является неотъемлемой частью целенаправленной деятельности. Математическая теория, задачей которой является моделирование процессов принятия решений, получила название исследования операций, поскольку рассматриваемые ею задачи выбора поведения обычно (следуя традициям анализа военных операций) называют операциями. При этом участников операции, т.е. лиц, принимающих решения в ходе операции и осуществляющих действия, называют оперирующими сторонами, нлн сторонами в этой операции. В некоторых случаях возникает необходимость подчеркнуть, что работу по анализу операции и фактическое принятие конкретного решения осуществляют разные лица (нли группы лнц). В таких случаях о разработчиках вариантов решений говорят как об исследователях операции Заметим, что в одной н той же операции могут участвовать несколько сторон. Это типично, например, для экономических, социальных н многих других взаимодействий. Поскольку возможны различия в интересах сторон, то возникает конфликт интересов. Такую ситуацию принято характеризовать как принятие решений и в условиях конфликта (именно в этом положении оказались лебедь, рак и щука - герои известной басни И.А.Крылова). Возникающее конфликтное взаимодействие в зависимости от характера расхождения интересов может приводить и к компромиссам, и к острому противостоянию сторон.
Стронгин Р.Г. Исследование операций и модели экономического поведения Еще одна особенность заключается в том, что условия реализации планируемых действий могут быть не известны той или иной стороне, как это зачастую имеет место, например, в отношении погодных условий, играющих существенную роль для ведения сельскохозяйственных работ в районах с неустойчивым климатом. Похожая ситуация возникает при разработке многофункциональных технических систем. Решение об эффективной структуре системы, разумеется, зависит от относительной частоты использования тех нли иных ее возможностей, однако эти интенсивности использования различных режимов могут быть недостаточно известны в период проектирования. Подобные ситуации обычно характеризуют как принятие решений в условиях неопределенности. Более того, сама цель, преследуемая конкретной стороной, может быть противоречивой. Эта противоречивость зачастую является следствием изначальной противоречивости тех требований, которые предъявляются к решению. Например, требования высокой прочности и одновременно малой материалоемкости, нли требования высокого качества и одновременно низкой стоимости обычно оказываются противоречивыми. Разумеется, время от времени создаются новые материалы, открываются новые физические эффекты н появляются основанные на ннх новые технологии, позволяющие улучшить одновременно все показатели. Но такие возможности возникают относительно редко. В рамках же существующих подходов приходится искать компромиссы, примиряющие противоречивые требования к принимаемым решениям. Сами по себе цели операции могут иметь различные источники возникновения. Они могут задаваться (как это имеет место при постановке задач в военных операциях). Они могут внушаться (именно эту цель преследует реклама, как в сфере торговли, так н в сфере политики). Они могут воспитываться опытом. При этом следует отметить возможную противоречивость самого процесса целеполагания, поскольку цели могут изменяться в процессе разработки операции. Яркий пример такого рода приведен в работе В.Г. Карманова н В.В. Федорова^ Пример связан с задачей создания акустического прибора для обнаружения подводных лодок, поставленной правительством США перед известным изобретателем ТА.Эдисоном^ в 1917 году Анализируя более широкую проблему защиты надводного
Стронгин Р.Г. Исследование операций и модели экономического поведения флота от действий подводных лодок, ТА. Эдисон установил, что, с одной стороны, парождные компании продолжают использовать в военное время известные маршруты мирного времени, а с другой стороны, только 6% судов потоплено в ночное время. Кроме того, оказалось, что подводные лодки редиэ атакуют на мелководье. В результате (вместо акустического прибора) ТА. Эдисон предложил рекомендации, согласно которым следовало отказаться от стандартных маршрутов, в глубоководные порты и опасные зоны заходить только ночью, а в дневное время укрываться в гаванях и на мелководье. Еще одна грань проблемы выбора решений связана с тем, что стороны могут неадекватно оценивать условия операции, включая случаи неправильных представлений о возможностях друг друга и о собственных возможностях. Разумеется, степень информированности или недостаточная информированность могут быть различными для разных сторон. Следствием отмеченных выше обстоятельств (список которых может быть продолжен) является, как уже было отмечено, противоречивый характер задач выбора решений, что усложняет формирование представлений о "лучших" решениях. Ситуация еще более усложняется, если в операции участвуют более двух сторон, поскольку в этом случае одни из них могут объединяться в коалиции против других. Тогда возникает необходимость анализа конфликтных отношений как между коалициями, так и внутри коалиций. Более того, требуется исследовать сам процесс формирования коалиций. Поскольку принятие решений является одной нз старейших областей человеческой деятельности, то неудивительно, что история дает многие образчики высочайшего искусства политического, экономичесжго и военного руюводства странами и народами, продемонстрированные выдающимися лидерами в разные эпохи. Однако обучение через медленное накопление опыта в практике реального управления становится сегодня недостаточным. В новое время стремительно возрастает сложность современных изделий и технологических процессов, а также усложняются взаимоотношения людей, обеспечивающих создание и использование новых изделий путем глубокого разделения труда и широчайшей
Стронгин Р-Г. кооперации, масштабные транспорт, Исследование операций и модели экономического поведения Усложняются и средства, обеспечивающие эти взаимодействия. Достаточно заметить, что скоростной телеграфа телефон н радиосвязь дополнились возможностями глобальных компьютерных сетей, совершивших переворот в мире транспорта, снабжения, банковского дела н во многих других областях. Эти усложнения "социально-технологических" взаимодействий сопровождаются усложнениями взаимодействий социально- политических (достаточно отметить, например, процесс европейской интеграции). В новых условиях возникает острая потребность дополнить арсенал средств, характерных для искусства принятия решений, массовым применением эффективных научных подяздов (с учетом тех обстоятельств, о которых коротко говорилось выше). Теория исследования операций, сложившаяся в XX веке (преимущественно в период после Второй мировой войны), во многом является ответом на указанную потребность. Многие разделы прикладной математики (в некоторых классификациях их называют разделами кибернетики) рассматриваются как составные части теории исследования операций. К их числу относят теорию массового обслуживания, методы оптимизации, линейное н нелинейное программирование н др. Отличительной чертой перечисленных разделов является то обстоятельство, что рассматриваемые в ннх задачи выбора решений включают математическую формулировку цели операции как некоторой оптимизационной задачи. При этом центр исследования смещается к вопросам выбора решения, обеспечивающего оптимум заданного функционала (при тех или иных дополнительных условиях). Кроме того, в сложившейся практике отечественной высшей школы эти разделы обычно представлены самостоятельными дисциплинами в учебных планах по многим специальностям. Главной задачей настоящей книги является введение читателя в область исследования фундаментальных черт поведения сторон, находящихся в конфликте н в условиях неопределенности. Предлагаемый аппарат исследования основан на анализе соответствующих математических моделей н имеет целью формирование (с использованием средств математики) адекватных представлений о рациональном поведении в
Стронгин Р.Г. Исследование операций и модели экономического поведения описанных выше противоречивых ситуациях?* Книга знаюмит как с нормативным подходом (когда даются рекомендации по нанлучшему поведению в конфликтных ситуациях определенного типа), так и с методами прогнозирования поведения сторон, позволяющими оценивать возможные исходы конфликтов. Предисловие Настоящая книга написана иа основе лекций по курсу теории игр и исследования операций, ежегодно читаемому автором иа факультете вычислительной математики и кибернетики Нижегородского государственного университета им.Н.И.Лобачевского. Дисциплина преподается в течение семестра и сопровождается упражнениями. За долгие годы преподавания (более трех десятилетий) содержание курса претерпело изменения. С одной стороны, ряд тем стали самостоятельными разделами учебного плана факультета. К их числу относятся линейное, целочисленное и нелинейное программирование, методы оптимизации (включая многокритериальную, миогоэкстремальиую и стохастическую), теория оптимального управления, теория массового обслуживания и др. Процесс такого выделения не является чем-то специфичным для юикретиого университета. Линейное программирование уже много лет является самостоятельной дисциплиной в циклах подготовки по многим специальностям. Преподавание данного курса обеспечено как обширными руководствами^ так и многими учебными пособиями^* Новые модели выбора, расширяющие этот класс задач, также отражены в литературе^ Аналогично обстоит дело с учебной литературой по курсу методов оптимизации^* и оптимального проектирования^* Следует также отметить, что вопросы моделирования многих объектов, в отношении которых ставятся задачи выработки рациональных решений, также стали предметами отдельных дисциплин. Некоторые из них можно рассматривать как становление новых направлений в преподавании^* Происходящая дифференциация во многом объясняется существенным усложнением моделей таких объектов. Масштабы усложнения (например, в экономическом моделировании) вполне ощутимы при сопоставлении моделей, ставших уже классическими^) с 8
Стронгин Р-Г. Исследование операций и модели экономического поведения новыми моделями развивающейся экономики—. С другой стороны, в юнце XX века произошел пере.жд российского общества иа новые пути развития. В экономике идет становление рыночных отношений, отличающихся высокой соревновательностью. В стране формируется политическая система с более широкими (и остро конкурентными) возможностями выдвижения в лидеры. Признается допустимость различных взглядов на проблемы государства н граждан. Все это превращает ситуацию конфликта (т.е. ситуацию взаимодействия при несовпадающих интересах) в нормальный аспект общественных отношений. Новые обстоятельства отразились в необходимом расширении разделов курса, относящихся к моделированию конфликтов, взаимозависимые участники которых вынуждены (в силу несовпадения интересов) искать компромиссные решения. В результате ядром курса стало изучение основных понятий, моделей и утверждений, играющих фундаментальную роль в анализе конфликтных взаимодействий. При этом рассмотрение фокусируется иа следующих принципиальных вопросах^ • Каким образом в формальной модели операции отражаются основные моменты, присущие задачам выбора решений в условиях конфликта? Т.е. как описываются возможные варианты действий сторон, неопределенность некоторых условий выбора, зависимость результатов выбора от взаимодействия участников? • Канова мотивация действий сторон, и какие механизмы их взаимодействия могут обеспечивать устойчивость (реализуемость) принятых решений? • Как сочетается устойчивость выбираемых решений с их выгодностью для каждой стороны, и какие механизмы взаимодействия могут обеспечивать сочетание выгодности и реализуемости? Непосредственным толчком к написанию этой книги (помимо давно созревшего понимания ее необходимости) послужило участие автора в инновационном образовательном проекте - Программа 'Поддержка инноваций в высшем образовании" Национального фонда подготовки кадров. Конкретный проект^ координатором которого является автор,
Стронгин Р.Г. Исследование операций и модели экономического поведения ставит одной из своих основных целей обеспечение преподавания математических методов в экономике. В связи с этим, объектами, которые используются в настоящей книге для получения ответов иа поставленные вопросы и для иллюстрации идей учебного курса, являются модели, описывающие экономическое поведение. Эти модели отражают зависимость интересов взаимодействующих сторон от принимаемых ими решений. В их основе лежат "попытки точного описания стремления индивидуума к извлечению максимальной пользы или, в случае предпринимателя, к получению максимальной прибыли"^ Проводимое ниже рассмотрение относится к случаю двухсторонних взаимодействий. Многосторонним взаимодействиям (допускающим образование коалиций) посвящено другое пособие, предусмотренное упомянутым выше проектом. Отражаемый этой книгой взгляд иа начальный курс исследования операций как на введение в моделирование экономического поведения, несомненно, лежит в русле фундаментальных представлений, развившихся благодаря выходу в свет цитированной выше работы Дж.фои Неймана и О.Моргенштерна, первое (американское) издание которой появилось в 1944 г. Помимо этой книги (со вторым создателем которой автор имел единственную встречу в 1971 г.), иа постановку обсуждаемого курса в Нижегородском университете большое влияние оказали работы академика Н.Н.Моисеева, профессора Ю.Б.Гермейера и их многочисленных учеников. Многолетнее личное общение с лидерами и участниками этой известной школы сыграло важную роль в научной биографии автора. Мне приятно отметить это обстоятельство и выразить свою благодарность этим замечательным людям и исследователям. Карманов В.Г., Федоров В.В. Моделирование в исследовании операций. М.:Твема, 1996. 2) Эдисон Томас Алва (1847-1931) - американский изобретатель (автор более 1000 изобретений) и предприниматель. 3) Во второе издание учебника включены контрольные вопросы, которые подготовил кандидат физико-математических наук, доцеит кафедры математического обеспечения ЭВМ Нижегородского государственного университета им. Н.И.Лобачевского А.В,Баркалов.. io
Стронгин Р.Г. Исследование операций и модели экономического поведения 4) См., например, Юдин Д.Б., ГЪлыпгейн Е.Г. Линейное программирование. Теория, методы и приложения. М.: Наука,1969., 5) См., например, Мухачева Э.А., Рубинштейн Г.Ш. Математическое программирование. Новосибирск: Наука, 1987.. 6) См., например, Еремин И.И. Противоречивые модели оптимального планирования. М.: Наука, 1988.. 7) См., например: Сухарев АГ., Тимохов А.В., Федоров В.В. Курс методов оптимизации. М.: Наука, 1986; Васильев Ф.П. Численные методы решения экстремальных задач. М.: Наука, 1988. 8) См., например: Батищев Д.И. Методы оптимального проектирования. М.: Радио и связь, 1984; Малков В.П., Угодчнков АГ. Оптимизация упругих систем. М.: Наука, 1981.. 9) См., например: Моисеев Н.Н. Математические модели системного анализа. М.: Наука, 1981; Неймарк Ю.И., Коган Н.Я., Савельев В.П. Динамические модели теории управления. М.: Наука, 1985.. 10) См., например: Немчинов В.С. Экономико-математические методы и модели. М.: Соцэкгиз, 1962; Стоун Р. Метод затраты - выпуск и национальные счета. М.: Статистика, 1966., Петров АА., Поспелов И.Г., Шананин А.А Опыт математического моделирования экономики. М.: Энергоатомнздат, 1996. 12* Программа курса, утвержденная Научно-методическим Советом по прикладной математике Учебно-методического объединения университетов, опубликована в сборнике: Программы по направлению 'Прикладная математика и информатика". М.: Изд-во факультета вычислительной математики и кибернетики МГУ 1997.: 13* Проект 16/99 Нижегородского государственного университета имени Н.И.Лобачевского "Методологические, учебно-методические и организационные новации для повышения качества подготовки специалистов в области социально-экономических дисциплин (социология, экономика) в Нижегородском регионе". Предметная область "Математические методы в экономике"., 14) Фон Нейман Дж., Моргенштерн О. Теория игр и экономическое поведение. М.: Наука, 1970..
Стронгин Р.Г. Исследование операций и модели экономического поведения Математическая модель задачи выбора решений Стратегии сторон н исходы операции. Описание интересов сторон. Модель операции в нормальной форме. Классификация разделов. Пример "Подготовка к участию в тендере". Стратегии сторон и исходы операции Пусть в операции участвуют две стороны, для обозначения которых будем использовать соответственно символы Pj. и Р2. Примем, что сторона Рг выбирает решение х нз множества X, а сторона Р2 ' решение у из множества Y. При этом допускается, что решения х и у могут определять не толью отдельные действия, но и некоторые планы действий сторон, которые будут ими последовательно реализовываться в условиях конфликта (с учетом реакций другой стороны). В связи с этим, будем называть выбираемые сторонами решения стратегиями. Заметим, что принятое описание возможностей сторон не раскрывает указанных выше деталей их допустимого поведения. Способы создания таких описаний будут рассмотрены позже. Фактически, на данном этапе рассмотрения символы х и у рассматриваются как "указатели" конкретных стратегий. Следует также отметить, что вводимое описание не характеризует ресурсов, необходимых для реализации выбираемых стратегий. Принимается, что во множества X и Y включены указатели лишь таких стратегий, реализация которых обеспечена необходимыми ресурсами. Действия сторон в ходе операции завершаются некоторым исждом, который зависит от стратегий, использованных сторонами. Однако этот исход может зависеть и от некоторых других факторов (например, от погодных условий), которые не управляются сторонами, участвующими в операции. Будем называть эти факторы состояниями природы (или неконтролируемыми параметрами) и обозначать символом utU (оговорим, что множество и содержит все возможные значения состояний природы). Здесь, как и в случае обозначений, использованных для стратегии сторон, символ и играет роль указателя определенного состояния природы. В каждой конкретной задаче неконтролируемые параметры могут иметь собственную 12
Исследование операций и модели экономического поведения Стронгин Р-Г. интерпретацию. Обозначим исход операции символом z € Z (знак Z соответствует множеству всех возможных исходов) и опишем зависимость исхода от стратегий, выбранных сторонами, и от неконтролируемых параметров как отображение вида: z = f(x,y, и),х € Х,у € Y,u € U (1.1) Для каждой конкретной задачи принятия решений должно быть построено свое отображение указанного вида. Запись (1.1) означает лишь, что соответствующее отображение входит в рассматриваемую схему моделирования. Описание интересов сторон Независимо от источника, определяющего цели сторон в конкретной операции, наличие интересов у стороны Р±, i = l, 2, в этой операции проявляется в том, что любые два ее исюда и z2, вообще говоря, неравноценны для указанной стороны. Формальное описание этого обстоятельства может быть обеспечено введением соответствующих бинарных отношений иа множестве исходов Z. Выделим во множестве Z такие два исхода z2 и z2, что сторона Рх считает исход zx более предпочтительным, чем исход z2. Такие два исхода необходимо найдутся во множестве Z, ибо противный случай будет свидетельствовать об отсутствии у стороны Рг каких-либо интересов в рассматриваемой операции. Обозначим символом тх подмножество всех пар (zlz z2) из прямого произведения Z X Z, обладающих указанным свойством. Выделенное подмножество определяет график отношения строгого предпочтения на множестве исходов Z, ибо из того, что (si, Za) € 21 (эквивалентная форма записи этого факта есть z1T1z2 ) следует, что для стороны рх исход zx строго предпочтительнее исхода z2. Если теперь выделить из множества Z X Z подмножество всех 13
Стронгин Р.Г. Исследование операций и модели экономического поведения таких пар (zlz z2), что для стороны Pj исход z равноценен между z2, то I х определяет график отношения безразличия на множестве исходов Z. Объединяя отношения Ti и 11; получим отношение нестрогого предпочтения fll = Ti и л, (1.2) по которому можно восстановить исходные отношения Тх и I -l .Действительно, (ziJZi^z) П (*2-Ri2i) w (1*3) (21Л122) П ->(X2-R1^1) «-»• (-2=121-^2) (1-4) Примем, что введенное отношение нестрогого предпочтения r2 является транзитивным, т.е. что оно удовлетворяет следующим условиям: П (22^12з) —* (21.R123) (1.5) Не все отношения, встречающиеся в практике взаимодействий, обладают свойством транзитивности. Типичным примером отсутствия этого свойства являются отношения превосходства между спортивными командами, когда команда А побеждает команду в, которая, в свою очередь, побеждает команду С, из чего, однако, не следует, что команда А сильнее команды С н сможет ее победить. Иными словами, введенное условие транзитивности (1.5) выделяет достаточно широкий класс задач, которым будет ограничено рассмотрение, проводимое ниже. Отметим, что прн выполнении условий (1.5), отношения Rx, Tj н 11( соответственно, называются квазнпорядком, строгим порядком н эквивалентностью. Следующее обстоятельство, на которое нужно обратить внимание, состоит в том, что множество исходов Z может содержать н несравнимые элементы. Те. могут существовать такие пары (cj, z2) Z х Z , для которых справедливы отношения (21,22) £ Ri, (22,51) £ /?1- Мы, однако, ограничим наше 14
Стронгин Р.Г. Исследование операций и модели экономического поведения рассмотрение случаем, когда во множестве исходов таких несравнимых пар нет. Заметим, что в этом случае введенное отношение нестрогого предпочтения Bq из (1.2) называется полным квазнпорядком. Аналогичные отношения можно задать и для описания интересов стороны Р2. При этом в схему модели будут включены отношения полного квазнпорядка R2, строгого порядка Т2 и эквивалентности 12, для которых справедливо подобное (1.2) отношение Яз = Т2 U /2 и имеют место свойства, аналогичные (1.3)-(1.5). Введенные отношения дают простое правило, определяющее совпадение нлн несовпадение интересов сторон. Роль такого формального теста играет отношение Я1 / R? (1.6) отражающее различие интересов сторон. Модель операции в нормальной форме Непосредственное использование отношений Rx и R2, введенных выше для описания интересов сторон Рх и Р2, предполагает задание всех пар (zlfz2), составляющих графики этих отношений. В случае, когда множество исходов Z содержит значительное число элементов, явное перечисление всех таких пар может оказаться слишком громоздким. Зачастую эту трудность можно преодолеть, вводя значительно более компактное описание отношений н R2 с помощью вещественных функций Н! (z) и Н2 (z), определенных на множестве исходов Z и неубывающих соответственно по предпочтениям Rx и R2. Определение 1.1. Функция Нх (z), определенная иа множестве искэдов Z, называется неубывающей по нестрогому предпочтению?^, если (Vzi,z2 е Z)z1Riz2 -> Hi(zi) > H;(z2) (1.7) При этом, согласно (1.3) и (1.7), 15
Стронгин Р-Г. Исследование операций и модели экономического поведения (Vzltz2 е « ЯДгД = Я,(г2). (1.8) В случае, когда выполняются также условия (Vzbz2 € Z)zYRiZ2 tfi(zi) > Hi(z2) (1.8) говорят, что эта функция представляет отношение!^. В последнем случае соответствующую функцию Hj_(z) называют функцией ценности или функцией полезности исхода z € Z .Теорема 1.1. ФункцияН z), неубывающая по полному квазипорядкуР ^ и удовлетворяющая условиям (V*i,22 6 Z)zv'l\z2 -» Я,(г1) > Hfa), (1.9) представляет этот квазипорядокДоказательсгво. Свойство неубывания, включенное в условия теоремы, гарантирует справедливость утверждения (1.7). Теперь допустим, что условия (1.8) не выполняются. Те. во множестве Z х Z существует хотя бы одна пара (z х, z 2), для которой справедливо неравенство Я.(п) > Я,(г2) (1.10) но не имеет места отношение z1Riz2.B силу предположенной полноты квазипорядка R^, это означает справедливость обратного отношения z2Rizi’ которое, в соответствии с (1.2), эквивалентно условиям и (z2iizL) (i.ii) Согласно (1.3), истинность правого отношения в (1.11) противоречит принятому допущению о несправедливости z1Riz2. Допущение справедливости левого отношения в (1.11) ведет, согласно (1.9), к противоречию с (1.10). Таким образом, условия (1.8) необходимо выполняются для полного квазипорядка R^. Теорема 1.2. Любой полный квазипорядок Rx иа конечном множестве Z может быть представлен неотрицательной вещественной функцией ie
н ± (z), удовлетворяющей условиям (1.8). Доказательство проведем путем построения функции Нт (z), г € Z , удовлетворяющей указанным условиям. Пусть множество исходов z0=z содержит N элементов. Выделим из множества z0 подмножество Z1 всех исходов, удовлетворяющих условию: (V? 6 Z^fVz" 6 Заметим, что все исходы из множества Z1 являются эквивалентными и каждый из них строго превосходит любой исход из множества Zi = Zd\Zv. Положим Hj^tz) =1, z € Z1 .Теперь построим подмножество Z2 множества Zlt удовлетворяющее условию: (Vs' 6 Z2)(Vz" 6 При этом все исходы из множества Z2 являются эквивалентными, и каждый из них строго превосходит любой исход из множества Z2 — Zj\Z2. Кроме того, (Vz' Е Z1)(Vz" Е Z2) zTiZ,f Выберем число 8, 0<6<N~1, и положим Нг(г) = 1—8, z Е ^2-Следуя описанной схеме, построим подмножество zk+1 множества zk, к > 1, удовлетворяющее условию: (Vz' 6 Zt+1)(Vz" 6 Zk)z'Riz" При этом все исходы из множества zk+1 являются эквивалентными и каждый из них строго превосходит любой исход из множества Zjt+i = Zk\Zk+l. Кроме того, / fc X I V? 6 U Zl 1 (Vz" 6 Z',+1) z'Tiz" 17
Стронгин Р-Г. Исследование операций и модели экономического поведения Положим Hi(z) = 1 — kS, z 6 Zfc+1- Тогда V/ £ U zA (Vx" £ Zt+1) Описанный процесс построения множеств завершается при выполнении условия Zfc+i = 0 . Прн этом z=ljz' (=1 н функция Hjjz) оказывается определенной для всех элементов z 6 Z , причем, в силу способа построения, функция н± (z > является неубывающей по предпочтению Таким образом, любой полный квазипорядок на конечном множестве исходов, действительно, представим неотрицательной вещественной функцней.Введенне функций полезности Нх (z) hH2(z) (которые заведомо существуют в задачах с конечными множествами исщцов, а также во многих задачах, содержащих бесконечное число нсщцов), фактически позволяет сторонам Рт. н ₽2 иметь количественные оценки степени достижимости их целен прн завершении операции в некотором исходе z Е Z Указанные функции в сочетании с зависимостью (1.1) позволяют ввести критерии эффективности Mi(x^y,u) = i = 1,2, (1.12) непосредственно связывающие стратегии х € X н у Е Y, выбираемые сторонами Рг н Р2, н реализующиеся в щце операции состояния природы и Е U с теми уровнями полезности, которые при этом достигаются. Определение 1.2. Построенная модель, где о стратегиях х, у сторон Р]_, Р2 и о состояниях природы и предполагается лишь то, что онн являются элементами заданных множеств X, У н и, на прямом 18
Стронгин Р.Г. Исследование операций и модели экономического поведения произведении иэторых X X К X U заданы критерии эффективности (1.12}, называется моделью операции в нормальной форме Как следует из определения, модель операции в нормальной форме, представляющая собой совокупность вида A/i(x, у, и), х € X, у 6 К, и € U, г — 1,2» (1.13) ие предполагает явного описания процесса реализации стратегий и необходимых для этого ресурсов. Ее основное иазиачеиие, как уже отмечалось, состоит в том, чтобы связать выбранные сторонами иэикретные стратегии и реализовавшееся состояние природы (иеиэнтролируемое сторонами) с достигаемым каждой стороной уровнем полезности. Таиэе описание является достаточным для изучения одной из важнейших проблем теории принятия решений в условиях иэифликта и неопределенности - проблемы характеризации эффективного поведения сторон в иэнфликге.С одной стороны, введение критериев эффективности позволяет утверждать, что при заданной стратегии второй стороны и известном состоянии природы первая сторона заинтересована в выборе такой стратегии, которая максимизирует ее критерий, т.е. решает задачу Л/1 (х, у, и) шах. (1.14) Однако, сторона Pi, как уже говорилось, не контролирует выбор значений У, и и, более того, в общем случае, может не знать эти зиачеиия в момент выбора своей стратегии.С другой стороны, сторона Рг, выбирая свою стратегию у G К, стремится максимизировать свой критерий эффективности, т.е. решает задачу М2(х,у,и) max. (i i5) При этом очевидно, что задачи (1.14) и (1.15), в общем случае, являются существенно различными. Поэтому необходимы подходы, позволяющие предложить сторонам (или той стороне, иэторую представляет исследователь операции) реиэмеидацнн, обеспечивающие эффективное поведение в условиях несовпадения интересов. Рассмотрение таких 19
Стронгин Р.Г. Исследование операций и модели экономического поведения подходов (применительно к моделям вида (1.13), характеризующим экономические взаимодействия) составляет основное содержание настоящей книги. Замечание 1.1 (об информированности сторон). 1) Помимо соотношений (1.13) описание модели должно включать указания, касающиеся степени информированности сторон об условиях операции. Эти указания определяют, в какой степени каждая нз сторон осведомлена о своих возможностях и о возможностях другой стороны (т.е. в какой степени сторонам известны множества стратегий х и Y ). Информированность стороны как о "чужом", так и о "своем" критерии эффективности также может быть неполной. Как правило, это последнее обстоятельство связано не с тем, что сторона плохо осознает собственные интересы. Причина обычно состоит в том, что связи стратегий и состояний природы с определяемой ими оценкой эффективности могут быть недостаточно известны сторонам. Однако в рамках этой книги, являющейся, по существу введением в теорию выбора решений, мы будем полагать, что обеим сторонам известны критерии (1.12), задающие модель (1.13) (область определения критериев также полагается известной). 2) Как уже было отмечено, каждой стороне для решения соответствующей задачи выбора вида (1.14), (1.15) необходимы прогноз состояния природы и информация о действиях, планируемых другой стороной. Получение информации о выборе другой стороны может затрудняться ее противодействием (использованием маскировки, дезинформации н т.п.), которое диктуется различием интересов сторон. Поэтому предположение о том, что стороны проинформированы о планах друг друга, в общем случае является нереалистичным. Некоторые важные аспекты защиты собственных планов действий от попыток их раскрытия разведкой другой стороны составляют отдельный параграф этой кинги. Значительное внимание будет уделено также различным подходам к оценке состояний природы. 3) Возможны, однако, задачи, в которых одна сторона получает достаточно полную информацию о намерениях другой стороны. В качестве примера рассмотрим случаи, когда первая сторона, планируя закупку некоторого товара, заранее объявляет набор вариантов х, описывающих условия, в соответствии с которыми она готова 20
Стронгин Р.Г. Исследование операций и модели экономического поведения осуществить указанную закупку После получения этой информации вторая сторона (поставщик) может выбрать свой вариант предложения у. Таким образом, в этой задаче стратегия второй стороны может рассматриваться как функция вида у (х). К более подробному обсуждению примера такого рода мы вернемся в следующем параграфе. Замечание 1.2 (о числе участников операции). В общем случае в конфликт могут быть вовлечены более чем две стороны. При этом имеются в виду участники операции, каждый из которых осуществляет выбор действий, влияющих на нсжд операции. Т.е., например, торговая компания, осуществляющая деятельность на рынке, рассматривается как один из участников операции, в которой участвуют также другие торговые компании, фирмы, производящие и потребляющие продукцию, а также фирмы, предлагающие услуги по рекламе. Однако в этой книге мы будем рассматривать лишь случай, когда число участников не превышает двух. С одной стороны, поведение многих участников бескоалиционного конфликта во многом аналогично поведению участников в двухстороннем конфликте. Поэтому рассматриваемые ниже вопросы теории во многих случаях достаточно просто обобщаются на случай конфликта многих независимых сторон. С другой стороны, изучение структур коалиций (если допускается, что коалиции возможны) составляет сложный и обширный самостоятельный объект теории, далеко выходящий за рамки задач и возможностей этой небольшой книги. Замечание 1.3 (о классификации разделов теории исследования операций). Модель в нормальной форме, построенная для конкретных типов операции, может содержать не все компоненты, указанные в (1.13). Эта специфика может существенным образом использоваться прн разработке аппарата анализа для соответствующих частных классов моделей. В связи с этим, принято выделять следующие основные случаи: 1) модели, задаваемые критериями вида ЛД(х,у), xeX,yeY,i=l,2, (1-16)
Стронгин Р.Г. Исследование операций и модели экономического поведения в которых не учитываются состояния природы. Операции такого рода называются играми, а их участники Pi и Р2 - игроками. Критерии эффективности, соответствующие играм, называют функциями выигрыш нлн платежными функцнями.2) задачи выбора в условиях неопределенности, характеризуемые единственным критерием вида х € X, и € U. (1.17) Единственная оперирующая сторона, фигурирующая в таких задачах, обычно именуется статнстиюм. Подобные операции принято называть статистическими играми. При этом вместо критерия эффективности М(х,и) принято рассматривать функцию L (и, х) =-М (х, и), интерпретируемую как потерн статистика. Кроме того, для именования стратегий статистика в статистической игре обычно используется термин статистический критерий.З) задачи оптимизации, которым соответствуют операции, задаваемые целевыми функциями?'(х), определенными на множествах возможных решений х Е X Постольку в таких задачах нсжд операции полностью определяется действиями единственного участника, то, согласно (1.14), выбор оптимальной стратегии х* g X сводится к решению задачи максимизации вида М(х*) — тах{Л/(х) : х G X}. (1.18) Как следствие, центр исследований в таких задачах уходит от проблемы формирования представлений о рациональном (или о "наилучшем") поведении н сменяется в область разработки численных (н аналитических) методов определения экстремумов из правой части (1.18). Уже упоминавшиеся методы оптимизации, а также методы линейного н нелинейного программирования составляют этот обширный раздел. Таким образом, рассмотрение, проводимое ниже, будет ограничено моделями вида (1.13), (1.16), (1.17). Пример 1.1 (подготовка к участию в тендере*^ ). Органы управления некоторой территорией планируют выполнение специальных работ (таких, как, например, прокладка путепровода, возведение спортивного комплекса н т.п.) силами подрядчика, выбираемого на основе конкурса. Финансирование работ предусмотрено местным бюджетом. 22
Стронгин Р.Г. Исследование операций и модели экономического поведения Примем, что сроки проведения конкурса не утверждены (например, в силу их зависимости от обстоятельств, определяемых интересами различных групп влияния). Однако известно, что конкретный момент t проведения конкурса после его утверждения будет укладываться в отрезок времени, который мы обозначим как [0,2] (например, два ближайших месяца или два квартала). Известно также, что определяющим критерием при выборе победителя конкурса является показатель качества, которое может обеспечить претендент при проведении работ. Для количественной оценки этого показателя (в таких единицах, как, например, баллы и доли баллов, пункты и подпункты и т.п.) органами управления утверждена соответствуюиря методика. Условия конкурса предусматривают ситуацию, когда уровни качества работ, заявленные и обоснованные участниками, оказываются одинаковыми (в рамках принятой системы оценки показателей). Для такого случая правила предусматривают согласительную процедуру, допускающую предложение сторонам совместно создать некоторое предприятие, юторому и будет дан подряд иа выполнение работ. Кроме того, конкурсная комиссия может отказать всем участникам, если предлагаемый ими уровень качества оказывается ниже некоторой отметки, также предусмотренной правилами. Две фирмы, обозначаемые в дальнейшем как Рх н Р2, планируют участвовать в конкурсе. Примем, что оценка W± качества работ, которую фирма Pi сможет подтвердить в случае проведения конкурса в момент t, зависит от объема ресурса х£, вложенного этой фирмой за период [ 0, t ] в освоение более эффективных технологий ведения работ. Пусть обсуждаемая зависимость имеет вид Т¥»(х<Л) = Xi(t- 1) 4-1, 0 < х, < 1, i = 1,2, (1.19) где максимально доступный объем ресурса принят за единицу (см. рис.1.1). Замечание 1.4 (об отложенном потреблении). Если фирма ие осуществляет инвестиций в освоение новых технологий (т.е., если рг 23
Стронгин Р.Г. Исследование операций и модели экономического поведения выбирает вариант хг=С ) и использует имеющиеся средства, например, для немедленного укрепления материальной базы, обеспечивающей ведение работ традиционным способом, то уровень качества WT (0, t) остается постоянным в течение всего периода [0,2]. При этом В случае вложения всех ресурсов в освоение новых технологий (т.е. при выборе варианта Х£=1, к юнцу периода [0,2] достигается более высокий уровень качества w± (1,2) =2. Однако при этом в начальный момент t=0 уровень качества остается таким же, каким он был до начала подготовки к тендеру. Это значение принято за нулевую отметку - см. рис.1.1. Рис. 1.1. В остальных случаях (т.е. при 0 < х-, < 1 ) отрезок, представляющий график(хт, t) на рис.1.1, лежит в конусе, образованном графиками зависимостей Wi(0,t) и Wi(l,t)-t. Следовательно, инвестирование части средств в новые технологии, а оставшихся средств - в укрепление технологии, использовавшейся ранее, позволяет уже в начальный момент добиться превышения прежнего уровня качества. Это обстоятельство может быть существенным, постольку, как уже было отмечено, условия юнкурса предполагают, что параметр качества в любом случае должен быть не ниже некоторого значения 24
Стронгин Р.Г. Исследование операций и модели экономического поведения Wmin (см. рис.1.1). С другой стороны, выбор положительного значения xi обеспечивает последовательное наращивание показателя качества и гарантирует в периоде [ 1, 2 ] превышение единичного уровня. Таким образом, при всей простоте зависимости (1.19) она правильно (хотя и схематично) отражает роль параметра хт как показателя объема отложенного потребления. Критерии эффективности сторон, соответствующие моменту t € [0,2] проведения конкурса, определяются различием уровнен качества, которые стороны могут обеспечить в этот момент, т.е. Mi(zi,Z2,i) — ИЛ (si, t) — W2(s2,f) — — Ma(si,S2,f). (1-20) Таким образом, рассмотренному примеру соответствует модель операции в нормальной форме вида (1.13), причем роль стратегий х= хх н у=х2 играют выбираемые сторонами объемы ресурса, инвестированного в развитие. Момент t проведения конкурса сторонам заранее не известен и может интерпретироваться как состояние природы. Те. u=t ии € [0,2], ще, как уже отмечалось, само множество U является заданным. Целью операции для каждой стороны является обеспечение максимального превосходства показателя качества, достигаемого на момент конкурса, над уровнем качества, достигаемого на тот же момент другой стороной. При этом мы буцем полагать, что обеим сторонам известны как зависимости (1.19), (1.20), так и доступные объемы ресурсов X-[0,1],Y=[0,1]. Замечание 1.5 (о противоположности интересов сторон). То обстоятельство, что конкурсное соревнование уже само по себе определяет противоположность интересов сторон Рх и Р2, находит свое отражение в вытекающем из (1.20) равенстве + M2(xi, х2, *) = 0- (1-21) Как следует из (1.21}, всякое преимущество одной стороны достигается за счет потерь другой стороны. Ясно, что это справедливо и в случае, 25
Стронгин Р.Г. Исследование операций и модели экономического поведения когда сумма критериев мх и М2 будет равна константе, отличной от нуля. При этом ненулевая константа, имеюиря место в правой части (1.21), всегда может быть приведена к нулевому значению введением соответствующей нормировки критериев. Заметим, что в случае, когда число сторон превышает две н допустимо объединение участников в коалиции, постоянная сумма всех критериев эффективности еще не означает противоположности интересов сторон, поскольку члены одной н тон же коалиции могут находиться в кооперации, а не в противостоянии друга с другом. Следовательно, случай операции с двумя сторонами (говорят еще "с двумя лицами ") и нулевой суммой критериев является в поведенческом отношении особым. Определение 1.3. Операции двух лиц, характеризуемые нулевой суммой критериев эффективности сторон, называются антагонистическими. Замечание 1.6 (о пороговых критериях). Рассмотренный пример представляет собой частный случай задачи соревнования двух сторон. В задачах такого рода зачастую рассматривается не столько количественное различие достижений сторон, сколько факт превосходства показателей, достигнутых одной стороной, над показателями другой стороны. Все возможные исходы можно классифицировать как "победы", "ннчьн" и "пораження". Если принять, что победам, ничьим и поражениям соответствуют оценки 2, 1 и О "очков", то в рассматриваемой задаче можно ввести критерий эффективности вида = < 1, I °’ > W2(X2, t), t) = i), (1.22) IFifiri,i) < nr2(^2,i). При этом N2 (x1z x2, t) =2-N1 (xx, x2, t) н, следовательно, задача остается антагонистической, хотя сумма критериев н не является нулевой. Критерий (1.22) относится к числу так называемых пороговых критериев (результат, достигаемый другой стороной, рассматривается 26
Стронгин Р.Г. Исследование операции и модели экономического поведения как порог, который нужно превысить). Мы, однако, будем рассматривать случай, кмда критерий задается условиями (1.20), полагая, что стороны (допускающие несовершенство методики оценки качества) заинтересованы в достижении максимально возможного превосходства над конкурентом. Тендер - право поставить товары, услуги, заключить контракт (с конкретной ценой и прочими объявления торгов в конкуренции условиями), представляемое после : другими фирмами.
Устойчивость и эффективность поведения сторон: принцип максимума гарантированного результата Сравнение стратегий. Принцип максимума гарантированного результата. Лексикографически упорядоченные критерии. Проблема сравнения стратегий Вернемся к рассмотрению описанного выше примера и рассмотрим вопрос о выборе стратегии, которую целесообразно использовать первой стороне для подготовки к участию в конкурсе. Очевидно, что формирование представления о лучшей стратегии х* стороны Р2 предполагает либо возможность определения лучшего варианта для любой пары стратегий х{, х" этой стороны, либо возможность установления равноценности стратегий, входящих в эту пару Однако на множестве стратегий стороны не существует отношения предпочтения, позволяющего ответить на эти вопросы для любой пары x'L, х”. Проиллюстрируем это важное обстоятельство путем сравнения уровней эффективности, обеспечиваемых соответственно стратегиями хх=0 и хх=1. Согласно (1.19) и (1.20), №1(34,2:2,£) = (ц — x2)(i — 1), (2.1) откуда вытекает, что Д1 (1'2, t) — Mi(xi — 0,i2. t) — Mi (a?i — 1, Х2, t) — 1 — t (2.2) и, следовательно, Ai(ir2,t) > 0, 0 < t < 1: Д1(х2»0 < 0, 1 < t < 2; И, Д1(Х2, 1) = 0 (см. рис, 1.2). Таким образом, прн неизвестном состоянии природы стратегии х1=0 и
Стронгин Р-Г. Исследование операций и модели экономического поведения xj=l оказываются несравнимыми. Рнс. 1.2. Следовательно, введенная в модели упорядоченность всех исходов операции, с помощью которой мы описали интересы первой стороны, не порождает полного отношения предпочтений на множестве стратегий этой стороны. Причина состоит в том, что неопределенность значения параметра t вызывает неопределенность самого исхода. Поэтому возможность оценки эффективности конкретной стратегии, которая необходима для определения наилучшего выбора, оказывается фундаментально связанной с информированностью стороны о состоянии природы и (в общем случае) о действиях другой стороны. Принцип максимума гарантированного результата Как следует из предшествующего рассмотрения, для обеспечения сравнимости стратегий принципиально необходимо принять некоторую гипотезу о неизвестном состоянии природы. В рассматриваемом примере вся имеющаяся у стороны информация о сроке t проведения конкурса сводится к знанию интервала [0, 2], заведомо содержащего этот неизвестный срок. В связи с указанной неопределенностью состояния природы, в качестве оценки эффективности любой стратегии можно принять тот уровень 29
Стронгин Р-Г. Исследование операций и модели экономического поведения эффективности, который гарантируется использованием этой стратегии. Замечание 1.7 (об ориентации иа худший случай). Фактически, принятие гарантируемого стратегией уровня эффективности в качестве оценки, иа которой будет основано сравнение этой стратегии с другими, означает ориентацию иа худший случай. Принятие такой оценки в качестве прогноза результатов планируемых действий является рекомендацией, основанной на обширном опыте принятия решений в практической деятельности. К этому "правилу худшего случая" приждят многочисленные исследователи опыта принятия решений, относящегося к самым различным областям человеческой деятельности. Приведем несколько примеров. Известный американский специалист в области создания больших программных систем Ф.П. Брукс отмечает, что "наши методы оценки весьма несовершенны. Строго говоря, они отражают некоторое неявно высказываемое и в корне неверное допущение, что все будет идти хорошо,... выполнение каждого задания займет ровно столько времени, сколько оно "должно" занять". И далее: "Планируйте неудачу: она вас, так или иначе, найдет^ ". Можно даже говорить о возникновении своего рода "фольклора", вызванного к жизни необходимостью ориентации на худший случай в практике принятия решений. К числу таких новых жанров относятся, например, так называемые "законы Мэрфи^ ": • Все сложнее, чем кажется. • Все тянется дольше, чем можно ожидать. • Все оказывается дороже, чем планировалось. • Если что-то может испортиться, оно обязательно испортится. По поведу этих законов некто Каллагеи сделал следующее замечание^ "Мэрфи был оптимистом”. Действительно, например, второй из "законов" неявно предполагает, что планируемая работа, в конце концов, все-таки завершится. Но этого успешного завершения может и не быть. В книге Дж.Фокса^ сообпрется, что "военно-воздушные силы США затратили более 300 млн. долларов иа тщетную попытку автоматизировать комплексную систему перевозок и снабжения". зо
Стронгин Р.Г. Исследование операций и модели экономического поведения Вернемся к рассматриваемому примеру н построим оценку эффективности, которую гарантирует стратегия х-^ стороны Рг прн неизвестном сроке t проведения конкурса. Эта оценка худшего случая, очевидно, определяется величиной АЛ(1’1,Х2) = min{Mi(zi, Х2, t) : 0 < t < 2}. (2.3) Подставляя в (2.3) правую часть выражения (2.1) для функции М1(Е1,Х2, £), приводим оценку (2.3) к виду min (хл — — Г) — min 0<i<2 О<*<2 1*1 ~*2|(« - 1), 1*1 ~*2|(« - 1), *1 > Х2 *1 <*2 (2.4 Теперь из (2.3), (2.4) следует, что Л/Цц.жз) = -|*i - *21. (2-5) причем эта гарантированная величина реализуется либо в случае проведения конкурса в момент t*-0, либо в случае проведения этого конкурса в момент t’=2.Первый случай соответствует ситуации, когда Xi > Х2, а второй - ситуации, когда i’i < Х2, т.е. ... . J Mi(*i,*2,0), ЛЛ(*1,*2) = < а?! > *2, <*2.(26) Теперь проведем аналогичное рассмотрение, руководствуясь интересами второй стороны. Определим уровень эффективности, который может быть обеспечен стороне Р2 выбором стратегии х2 при некоторой известной стратегии хх первой стороны и неизвестном сроке проведения конкурса, т.е. вычислим величину AZaC^i» £2) — min{M2(zi, Х2, t) : 0 < t < 2}. (2.7) Из (1.20), (2.1) и (2.7) следует, что
Стронгин Р.Г. Исследование операций и модели экономического поведения ^/2(11,3:2) = -|z, - z2|. (2-8) При этом справедливо следующее соотношение, являющееся аналогом выражения (2.6) z?) = М2(х1,х2,2), M2(xi,x2,O), > Х2, < х2. (2.9) х2 х2 Таким образом, согласно (2.5) н (2.8), — 1 < A/i(xl,X2) — A/2(zi,Z2) < О. (2.10) Следовательно, прн орнентацнн обеих сторон на худший случай (т.е. при использовании ими оценок гарантированного уровня эффективности) противоположность интересов сторон, характеризуемая нулевой суммой критериев (1.21), сменяется ситуацией полного совпадения интересов. Замечание 1.8 (о прогнозных оценках, реализующихся в годе операции). Отмеченное совпадение интересов сторон прн прогнозировании последствий выбора на основе оценок худшего случая не меняет факта (1.21) равенства нулю суммы нх критериев в момент проведения конкурса. Дело в том, что хугття оценка (2.5}, прогнозируемая стороной Рр например, для случая х^>х2 соответствует проведению конкурса в момент t* — 0. Что же касается худшей оценки (2.8)}, прогнозируемой стороной Р2 прн том же условии х1>х2, то ей соответствует момент = 2. Рассмотренную ситуацию иллюстрирует рнс, 1.3.
Таким образом, худшие опасения сторон не могут реализоваться одновременно. Если конкурс произойдет, например, в момент t=0, то при выполнении условий Х2>Х2, эффективность стороны Рх действительно характеризуется величиной (2.5). Однако реализующаяся при этом оценка M2(zi,z2,0) = 1^1 - х2| для стороны Р_2 существенно превышает величину (2.8) постольку момент t=0 проведения юикурса не совпадает со сроюм — 2, определяющим наступление гудшего случая.Совпадеиие интересов сторон при ориентации выбора стратегий иа достижение максимального гарантированного результата позволяет им вступить в юоперацию и договориться о выборе неюторого одинакового уровня инвестиций ос, который задает стратегическую пару удовлетворяющую условию х* — Хз — а, а € [0t 1], (2.11) и обеспечивающую каждой из сторон максимальную оценку = max = 0: (2.12) ()<Х^. ДГ2<1 ' ’ 33
Стронгин Р-Г. Исследование операций и модели экономического поведения ср. с правым неравенством в (2.10).Правнла конкурса предполагают, что уровень качества, обеспечиваемый участниками, в любом случае должен быть не ниже, чем заданный порог Wmin, где 0 < Ilonin < 1 • Поэтому учитывая (1.19) и (2.11), получаем, что совместно выбираемый сторонами и р2 уровень инвестиций а должен удовлетворять условиям min Ж(х£ 3) = min fa(t — 1) 4-11 > И min, ?=1,2. Следовательно, параметр а должен удовлетворять неравенствам О < a- < 1 - H'min (2.13) Замечание 1.9 (о лексикографически упорядоченных критериях). Выбор сторон, отвечающий условиям (2.11), (2.13} и максимизирующий гарантированные сторонам (одинаковые) уровни эффективности, приводит к ситуации, югда конкурсная юмиссня не сможет назвать победителя. В этом случае сторонам, в соответствии с правилами проведения юнкурса, будет предложено реализовать подряд совместно. Однако, как следует из (2.11), (2.13), полученное решение является не единственным, если справедливо неравенство Wmin<l. В связи с этим, стороны могут использовать остающийся выбор для улучшения показателей своей деятельности. Фактически, рассмотрение этих дополнительных возможностей представляет собой определенное расширение исходной модели. Например, стороны могут договориться об эюномии средств за счет сокращения инвестиций в новые технологии. Решение, отвечающее этому дополнительному требованию, определяется условием a = 0, юторое совместимо с неравенствами (2.13). Введенный новый критерий можно дополнить условием достижения заданного уровня качества IP’miU: > 1 к юнцу периода [0,2]. Такое требование может быть следствием согласованных планов сторон на будущее. Этому дополнительному условию удовлетворяет значение а = - 1, (2.14) 34
Стронгин Р-Г. Исследование операций и модели экономического поведения которое, в случае справедливости неравенства И’ть 4- Пгтах < 2, (2.15) совместимо с (2.13). Графики на рис.1.4 представляют показатели качества сторон, которые соответствуют решениям вида (2.11), удовлетворяющем дополнительным условиям (2.13), (2.14) в предположении справедливости неравенства (2.15). Рис. 1.4. Проведенное рассмотрение, как уже отмечено, дополняет критерий Mi(x1,x2) стороны Pi( 1=1,2, максимум которого достигается иа множестве решений, удовлетворяющих условиям (2.11), вторым критерием. Этот второй критерий, отражающей необходимость экономии ресурса, можно формально задать как = ~хг и считать определенным лишь иа указанном выше множестве (т.е. при х1=х2. Вводимое при этом дополнительное требование состоит в максимизации /j,(zi) при условии а > lVroax — 1. Таким образом, в результате расширения модели задача выбора для стороны pi включает два критерия, упорядоченных по важности (или, как говорят, лексикографически упорядоченных. Еще раз отметим, что указанное упорядочение предполагает максимизацию второго критерия иа множестве стратегий, обеспечивающих максимизацию первого критерия. 35
Стронгин Р.Г. Исследование операций и модели экономического поведения Брукс Ф.П. Как проектируются и создаются программные комплексы. М.: Наука, 1978. 2) См., например, Хьюз Дж., Мичтом Дж. Структурный подюд к программированию. М.: Мир, 1980. 3) См. там же. Фокс Дж. Программное обеспечение и его разработка. М.: Мир, 1985. 36
Стронгин Р.Г. Исследование операций и модели экономического поведения Устойчивость и эффективность поведения сторон: совместимость свойств устойчивости и эффективности Устойчивость и эффективность решений. Совместимость свойств устойчивости и эффективности. Дуополия Курно. Устойчивость и эффективность решений Использование в рассмотренном выше примере оценок гарантированной эффективности стратегий (по отношению к возможным значениям неопределенного состояния природы) привело к тому что проблема выбора стратегий X = Л-l G X = [0,1], у = Х2 G У = [0,1] (3.1) сторонами Рх и Р2 оказалась связана с анализом некоторой игры вида (1.16) с функциями выигрыша соответственно (2.3) для игрока Рх и вида (2.7) для игрока Р2. При этом решения вида (2.11), максимизирующие, согласно (2.12), платежные функции участников этой игры, обладают двумя исключительно важными свойствами.Во- первых, игроки Рх и Р2ие заинтересованы в отклонении от поведения, определяемого этими стратегиями, поскольку любые такие отклонения могут лишь уменьшить уровень полезности, гарантируемый им стратегиями х* = з:*, у* = Т2> х* = У* (3-2) из (2.11). Действительно, как следует из (2.12), (V.r G ,у*) > Л/1(з\у*), (V» е YIMtlx-.y") > ЛГ2(Л»)- (3'3) Характеризуемое отношениями (3.3) свойство устойчивости поведения (3.2) игроков Рх и Р2 диктуется их собственными интересами и этим определяется реализуемость такого поведения. 37
Стронгин Р.Г. Исследование операций и модели экономического поведения Определение 1.4 ( Равновесие по Нэшу ). Пара стратегий (х*,у') из множества X X Y, удовлетворяющая неравенствам (3.3) для платежных функций МА(х,у), i=l,2 неюторой игры вида (1.16), называется устойчивой сгратегичестой точюй или стратегичесюй точтой равновесия (по Нэщу^) в этой игре. Второе важное свойство решения (3.2) - невозможность улучшить гарантируемые этим решением уровни полезности (2.12) одновременно для обоих нгротов. Таким образом, если свойство (3.3) устойчивости решения определяет отсутствие у каждой из сторон Рх и Р2 каких-либо индивидуальных мотивов для смены поведения, то обсуждаемое второе свойство указывает на отсутствие стимулов для смены поведения, реализуемой на основе каких-либо взаимных договоренностей между сторонами. Те. решение (3.2) оказывается неулучшаемым для обеих сторон. Определение 1.5 ( Оптимальность по ) Парето^*. Стратегии (х*, у*), составляющие пару из множества X х Y, называются эффективным или оптимальным по Пареторешеннем игры вида (1.16), если в указанном множестве ие существует другой пары (а/,у'), тэтой, что соответствующие ей выигрыши М£(х',у’), i=l,2, превышают платежи М£<х*,у*), i=l,2, гарантируемые игрокам рх и Р2 стратегичесюй парой (х*,у*). Прн этом указанное превышение должно быть строгим хотя бы для одной из сторон. Таким образом, стратегическая пара (х*,у*) является оптимальной по Парето, если она удовлетворяет условиям -(3« у) е X х Y)\Mi(x\y' ) > Mi(x*,y*)t i = 1,2], (3.4) где хотя бы одно из неравенств является строгим. Как уже было отмечено, в рамках описанной модели у нгроюв и Р2 нет ни индивидуальных, ни юллекгнвных стимулов для отклонения от поведения, предписываемого эффективной парой стратегий (х*, у*), обладающей свойствами равновесия по Нэшу. В связи с этим, стратегические пары (х*,у*) из множества X X Y, обладающие 38
Стронгин Р.Г. Исследование операций и модели экономического поведения указанными двумя свойствами, будем называть оптимальными решениями для игр вида (1.16). Следует, однако, заметить, что описанные выше свойства устойчивости и эффективности могут оказаться несовместимыми. Проблема эффективности свойств устойчивости и эффективности решений Пример 1.2 ( Дуополия^ Курно^ ). Рассмотрим один из вариантов модели рынка однородного товара, согласно которой иа рынке действуют две фирмы Рг и Р2, предлагающие для продажи в рассматриваемом периоде соответственно qi и q2 единиц указанного товара (который мы будем считать сколь угодно дробимым ). Таким образом, любое решение производителей рг н Р2, задаваемое парой 41 > определяет общее количество товара Q — Ql + Q2, Q1 > о, 92 > о, (3.5) предлагаемого для продажи в данный период. Примем, что клиринговая ценаР (т.е. цена, по которой осуществляются расчеты по сделкам) зависит от количества поступившего на рынок товара и эта зависимость определяется выражением ₽(<?) = 7(а - Q), О, Q < а, Q >а. (3.6) Замечание 1.10 (о выборе диапазона цен). Как следует из (3.6), с ростом объема Q товара, поступающего на рынок, цена р линейно убывает до нулевого значения и остается на этой отметке при дальнейшем увеличении объемов поступлений. Разумеется, что производители не будут расширять производство при падении цен до нулевого уровня. Т.е. на любом реальном рынке заведомо выполняется условие <2<а и, следовательно, графический образ множества стратегических nap(q1,q2), которые могут реализоваться, заведомо ограничен треугольником 39
Стронгин Р.Г. 91 +92 < а, изображенным жирными линиями на рис.1.5. Однако, если ограничить решения сторон парами (g1,g2) из треугольника (3.7), то возможности выбора одной стороны оказываются связанными с фактическим выбором, осуществленным другой стороной. Это обстоятельство затрудняет непосредственное использование введенных выше понятий равновесия по Нэшу и оптимальности по Парето, поскольку их определения предполагают, что стороны независимы в выборе своих стратегий. Рис. 1.5. Поэтому мы будем полагать, что определяемые сторонами Рх и Р2 объемы предложения qx и q2 могут соответствовать любой точке (q2, q2) из квадранта (3.5). Те. мы принимаем, что множества X и Y стратегий сторон Рг и Р2 есть X = [0, оо), Y = [0,оо). (3.8) Множества стратегий сторон, задаваемые условиями (3.8), допускают использование произведения X х Y в определениях равновесия по 40
Стронгин Р.Г. Исследование операций и модели экономического поведения Нэшу и оптимальности по Парето.Примем, для простоты рассмотрения, что условия производства иа обеих фирмах являются одинаковыми и ие предполагают постоянных затрат. Тогда общие затраты Ci; осуществляемые фирмой Рх для производства товара в количестве q1; определяются величиной С^)=сдь г = 1,2, (3.9) где параметр с является константой (фактически, мы также дополнительно предположили линейную зависимость затрат от объемов выпуска).Пусть тгг есть прибыль, получаемая фирмой Р± и представляющая собой разность дощца этой фирмы и осуществленных ею затрат (3.9). При сделанных предположениях зависимость прибыли ( фирмы Pi от объемов выпуска обеих фирм, имеет вид я>(«1,9г) = QiP(Q) - ОД- Отсюда (после подстановки (3.6)) получаем выражение {79.(“ ~ 91 “ Ы, 91 +</!<“, О10) о, 91 + 42 > а, которое в треугольнике (3.7) описывается более простой формулой 1.(91.92) =79i(a-<i-9l -92), 91 + 92 < а, 41 > 0, >0, а = При этом согласно (3.11), в подобласти треугольника (3.7), описываемой условиями 91 + 92 < а - а, 91 > 0, q2 > 0, (3.12) прибыль является неотрицательной (см. рис.1.5). Соотношения (3.8) н (3.10) задают нормальную форму игры двух лиц, причем выражения (3.10) для прибыли, получаемой сторонами Pi и Р2 в результате продажи товара, играют роль критериев эффективности, в максимизации которых заинтересованы эти стороны. Заметим, что 41
интересы сторон в построенной игре являются несовпадающими и ие противоположными. Исследуем вопрос о существовании устойчивых (по Нэшу) решений в рассматриваемой игре. Определим условия, при которых достигается максимум по от прибыли 7^(91,92). получаемой стороной Рх в предположении, что объем товара qj, продаваемого другой стороной р является фиксированным. С этой целью рассмотрим производную = f - с- «! + «2 > а, J’’ | 7 |(а - <*) - 2<?, - 9,]. 91 + 42 < а, ' которая определена в квадранте (3.5) всюду кроме точек, лежащих иа прямой q1 + q2=a. Допустим, что Qj S а — ct- (3.14) Тогда производная (3.13) имеет нулевые значения во всех точках прямой 9i = (a-a-g,)/2, (3.15) лежащих в квадранте (3.5). При этом условие (3.14) выполняется во всех таких точках и, кроме того, вторая производная по qx от прибыли 7^(91,92) является отрицательной.Таким образом, иа отрезке прямой (3.15), соответствующей случаю i=l, j=2 и лежащей в первом квадранте (3.5), достигается максимум прибыли стороны Р2 (при вариации объема выпуска q2 и фиксированном объеме q2 )• Указанный отрезок нанесен на рис, 1.6. Отрезок, состоящий из точек максимума прибыли стороны Р2 и соответствующий случаю i=2, j=l также иаиесеи иа рис.1.6. При этом, согласно (3.11), прибыль 7^(91,92) стороны Рх в точках (qlz q2), лежащих на прямой (3.15), определяется выражением
Стронгин Р.Г. ^(.11,12) = т(?.)2, Исследование операций и модели экономического поведения у. = (а — а — £ = 1,2, (3.16) и, следовательно, растет с увеличением объема qx. Указанные направления роста прибыли вдоль отрезков прямых линий вида (3.15) отмечены стрелками иа рис. рис.1.6. Прямые линии (3.15), соответствующие случаям i=l, j =2 и i=2, j =1, пересекаются в точке с координатами ге* = (а — а)/3, у* — (а — а)/3, (3.17) которая одновременно является точкой максимума прибыли тп (qiz/*) по qx и точкой максимума прибыли 7Г2(я*,д2) по Я2-Таким образом:
Исследование операции и модели экономического поведения у"), (3.18) Стронгин Р.Г. (V«l 6 X)7ri(x*,y*) > 7Ti(gi (VQ2 e r)ir2(z*,»*) > K2(x* и, следовательно, точка нз (3.17) есть стратегическая точка равновесия. При этом, согласно (3.16) н (3.17), уровень прибыли, достижимый в точке равновесия, оказывается одинаковым для обеих сторон и составляет величину тг* — 7Г1(л:*,1/*) — 7Г2(х*, з/*) — 7(а — а)2/9. (3.19) Замечание 1.11 (о механизмах установления равновесия). В рассматриваемом примере существует единственное равновесное состояние, и можно поставить вопрос о возможных механизмах его установления. Исследование таких механизмов предполагает введение в модель дополнительных предположений, определяющих динамику поведения сторон. В качестве иллюстрации обсудим одну нз возможных схем такого рода. Введем дискретное время t — 1, 2,... и примем, что его единичное изменение соответствует пережду к новому циклу торгов и, следовательно, к новому предложению товара иа рынке. Те. будем рассматривать объемы предложения товара как функции времени qi=qi<t), i=l,2. При этом будем считать, что характеризуемое парой (q2 (t) , q2 (t) ) текущее состояние предложения на рынке ограничено треугольником (3.12). Пусть сторона полагает, что другая сторона < Р j) выведет на рынок в следующий период времени тот же объем товара, что и в предыдущем периоде. Те. прогноз поведения стороны Pj, принятый стороной Р^, дает оценку оДг +1) = ^(t). (3.20) При этом условии сторона Pi максимизирует свою прибыль яч в следующем периоде, если выпуск ее продукции составит
Стронгин Р.Г. Исследование операций и модели экономического поведения 9i(t + l) = [а — а — 9j(t)]/2, (3.21) ибо точка с координатами из (3.20) и (3.21) лежит на прямой линии (3.15). Поскольку мы допустили, что сторонам известны критерии эффективности, то можно также принять, что каждый игрок Рт (1=1,2) располагает информацией о множестве пар (41,42)» в которых достигается максимум его прибыли яч. Напомним, что это множество представляет собой одни из обсуждавшихся выше линейных отрезков, изображенных на рис.1.6. Поэтому предложенная схема поведения, которая определяется планом (3.21), основанным иа прогнозе (3.20), является возможной для обеих сторон. Описанный механизм переводит текущее состояние (qi (t) , q2 (t) ) в следующее состояние (qi (t+1) , 42 (t+1) ), которому соответствуют значения координат ?i(i + l)= [a -a -Q2 И] /2, 02 (С + 1) = [а - а - 01 («)]/2. <3'22) Введем пару величин 3i(t) = (а - a)/3-9i(£), i = 1,2, (3.23) для оценки отклонения текущего состояния (qi (t) , q2 (t) ) от точки равновесия (3.17). Из (3.22) и (3.23) следует, что 51(t4- 1) = -2“l^W, М« + 1) = -2_15i(t), (3.24) откуда выводим зависимость 6i(t+2k) =4"Ч(«), fc>l, i = 1,2. (3.25) Теперь из (3.24) и (3.25) вытекает, что при любом начальном состоянии (41 (0) , 42 (0) ) из треугольника (3.12)
Исследование операций и модели экономического поведения при t —► оо. Следовательно, предложенная схема независимого поведения сторон, стремящихся к максимизации своей прибыли, обеспечивает стабилизацию уровней производства фирм Рх и Р2. На рис.1.7, иллюстрирующем проведенное рассмотрение^ указаны два последовательных состояния (qx {t) , q2 (t) ) и (q-L (t+1) , q2 (t+1) ), а также пары (5i(i),52(t)) и (5i(i + 1),62(t 1)) отклонений этих точек от равновесного СОСТОЯНИЯ (.27*, 1/*). Рис. 1.7. Продолжим рассмотрение дуополии Курно. Определим множество всех стратегических пар qx, q2, обладающих свойством оптимальности по Парето С этой целью построим образ первого квадранта плоскости 46
решений (qx, q2) (т.е. образ множества всех возможных в модели стратегических пар) на плоскости критериев (тгi, Л2) - Начнем с рассмотрения точек (41,42), удовлетворяющих условиям 01 + 02 > а, 01 > 0, д? > 0. (3.26) Множество таких точек составляет неограниченную подобласть, отмеченную цифрой 1 на рис.1.5. Согласно (3.10), прибыль стороны Рх в точках из (3.26) определяется выражением = — cgi. Следовательно, при Q > а линейный отрезок 01 + 02 — Q, 01 > 0, 02 > 0, (3.27) лежащий в плоскости (41,42), отображается на линейный отрезок 7Г1 + 7Г2 — ~CQ, 7Г1 < 0, 7Г2 < О, лежащий в плосиэсти (тг^тгз). Прн этом образом области (3.26) является множество точек, удовлетворяющих условиям 7Г1 + 7Г2 < —са, 7Г1 < О, 7Г2 < 0- (3.28) Часть плосюсти (тг^тгз), содержания решения неравенств (3.28), отмечена цифрой 1 на рнс. рис.1.8.
Теперь рассмотрим пары (41,4г)’ удовлетворяющие условиям 91 + 92 < a, gi > 0, 92 > 0. Согласно (3.11), при Q < а линейный отрезок (3.27), лежащий в плоскости (41, Я2) > отображается иа отрезок прямой Г1 + -7Г2 = TQ(a - а - Q). (3.29) При этом случаю Q > а — а соответствует отрезок прямой (3.29), определяемый условиями < 0, 7Г2 < 0 (см. рис.1.5). Следовательно, часть плоскости (41,4г)» точки которой удовлетворяют неравенствам а — а < 9i -I- 92 < а» 91 > 0, 92 > 0, имеет образ иа плоскости (tti , тга), определяемый условиями 46
—са < 7Г1 4- 7Г2 < О, 7Г1 < О, 7Г2 < О. Мазанные области помечены цифрой 2 соответственно на рис.1.5 н на рис.1.8.Отрезок прямой (3.29), соответствующий случаю О < Q < а — а, определяется дополнительными условиями тп > О, 7Г2 > 0. При этом 7Г° = тах{тГ1 Н- Лт : О < Q < п — а} = у(а — а)2/4. (3.30) причем указанному в (3.3) максимальному значению тг° соответствует случай, когда 91 + 92 = (и — ct)/2. (3.31) Таким образом, часть плоскости точки которой удовлетворяют неравенствам О < 91 + 92 < п — а. 91 > 0, q2 > 0, (3.32) имеет образ на плоскости критериев, определяемый условиями О < 7Г1 ’ 7Г2 < 7Г°, 7Г1 > 0. X? > 0. (3.33) Мазанные области (3.32) и (3.33) помечены цифрой 3 соответственно на рис.1.5 н рис, 1.8.Рассмотрнм некоторую точку' П= (ПьПз), лежащую иа границе 7Г| -Ь 712 = 7Г1 > О, 7Г2 > 0, (3.34) выделенной жирной линией иа рис.1.8. Очевидно, что все точки •тг = (?Г1, тгз), лежащие под отрезком (3.34) в пределах прямоугольного конуса с вершиной в точке Пдоминируются этой точкой, т.е. П1 > тп , Пг > 7Г2 • При этом сама точка П является иеулучгшемой в пределах образа первого квадранта плоскости решений (qifq2> на плоскости критериев (tti,тга). Следовательно, точки отрезка (3.34) составляют множество образов всех оптимальных по Парето решений для 49
Стронгин Р.Г. Исследование операций и модели экономического поведения рассматриваемого примера.Согласио (3.30) и (3.31), множество всех эффективных решений, являющееся прообразом отрезка (3.34), составляет отрезок Qi + = (а — а)/2, Qi > О, q2 > О: (3.35) см. рис.1.6. Этот отрезок не содержит точки равновесия (х*, у*) из (3.17). Соответственно, определяемый условиями (3.19) образ этой точки, отмеченный на рис.1.8, не принадлежит "паретовскэй" части границы (3.34).3амечание 1.12 (о стимулах к кооперации). Рассмотренный пример показывает, что свойство устойчивости по Нэшу н свойство оптимальности по Парето могут не совмеирться ни в одном решении. Например, лежащая на отрезке эффективных решений (3.35) точка с координатами П = 1“ - а)/4, «2 = (о - а)/4, (3.36) образ которой на плоскости критериев принадлежит паретовской границе (3.34) н имеет координаты 7П = = 7(а - а)2/8, (3-37) обеспечивает обеим фирмам большую прибыль, чем устойчивое решение (3.17); ср. (3.19) и (3.37). Однако решение (3.36) является неустойчивым при поведении сторон. Указанное обстоятельство определяет заиитересоваииость этих сторон в обеспечении согласованности действий, направленных на увеличение прибыли. Анализ практики коллективных действий производителей одного и того же товара обнаруживает существование многих различных форм такого сотрудничества, к математическому исследованию проблем которого мы вернемся в гл. 3. Картели^, синдикаты^ и тресты^ могут интерпретироваться как организационные формы, создаваемые в указанных целях. Ц Нэш Джон (р.1928) - американский экономист, лауреат Нобелевской премии (1994). 50
Стронгин Р.Г. Исследование операций и модели экономического поведения 2> Парето Вильфредо (1848--1923) - итальянский эюномист и социолог 3) Дуополия - рынок, на ютором действуют всего два продавца, юторые не могут игнорировать друг друга. 4) Курно Антуан Огюстен (1801-1877) - французский математик и эюномист, предшественник математической шюлы в эюиомике. 5) Описанная схема поведения сторон называется также процедурой "нащупывания” по Курио. 6-' Картель - объединение фирм, участники юторого договариваются о рынках сбыта, условиях продажи, ценах, сроках платежа, размерах производства, совместном финансировании, сохраняя производственную и коммерческую самостоятельность. 7> Синдикат - объединение предпринимателей, осуществляющее всю коммерческую деятельность при сохранении юридической и производственной самостоятельности участников (одна из форм монополии). 8) Трест - объединение, при ютором участники теряют самостоятельность. 51
Стронгин Р.Г. Исследование операций и модели экономического поведения Распределение информации и устойчивость решений Отношения производителя и потребителя на рынке одного товара. Симметричное распределение информации и равновесие по Нэшу Несимметричное распределение информации и устойчивость по Штакельбергу Продолжим обсуждение проблемы устойчивости решений. В следующем примере^ рассматривается игра двух лиц, в роли которых выступают два разнотипных участника рынка - производитель и потребитель товара. Оказывается, отношения таких разнотипных участников не могут быть приведены в состояние, отвечающее рассмотренной выше юнцепции равновесия по Нэшу Вместе с тем, эта модель позволяет обнаружить существование другого типа устойчивого поведения сторон, называемого равновесием по Штакельбергу. Источникам этой новой формы устойчивости является (как и в случае равновесия по Нэшу ) стремление сторон к обеспечению своих интересов путем максимизации соответствующих критериев эффективности. Однако прн этом учитываются последствия разнородности участников. Предполагается, что производитель Р2 (выбирая стратегию у своего поведения) быстро приспосабливается к существующим условиям спроса (определяемым стратегией х потребителя Рг ). Как следствие, любая ситуация, возннкаюлця в такой модели, может быть охарактеризована парой стратегий вида (х, у (х) ). Взаимодействие сторон в таких моделях, характеризуемых несимметричным распределением информации, часто интерпретируют как отношения "лидера" и "ведомого1^ (роль которых в нашем случае играют, соответственно потребитель и производитель). Пример 1.3 (отношения производителя и потребителя на рынке одного товара). Примем, что зависимость cnpocaD на (бесконечно дробимый) однородный товар от цены р за единицу этого товара описывается функцией вида . ( 4(р,„,с<-р), 0<р<р,„.,х, ^(₽) = 1 О „ -s „ (4 Ц I 0, р > pI[L,,x,
где коэффициент А является строго положительным. Как следует нз (4.1), спрос на товар линейно убывает с ростом цены и полностью исчезает, если цена превышает значение ртах. Максимально возможный спрос составляет величину (4.2) и соответствует нулевой цене.Прнмем также, что поступление товара на рынок характеризуется функцией предложения: {о, р < А ". <4'3) где коэффициент В является строго положительным. Согласно (4.3), предложение товара линейно возрастает с ростом цены,однако при ценах, ие достигающих уровня pmin, товар не предлагается. Для простоты рассмотрения условимся, что цена pmin совпадает с удельными издержками с иа производство единицы товара, которые будем считать постоянными. Полагая, что с<ртах, ограничим дальнейшее рассмотрение диапазоном цен О *£ С — Pmin S: Р S: Ртах, (4.4) в котором функции спроса и предложения являются линейными (см. рис.1.9).
Замечание 1.13 (о функциях спроса и предложения ). 1. Понятия функций спроса и предложения являются достаточно старыми (см., например, книгу^ АМаршалла^. Они широк» используются для анализа различных рынков, таких, например, как рынки нефти, зерна, автомобилей и др. Эти понятия нашли применение и в анализе различных финансовых рынков. К их числу относятся рынки кредитов, капиталов, ценных бумаг, активов, стражвок и др. При этом построение функций спроса и предложения для каждой конкретной задачи может потребовать достаточно сложных исследований. 2. В ряде актуальных задач, касающихся рыниэв одного товара со многими потребителями и производителями, можно использовать агрегированные функции спроса и предложения, сведя множество всех участиииэв к единственному продавцу и единственному покупателю. Возможность таиэго агрегирования требует специального изучения в 54
Стронгин Р-Г. Исследование операций и модели экономического поведения каждом конкретном случае. К числу первых примеров успешного анализа взаимодействий на рынке со многими участниками, основанного на сведении этих взаимодействий к отношениям двух сторон, относятся рынки с совершенной конкуренцией, характеризуемые следующими допущениями^*: • помимо того, что товар, выпускаемый разными производителями, считается однородным, все потребители считаются идентичными с точки зрения продавцов н для них (продавцов) нет никакого преимущества (нлн потерн преимущества) прн продаже товара тому нлн иному конкретному потребителю; • производители н потребители считаются многочисленными, и продажа нлн покупка, осуществляемые любым из них, полагаются малыми по сравнению с общим объемом продаж на рынке; • производители и потребители обладают полной информацией относительно цены, превалирующей в текущих торгах; прн этом интересы производителей состоят в том, чтобы увеличить прибыль, а интересы потребителей характеризуются стремлением закупить возможно большее количество товара; • выход на рынок н оставление его являются свободными н для производителей, н для потребителей. Первое условие подразумевает анонимность производителей и потребителей. Товар одних производителей считается неотличимым от товара других (т.е. торговые марки н метки качества не используются), н, следовательно, потребители не имеют оснований предпочесть продукт одного производителя продукту другого. С другой стороны, благодаря однородности потребителей, производитель заинтересован продать товар тому из них, кто предложил большую цену. Прн этом другие критерии выбора покупателя, такие, например, как первоочередное обслуживание пришедших первыми, не рассматриваются. 3. Существуют реальные рынки, для которых справедлива принятая в (4.1)н (4.2) линейная зависимость соответственно спроса н предложения от цены р за единицу товара (прн вариациях цены в пределах диапазона (4.4). К нх числу относятся, например, некоторые рынки пшеницы^*. 55
Однако в общем случае указанное допущение линейных функций спроса н предложения является неюторым упрощением реально наблюдаемых взаимосвязей. Применимость предположения о линейном характере обсуждаемых зависимостей существенно расширяется, если рассматриваются малые юлебання цены относительно неюторого значения. Именно этот случай мы н будем рассматривать. 4. В эюномнчесюй литературе при описании функций спроса и предложения цена р обычно откладывается по осн ординат, а ось абсцисс служит для задания юлнчества товара. Для целей рассмотрения, проводимого ниже, удобнее связать цену с осью абсцисс (как это н сделано на рис.1.9). Такое использование координатных осей также встречается в литературе. Продолжим рассмотрение модели. Цена ред, прн юторой существует баланс спроса н предложения н, следовательно, весь произведенный товар покупается, формально определяется как решение уравнения ^(Peq) — /?(Peci)- (4.5) При этом ред обычно называется равновесной ценой. Согласно (4.1) н (4,3)-(4.5)) ее единственное значение определяется выражением Реп = + Вс)/(А + В) (4.6) н принадлежит диапазону (4.4). В рамках рассматриваемого примера мы будем связывать интересы потребителя н производителя с результатами купли-продажн товара в условиях баланса спроса и предложения, т.е. прн цене ред.Квадратнчная функция Е (р), где £'(р) = р£>(р), характеризует затраты потребителя на приобретение товара в объеме, соответствующем спросу прн цене р. Эта функция обращается в ноль при р=0 н р=ртах и достигает максимального значения Ет = Л(рт.„)2/4 (4.7) 56
Стронгин Р-Г. в точке Исследование операций и модели экономического поведения Pm = Рптх/'З: (4.8) см. рис.1.9 (шкала затрат нанесена на оси ординат справа). Спрос в объеме D (р) не может быть удовлетворен при цене р, не достигающей равновесного значения peq. Однаю интересующие нас значения D(peq) и E(peq), соответствующие объему закупки в состоянии баланса спроса н предложения н связанными с этой закупюй затратами, являются реализуемыми.Из (4.2) и (4.7) следуют оценки А = 4b’m/(pmaI)2, (4.9) юторые в сочетании с (4.1) позволяют представить функцию спроса в виде Р(р) = (4.10) при этом предполагается, что цена р принадлежит диапазону (4.4). Будем интерпретировать величину Ет как (заданные) максимально возможные затраты потребителя.Теперь введем квадратичную функцию ir(p) = (р - c)D(p) = - р)(р - с)/(р[11лх)2. (4.11) юторую при цене p=peq можно интерпретировать как прибыль, получаемую производителем от продажи товара в количестве s (Peq“D <Peq> ) Согласно (4.11), тг(с) = = О и irm = тах{тг(р) : с < р < ртм} = Ет (1 - с/ртш1)2, (4.12) причем указанный максимум достигается при цене Ртг = (Рталс 4- с)/2 (4.13) (рис.1.9 представляет кривую тг(р) для случая, тогда Рп = Ре* ). 57
Стронгин Р.Г. Исследование операций и модели экономического поведения Симметричное распределение информации и проблема равновесия по Нэшу Рассмотрим поведение участников рынка, представленного описанной моделью, как некоторую игру двух лиц, в которой роль первой стороны (Рх) играет потребитель, а роль второй стороны (Р2) производитель. При этом стратегии сторон Pj и р2 состоят соответственно в выборе потребителем цены ртах>с из (4.10), при которой исчезает спрос на товар, и в выборе производителем параметра В>0 из (4.3). Примем, что интересы потребителя состоят в максимизации объема товараР (peq), который ему удается закупить по цене peq, не превьшйя затрат Ет. Таким образом, критерий эффективности потребителя имеет вид ЛЛ(ртш1,В) = D(p,,q). С < р„,„ < СО. (4.14) Критерий эффективности производителя в предположении, что его интересы состоят в максимизации прибыли при p=peq, имеет вид: Л12(ртах,В) =jr(peq), 0 < В < ос. (4.15) Согласно (4.6), (4.9) и (4.10), O(Pcq) = 4£m(pm,„ - c)B/[4£m + B(prI„„)2| (4.16) и, в соответствии с (4.6), (4.11), Ярс„) = (4b’n.)2(Pm™ -c)2B/[4Em + B(p„lajt)2]2. (4.17) Теперь из (4.16), (4.17) вытекает, что ВлtP.q) = O2(Peq), (4.18) откуда, учитывая (4.14), (4.15), выводим равенство 58
Стронгин Р.Г. Исследование операций и модели экономического поведения ЛЛ(ртах,В) = [ВМ2(ртв1,В)]1/2. (4.19) Как следует из (4.19), интересы сторон не являются ни совпадающими, ни противоположными.Исследуем вопрос о существовании ситуации стратегического равновесия по Нэшу, считая, что стороны, осуществляющие независимо друг от друга выбор своих стратегий, располагают одинаковой информацией. Полагая параметр В € (0, оо) заданным, определим стратегию ртах потребителя, обеспечивающую максимальную закупку D (peq) из(4.16). Из выражения dOtPog) = 4Е„В[4Ет - Вртах(рт^ - 2с)] [4Ь’„ + BpU2 4' следует, что при ртах} производная (4.20) имеет нулевое значение в точках плоскости (pmax,S), юордииаты которых удовлетворяют соотношению В = 4£’т/рш„(рп1ах - 2с). (4.21) Указанным точкам соответствует верхняя кривая иа рис.1.10. Поскольку в точках этой кривой вторая производная d2D(p^) _ 8ЕтВ2 [Bpg.^tPn,.^ - Зе) - 4.£т(3р„,.„ - с)] ~ _ [Шт + Вр^ является отрицательной, то при ртах}>2с объем закупки D(peq) достигает максимума по ртах в точках из (4.21). 59
Стронгин Р-Г. Исследование операций и модели экономического поведения Рис. 1.10. При с < Ртах < 2с производная (4.20) является положительной. Следовательно, кривая (4.21) есть геометрическое место точек, в которых достигается максимум D (peq) по ртах из диапазона (с,оо). Подставляя выражение для В из (4.21) в правую часть формулы (4.16), выводим, что объем закупки D(peq) в точках кривой (4.21) определяется соотношением •^(Pcq) — —Ртах* Отсюда вытекает, что объем закупки растет с уменьшением цены ртах, стремясь к величине ЕГ1 / с при ртах —* 2с . Стрелка, которая нанесена иа верхнюю кривую, представленную иа рис.1.10, указывает направление перемещения, сопровождаемого отмеченным выше ростом объема закупки. Теперь определим стратегию В производителя, максимизирующую его прибыль Tr(peq) из (4.17) при заданном значении параметра Ртах € (с, оо). Согласно (4.12), (4.13), максимум 7f(Pcq) достигается
Стронгин Р.Г. Исследование операций и модели экономического поведения при условии Peq = Рп. Из этого равенства и из определяющих его левую и правую части выражений (4.6) и (4.13) выводим, что максимальное значение прибыли 7r(pCq) достигается при выполнении условия В = 4£т/(р„„„)2. (4.22) Точки, удовлетворяющие указанному условию, представлены нижней кривой иа рис.1.10. Значение прибыли тг(рсч) в точках этой кривой определяется выражением (4.12). Следовательно, величина тг(реч) = ?г(Ртг) растет с увеличением параметра ртах, приближаясь к значению Ет при Ртах ~► °° . Указанное направление роста прибыли отмечено стрелкэй иа нижней кривой, изображенной иа рис.1.10. Из (4.21) н (4.22) следует, что при всех значениях £ (2с, оо) кривая, соответствующая первому из этих выражений, лежит выше кривой, соответствующей второму выражению. Те. эти кривые не имеют точек пересечения. Следовательно, в данной задаче нет стратегических пар, удовлетворяющих условиям (3.3) равновесия по Нэшу для критериев (4.14) и (4.15). Несимметричное распределение информации и устойчивость по Штакельбергу Примем, что производитель (Р2) адаптирует свое поведение к условиям рынка значительно быстрее, чем изменяется поведение потребителя (Р2). Те. производитель успевает максимизировать прибыль 7r(Peq) по параметру В столь быстро, что при этом стратегию Ртах потребителя можно считать неизменной. Принятое допущение можно интерпретировать как фиксирование последовательности действий сторон. Первый ход делает потребитель, выбирая стратегию х=Ртах> а затем свой ход делает производитель, что позволяет ему выбирать стратегию у=В как функцию известного значения х=ртах.
При сделанных предположениях производитель имеет возможность использовать стратегию-функцию у* (х) =В* (ртах), максимизирующую его критерий-прибыль из 4.15, т.е. обеспечивающую выполнение условия М1(х, — тах{Л/2(ям/) : 0 < У < оо}. (4.23) Все возможные прн таком поведении стратегические пары (яг,Л*(ат)) = (Рт.тя, В*(4.24) необходимо удовлетворяют равенству (4.22), поскольку оно определяет значение параметра В, доставляющее максимум критерию М2 прн заданном значении параметра ртах. Следовательно, выбор потребителем стратегии x=praz определяет конкретную точку вида (4.24), которая лежит на нижней кривой, изображенной на рнс.1.10. Прн этом потребитель заинтересован в выборе стратегии х*, которой соответствует точка указанной кривой, характеризуемая максимальным (иа кривой) значением критерия из (4.14). Те. Л11(х*,т/*(ят*)) — max{Afi(x,t/*(x)) : с < х < сю}. (4.25) Определение 1.6 ( равновесие по Штакельбергу ). Пара стратегий (х‘, у* (х‘) ), удовлетворяюиря условиям (4.23) н (4.25), называется стратегической точкой равновесия по Штакельбергу. Определим точку равновесия по Штакельбергу в рассматриваемом примере. Как следует из (4.22) (с учетом введенных обозначений X-Pmaz н У-В )• = 4Ь'т/а:2. (4.26) Далее, нз (4.14) н (4.16) вытекает, что М1(х, = 2Ь'т(х-с)/х2, (4.27)
Стронгин Р-Г. Исследование операций и модели экономического поведения причем производная по х от этой величины обращается в ноль при ат* = 2с. (4.28) Посиэльку вторая производная от величины (4.27) в точке (4.28) является отрицательной, то значение х из правой части (4.28) обеспечивает максимум критерия (4.27). Следовательно, согласно (4.26) и (4.28), точка с иэординатами в)- (2с, £„,/?) (4.29) соответствует ситуации равновесия по Штакельбергу (см. рис.1.10). При этом, как следует из (4.27) н (4.28), D* - ЛА(т*,у*(т*)) = К./2с, (4.30) г’ = Л/2(х’,у’(х’)) = £’m/4. (4.31) В заключение сравним решение (4.29) с точкой = (Зс.£т/С2), (4.32) отмеченной темным кружком на рис.1.10. Согласно (4.16) и (4.17), этой точке соответствуют значения ЛЛ(Зс,Ь’т/с2) = 8£'т/13с > D\ (4.33) М2(Зс,Ь’т/с2) = 64Ь’т/168 > < (4.34) где D* и тг* соответственно из (4.30) и (4.31). Как следует из (4.33) и (4.34), устойчивая по Штакельбергу точка (4.29) не является эффективным решением, посиэльку ее превосходит неустойчивое решение, определяемое точкэй (4.32). У Пример взят из работы: П.Р. Стронгин. Моделирование некоторых механизмов ценообразования// Дис. иа соискание ученой степени кандидата физико-математических наук. М.: ВЦ РАН, 1997. 2) Взаимодействия танэго типа впервые рассматривались экономистом Г.Штакельбергом, изучавшим в начале XX века стратегии фирм, 63
Стронгин Р.Г. Исследование операций и модели экономического поведения конкурирующих на одном н том же рынке. 3) Маргшлл А. Принципы экономической науки. Т I-III. М.: ПРОГРЕСС, УНИВЕРС. 1993. 4-' Маршалл Альфред (1842-1924) - английский экономист, основатель Кембриджской школы политэкономии. 5-' См., например, работу: Петров А.А., Поспелов И.Г. , Шананин А.А. Опыт математического моделирования экономики. М.: Энергоатомиздат. 1996. 6) Пиндайк Р., Рубиифельд Д. Микроэкономика. М.: Экономика, Дело. 1992. 7) {См., например, работу: Мулен Э. Теория игр с примерами из математической экономики. М.: Мир, 1985.}.
Стронгин Р.Г. Исследование операций и модели экономического поведения Об устойчивости баланса спроса и предложения Динамика спроса и предложения. Роль посредников в стабилизации баланса спроса и предложения. Мотивация поведения спекулянта. В рамках рассмотренного примера интересы потребителя и производителя связывались с результатами куплн-продажи товара в условиях баланса спроса и предложения, т.е. при цене peq из (4.6). Поэтому возникает вопрос об устойчивости таиэго баланса. Отметим, что вопрос о балансе спроса н предложения, будучи, с одной стороны, вопросом уже классическим, остается, тем ие менее, одним из дискуссионных вопросов. Этот сохраняющийся интерес определяется тем обстоятельством, что реальные процессы в эюномике могут демонстрировать как тенденции приближения к балансу спроса и предложения, так и различные формы отклонения от него, ие связанные с действием внешних факторов. Обсуждение устойчивости предполагает принятие иеюторых допущений, характеризующих динамику спроса и предложения. Введем дискретное время t (t = 0,1»...) н положим, что объем товара st, поступающего на рынок в момент t, определяется ценой, существовавшей на рынке в предшествующий период, т.е. St = S(pt-1'). Введенная зависимость отражает наличие временной задержки (обычно называемой временным лагом ) между моментом принятия решения об изготовлении товара и фактическим выпуском этого товара. Приняв дополнительное предположение, что весь поставленный на рынок товар покупается, получим условие = S(p4-i), (5.1) определяющее цену pt. При этом мы исходили из того, что ие существует каких-либо запасов товаров на складах.Принятое условие баланса фактически вводит понятие временного равновесия иа рынке товара. Это равновесие в момент t характеризуется клиринговой ценой 65
Стронгин Р.Г. Исследование операций и модели экономического поведения pt, сменяемой в следующий момент t + 1 другой клиринговой ценой pt+i, также соответствующей временному равновесию. Из (4.1), (4.3) и (5.1) следует, что при ценах нз диапазона (4.4) Pl = Рш^ + А(с - Р1-1), где параметр Л определяется выражением А = В/А. (5.2) Учитывая выражение (4.6), определяющее равновесную ценуред, представим полученное разностное уравнение в виде равенства Pt — Peq = A(peq — Pi-1). (5.3) Это равенство позволяет вывести оценку |(й - Реч)/(РсЧ “ Р*-1) I = А, нз юторой следует, что прн значениях А < 1 цены pt, соответствующие временным равновесиям, будут с течением времени приближаться к равновесной цене peq. Левая диаграмма на рис.1.11 иллюстрирует юлебания значений цены pt, соответствующие этому случаю (при А = 2/3 ).
Вертикальные стрелки, обозначенные на диаграмме, указывают объемы предложения, соответствующие текущей цене. ГЪризонтальные стрелки указывают объемы спроса, при тоторых имеет место временный баланс (5.1). Изображенная на рисунке последовательность горизонтальных и вертикальных стрелок получила название паутины. Левая диаграмма на рис.1.11 представляет случай " скручивающейся паутины ", соответствующей устойчивому балансу спроса и предложения. При значениях Д > 1 равновесие спроса и предложения, определяемое ценой peq, является неустойчивым. Правая диаграмма на рис.1.11 иллюстрирует раскручивающуюся паутину (для случая, тогда значение Д — 1,5). Роль посредников в стабилизации баланса спроса и предложения Примем, что рассматриваемый рынок включает еще одного участника - спекулянта, тоторый при понижении цены закупает Л единиц товара (т.е. выступает в роли дополнительного потребителя) и позже продает эти Л единиц (выступая уже в роли поставщика). Заметим, что эти функции может выполнять и сам производитель путем организации временного складирования части товара. 67
Стронгин Р.Г. Исследование операций и модели экономического поведения Ситуации, в кэторой спекулянт закупает товар, соответствует временный баланс вида D(pt) + Д = S(p(-i), (5.4) а ситуации, в кэторой ои сбывает товар, - баланс вида D(pt+i) = S(pj) + Д. (5.5) Если цена pt+1, по второй осуществляется продажа, превышает цену pt, по кэторой осуществлялась закупка, то проведенная спекулянтом операция куплн-продажи дает ему дохэд, равный величине (Pf-1-i — > 0. Получение этого дотла и составляет мотивацию поведения спекулянта. Этот случай (при А =1,5 ) иллюстрирует рис.1.12. Рис. 1.12. Помимо отрезкэв прямых, представляющих функции спроса и
Стронгин Р.Г. Исследование операций и модели экономического поведения предложения, на рисунке нанесены также отрезки, соответствующие функциям £)(р) + Д и S(p) + А нз (5.4) н (5.5). Как следует нз рисунка, виток паутины, отвечающий последовательности временных балансов вида (5.1) в модели без спекулянта, является раскручивающимся. Два последних звена этого витка обозначены на рисунке пунктирными стрелками. Однако виток, представленный сплошными линиями со стрелками н соответствующий временным балансам вида (5.4)н (5.5), оказывается скручивающимся. Таким образом, операции купли-продажи, проводимые спекулянтом, могут уменьшать колебания цены. Это обстоятельство отмечалось рядом исследователей (см., например, кннту^ П. Самуэльсона^1 ). Прн этом подчеркивалось, что спекулянт является традиционным участником большинства реальных рынков. Рассмотрим конкретный вариант описанной выше схемы поведения спекулянта^. Пусть в момент t-1 справедливо неравенство pt_1>peq. Тогда, согласно неравенству pt<peq, вытекающему нз (5.3), в следующий момент t происходит снижение цены. Пусть спекулянт, ориентируясь на это снижение, закупает товар в объеме Д = 7S(p»-i), 7 > О, (5.6) что повышает спрос в момент t; см. (5.4). В результате цена в момент t определяется нз условия О(р<) + i) = S(pi-i). (5.7) В случае падения цены, т.е. прн выполнении условия pt<pt-i» будет наблюдаться снижение предложения, которому соответствует неравенство s (pt) <s (р^). В результате произойдет повышение цены в момент t+1. Ориентируясь на это повышение, спекулянт выбрасывает на рынок хранимый объем товара Д, что приводит к повышению предложения в момент t+1 ; см. (5.5). Поэтому цена pt+i, соответствуюпря моменту t+1, определяется нз условия О(?4+1) = sfpt) + 7^(рг-1). (5.8) 69
Стронгин Р-Г. Если при этом для каждого момента времени t > 1 выполняются неравенства Pmin — С <£ Pf <£ Peq < Pi + 1 < Pi—1 < Ртах, (5.9) то описанная схема поведения спекулянта обеспечивает затухание колебаний цены (т.е. скручивание паутины). Прн этом прибыль 7TS = Д(р£+1 - Pt), (5.10) получаемая спекулянтом в результате куплн-продажи партии товара объемом А, является положительной на каждом витке паутины. Следующая теорема устанавливает условия выбора значений коэффициента 7, обеспечивающие описанную стабилизацию баланса спроса н предложения. Теорема 1.3. Пусть выполняются условия О < А < 1/2(1 + л/5), (5.11) Peq < Pi — I < Ртах, (5.12) где Л из (5.2). Тогда закупка спекулянтом в момент t партии товара объемом А нз (5.6) с целью продажи этой партии в момент t+1 по цене pt+1 обеспечивает выполнение условий (5.9), если значение коэффициента у > 0 лежит в интервале Г1 <7 = ->(t) <Г2, (5.13) где Г1=в(Л-1)/А, Г2 = 9А2/(А + 1)2, (5.14) в = 9(1) = 1 - (5.15) Доказательство!. Для выполнения входящего в (5.9) неравенства 70
Pt<Peq» где, согласно (4.6) н (5.2), Peq = (jt... + AC)/(1 + А), (5.16) необходимо и достаточно выполнения условия D (pt) >D (peq). Последнее условие в сочетании с равенствами (4.5) и (5.7) ведет к соотношениям (1 - 7)S(Pi-l) = D(pi) > D(peq) = S(pcq). Отсюда следует неравенство S(P4-1) - 5(р.,,) > 7S(pt_i), приводимое, с учетом (4.3), к виду B(P4-1 - Peq) > iSfpj-j). (5.17) Посиэльку согласно (4.1), (4.3), (5.15) и (5.16), Pl-l - Peq = [Л(р4-1 - С) + (рш„ - Р!-1)]/(1 + А) = = [5(р,_х) - £>(р4_х)]/(Л + В) = 95(р/_1)/(Л + В), то требование (5.17) представимо в виде неравенства 7 < 0А/(1 + А), (5.18) кэторое заведомо выполняется при 7 < Га ; см. (5.13), (5.14). При этом, согласно (5.12) и (5.15), О < 0 < 1, (5.19) поскольку D (pt-i) <s (Pt-!) при Peq<Pt-l-2. Из (4.1) и (5.7) вытекает, что при pt_1>peq
Стронгин Р.Г. Исследование операций и модели экономического поведения Pl = [Ар„„ - (1 = (5.20) = - «(pi-l) + 7's(Pi-i)]M + Pt-i = = A(pj-i - с)(7 - 0) +pi-i. Отсюда следует, что для выполнения вводящего в (5.9) неравенства Pt>Pmin=c Должно выполняться условие (р(-1-с)(А(7-0) + 1)>О. Это условие заведомо выполняется, если коэффициент 7 удовлетворяет левому неравенству из (5.13), поскольку pt_1>c и, согласно (5.19), 0(А — 1)/А > (А0 — 1)/А .З.Условие Pt+i>Peq> входящее в (5.9), равносильно отношению D (pt+1) <S (peq), которое, учитывая (5.8), приводимо к виду: 5(pf)+75(р<-1) < 5(рсч) нлн 7-S(Pt-i) (5.21) Из (4.2), (4.6) н (5.20) следует, что Р«1 - Pi = B[S(pi-i) - D(pi-i) - D(pt-i)|/A(A + В) - 7S(pi-i)/A. Подставляя правую часть этого равенства в (5.21), выводим, что Pt+l>Peq> еслн 7(А+1)2В(р4-1) < А2[5(р1-1) — Z?(pt-i)]. Последнее условие эквивалентно требованию 7 < Гг.4. Условие pt+i<pt-i> входящее в (5.9) и обеспечивающее "скрутку" паутины, равносильно неравенству D (pt+1) >D (pt-i), которое, согласно (5.8), можно записать в виде: 5(р4) +75(р(-1) > £>(pt-i). (5.22) 72
Стронгин Р.Г. Исследование операций и модели экономического поведения Из (4.2), (5.2) и (5.20) выводим, что S(pt) = ААр,- A(1 - -y)S(p4-i) - Be = = А£>(р(-1) + A7«(pf-i) + (1 - A)S(pt-i). Подставляя правую часть полученного выражения в (5.22), выводим неравенство (А - l)[S(pi-i) - DIjh-i)] < 7(А + l)S(pf-i), для справедливости которого достаточно выполнения условия 7 > е(А- 1)/(А + 1). Последнее условие заведомо выполняется при 7 >Гх, где Г\ из (5.14). В заключение отметим, что интервал (5.13) ие пуст (т.е. Г\ < Г2 при значениях А из диапазона (5.11). Мотивация поведения спекулянта Согласно (5.6) и (5.10), прибыль, получаемая спекулянтом в результате каждой описанной выше операции купли-продажи, составляет величину 'П'.('у) = 7‘S(pt-l)(Pi+l ~Р1>- (5-23) Максимум этой величины достигается при 7* = А0/2(2 +А), (5.24) где А и 0 из (5.2) и (5.15).Действительио, из (5.8) выводим, что Pi+i = Рп« - [S(P() + 7s(«-i)]/A- Отсюда, учитывая (5.20), определяем разность И+1 - Pi = [В(р*-1 - Pi) - 2tS(pi-i)]/A. 73
Стронгин Р.Г. Исследование операций и модели экономического поведения Подстановка pt из (5.20) в правую часть полученного равенства дает Pi+i -Pt = [A(S(p(-i) — £>(p4-i)) -7(A+2)S(p4-i)]/A. Используя определение (5.23) и обозначение Q из (5.15), онэнчательио выводим, что т.(т) = TS2^-!)^ - 7(A + 2)]/A. Теперь определим значение 7* как решение уравнения = S2(p,_!) [AS - 27(А +2)]/А = О. 117 Очевидно, что таким решением является значение 7* из (5.24). При этом вторая производная от its по 7 отрицательна в точке 7* .Непосредственной проверим можно установить, что значение коэффициента 7* из (5.24) принадлежит интервалу (Г\, Гг) из (5.13), если величина Л из (5.2) удовлетворяет условиям 1/2-1 < А < Уб- 1. При этих условиях, как следует из рассмотренной теоремы, стремление спекулянта к максимизации своей прибыли ведет к стабилизации равновесной цены peq. Отметим, что исследованная схема поведения спекулянта ведет (с каждым новым виткэм паутины) к уменьшению объема ( осуществляемых им закупок. Возможны, одиакэ, схемы, обеспечивающие стабилизацию равновесия спроса и предложения и при постоянном объеме закупок^.Отметим, что точке равновесия по Штакельбергу обнаруженной в рассмотренном выше примере, соответствует единичное значение А, поскольку для всех точек кривой (4.29), на кэторой находится точка равновесия (4.29), справедливо равенство А=В ; ср. (4.9) и (4.22). Следовательно, равновесная цена Peq = Зс/2, (5.24) соответствующая точке (4.29), может быть стабилизирована действиями
Стронгин Р.Г. Исследование операций и модели экономического поведения спекулянта. Далее, постольку равновесная цена (5.25), соответствующая устойчивому по Штакельбергу решению (4.29), лишь в полтора раза превышает удельные издержки с, то введенное ранее допущение постоянства этих издержек также вполне приемлемо. Самуэльсон П. Эюномика. Т2. М.: НПО АЛГОН ВНИИСИ, 1993. 2) Самуэльсон Пол (р. 1915) - американский эюномист, лауреат Нобелевсюй премии (1970). 3) Конструкция, описываемая ниже, взята нз работы: Стронгин П.Р. Моделирование спекуляций на отклонениях ютировки от равновесной цены// Математичесюе моделирование в образовании. Программные средства 2. Нижний Новгород: Издательство Нижегородского университета, 1994. С. 123-142. “0 См., например, работу: Стронгин П.Р. О стабилизации цены в модели эюномичесюго равновесия со спекулянтом//Математичесюе моделирование и оптимальное управление. Нижний Новгород: Издательство Нижегородского госуннверснтета, 1996. С. 126-150.
Стронгин Р.Г. Исследование операций и модели экономического поведения Принцип максимина и устойчивость решений в антагонистических конфликтах Ядро антагонистической игры. Седловая точка ядра. Сравнение минимаксного и макснмннного значений ядра игры. Седловая точка и условия ее существования. Понятие решения антагонистической игры. Рассмотренные выше примеры игр двух лиц (т.е. операций вида (1.16), на исход которых не влияют не управляемые сторонами состояния природы) показывают, что ситуации стратегического равновесия (по Нэшу нлн по Штакельбергу) могут не обладать свойством эффективности (т.е. могут не быть оптимальными по Парето). Однако в случае, когда интересы сторон оказываются строго противоположными, устойчивые решения всегда являются также и эффективными. Действительно, противоположность (нлн антагонизм) интересов сторон означает, что сумма их критериев является нулевой, т.е. (Vt е X)(Vd е у-)Мг(.х,у} + = о. (б.ц При этом, как следует из (6.1), всякое увеличение значения критерия одной стороны ведет к равному по величине уменьшению критерия другой стороны. Таким образом, в антагонистической игре любая пара стратегий (х, у) является не улучшаемой и, следовательно, - эффективной. Поэтому в такой игре у игроков Рг и Р2 нет нн индивидуальных, нн коллективных стимулов для отклонения от пары стратегий (х*,у*), являющейся стратегической точкой равновесняЗаметим, что, согласно (6.1), для описания антагонистической игры достаточно задать критерий эффективности лишь для одной из сторон. Обычно в качестве такого критерия, называемого ядром антагонистической игры и обозначаемого М (х, у), выбирается платежная функция первого игрока, т.е. М(х, у) = ЛА(1Г,2/) = — Мз(х,у). (6.2) При этом неравенства (3.3) можно переписать в виде 76
Стронгин Р.Г. Исследование операций и модели экономического поведения (Ух (= Х)Л/«у*) > М(х,у*), (Vy £ У) — М(х*,у*) > — M(x*,y)t или (Ух £ Х)(Уу £ У)М(х,/) < М(х*,у*) < М(х\у). (6.3) Определение 1.7 ( седловой точки ). Точка (х*, у*) из произведения множеств X X Y, удовлетворяющая неравенствам (6.3), называется седловой точюй функции м (х, у). Замечание 1.14 (о термине "седловая точка"В седловой точке (х*, у*) из (6.3) одновременно достигается и максимальное (по х € X) значение ЛГ(х*,у*) — тах{Л/(х, у*): х £ X}, (6.4) и минимальное (по у Е Y ) значение Л/(х*, у*) = тт{Л/(х*, у): у £ У} (6.5) функции М (х, у). Для иллюстрации рассмотрим случай, тогда множества Х= [а,Ь] и Y=[c,d] являются числовыми интервалами. Примем также, что кривые М {х, у ’), х Е X , и М (х', у), у £ У, являются выпуклыми соответственно вверх и вниз функциями (при любых фиксированных значениях у' £ У и х' £ X )• Этот случай представлен на рис.1.13. Здесь начало юординат помешено в точку (х*, у*). Рисунок иллюстрирует как отношения (6.4) и (6.5), так и мотивы выбора термина "седловая" для точки (х*,у*) из(6.3). Как следует из проведенного рассмотрения, существование устойчивых решений антагонистичесюй игры определяется существованием седловых точек ядра этой игры. Следующие утверждения устанавливают ряд важных свойств таких точек. 77
Теорема 1.4 (о сравнении минимаксного и максиминного значений ядра игры). Максимиииое значение ядра игры всегда ие больше его минимаксного значения, т.е. max min М(х, у) < min max Л/ (х, у). /с сч .тЕА' vEY vEY хЕХ *• ' При этом предполагается, что левая и правая части неравенства (6.6) существуют и являются конечными. Замечание 1.15 (о связи переменных, являющихся указателями стратегий сторон, с операциями максимума и минимума). Постольку (см. (6.2)) интересы игрока могут интерпретироваться как стремление максимизировать (по х £ X ) критерий М (х, у) М_1 (х, у), а интересы игрока р2 15314 стремление минимизировать (по у € Y ) тот же критерий М (х, у) —м2 (х, у), то в моделях антагонистических игр операция максимизации критерия всеща предполагает вариацию стратегий первого игрока, а операция 78
Стронгин Р.Г. Исследование операций и модели экономического поведения минимизации - вариацию стратегии второго игрока. Доказательство По определению максимума и минимума, (Ух 6 X)(Yy Е У) min Л/(х, у) < М(х,у) < тахЛ/(х, у), уеу .тех или (Vz 6 X)(Vy Е У) minМ(х, у) < тахМ(х,у), уеУ хеХ где левая часть не зависит от параметра У . Отсюда следует, что (Ух Е X) min М(х, у) < min max М(х, у). уеУ уеУ хеХ В последнем отношении правая часть не зависит от х и, следовательно, имеет место неравенство (6.6), справедливость которого и требовалось доказать.Теорема 1.5 (о необходимых и достаточных условиях существования седловой точки ядра). Пусть существуют и являются конечными минимаксное и максимиииое значения ядрам (х, у), хЕХ, У ЕУ, антагонистической игры. ТЬгда необходимым и достаточным условием существования седловой точки (z*,jf*) € X X Уэтого ядра является справедливость равенства указанных выше минимаксного и максиминиого значений, т.е. max min М(z, у) — min max М (х, у). (gjj В случае выполнения равенства (6.7), значения его левой и правой частей совпадают со значением ядра в седловой точке, т.е. совпадают с величинойм (х', у*) .ДоказательствоНеобждимость. Пусть (х', у*) есть седловая точка ядра М (х, у). Тогда из (6.3) следуют неравенства таахМ(х,у*} < М(х*у*~) < min(z*,у), (6т хел уег ' ' для левой и правой части которых справедливы оценки
Стронгин Р.Г. Исследование операций и модели экономического поведения minmaxAZ(z,y) < maxAZ(z,y*), (6.9) убУ’ z^A’ хёХ min А/(х*, у) < max min AZ(z, у). min) уеУ «еХ уеУ ' ' ' Теперь из (6.8)-(6.10) выводим отношение min max М(х, у) < max min AZ(х, у), veY xf=X ' ' ~ xeX yf=Y находящееся в противоречии с утверждением (6.6) предшествующей теоремы. Следовательно, в выражениях (6.8)-(6.10) возможны лишь отношения типа точных равенств. Таким образом, справедливость утверждения (6.7) доказана. При этом значения его левой и правой частей совпадают с величиной М (х*, у*) .Достаточность. Пусть функция min{AZ(z, у): у € У}, z € X, (6.11) достигает максимума (по х) в точке z* с X, а функция max{AZ(z,y): х ЕХ}, у € У, (6.12) достигает минимума (по у ) в точке у* € Y, т.е. minAZ(z*,y) — m^xminAZ(z,y), (бдз) maxAZ(z,y*) = minmaxAZ(z,y). m 14) igX kgI’ .tsA' ’• ' ' Покажем, что точка (х‘,у‘), определяемая условиями (6.13), (6.14), является седловой точкой ядра М(х,у). Поскольку согласно предположению (6.7), правые части выражений (6.13), (6.14) совпадают, то должны совпадать и их левые части, т.е. max;V(i-, у') - f6 15, xfA грУ 4 ' В силу свойств максимума, левая часть из (6.15) не меньше, чем
Стронгин Р.Г. Исследование операций и модели экономического поведения величина М (х, у*), х £ X Аналогично, в силу свойств минимума, правая часть из (6.15) ие больше, чем величина M(x*ty), у £ У. Следовательно, справедливо неравенство (Чх € X)(Vy € У)Л/(д?,/) < М(х\ у), из которого вытекает справедливость условий (6.3) для определенной вышеточки (х*, у*). Определение 1.8 (максиминных и минимаксных стратегий) Стратегия х*, определяемая условиями (6.13), называется максиминной стратегией игрока Рг, а стратегия у*, определяемая условиями (6.14), - минимаксной стратегией игрока Р2. Нетрудно заметить, что выбор этих терминов находится в прямом соответствии с типом вложенных операций взятия экстремума из правых частей выражений (6.13) и (6.14). Следствие 1.1 (отношения иа множестве седловых точек ядра). Пусть X* с X есть множество всех максиминных стратегий игрока Р1; а У* С У - множество всех минимаксных стратегий игрока р2, т.е^. X* = Arg max min Л/ (rr, у) I, (6.16) J У* — Arg min max М(х, у) . (6.17) veY |_хбЛ' J Тогда: 1. любая пара стратегий (х •, у •), где х' С X* и j/ € У*, является седловой точюй ядра М (х, у) ; 2. если существуют две несовпадающие пары стратегий (х ’, у ’) и {х", у"}, такие, что х', х" € X* и у', у" £ У* , то точки (х^у"), (х",уг) также являются седловыми точками ядра; 3. значения ядра во всех седловых точках являются одииаювыми.
Стронгин Р.Г. Исследование операций и модели экономического поведения Доказанная теорема определяет юнструктивный путь поиска устойчивых решений антагоннстнческэй игры с заданным ядром. В соответствии с этим подходом следует вычислить правые части выражений (6.13), (6.14) н провести нх сравнение. В случае совпадения указанных величин, точка (х*,у*), компоненты которой определяются левыми частями выражений (6.13), (6.14), является седловой точкой ядра М (х, у) и, следовательно, представляет собой устойчивое по Нэшу и оптимальное по Парето решение. Это решение допускает следующую интерпретацию. Выбор стороной Pj. стратегии z Е X гарантирует ей, что ее выигрыш (т.е. полезность, обеспечиваемая выбранным решением) будет не ниже, чем величина (6.11). Следовательно, максимннная стратегия х*, определяемая условием (6.13), обеспечивает стороне Рг максимальный гарантированный выигрыш Фактически, принятие этой стратегии соответствует ориентации игрока Рг на худший для него вариант поведения игрока Р2. Такая ориентация является вполне естественной для рассматриваемого случая антагонистических отношений сторон. Аналогично, выбор стороной Р2 стратегии у С Y гарантирует, что ее проигрыш не превысит величины (6.12). Следовательно, минимаксная стратегия у*, определяемая условием (6.14), минимизирует максимальные возможные потерн этой стороны. Заметим, что в случае неединственности макснминных (для Pi ) и минимаксных (для Р2 ) стратегий у сторон нет необходимости согласовывать друг с другом реализуемые ими выборы. Согласно следствию из теоремы, любые сочетания выбранных сторонами и Р2 соответственно макснминных и минимаксных стратегий образуют седловую точку' ядра и гарантируют сторонам один и тот же уровень полезности. Замечание 1.16 (о ценах игры). Существование макснминных стратегий х* из (6.16) и минимаксных стратегийу* из (6.17) еще не гарантирует совпадения величин
Стронгин Р.Г. Исследование операций и модели экономического поведения V— min М (аг*, у) — max min М (зг, у) (6.18) jfl’ хбА' уеУ и г = max М(аг, г/*) = min max М(аг, г/), zg 19) .тбА' убУ хЕХ ' ' ‘ называемых соответственно нижней ценой игры и верхней ценой игры (используются также термины нижиее значение игры и верхнее значение игры ). Согласно (6.6), иижняя цена игры всегда не выше, чем верхняя цена. Как мы уже установили, совпадение верхнего и нижнего значений игры является необходимым и достаточным условием существования в этой игре устойчивых по Нэшу пар стратегий. В этом случае общее значение V = ^ = v (6.20) называется ценой игры.Определеиие 1.9 ( решения антагонистической игры ). Пусть ядро м (х, у), агбХ» V € Y, имеет седловую точку (х*, у*). Тогда тройку величии (а:*, »*,«), (6.21) где v есть цена игры из (6.18)-(6.20), называют решением антагонистической игры. Как уже было отмечено выше, стратегии х* и у* из (6.21) соответствуют устойчивому поведению сторон, поскольку свойства равновесия по Нэшу и оптимальности по Парето исключают стимулы к изменению решений. При этом каждая из сторон может независимо определять свое поведение, руководствуясь принципом максимального гарантированного результата. Отметим также, что цена игры v является объективной характеристикой свойств ядра игры. Игрок не может гарантировать себе выигрыш превышающий эту величину Однако для реализации этой гарантии он должен придерживаться своей максимиииой стратегии. Аналогичные замечания справедливы и для игрока Р2. 83
Стронгин Р.Г. Исследование операций и модели экономического поведения Символ Arg обозначает множество всех значений аргумента, при которых достигается записанный справа от этого символа экстремум функции (по этому аргументу). 84
Стронгин Р.Г. Исследование операций и модели экономического поведения Анализ антагонистической игры на основе принципа максимума гарантированного результата Соперничество за рынок сбыта. Усреднение полезностей. Решение антагонистической игры дуэльного типа. Пример 1.4 (поиск решения антагонистической игры путем вычисления максимального гарантированного результата) Рассмотрим региональный рынок, на котором спрос на некоторый товар носит сезонный характер. Таким товаром может, в частности, быть посевной материал, не допускающий длительного хранения (например, рассада для выращивания овощей в открытом грунте). Будем полагать, что покупателями этого товара являются многочисленные независимые производители соответствующей сельхозпродукции, приобретающие материал непосредственно перед посевными работами и традиционно не имеющие фьючерских^ соглашений на поставку материала. Рассмотрим ситуацию, когда некоторая фирма Рх ставит задачу захвата данного регионального рынка путем проведения единовременной массированной рекламной кампании. Такая кампания может, например, включать демонстрации образцов, встречи с известными экспертами, показы фильмов, публикации в средствах массовой информации, проведение конкурсов и т.п. Стержнем кампании является демонстрация преимуществ предлагаемого материала н технологии ведения работ по сравнению с существующими (при тех же затратах). Руководство фирмы решает вопрос о том, за какое время х до начала массовых закупок посевного материала следует запустить указанную единовременную кампанию. Будем называть соответствующую величину х временем упреждения и примем масштаб времени, при котором максимальное упреждение не превышает единицы, т.е. i* € [0,1]. Положим, что фирма Pj. имеет значительный опыт продвижения своей продукции на региональные рынки и это позволяет ей оценить вероятность рх (х) успешного захвата рынка в случае проведения рекламной кампании с упреждением, равным времени х. Естественно принять, что эта вероятность (строго) монотонно возрастает, 85
Стронгин Р.Г. Исследование операций и модели экономического поведения приближаясь к значению рх (0) =1, по мере уменьшения упреждения х (1.14). Те. проведение рекламной кампании непосредственно перед периодом массовых закупок (когда вопрос о посевном материале оказывается в фокусе интересов и внимания покупателей) гарантирует захват рынка в силу действительных достоинств новой продукции. Рис. 1.14. Теперь примем, что этот же региональный рынок пытается захватить другая фирма Р2, которая также планирует проведение единовременной рекламной кампании за некоторое время у (из уже рассмотренного интервала [0,1] ) до начала массовых закупок Фирма Р2, каки фирма Рх, строит свою кампанию, опираясь иа превосходство предлагаемого ею товара над традиционно продаваемым материалом. Опыт фирмы позволяет ей оценить вероятность р2 (у) захвата рынка как некоторую (строго) моиотоиио убывающую функцию времени упреждения у. При 86
Стронгин Р.Г. Исследование операций и модели экономического поведения этом р2 (0) =1. Мазанная оценка р2 (у) основана на предположении, что конкурнруюцря фирма не захватила рынок в более ранний момент (т.е. при х>у ), закрепив этот захват заключением договоров на поставку своей продукции. Последнее обстоятельство относится и к оценке рг (х), которая справедлива лишь при условии, что фирма Р2 еще не захватила рынок, начав свою кампанию с большим упреждением у>х. Таким образом, с одной стороны, каждая фирма заинтересована задержать начало рекламной кампании, чтобы увеличить вероятность успеха. С другой стороны, существует риск поплатиться за ожидание утратой всякой возможности захватить рынок. Условимся, что момент принятия решения настолько удален от времени начала закупок, что Pl(l)+P2(l)<l. (7.1) Перейдем к описанию полезностей, характеризующих исходы операции. Примем, что успешный захват рынка фирмой Pi обеспечивает ей единичную полезность (1-1,2). При этом значение полезности для фирмы, уступившей рынок, полагается отрицательным и равным -1. Рассмотрим ситуацию, когда рекламные акции обеих сторон проводятся одновременно (т.е. прн равных упреждениях х=у ). Возможно (вероятность этого случая равна величине (1~р1(х)) (1- р2(у)) , х=у), что ни одна из фирм не сможет захватить рынок (нли его часть) и он останется за традиционным поставщиком. Такая ситуация полагается более предпочтительной, чем победа конкурента, и мы примем, что ей соответствуют нулевые полезности для обеих сторон. Возможен (с вероятностью, равной величине Pi(x)p2(y), Х=У ) случаи, когда каждая нз сторон сможет захватить некоторый сегмент рынка. При этом обе фирмы могут быть как самостоятельными производителями товара (возможно, разного качества), так и дилерами^* одного и того же производителя. Они могут также быть производителями, действующими на основе франшизы^* от одной и той же компании. В этих случаях их рекламная акция будет сфокусирована 87
Стронгин Р.Г. Исследование операций и модели экономического поведения на лучших условиях доставки и сопровождения товара (т.е. на качестве соответствующих услуг), что может иметь не одинаковую привлекательность для разных категорий покупателей. Эти н другие обстоятельства могут влиять на характер раздела рынка фирмами Р15 р2 и традиционным поставщиком. Описанные случаи также предпочтительнее, чем полная победа конкурента, и мы примем, как и выше, что им соответствуют нулевые полезности для обеих сторон. Замечание 1.17 (об усреднении полезностей ). Описанная операция, фактически, содержит неконтролируемые сторонами параметры (хотя эти параметры и не указаны явно). Выбор сторонами Рт и Р2 решений хну еще не определяет исхода операции. Прогнозирование этого исхода на основе оценки для худшего случая будет означать отказ от важной информации, которую дают вероятности рх (х) и р2(у) захвата рынка. Возможный способ учета такэй информации состоит в том, чтобы оценивать выбираемые решения на основе математических ожиданий полезностей сторон, соответствующих этим решениям. Этот прием использования математических ожиданий для исключения из рассмотрения неконтролируемых состоянии природы называется усреднением полезностей Определим математичесюе ожидание полезности для стороны рх как функцию решений х, у и будем рассматривать эту величину как ядро обсуждаемой антагонистической игры. При х>у сторона рх с вероятностью рх (х) захватывает рынок, обеспечивая себе полезность, равную +1. В случае неудачи, вероятность которой равна 1-р1(х), сторона Р2 захватывает рынок, проведя свою рекламную акцию накануне периода закупок. Прн этом полезность такэго исхода для стороны Рх составляет -1. Таким образом, М(х,у) = pi(x) - [1 -= 2pi(x) - 1, 0 < у < X < 1. Аналогично, прн х<у стороны рг и Р2 захватывают рынок с вероятностями, равными соответственно 1 -р2 (у) и р2 (у). Поэтому М(х,у) = [1 - и(у)] -рг(у) = 1 - 2р2(гг), 0 < х < у < 1.
Стронгин Р.Г. Исследование операций и модели экономического поведения В случае одновременных рекламных акций (т.е. прн х=у ) захват рынка сторонами н Р2 имеет место с вероятностями равными, соответственно Р1(г)[1 -Р2(г)] ирг(г)|1 — pi(sc)]. Следовательно, М(х,у) =Р1(х)[1 -р2(х)| — Рз(а:)[1 -pi(z)] =PiW -Р2<х), х = у, поскольку в случае неудачи обеих сторон, а также в случае раздела ими рынка соответствующие полезности определены как нулевые. В результате получаем функцию 2pi(x) - 1, О < у < х < 1, Л/(т,у) = 1 - 2р2(р), О < х = у < 1, (7.2) О < х < у < 1, представляющую модель рассматриваемой игры и не обладающую свойством непрерывности. Замечание 1.18 (обабочкообразных ядрах). Рассмотрим частный случай, когда Р1(а:) = 1-т, р2(р) = 1- у, и, следовательно, 1 — 2х, 0 < у < х < 1, О, 0 < х = у < 1, (7.3) 2у — 1, О < х < у < 1. Разрывная поверхность, которая соответствует функции м (х, у) из (7.3), определенной на единичном квадрате О < х, у < 1, представлена на рис.1.15. Мазанная поверхность составлена из трех частей, включающих два плоских треугольника и (изображенный
Стронгин Р.Г. Исследование операций и модели экономического поведения жирной линией) отрезок, юторый лежит на прямой х=у в плосюсти М(х,у)=0. Все части имеют общую точку (отмеченную темным кружком). Форма поверхности напоминает бабочку и этим определяется использование термина " бабочюобразные ядра " применительно к функциям вида (7.2). Оценим нижиюю цену игры и максимиииую стратегию игрока Р Воспользуемся представлением v = max min М(х. у) = max и(х), ~ 0<1<10<у<1 0<х<1 ( 1 (7‘4) inf A/(a:,y), A/(x,x), inf M(x, y)>. ^o<j/<x ®<v<i J 90
Исследование операций и модели экономического поведения Стронгин Р-Г. При этом, согласно (7.2), inf{M(x,;y): О < у < х} = 2pi(x) — 1, Л/(х, х) = рх(х) - р2(лт), inf{Af(x,p): х < у < 1} = 1— 2рг(^) н, следовательно, /г(х) = min{2pi(x) - l,pi(x) -p2(z), 1 - 2р? (х)}. (7.5) Определим вещественное число t как решение уравнения (см. рис.1.14): Pl(t) +Рг(«) = 1- (7.6) Заметим, что в силу (7.1), условий Р1(0) = 1, и(0) = 1 и условия монотонности функцийр^, р2, решение уравнения (7.6) существует и является единственным. Теперь, согласно (7.4), можно оценить нижнюю цену игры как v=max< sup /z(x),/z(t), sup /х(г) >. (7.7) lo<z<i i<z<L J Из (7.6) н условия монотонности функцнйрг, р2 вытекает, что pi(t) 4- p2(i) > 1, 0 < х < t. (7.8) Прибавив к каждой части этого неравенства величину р х (х), получим левое неравенство из записи (7.9): 2pi(х) - 1 > Р1(х) - р2(х) > 1 - 2р2(х). (7.9) Вычитая величину 2р2 (х) из левой и правой частей неравенства (7.5), получим правое неравенство из (7.9). Теперь из (7.5) и (7.9) следует, что
Исследование операций и модели экономического поведения Стронгин Р-Г. ^(х) — 1 '2р?(х), О < х < t, причем sup{;i(z): 0<z<t} = l— 2рз(0- (7.10) Неравенство Pi(t)+p2(t)<l, t<x< 1, (7.11) также является следствием (7.6) и условий монотонности функций рх и р2. Сопоставляя (7.8) и (7.11), выводим, что следствием (7.11) являются неравенства, обратные отношениям в (7.9), т.е. 2pi(ят) - 1 < Р1(ят) - рз(х) < 1 - 2р2(х). (7.12) Тогда из (7.5) и (7.12) вытекает, что р,(х) — 2pi(x) — 1, t < х < 1» причем t < х < 1} = 2pi(t) — 1. (7.13) Пусть теперь x=t. Тогда из (7.9) и (7.12) следует равенство 2jt?i(х) - 1 = pi(x) - р2(х) = 1 - 2р2(х), (7.14) откуда, учитывая (7.7), (7.10) и (7.13), получаем, что 21 — max{^(z): 0 < х < 1} — pi(t) — рг(^). (7.15) При этом максиминная стратегия х* игрока Рх определяется как решение уравнения (7.6), т.е. x*=t. Аналогично определяется верхняя цена игры и минимаксная стратегия игрока Р2. Запишем 92
s==□<!<!v(y}’ <716’ ?/(?/)—max < sup Af(z, у), ЛДу, y), sup Af(x»y) (□<z<y tf<x<l При этом, согласно (7.2), sup{Af(x,i/): О < x < г/} = 1— 2рз(1/), А/(|/,|/) =Р1(у) -P2(l/), sup{A/(z,y): у < х < 1} = 2pi(jt) - 1, и, следовательно, ц(у} - niax{2pi(]/) - 1, pi(y) -Р2(т/), 1 - 2р2(т/)}. (7.17) Теперь из (7.17), (7.9) и (7.12) выводим, что 7/(т/) = 2pL(y) - 1, 0 < у < t, у(у) = 1 - 2р2(у), t < у < 1, откуда следует справедливость оценок шЦт/О/): О < у < 2} - 2pi(i) - 1, mfffXj/): — 1— 2p2(t). Полученные оценки в сочетании с равенством (7.14) приводят к выводу что v = г,): 0 < у < 1} = pi(t) - (7.18) При этом минимаксная стратегияу* игрока Р2 определяется тем же значением t, что и максимиииая стратегия игрока Р1л т.е. х* = у* = t (7.19) где t из (7.6); см. рис.1.14.Совпадеиие верхней и нижней цен игры
Стронгин Р.Г. Исследование операций и модели экономического поведения доказывает, что пара ( х*, у *) из (7.19) является седловой точкой ядра (7.2). Следовательно, эта пара стратегий определяет решение, обладающее свойствами равновесия по Нэшу Полученному решению соответствует цена игры V =P1(C) -P2(t). (7.19) Еще раз отметим, что решение (7.19), (7.20) является также оптимальным по Парето. Следует также обратить внимание иа то, что величина v из (7.20) есть гарантированное игроку Рх математические ожидание полезности, а не выигрыш в конкретной реализации игры (который может иметь лишь значения нз множества {-1, 0, +1} ). В случае, когда цена игры v оказывается положительной (отрицательной), говорят, что игра поставлена в пользу первого (второго) игрока. При v=0 игру называют "безобидной ". Выражение (7.20) для цены игры является важной рекомендацией. Согласно этому выражению, для постановки игры в свою пользу игрок Pi (i=l,2) должен стремиться увеличить вероятность Pi<t), соответствующую упреждению t из (7.6). Как уже отмечалось, мы полагаем, что каждая из сторон знает обе функции р1? р2. Замечание 1.19 (об играх типа дуэлей ). Модели рассмотренного выше типа первоначально использовались как средство описания боевых столкновений типа дуэлей (например, дуэли истребитель- бомбардировщик, шгурмовик-наземный комплекс и т.п.). Прн этом функции рх(х) и Р'2 (у) характеризуют вероятности поражения противника при выстреле, осуществленном игроком Pi или р2 соответственно с расстояния х или У (прн естественном предположении, что стреляющая сторона не была уничтожена противником еще до своего выстрела). В теории рассмотрены случаи, когда стороны могут последовательно осуществить несколько выстрелов, обнаруживая факты промаяэв противника (в этом случае дуэль называется " шумной ") или не имея возможностей для такого обнаружения (в этом случае говорят о " бесшумной " дуэли). Исследования подобных моделей оказали определенное влияние иа содержание наставлений для некоторых родов войск^. 94
Стронгин Р.Г. Исследование операций и модели экономического поведения Тем самым, пример, рассмотренный выше, может классифицироваться как шумная дуэль, в которой каждая сторона имеет одни выстрел. Заметим, что интерпретация дуэлей как конкурентных взаимодействий появилась значительно позднее^. В заключение отметим, что успешное вычисление минимаксного и макснмннного значений ядра в рассмотренном примере существенно опиралось на специфику конкретной функции (7.2). В общем случае такие вычисления могут оказаться гораздо более сложными. Эти трудности, однако, исчезают, если выбор стратегий (для каждой стороны) ограничен конечным числом вариантов, которые можно перебрать в процессе анализа. Этот случай рассматривается в следующей лекции. Ц Фьючерские операции - срочные сделки, представляющие собой куплю-продажу по фиксируемой в момент заключения сделки цене с исполнением операции через определенный промежуток времени. Дилер - оптовый покупатель товаров и услуг для розничной перепродажи их потребителям. 3) Франшиза - право иа производство продукции другой компании. 4) Дрешер М. Стратегические игры. Теория и приложения. М.: Советское радио, 1964.} 5) См., например, пособие: Крушевский А.В. Теория игр. Киев: Вища школа, 1977.
Стронгин Р.Г. Исследование операций и модели экономического поведения Нормальная форма конечной игры. Задание конечной игры в позиционной форме Матричные и биматричные игры. Описание нэнечиой игры в позиционной (или развернутой) форме. Дерево игры. Модель игры в позиционной форме. Матричные и биматричные игры Определение 2.1 (ыэиечных, матричных и биматричиых игр) Игра (1.16) называется конечной, если множества X и Y стратегий сторон Рх и Р2 являются конечными. В конечной игре можно занумеровать стратегии сторон целыми числами и рассматривать эти числа как указатели стратегий: X = .,m}, У = п}. (8.1) Посиэльку при этом критерии Mj (i, j ) и м2(i,j ) определены на конечном множестве X х У, то их значения можно представить с помощью таблиц Айв. Строки этих таблиц (с номерами г 6 X ) соответствуют стратегиям первого игрока, а столбцы (с номерами j Е У ) - стратегиям второго игрока. Так как пара таблиц А и В полностью описывает модель (1.16) конечной игры (т.е. задает множества X, Y из (8.1) и функции (i, j ) “ajj, M2(i,j)=b1j ), то конечная игра двух лиц называется также биматричиой игрой. В случае, когда интересы сторон являются антагонистическими и, согласно (6.2) а,, = -Ь,3, (8.2) для описания игры достаточно задания одной матрицы А. Поэтому конечные антагонистические игры называются также матричными играми. 96
Стронгин Р-Г. Исследование операций и модели экономического поведения Матрица А Стратегии Pi Матрица A Стратегии Pi 1 ... j ... п 1 ... j ... n Стратегии Pi 1 i т ап • • • aij ... ain а«1 • • • Ojj • • • а,п. Ипг! . . . dmj • • Стратегии Pi 1 i m !>ii ... bi3 ... 6in bti ... bij ... bin bml • • • bmj • • • bmn Пример 2.1 (соглашение об ограничениях при ловле рыбы). Пусть две страны, осуществляющие лов рыбы в одних и тех же водах, согласились на взаимное ограничение добычи с целью сохранения рыбных запасов. При этом каждая из сторон не имеет реальных средств, чтобы контролировать соблюдение соглашения другой стороной. Это обстоятельство исключает возможность применения санкций за нарушения. Возможные стратегии сторон состоят в том, чтобы соблюдать или не соблюдать принятые соглашения. Доходы сторон (в некоторых условных единицах), соответствующие различным выборам стратегий, представлены парами целых чисел (разделенных запятыми) в следующей таблице. При этом первый коэффициент каждой пары соответствует элементу матрицы А, а второй коэффициент - элементу матрицы В. Стратегия Р2 Матрица А и В Соблюдать Не соблюдать соглашение соглашение Соблюдать Стратегия соглашение 10,10 5,11 pi Не соблюдать соглашение 11,5 6,6 Как следует из определения равновесия по Нэшу в задаче существует единственная пара стратегий i* = 2,j* = 2, (8.3)
Стронгин Р.Г. Исследование операций и модели экономического поведения обладаюиря свойством устойчивости. Таким образом, единственно возможное устойчивое поведение сторон заключается в том, что каждая из них ие соблюдает соглашение. При этом, например, решение i=j=l, предполагающее взаимное соблюдение соглашения, обеспечивает каждой из сторон больший доход, чем решение (8.3). Одиако решение i=j = l не является устойчивым. Итак, (8.3) есть единственное устойчивое решение в рассматриваемой задаче и оно не эффективно (т.е. улучшаемо). Все остальные решения эффективны (оптимальны по Парето), но не устойчивы. Определение 2.2 (седлового значения матрицы). В случае матричных игр определение (6.3) седловой точки (^, р) Е XY ядра игры может быть переписано в виде < dfiis < , 1 < i < т. 1 < j <п. (8.4) При этом коэффициент , соответствующий значению ядра в седловой точке, называется седловым значением матрицы игры. Заметим, что этот коэффициент (если он существует) является минимальным числом в содержащей его строке и - максимальным числом в содержащем его столбце.В качестве иллюстрации рассмотрим таблицу которая соответствует матрице некоторой игры (описание этой игры будет даио ниже). Как следует из таблицы и из условий (8.4), пары стратегий (fj, = 3, р = 2) и (/2 = 4, р = 2) соответствуют седловым точкам ядра и, следовательно, устойчивы по Нэшу Заметим, что отвечающие им седловые значения 332 и а42 являются одинаковыми, что согласуется с третьим утверждением следствия из теоремы об условиях существования седловой точки ядра. 2 2 4 4 2 2 4 4 7 3 7 3 6 3 6 3 Случай, когда матричная игра ие имеет устойчивых решений,
Исследование операций и модели экономического поведения Стронгин Р-Г. иллюстрирует следующий классическим. пример, который можно считать Пример 2.2 (игра в орлянку). Пусть каждый из игроков независимо выбирает одну из двух сторон монеты, соответственно именуемых "Орел" и Тешка". Если выборы сторон совпали, то игрок Р2 отдает монету игроку Рг. В противном случае монету получает игрок Р2 (за счет игрока Рх ). Если принять номинал монеты за единицу то этой антагонистической игре соответствует матрица из табл, 2.1, Таблица 2.1. Стратегия Р2 Матрица игры в орлянку Орел Решка _ Орел +1 -1 Стратегия Рх Решка -1 +1 Матрица этой игры не содержит седловых значений, поскольку максимальные элементы первого и второго столбцов не являются минимальными числами в содержащих их строках. Заметим, что указанное отсутствие устойчивых стратегических пар ведет к недостаточности принципа максимального гарантированного результата для выбора решений. Те. этот принцип не может быть удовлетворительной основой для рекомендаций, определяющих поведение. Согласно (6.18) и (6.19), нижняя и верхняя цены игры в орлянку равны соответственно числам -1 и +1. Сторона Рх, соглашаясь иа гарантированный уровень полезности, который обеспечивается применением ее максимиииой стратегией, получает доход, равный нижней цене игры (т.е. -1 ). При этом она отдает другой стороне величину +1, существенно превьшиющую тот уровень дохода, который сторона Р2 может гарантировать себе сама. Поэтому представляет интерес более полное раскрытие условий, при которых обеспечивается существование устойчивых решений. Необждимо также определение эффективных способов поведения сторон в условиях, когда отсутствуют решения, отвечающие понятию устойчивости, которое было введено в лекции 3. 99
Исследование операций и модели экономического поведения Стронгин Р-Г. Задание конечной развернутой) форме игры в позиционной (или Примеры операций, рассмотренные выше, были непосредственно представимы моделями в нормальной форме (см. определение в лекции 1). При этом каждая сторона однократно осуществляла свой выбор, и совокупный выбор сторон определял полезность (для каждой из них) соответствующего исхода. В тех случаях, когда содержащиеся в задаче неуправляемые параметры (состояния природы) порождали неопределенность исхода, эта неопределенность могла быть исключена либо путем перехода к оценкам, основанным иа гарантированном результате, либо путем перехода к математическим ожиданиям оценок. Существуют, однаиэ, операции, в ходе которых стороны многократно осуществляют выбор своих решений, т.е. процесс принятия решений развертывается во времени и не сводится к единственному выбору. Типичным (и хорошо известным) примером такого рода является игра в шахматы. Те. исждное описание операции, возникающее в приложениях, может отличаться от нормальной формы. Рассмотрим одни из примеров такого рода. Пример 2.3 (погоня за конкурентом). Пусть торговая фирма Рх обеспечивает населенные пункты П2, П4 н П5 некоторым потребляемым продуктом с ограниченным сроком хранения (например, свежей рыбой, перевозимой в цистернах с водой). При этом товар (от достаточно удаленного поставщика) поступает в пункт П4, который является исждной точкой двух маршрутов, используемых фирмой Рх. Первый маршрут включает последовательные переезды из П4 в П2 и затем из П2 в П5 с последующем возвращением из П5 в П4. Будем обозначать этот маршрут символом МП2. Второй (более короткий) маршрут предполагает переезд из П4 в П5 с возвращением в П4. Обозначим его МП5. Указанные населенные пункты и связывающие их маршруты изображены иа схеме, представленной иа рис. 2.1 (варианты путей, возможных для фирмы Рг, отмечены на рисунке жирными линиями). Примем теперь, что некоторая другая фирма р2, создающая свою собственную производственную базу (например, иа прудах) в 100
Стронгин Р.Г. Исследование операций и модели экономического поведения малонаселенном пункте ПЗ и еще не нмеюпря значительных объемов производства, планирует подготовку потребителей к положительному восприятию своего продукта. Планируемая акция состоит в проведении продаж ограниченного объема, нацеленных на демонстрацию исключительно высокого качества предлагаемого товара (при прочих равных условиях). Заметим, что в случае торговли свежей рыбой указанное преимущество может определяться близостью источника поставки, создаваемого фирмой Р2, и удаленностью таюэго источника у фирмы Рх. Рис. 2.1. Фирма Р2 ставит задачу продавать малые партии своего товара одновременно и одноместно с продажами, юторые осуществляет давно действуюпря на рынке фирма Рр Ожидается, что таюэй подход усилит рекламный эффект за счет непосредственной демонстрации уже упомянутого превосходства качества. Для этой цели фирма Р2 может воспользоваться следующими двумя маршрутами, отмеченными тонкими линиями на рис. 2.1. Первый маршрут включает 101
Стронгин Р.Г. Исследование операций и модели экономического поведения последовательные переезды нз ПЗ в П2, затем нз П2 в П1 н далее из П1 в П5. Маршрут завершается возвращением в ПЗ. Обозначим его МП2. Включенный в этот маршрут пункт П1 (см. верхнюю часть схемы на рис, 2.1) является новостройкой, и фирма р_1, продающая большие партии товара, еще не торгует в П1. Поэтому новая фирма Р2 полагает важным зафиксировать свое присутствие в этом пункте. Второй маршрут предполагает доставку и продажу товара в П4 с возвращением в ПЗ. Обозначим его МП4. Заметим, что конфигурация возможных марпрутов может быть следствием характера транспортной сети. Например, возможно, что пункты П1, П2 и пункты ПЗ-П5 находятся на разных берегах реки и прн этом мостовые переправы, ведущие в П2 из ПЗ, П4 и в П5 нз П1, П2, временно открыты лишь в одну сторону Принятая Р2 линия поведения состоит в том, чтобы, установив факт получения товара фирмой Р^ (свидетельством чего могут быть начавшиеся продажи этого товара в пункте П4), реализовать продажи на одном из собственных маршрутов. Будем полагать, что большой объем партии товара, получаемой фирмой Р1Л допускает неоднократное возвращение в пункт П4 с последующим выбором маршрута продолжения продаж. При этом ограниченный объем каждой пробной партии товара, реализуемой фирмой Р2, позволяет ей осуществить описанную рекламную акцию лишь на одном из марпрутов. Следующее важное обстоятельство касается того, ннфюрмнрована ли фирма Р2 в момент выбора своего маршрута о том маршруте, по которому товар фирмы Рх покинет пункт П4. Поэтому мы будем рассматривать два случая. Первый нз них связан с предположением о том, что каждый раз, когда фирма Рх покидает пункт П4, фирма р2 инфюрмирована о маршруте, выбранном Рг (до принятия своего решения). Во втором случае мы будем полагать такую ннфюрмацию отсутствующей. Время перемещения продаж нз одного населенного пункта, лежащего на маршруте, в другой населенный пункт (лежащий на том же маршруте) примем за единицу Будем считать его одинаювым для обеих фирм. 102
Стронгин Р.Г. Исследование операций и модели экономического поведения Примем также, что время самих продаж в населенном пункте тоже составляет единицу. Дополним это предположение условием, что фирма Р2 начинает реализацию выбранного маршрута нз пункта ПЗ в момент, иэтда товар фирмы Рг покинул П4 и появился в другом пункте. Те. временное запаздывание, необходимое Р2 для получения информации о поступлении товара для фирмы Рх и для подготовки своей рекламной акции, составляет две единицы времени. При этих допущениях можно считать, что фирмы Рх и Р2 совершают пережды между пунктами по очереди. Схема на рис, 2.1иллюстрирует возможную последовательность таких переходов, соответствующую случаю, кэгда фирма рг сначала реализует маршрут МП5, а затем (после возвращения в П4) - маршрут МП2. Целые числа оюло дуг маршрутов Pi и Р2, соединяющих населенные пункты, есть порядковые номера периодов времени, в кэторые совериались соответствующие пережды. Как следует из диаграммы, в первый единичный период фирма Pi перевозит свой товар из П4 в П5. Затем (пока рх осуществляет продажи в П5) фирма Р2 перевозит свой товар из ПЗ в П2 (второй единичный период). В третьем периоде возвралцется в П4 (в это время Р2 торгует в П2). В четвертом периоде Р2 перемещается из П2 в П1. Далее Pi переходит из П4 в П2 (пятый период). В шестом периоде Р2 переждит в пункт П5, куца (в седьмом периоде) прибывает и товар фирмы Рг. Будем интерпретировать этот случай как окончание погони, поскольку при этом Р2 имеет возможность торговать одновременно и одноместно сР? Случай, кэгда сторона Р2 возвралцется в пункт ПЗ, распродав свой товар и ие столкнувшись (одновременно и одноместно) с товаром другой стороны ни в одном из населенных пунктов иа своем маршруте, будем также интерпретировать как окончание погони. Примем, что интересы Р2 требуют реализовать одновременную и одноместную с Рх продажу (как и вообще все свои продажи) как можно раньше. При этом в большей степени сохраняется свежесть товара 103
Стронгин Р-Г. Исследование операций и модели экономического поведения (предлагаемого Р2 )> определяющая его конкурентные преимущества. Интересы стороны полагаются противоположными интересам стороны Р2. Будем оценивать полезность, которую обеспечивает себе сторона P-l в любой реализации рассматриваемого конфликта, как число периодов времени, которые прошли до окончания погони. Условия рассмотренной операции допускают следующее наглядное (графическое) описание. Дерево игры Ситуации в развитии операции, в которых одна из сторон осуществляет свой выбор (т.е. принимает решение), будем называть позициями (н обозначать q±, 1 < i < L ). Множество всех позиций обозначим Q, т.е. Q= {«1 -er}- Ситуации, заверинющие какую-либо реализацию операции, будем называть исходами и обозначать tk, 1 < k < К. Множество всех исходов обозначим 'Г = {«I . tk . - Лк}. Конкретный выбор, осуществляемый стороной Р^ в позиции qt Е Q , будем называть ходом этой стороны. Поскольку каждый таюэй выбор переводит развитие операции либо в некоторую ситуацию Qj Е Q , в которой осуществляет свой ход другая сторона, либо в некоторую ситуацию tk G.T завершения операции, то каждый возможный ход может быть охарактеризован либо парой вида (qif qj), либо парой вида (4i, tk). Множества Q, Т и множества всех возможных в данной операции пар вида (qifqj) и (qXrtk) допускают напиодное графическое изображение (на плоскости). Элементы множеств Q н Т изображаются 104
Стронгин Р.Г. Исследование операций и модели экономического поведения точками. Образы элементов первого множества называются узлами, а второго - вершинами. Пары вида (q£,qj) и (qptk) изображаются отрезками прямых линий, соединяющих соответствующие точки. Эти отрезки будем называть дугами или ребрами. Каждому узлу поставим в соответствие номер стороны, осуществляющей ход в позиции, образом которой является узел. Условимся ставить этот номер над точкой, соответствующей узлу Будем выполнять графическое построение таким образом, чтобы узлы последующих позиций (порядок следования определяется переходами по ребрам из одних позиций в другие) лежали иа графике выше, чем узлы предшествующих позиций. Точки вершин также должны изображаться выше, чем точки предшествующих нм узлов. Результирующий рисунок представляет собой плоский граф типа дерева. Исходная точка ветвления такого дерева (нижний узел) называется корнем дерева. 105
Рис. 2.2. Построим дерево, соответствующее рассмотренному примеру В исждной позиции (см. юэриевой узел иа рис, 2.2) сторона выбирает маршрут (МП2 или МП5), на котором она будет осуществлять продажи своего товара. Двум возможным вариантам выбора соответствуют два ребра графа, начинающихся в корневом узле (символы вариантов нанесены справа от соответствующих ребер). Концевые узлы (q2 и q3 ) указанных ребер соответствуют двум возможным ситуациям, в которых 106
Стронгин Р.Г. Исследование операций и модели экономического поведения свой выбор делает сторона Р2 (номер второго игрока нанесен над точками этих узлов). В позиции q2 фирма р2 выбирает свой маршрут в условиях, когда первая фирма реализует маршрут МП2. Вторая позиция (образом которой является узел q3 ) отвечает условиям, тогда Р2 реализует маршрут МП5. Обе эти ситуации существуют независимо от того, знает ли сторона Р2 маршрут, реализуемый стороной Р2. Различия, определяемые наличием или отсутствием этого знания, будут изложены ниже. Рассмотрим последствия выбора, осуществляемого стороной Р2 в позиции q2 (т.е. выбора в условиях, тогда сторона Р2 реализует маршрут МП2). В случае, если р2 выбирает маршрут МП2, погоня оканчивается в пункте П2, спустя два периода времени. Татому истоду отвечает правая вершина t2 на рис. 2.2. Две единицы времени, составляющие полезность этого истода для стороны Р1; отмечены (жирным шрифтом) над точтой этой вершины. Левая схема на рис. 2.3 иллюстрирует перемещения сторон между пунктами, результатом тоторых является исход tx. Целые числа, нанесенные на этом рисунке отоло дуг маршрутов, указывают номера периодов времени, в тоторые проходятся соответствующие дуги (такие обозначения уже использовались на рис. 2.1). Прямоугольник, соответствующий пункту П2, в тотором стороны одновременно н одноместно осуществляют продажу своего товара, выделен на рнс. 2.3 жирными линиями. Исход Ъ Исход fc, Исход Рнс. 2.3. 107
Стронгин Р.Г. Исследование операций и модели экономического поведения Выбор стороной Р2 (в позиции q2 ) маршрута МП4 переводит операцию в исход t2. Этому случаю соответствует средняя схема на рнс. 2.3. согласно которой погоня завершается в связи с возвращением Р2 в исходный пункт ПЗ через 4 периода времени. Соответствуюиря вершина дерева, в юторую ведет ребро (q2, t2), отмечена точной на рнс. 2.2 (4 единицы полезности, которые получает в этом исходе сторона Рх, нанесены жирным шрифтом над вершиной). Перейдем к рассмотрению последствий выбора в позиции q3. Выбор стороной Р2 маршрута МП4 (напомним, что в этом случае сторона Рх реализует маршрут МП5) ведет в исход t3 (за 3 периода времени). Соответствующие переходы иллюстрируются правой схемой на рис. 2.3. Контур прямоугольника, обозначающего пункт П4 на этой схеме (в ютором завершается погоня), выделен жирными линиями. Выбор в позиции q3 маршрута МП2 переводит операцию в позицию q4, где выбор вновь осуществляет сторона Рх. Возможные варианты развития операции в зависимости от юнкретного выбора иллюстрируются схемами иа рис, 2.4. Выбор маршрута МП2 (левая схема) ведет в исход t4 за 7 периодов времени (прн этом погоня завершается в пункте П5). Альтернативный выбор (маршрут МП5) имеет результатом исход t5. Соответствующие переходы, занимающие 6 периодов времени, изображены на правой схеме на рис. 2.4. Дуги маршрутов стороны Рг изображены более широкими линиями, чем дуги маршрутов, проходимых стороной Р2. 108
Стронгин Р.Г. Рис. 2.4. Исход (л Исход Ъ, Построенное дерево (см. рис, 2.4). называемое также деревом игры, описывает последовательность выборов, осуществляемых сторонами, и достигаемые ими (в исходах) значения полезностей. В рассмотренном примере (в силу предположения о противоположности интересов сторон) достаточно указать значения полезностей лишь для стороны pj. В общем случае следует сопоставить вершинам дерева (исходам операции) значения полезностей для каждой из сторон. Теперь введем средства описания информированности сторон. Путь из корня дерева игры, проходимый по ребрам дерева и ведущий в какую- либо вершину соответствует некоторой возможной реализации операции (т.е. соответствует некоторой партии игры ). Для иллюстрации на рис, 2.4 выделен (жирными линиями) путь, проходящий через точки qx, q3, q4, t5. Нетрудно заметить, что если на каждом своем ходе каждая сторона точно знает, в какой позиции дерева она осуществляет свой выбор, то ей известна вся предыстория игры, ибо в каждый узел дерева ведет единственная последовательность ребер, начинающаяся в корне. В случае, когда информация о предыстории не является полной, игрок 109
Стронгин Р.Г. Исследование операций и модели экономического поведения может установить лишь неиэторое множество позиций, к иэторому принадлежит ситуация текущего хода. Такое множество называется информационным множеством игрока, осуществляющего ход в одной из позиций, составляющих это множество. Прн этом предполагается, что каждой позиции, входящей в такое множество, соответствует один н тот же набор вариантов выбора. Рассматриваемый пример, как уже отмечалось, включает две частные задачи. В первой предполагается, что фирма Р2, осуществляя выбор маршрута, информирована о выборе, реализуемом другой фирмой. В этом случае Р2, несомненно, различает позиции q2 и q3 и, следовательно, в дереве игры существуют два информационных множества стороны Р2: С1 — {92} И С-2 — {?з}- Что касается стороны Р]_, то она также различает позицию q^ в иэторой осуществляет свой первый выбор, и позицию q4, в иэторой имеет место второй (более поздний) выбор. Поэтому информированность р3 также характеризуется двумя информационными множествами: £'1 = {qi} и £2 = {<n}- Все эти информационные множества отмечены на рнс, 2.4 с помощью (пунктирных) окружностей, охватывающих соответствующие узлы дерева.Вторая частная задача связана с предположением, что в момент выбора маршрута сторона Р2 не имеет сведений о маршруте, реализуемом стороной р1Ф В этом случае позиции q2 н q3 неразличимы для стороны Р2. В результате в дереве игры существует лишь одно информационное множество второй стороны: с = {да, да}. Это множество отмечено на рнс, 2.5 с помощью пунктирного контура, охватывающего узлы q2 н q3. но
Стронгин Р.Г. Рис. 2.5. Определение 2.3 (позиционной или развернутой формы игры). Описание конечной игры двух лиц с помощью дерева, узлы (точки ветвления) которого, снабженные номерами 1 (1=1,2), соответствую! ситуациям, в кэторых стороны Р^ осуществляют свои выборы (ходы), а вершины - ситуациям завершения операции (с указанием достигаемых сторонами значений полезностей), называется моделью игры в позиционной или развернутой форме. ш
Стронгин Р.Г. Исследование операций и модели экономического поведения Предполагается, что понятие дерева игры включает н группирование узлов этого дерева в информационные множества, кэторые отражают осведомленность игроков обо всех выборах, предшествующих текущему жду Игра в развернутой форме, в кэторой все информационные множества содержат ровно по одному узлу называется игрой с полной информацией. Термин " развернутая форма" отражает то обстоятельство, что рассматриваемая модель характеризует процесс выбора решений как развертывающийся во времени. В дальнейшем игры в позиционной форме будем также называть позиционными играми. 112
Стронгин Р-Г. Исследование операций и модели экономического поведения Приведение позиционной игры к игре в нормальной форме. Условия существования стратегического равновесия Стратегии игрока в позиционной форме игры. Полная информация в игре. Существование стратегическэго равновесия в игре с полной информацией. Как уже отмечалось, игра в позиционной форме предусматривает принятие решений в каждой (реализующейся в жде кэнкретной партии) позиции. Однако каждая сторона может заблаговременно составить свой план ведения игры, предусматривающий, какэе решение должно быть выбрано на каждом ходе (если развитие игры приведет в позицию, соответствующую этому ходу). Принятие такого плана сводит многократные выборы решений в ходе игры к единственному выбору (т.е. к выбору плана, определяющего решения во всех позициях данной стороны). Будем называть этн планы стратегиями сторон в позиционной игре. Введенное понятие стратегии (плана ведения игры) допускает следующее формальное определение. Определение 2.4 ( стратегии игрока в позиционной игре ). Стратегия стороны Рх, i=l,2, в конечной позиционной игре Г есть функция, определенная на всех информационных множествах этой стороны (в дереве игры Г )• Значением этой функции на каждом таком множестве является один из выборов, имеющихся у в этом множестве. В качестве иллюстрации определим стратегии сторон в описанном выше примере погони за конкурентом. Начнем со случая, когда сторона Р2 заблаговременно информирована о первом выборе, осуществленном стороной Рх. Дерево игры, соответствующее этому случаю (см. рис. 2.2). содержит два информационных множества (Ех и Е2) стороны Рг. Каждому из этих множеств соответствует один и тот же набор вариантов (МП2, МП5). Следовательно, возможны четыре стратегии стороны Рх, представляемые следующими функциями: S1(Ei) = МП2, si(£2) = МП2, (9.1) (9.2) из
Исследование операций и модели экономического поведения s2(b’i) = МП2, s3 (bi) = МП5, s4(bi) = МП5, s2(b2) = МП5, (9.2) s3(b2) = МП2, (9.3) s4(bz) — МП5, (9.4) Замечание 2.1 (о дублировании стратегий). Фактически, введенные выше стратегии и s2 описывают одно и то же поведение стороны Р1э ибо после выбора (в позиции q^ ) маршрута МП2 последующее развитие операции ие может привести в позицию q4. Поэтому различие рекомендаций, касающихся выбора решения во множестве Е2 (а именно этим и разнятся стратегии sj и s2 ), не может влиять иа развитие операции. Однако мы не будем стремиться исключить возникающую при этом избыточность описания, чтобы сохранить простое определение стратегии, введенное выше. Аналогично можно перечислить все стратегии стороны Р2, которой сопоставлены два информационных множества (Сх и С2), каждое из которых характеризуется одним и тем же набором вариантов решений (МП2, МП4); см. дерево игры иа рис, 2.2. Множество этих стратегий составляют четыре функции: <71 (Ci) = МП2, 32 (Ci) — МП2, 53(Ci) = МП4, g4(Ci) = МП4, gi(b2) = МП2, (9.5) g2(b4) - МП4, (9.6) 5а(Ь’2) = МП2, (9.7) gi(E-4) = МП4, (9.8) Если принять, что информационные множества каждой стороны занумерованы, то можно характеризовать стратегии с помощью кортежей, число компонент которых соответствует числу информационных множеств (в дереве игры) для данного игрока. При этом кортеж составляется из вариантов, определяющих выбор в соответствующем множестве. Те. первый элемент кортежа соответствует выбору в первом информационном множестве, второй элемент - во втором множестве, и т.д. В соответствии с этим соглашением перечисленные выше стратегии сторон ?i и Р2 можно 114
Исследование операций и модели экономического поведения Стронгин Р-Г. записать в виде 51 = (МП2,МП2), $2 = (МП2,МП5), 83=(МП5>МП2), s4 = (МП5,МП5), й = (МП2.МП2), й = (МП2,МП4), ?3 = (МП4, МП2), ^=(МП4,МП4). Пусть стороны Pi и Р2 соответственно выбрали стратегии s и д. Прослеживая путь в дереве игры, определяемый теми выборами, которые предписывают стратегии s и g (в последовательно проходимых позициях), можно определить конкретный исжд игры и уровни полезности, достигаемые сторонами в этом исходе. Тем самым определяются значения платежных функций Mi(s,g) и M2(s,g). Например, в случае, когда Рх выбирает стратегию s4, а Р2 - стратегию д3, игра заканчивается в исходе t5 и A/i(s4,Sa) = -Л/2(«4,гз) =6. Реализованной партии игры соответствует путь, выделенный иа рис. 2.2 и содержащий точки q3, q4, t5. Действительно, согласно выбранным стратегиям s4 и д3: • выбор стороны (в исходной позиции qi ) есть МП5, и этот выбор переводит игру в позицию д3 ; • выбор стороны Р2 в позиции д3 есть МП2, и в результате следующей позицией становится q4 ; • выбор Рх в позиции q4 есть МП5, что переводит игру в исход ts (см. дерево игры иа рис. 2.2). Описанный способ определения значений для платежных функций сторон по заданным стратегиям и дереву игры позволяет привести позиционную игру к нормальной форме. Выполним такое приведение для рассмотренного примера. Начнем со случая, когда сторона Р2 заблаговременно информирована о результатах первого выбора, осуществленного стороной Pi. Соответствующие значения критерия Mi (s, g) сведем в табл, 2.2. Таблица 2.2. 115
Стронгин Р.Г. Исследование операций и модели экономического поведения Матрица игры ’Погоня" (с полной Стратегия Р2 информацией) МП2, МП2, МП4, МП4, МП2 МП4 МП2 МП4 МП2.МП2 2 2 4 4 МП2, МП5 2 2 4 4 Стратегия Р-|_ МП5.МП2 7 3 7 3 МП5, МП5 6 3 5 3 Таблица такого вида уже рассматривалась как иллюстрация к определению седлового значения матрицы игры (см. лекцию 8). Прн этом было установлено существование двух устойчивых н эффективных решений, определяемых парами стратегий (s3,g2) и (в4,д2).Цеиа этой антагонистической игры (т.е. седловое значение матрицы) равна 3. В случае, когда сторона Р2 в момент выбора своего маршрута не имеет информации о маршруте, реализуемом стороной Р1Л соответствующее дерево игры (см. рнс. 2.5) содержит лишь одно информационное множествоС= {q2, q3} стороны Р2. Следовательно, в этой частной задаче сторона Р2 имеет лишь две стратегии: gi(C) = МП2,92(C) = МП4. Матрица игры, соответствующая этому последнему случаю, представлена в табл. 2.3. Таблица 2.3. Стратегия Р2 Матрица игры ’дюгоня" (прн неполной информации) МП2 МП4 МП2, МП2 2 4 МП2, МП5 2 4 Стратегия Pi МП5, МП2 7 3 МП5, МП5 6 3 Замечание 2.2 (о роли полной информации) Полученная 4x2 матрица игры не содержит седловых значений (т.е. в ней нет элементов, не
Стронгин Р.Г. Исследование операций и модели экономического поведения одновременно и минимальными значениями в своих строках). Следовательно, в рассмотренном примере не существует решений, обладающих свойствами равновесия по Нэшу Прн этом сторона Р1( выбрав стратегию s3 или s4, может (как н в случае полной информированности) гарантированно уклоняться от одновременных и одноместных с Р2 продаж своего товара в течение 3-х периодов времени. Однако другая сторона (т.е. Р2 ) уже не может гарантировать завершение погони через 3 периода времени. Время, необходимое ей для этого, составляет уже 4 периода. Таким образом, устойчивое и эффективное решение, существовавшее в условиях, югда каждая сторона выбирала свои решения, имея полную информацию обо всех уже осуществленных выборах, исчезает, как толью утрачивается полная информированность сторон. Ниже будет показано, что полная информированность является достаточным условием существования устойчивых решений. Поэтому в тех случаях, югда обе стороны заинтересованы в существовании устойчивых форм взаимодействия, они могут вводить механизмы взаимных проверок, гарантирующие полную информированность. Условия существования стратегического равновесия в конечной игре двух лиц Теорема 2.1 (достаточные условия существования устойчивых решений) Пусть Г есть конечная игра двух лиц с полной информацией и пусть S н есть множества стратегий, имеющихся у сторон Рг н Р2 в этой игре. Тог? произведение S х G содержит устойчивую стратегическую пару (s*,g*). Доказательство 1. Поскольку Г есть конечная игра с полной информацией, то (см. определение в лекции 8) каждое информационное множество, входящее в описание ее развернутой формы, содержит ровно один узел (точку ветвления) дерева игры. Прн этом любой узел дерева, помеченный (сверху) номером первого игрока, является точюй определения каждой стратегии s Е S , а любой узел, помеченный (сверху) номером второго 117
Стронгин Р-Г. Исследование операций и модели экономического поведения игрока, - точкой определения стратегии д С G . Каждой конкретной паре стратегий (s, g) дерево игры сопоставляет определенную этими стратегиями последовательность переходов по ребрам дерева, начинающуюся в корневой точке и заканчивающуюся в одной из вершин. Тем самым определяются значения платежных функций сторон M!(s,g) HM2(s,g), соответствующие этой паре стратегий, поскольку вершинам дерева, представляющим исходы игры, сопоставлены значения полезностей для обоих игроков. Напомним, что реализацию операции, соответствующую заданной последовательности переждов по ребрам дерева (т.е. пути в дереве игры ), мы назвали партией игры. В качестве иллюстрации, на рис. 2.2 широкими линиями отмечен путь, соединяющий точки qx, q3, q4, t5. Число позиций (узлов) в самой длинной партии игры условимся называть длиной игры. Нетрудно подсчитать, что длина игры, представленной деревом иа рис. 2.2. равна 3 (причем указанный выше путь соответствует самой длинной партии игры). Проведем доказательство теоремы индукцией по длине игры. Для игр нулевой длины будем считать теорему справедливой. Это допущение можно интерпретировать следующим образом. Постольку в дереве тэтой игры нет ни одного узла (т.е. игра не предполагает совершение кодов игроками), то области определения функций s и g пусты. Примем, что в этом случае у каждой из сторон есть ровно одна стратегия и она не предполагает принятие каких-либо решений. При этом дерево игры необходимо представлено нетоторой вершиной, которой сопоставлены выигрыши игротов. Следовательно, платежные функции мх и м2 существуют и определены в единственной точке множества S X G. Заметим, что какие-либо отклонения от этой единственной точки являются невозможными (в силу ее единственности). Будем считать ее точюй равновесия в игре нулевой длины. Предположим, что теорема справедлива для всех конечных игр двух лиц с полной информацией длины меньшей, чем к. Пусть Г есть игра с полной информацией длины к и ее первому коду (т.е. позиции q2 ) соответствуют г возможных выборов, которые переводят игру из 118
Стронгин Р.Г. Исследование операций и модели экономического поведения позиции qx соответственно в точки рх. . . рг дерева игры (они могут быть узлами или вершинами дерева). В результате дальнейшее развитие игры будет описываться переходами в поддереве, корнем которого является одна из точек рх, 1 < i < г. Поддерево с корнем в точке р± является описанием некоторой конечной подыгры Г, с полной информацией, имеющей длину меньшую, чем к. Будем называть игру Г, усечением исходной игры. Заметим, что длина Г\ окажется нулевой, если точка р.^ есть вершина исходного дерева. В качестве иллюстрации рис. 2.6 воспроизводит дерево игры, представленное иа рис, 2.2. иа котором (овальными пунктирными контурами) выделены поддеревья игр Г1 и Гг с корнями соответственно в точках px=q3 и p2=q2- При этом длины этих подыгр соответственно равны 2 (для Гг ) и 1 (для Га )• Заметим, что пунктирные окружности, выделяющие информационные множества сторон на рис, 2.2. опущены иа рис, 2.6 (поскольку известно, что в игре с полной информацией каждый узел дерева составляет отдельное информационное множество). 119
Рис. 2.6. Сужение области определения функций s и g (определенных иа соответствующих узлах дерева игры Г ) до подмножеств узлов, входящих в поддерево игры Г,, определяет стратегии сторон Рг и Р2 в этой подыгре. Будем называть их усечениями стратегийз, g и обозначать в*, д^. Множества таких стратегий обозначим соответственно Si, Gi_. В целях иллюстрации отметим, что усечения стратегий SjH s3 первого игрока в игре Г (см. (9.1), (9.3)), дают одну и туже стратегию $](зд) = МП2 этого игрока в подыгре Гь Сужения 120
Стронгин Р.Г. Исследование операций и модели экономического поведения двух других стратегий Px(s2hs4-cm. (9.2), (9.4)) в исходной игре дают его стратегию = МП5 в псдыгре Г\. Аналогично, сужения стратегий (9.5)-(9.8) второго игрока в игре Г дают множество стратегий Gi = {91Ы = МП2, 9"(q3) = МП4} этого игрока в подыгре Г1 .Таким образом, исждной игре Г сопоставляются г усеченных игр Г, с полной информацией, имеющих длину меньшую, чем к, и характеризуемых множествами стратегий S^, Gi> 1 < г- Любая пара стратегий сторон (s7, gi) € Si X Gi задает некоторый исход в поддереве игры Г, и, тем самым, определяет значения платежей M\(si,gi), как значения полезностей, сопоставленных соответствующей вершине дерева. При этом д), j = 1,2, (9.9) если Sj_ и gx есть усечения стратегий s и д. Для иллюстрации, платежная функция соответствующая игре Г\, поддерево иэторой изображено иа рис, 2.6. представлена в табл, 2.4. Таблица 2.4. Стратегия Р2 в игРе Г\ Матрица псодигры Г i МП2 МП4 МП2 7 3 Стратегия Pi в игре Г1 Е 1 МП5 6 3 По условию индукции, каждое произведение Si X Gi содержит устойчивую стратегическую точку’ (s*,g*), для иэторой справедливы неравенства: (V5i е д*) > Mi(si,g*), (9.10) (Vgi G Gi)M^s*,g*) > (9.11) 121
Стронгин Р.Г. Исследование операций и модели экономического поведения 1 < i < г. Заметим, что эти условия остаются справедливыми и для подыгр нулевой длины. Соответствующие им множества sx и Gx содержат по одному элементу, а значения Л/J, определяются, как и в общем случае, значениями полезностей в соответствующем исходе,3. Пусть в исходной игре Г первый ход (в позиции qx ) делает игрок Рх. Определим целое число 1, 1 < I < г, такэе, что JWlM.P*) = max{jWj(s*,9*): 1 < i < г}, (9.12) и определим стратегию s’ игрока в исходной игре Г, задав ее условиями s’(gi) = I, (9.13) «*(«) = (9.14) если узел q есть одни из узлов в поддереве усеченной игры Г,, 1 < г < г. Введенная стратегия допускает следующую интерпретацию. На первом ходе игрок Р^ решает, в какой подыгре Г/ он буцет участвовать иа последующих ходах. При этом в соответствии с (9.12), ои выбирает ту подыгру Tj, в которой его выигрыш, заданный устойчивой по Нэшу парой стратегий (з^*,д*) этой подыгры, является максимальным. Все последующие ходы (в этой подыгре) ои осуществляет в соответствии со стратегией sf. Однакэ формальное определение стратегии предполагает, что выборы игрока должны быть определены для всех его позиций в дереве игры Г. Такое определение обеспечивается условиями (9.14). Теперь определим стратегию д* игрока Р2 в игРе Г- Примем, что его выбор в позиции q из поддерева Г\ (помеченной номером этого игрока) совпадает с выбором, предписываемым стратегией д*, входящей в устойчивую пару (s*fg*) из (9.10), (9.11). То есть 122
Стронгин Р.Г. Исследование операций и модели экономического поведения 9*(«) = Я* («). 1 < i < г. (9.15) Покажем, что введенная пара (s*,g*) есть устойчивая стратегическая точка в S х G. Из (9.9), (9.13)-(9.15) н нз (9.10) следует, что ЛТ2(з*,р*) = > M^s'^gt) = М2(э‘,д'), где д € G есть любая стратегия, усечение которой в подыгре Гг есть дх. Таким образом, (V5 € G) M2(s*,g*) > M2(s*,g). (9.16) Аналогично, нз (9.9), (9.13)-(9.15) и из (9.11), (9.12) выводим, что м^,д") =м{(в;,д;) > > м;^,д^) = Mis,g"), где индекс i соответствует выбору i=s(q_l), предписанному стратегией s Р S игрока р1э переводящей продолжение игры в подыгру Г,. Таким образом, l4seS)M1lS',g'')>M1ls,g''), что в сочетании с (9.16) доказывает устойчивость стратегической пары (s\д*). 4. Случай, когда первый ход делает игрок Р2> рассматривается аналогично. Следствие 2.1. Матрица, представляюпря нормальную форму конечной антагонистической игры с полной информацией, всегда имеет седловое значение. Замечание 2.3. Примером конечной антагонистической игры с полной информацией является игра в шахматы (при условии ведения протокола). Однако чрезмерно большое число возможных позиций в шахматной игре затрудняет как построение дерева игры, так и приведение ее к нормальной форме для определения седлового 123
Стронгин Р.Г. Исследование операций и модели экономического поведения значения соответствующей матрицы. Тем не менее, именно для этой игры в 1913 году Э.Цермело^ поставил и положительно решил вопрос о существовании иаилучших возможных ходов в каждой позиции (заметим, что понятия нормальной и развернутой форм игры в то время еще не были введены^). Цермело Эрнест (1871-1953) - немецкий математик, автор аксиомы выбора для произвольного семейства множеств. 2-' Цермело Э. О применении теории множеств к теории шахматной игры // Матричные игры. М.: Физматгиз, 1961. С.167-172 (перевод с немециэго). 124
Стронгин Р.Г. Исследование операций и модели экономического поведения Смешанные стратегии и проблема устойчивости решений Случайный механизм выбора стратегий. Защитная роль смешанных стратегий. Смешанное расширение 2x2 игры. Прощение условий устойчивости в смешанном расширении. Существование устойчивых решений в смешанных расширениях 2x2 нгр. Защитная роль смешанных стратегий Как следует нз последней рассмотренной теоремы (см. лекцию 9). наличие у сторон полной информации о развитии игры гарантирует существование стратегических решений, обладающих свойством устойчивости по Нэшу Вместе с тем, когда такая информация отсутствует, устойчивые решения могут не существовать. Рассмотренная выше игра "погоня за конкурентом" (см. лекцию 8) является примером именно такэго рода, если допустить, что сторона Р2, принимает свои решения, не имея информации о первом выборе стороны Рг. Рассмотрим еще одни подобный пример. Пример 2.4 (борьба реклам). Фирмы Рх и Р2 планируют организовать продажу нового однотипного товара (имеющего, однако, разные фирменные наименования) в супермаркетах двух удаленных друг от друга населенных пунктов П1 н П2. Прн этом, с целью заблаговременного формирования положительного мнения о своем товаре, который должен потеснить некоторые другие (близкие по характеру использования) товары, фирмы проводят серию рекламных акций, включающих продажу пробных партий в супермаркетах. Фирма Рх располагает большим рекламным опытом и поэтому мнение потребителей о ее товаре окажется выше, чем их мнение о товаре фирмы р2, если рекламные акцнн обеих сторон будут проходить в одном н том же супермаркете в одно н то же время. Поэтому фирма р1; стремящаяся к монополин на новом рынке, заинтересована проводить свои рекламные акцнн одновременно н одноместно с фирмой Р2. Интересы фирмы Р2, трезво оценивающей свои рекламные возможности, являются противоположными. 125
Стронгин Р.Г. Исследование операций и модели экономического поведения Каждая акция проводится в одном супермаркете в течение одного торгового дня. При этом ограниченность ресурсов, необходимых для рекламы, не позволяет фирмам проводить свои акции одновременно в обоих пунктах П1 и П2. Таким образом, реализация каждой акции предполагает выбор места (Ш нлн П2) для ее проведения. Примем, что для фирмы Рх полезность исхода, соответствующего одновременной и одноместной рекламной акции обеих фирм, равна +1. Прн этом полезность исхода, соответствующего проведению рекламных акций двух фирм в разных пунктах, фирма Рх оценивает как -1. Посиэльку как уже отмечалось, интересы фирм являются противоположными, то описанной задаче выбора места для рекламной акции соответствует антагонистическая игра с 2 х 2 матрицей нз табл. 2J5. Таблица 2.5. Стратегия Р2 Матрица игры "борьба реклам" П1 П2 Стратегия рг в игре Г i П1 а11“1 а12-- П2 а21=-1 а22=1 Заметим, что коэффициенты этой матрицы совпадают с элементами матрицы нз табл, 2.1. соответствующей игре в орлянку которая рассмотрена 2 лекпин 8. Матрица игры не содержит седловых значений. Сторона рг может гарантировать себе лишь нижнюю цену игры (т.е. полезность, равную -1 ). Аналогично, сторона р2 может гарантировать, что ее проигрыш не превысит верхней цены игры (т.е. величины, равной +1 ). Напомним, что в антагонистической игре критерии эффективности сторон связаны отношением М1+М2=0 (см. определение в лекции 1). В условиях рассмотренного примера фирма рх могла бы увеличить эффективность своей рекламы (по сравнению с гарантированным уровнем полезности, равным -1 ), если бы ей был известен выбор стороны Р2. В этом случае, выбрав тот же пункт, что и фирма Р2, сторона рх обеспечивает себе положительную полезность, равную +1. 126
Стронгин Р.Г. Исследование операций и модели экономического поведения Заметим, что сторона Р2 наждится в такэм же положении. Если ей становится известным, какой именно пункт выбран стороной рг для проведения рекламной акции, то, выбрав другой пункт, сторона Р2 увеличивает свой выигрыш по сравнению с гарантированным уровнем. Таким образом, в игре без устойчивых стратегических решений получение информации о действиях другой стороны может существенно увеличивать выигрыш. Утечка таиэй информации может быть как результатом разведывательных действий другой стороны, так и следствием того, что одна из сторон предсказуема в своих действиях, поскольку придерживается заранее принятого графика рекламных акций (т.е. имеет некоторый стереотип поведения, который может быть раскрыт путем наблюдений). Возможный способ предотвращения утечки информации состоит в том, чтобы отказаться от выбора вариантов в соответствии с принятым (и допускающим раскрытие) планом. Можно предоставить этот выбор случайному механизму (т.е. некоторому случайному процессу имеющему заданное число истодов с заданными вероятностями их наступления). Реализуем таиэй подход в рассмотренном примере борьбы реклам. Пусть сторона выбирает стратегии П1 и П2 соответственно с вероятностями х и 1-х, где х€[0,1]. Когда х — 5, указанный случайный выбор можно реализовать, например, путем бросания симметричной монеты. При этом выбор пункта П1 можно связать с выпадением "Орла", а выбор пункта П2 - с выпадением Тешки". Случай х = может быть реализован бросанием симметричной монеты дважды. При этом двум последовательным реализациям Тешки" сопоставляется выбор пункта П2, а во всех остальных случаях выбирается пункт П1. Для произвольных значений х, 0< х < 1, можно использовать компьютерные датчики псевдослучайных чисел, равномерно распределенных в отрезке [0,1]. При этом реализация значения 4 € [0,2') связывается с выбором варианта Ш. В остальных случаях (т.е. при 4 € [;r, 1]) выбирается вариант П2. Все такие случайные механизмы, используемые в задачах выбора вариантов 127
Стронгин Р.Г. Исследование операций и модели экономического поведения решения, часто называют рулетками^. Применительно к целям нашего рассмотрения, конкретное устройство рулетки является несущественным. Важно лишь то распределение вероятностей исходов, которое реализуется выбранным случайным механизмом. Поскольку в рамках нового подхода выбор стороны Рх является случайным, сторона Р2 не может предсказать его исход. Эта неопределенность является результатом искусственного введения в задачу некоторого неуправляемого параметра. При этом стороны могут ориентироваться лишь на математическое ожидание полезности Л/(х, j) = xaij -Н (1 — х)а2}, 0 < х < 1, j = 1,2. (10.1) исхода игры для игрока plt значение которого соответствует рулетке, использованной этим игроком, и стратегии с номером j, выбранной игроком р2. Введя случайный механизм выбора, мы фактически расширили исходную модель. В этом расширении игрок Р2 по-прежнему выбирает стратегию с некоторым номером j (j=l, 2). Но выбор стратегии i (i=l,2) первого игрока осуществляется случайным механизмом. Игрок Рь задавая число х (0 < х < 1 ), выбирает лишь распределение вероятностей для этого случайного механизма, но не конкретную стратегию i. Это распределение называют смешанной стратегией первого игрока, поскольку ее реализация во многих партиях игры порождает некоторую "смесь" стратегий 1=1 и i=2. Поскольку при х=1 случайный механизм рождает (с единичной вероятностью) выбор i=l, а при х=0 - выбор i=2, то прежние стратегии реализуются и при игре в смешанных стратегиях. Для различения смешанных стратегий игрока рг н стратегий i=l и 1=2, которые он использовал в исходной игре, последние обычно называют чистыми стратегиями. Проведем анализ ядра (10.1), соответствующего расширению исходной игры путем введения смешанных стратегий первого игрока. Выбирая 128
Стронгин Р.Г. Исследование операций и модели экономического поведения конкретное значение х € [0,1], игрок Рх гарантирует себе следующее значение математического ожидания полезности нсжда: min{A/(xt j): j — 1,2} — min{x(aij — aaj) + a,2j: j — 1,2} — = min{2x — 1,1 — 2x}. Графики на рис, 2.7 представляют отрезки прямых линии 2х-1 и 1- 2х, причем ннжияя огибаюиря этого семейства, соответствуюиря правой части равенства (10.2), выделена жирными линиями. Как следует нз этого рисунка, прн любом значении х, не совпадающем с нулем нлн единицей, справедливо неравенство: 129
Исследование операций и модели экономического поведения Стронгин Р-Г. Рис. 2.7. Те. любая смесь стратегий гарантирует стороне математическое ожидание полезности, превосходящее нижнюю цену игры. При этом выбор значения х* = позволяет повысить этот гарантированный уровень до нулевого значения: max min hf(x,j) = max (2ar — 1,1 — 2arl = 0. O<X<1L<J<2 ' ' o<*<il Пусть теперь второй игрок также выбирает свою чистую стратегию с помощью рулетки, задаваемой распределением вероятностей (у, 1 - у), где О < у < 1. Математическое ожидание выигрыша первого игрока (т.е. ядро игры) в этом (полном) смешанном расширении исходной игры определяется выражением: М(х, у) = (2х - 1)у + (1 - 2г)(1 - I/) = (2х - 1)(2у - 1), при вычислении которого учтена независимость случайных выборов, осуществляемых сторонами. Очевидна справедливость неравенств (Vx,y 6 [0,1])Л/(х, |) < (10.3) нз которых следует, что ядро смешанного расширения исходной игры имеет седловую точку (х’,г/’) = (1 1) (см. определение седловой точки в лекции 6). которой соответствует нулевая цена игры. Заметим, что указанная цена игры есть математическое ожидание полезности исхода. Конкретное значение выигрыша игрока Р1 в любой партии игры может быть равно либо +1, либо -1. Таким образом, смешанное расширение рассмотренной игры, не имевшей устойчивых решений в чистых стратегиях, имеет устойчивое (и эффективное) решение в смешанных стратегиях. Как будет показано в 130
Стронгин Р.Г. Исследование операций и модели экономического поведения следующем параграфе, этот вывод носит общий характер (т.е. он не связан с конкретными зиачеииямн элементов матрицы из рассмотренного примера). Мазанный вывод в сочетании с доказанной выше теоремой (см. лекцию 9) можно интерпретировать следующим образом. Достаточным условием существования устойчивых (по Нэшу) решений матричной игры является равная информационная обеспеченность игроков. Либо обе стороны располагают информацией обо всех сделанных выборах (что соответствует игре с полной информацией), либо обе стороны не могут достоверно прогнозировать решения друг друга (что обеспечивается использованием смешанных стратегий). Как мы увидим ниже, этот вывод справедлив и для биматричных игр. Замечание 2.4. Поскольку; согласно (10.3) (Vor, у Е [0,1])Л/(а;*,у) — М(х, у*) — v — О, то для достижения сторонами математического ожидания полезности, равного цене nrpwv в смененных стратегиях, достаточно, чтобы лишь одна из сторон использовала свою оптимальную смененную стратегию, являющуюся компонентой седловой точки. При этом нужно, чтобы другая сторона имела гарантию, что использование этой оптимальной стратегии действительно имеет место. Именно так и происходит традиционная игра в орлянку: Один из игроков осуществляет бросание симметричной монеты, а другой загадывает, каким будет исход бросания (т.е. использует чистую стратегию). Факт бросания симметричной монеты одним из игроков наблюдаем другим игроком. Существование устойчивых решений в смешанных расширениях 2x2 игр Обобщим результаты рассмотрения конкретного примера на случай смеивнного расширения произвольной 2 X 2биматричиой игры. Обозначим элементы матриц первой и второй сторон соответственно через aij} и bij (1 < i, j < 2). Примем, что сторона Fx использует смененную стратегию (х, 1-х), 0 < х < 1, а сторона Р2 смененную стратегию (у, 1-у), 0 < у < 1. Смененные 131
Стронгин Р.Г. Исследование операций и модели экономического поведения стратегии (х, 1-х), (у,1_у), выбранные сторонами Р2, Однозначно описываются парой вещественных чисел (х, у), принадлежащей единичному квадрату D = {(i, у): 0 < х, у < 1}. (10.4) Математичесюе ожидание Mi(x,y) выигрыша стороны Р1; соответствующее паре (х, у) (с учетом независимости выборов, порождаемых рулетками сторон), определяется выражением М1(х,у) = |аца; + fl2i(l - я)]1/ + [ащ + а22(1 -я)](1 - у) = = — <112 — <121 + <122) — ^(<122 “ вщ) — 2/1/122 “ <121) +<*225 ИЛИ = Аху - ах + f(y), (10.5) где А = Qu — di2 — <121 + <1221 <1 = <122 — <112j №) = <122 - 2/(<122 - <121)- Аналогичные вычисления дают выражение для математического ожиданияМ2 (х, у) выигрыша стороны Р2: &h(x, у) - Вху -by + д(х), (10.7) В — 6ц — &12 — &21 + ^22; Ь — 622 — &21т (10.8) ff(x) — Ъ22 — х(1>22 — Ь12). Таблица 2.6. Смененная Смененная Матрица игрока _ Матрица игрока r г стратегия Р2 стратегия Р2 Pi Р2 У 1-у У 1-у Смешанная х 311 312 Смешанная х Ь11 Ь12 стратегия Р2 1-а21 а22 стратегия 1-ь21 Ь22 132
Стронгин Р.Г. Исследование операций и модели экономического поведения Теперь вопрос о существовании пары (х*,у*), определяющей устойчивое (по Нэшу) решение (х*,1-х*), (у*, 1-у* ) в смешанном расширении Mi(x>y), i = 1,2, 0 < х, у < 1, (10.9) исходной 2 X 2бнматрнчной игры, сводится к вопросу о существовании решения (х* € D системы неравенств: (Vx е [0,1]) у*) >ЛЛ (j;,/), (10.10) (Vy 6 [0,1]) М2(х-, у’) > Л12(х’,у). (io.ll) Условия (10.10), (10.11) могут быть существенно упрощены.Лемма 2.1. Для выполнения соответствующего паре (х‘, у*) континуума неравенств (10.10) необходима и достаточна справедливость двух неравенств: ЛЛ«У') > ЛЛ(О,У'), > ЛЛ(1,у’). (10.12) Аналогично, для выполнения условий (10.11) необходима и достаточна справедливость неравенств: Л12«1/*) > А/2(х*,0), М2(х*,у*) >Л/2(т*,1). (10.13) Доказательство Покажем эквивалентность условий (10.10) и (10.12). Эквивалентность условий (10.11) и (10.13) доказывается аналогично. Подстановка значений х=0 и х=1 в условия (10.10) дает неравенства (10.12). Те. необходимость отношений (10.12) действительно имеет место. Пусть выполняются условия (10.12). Из линейности по х выражения (10.5) для величины м1(х,у) следует, что при любом значении х 6 [0,1] АЛ(т,у*) — ЛЛ[1 z + 0- (1 - z),у*] — zA/j+ (1 - х)ЛЛ(0,у*). 133
Стронгин Р.Г. Исследование операций и модели экономического поведения Отсюда, учитывая сделанное предположение о справедливости неравенств (10.12), выводим истинность отношения что и доказывает выполнение условий (10.10). Таким образом, достаточность также установлена. Теорема 2.2 (о существовании устойчивых решений в смешанном расширении 2x2 биматричной игры. Каждая 2x2 бнматрнчная игре имеет устойчивое (по Нэшу) решение в смешанных стратегиях. Доказательство 1. Определим множество всех пар (аг, у) £ D, удовлетворяющих неравенствам (10.12), которые, согласно доказанной лемме, эквивалентны условиям (10.10). При х=0 из выражения (10.5) и из первого неравенства в (10.12) следует справедливость отношения х*(Ау* - а) > 0. (10.14) Аналогично, из второго неравенства в (10.12) (для случая х=1 ) вытекает оценка (1 -яг*)(А1/* - а) <0. (10.15) Найдем множество всех решений системы (10.14), (10.15), лежащих в единичном квадрате D из (10.4). При х*=0 условие (10.14) необходимо выполняется и, следовательно, все пары вида (О, /), Л/ < а, 0 < у* < 1, (10.16) являются решениями системы (10.14), (10.15).Аналогичио, при х’=1 необходимо выполняется условие (10.15) и все пары вида (1, /), Ау* > а, 0 < у* < 1, (10.17) 134
Стронгин Р.Г. Исследование операций и модели экономического поведения являются решениями рассматриваемой системы (10.14), (10.15).Наконец, прн 0<х*<1 множество решений системы (10.14), (10.15) состоит нз пар вида (х*,у*), Ау*1 = а, 0 < х* < 1, 0 < у* < 1. (10.18) Теперь рассмотрим выполнимость полученных условий (10.16)-(10.18) в зависимости от значений величин а и А нз (10.06). Прн а=А=0 любая пара (х*,у*)еО удовлетворяет условиям (10.16)-(10.18) и, следовательно, является решением (10.10). При А=0 и а / 0 возможны два случая, которым соответствуют два верхних фрагмента на рнс, 2.8. Прн а>0 все точки, лежащие на левой стороне (выделена жирной линией на левом верхнем фрагменте) квадрата D, являются решениями системы (10.10). Прн а<0 этим свойством обладают все точки, лежащие на правой стороне квадрата D (см. правый верхний фрагмент на рис, 2.8). Пусть А 0. Тогда, согласно (10.16), все решения вида (0, у*) 6 D возможны лишь прн условии, что у* < а (если А>0 ) или у* > а (если А< 0 ), где а = а/А. (10.19) Аналогично, из (10.17) выводим, что все решения вида (1,у*) 6 D возможны лишь прн выполнении условия у* > а (если А>0 ) или прн выполнении условия у* < а (если А<0 ). Накэнец, согласно (10.18), решения вида 0<х*<1, возможны лишь в случаях, когда 0 < а < 1. Случаю А>0 соответствует левый фрагмент второго (сверху) ряда на рнс. 2.8. Прн этом все точки нз D, удовлетворяющие условиям (10.10), лежат на жирной ломаной линии, составленной нз трех отрезков. Два вертикальных отрезка представляют точки вида (0,у*) и (1,у*). ГЬрнзонтальный отрезок является образом точек вида (х*,а), 0<х*<1. Правый фрагмент нз этого же ряда соответствует случаю А< 0, О < а < 1 • 135
Стронгин Р.Г. Исследование операций и модели экономического поведения При а = 0 множество пар вида (.г*, а), 0<х*<1, совпадает с нижней стороной квадрата D (см. левый и правый фрагменты третьего ряда иа рис. 2.81 При а < 0 и А>0 решениям соответствует правая сторона квадрата D, а при А< О - левая сторона этого квадрата. Такие решения уже рассматривались (их образы представлены иа верхних фрагментах рис. LB). Случай а = 1, югда множество пар вида (.г*,а), 0<х*< 1, совпадает с верхней стороной квадрата D, представлен нижними фрагментами на рис. 2.8. При а > 1 получаем те же решения, что и на верхних фрагментах рис, 2.8 (левый фрагмент - при А>0 и правый фрагмент - при А<0 ). 136
Стронгин Р.Г. Исследование операций и модели экономического поведения У У > л=о л=о а>0 а» 0 о —»• 0 1 J 1 г У У 4 О л-.о 0-«Ч ° O-.cv.l 0 —» 0 1 X 1 X У Л-О о=0 о Л-.О о=0 ) 1 л У 1 X Л>0 п Л<0 ) 1л 0 1л Рис. 2.8. 137
Стронгин Р-Г. Исследование операций и модели экономического поведения У У B=Q в=о ь-.о 6<0 О г о 1 J 1 т У У Л-0 b 0 0-4-1 ° 0-4- 1 4 1 X 4 1 г У У Л 0 4-0 4=0 4=0 о _*. Q 1 X 1 г У У В>0 В- 0 4=1 4=1 о —0 1 X 1 г Рис. 2.9. 2. Аналогично определяется множество всех пар [x*.y*)ED, удовлетворяющих неравенствам (10.13), которые эквивалентны условиям (10.11). Результаты этого анализа представлены на рис, 2.9. В случае, когда для значений Ь и В нз (10.8) справедливо, что Ь=В=0, решениями неравенств (10.11) являются все точки квадрата D. Отмеченная на рисунке величина /3 определяется выражением 138
Исследование операций и модели экономического поведения Стронгин Р-Г. 0 = Ь/В. (10.20) Заметим, что эти результаты можно вывести и из рис, 2.8. если изменить нумерацию игроков (при этом первый игрок становится вторым, а второй - первым), транспонировать их матрицы и поменять местами величины х* и у*. 3. Как следует из проведенной классификации (см. рис, 2.8). в зависимости от значений коэффициентов а и А из (10.6) множество решений системы (10.10) либо включает хотя бы одну из боковых сторон квадрата D, либо включает трехзвеииую ломаную линию, соединяющую юнцы одной из диагоналей квадрата. Аналогично (см. рис, 2.9). в зависимости от значений юэффициеитов Ь и В из (10.8), множество решений системы (10.11) либо включает одну из горизонтальных сторон квадрата D, либо включает ломаную ( трехзвеииую ) линию, соединяющую юнцы одной из диагоналей этого квадрата. Покажем, что в любом из этих четырех случаев существует хотя бы одна пара (к*, у*), являющаяся решением одновременно для обеих систем неравенств (10.10), (10.11) и, следовательно, представляющы собой устойчивое решение смешанного расширения (10.9) исходной 2x2 биматричиой игры. Пусть решения систем (10.10) и (10.11) включают стороны квадрата D. Тогда они имеют общую точку являющуюся вершиной этого квадрата, ибо любая боювая и любая горизонтальная стороны квадрата пересекаются в какой-либо его вершине. Левый фрагмент на рис. 2.10 иллюстрирует одни из обсуждаемых случаев (А=0, а>0, В=0, Ь<0 ). 139
Рис. 2.10. Рассмотрим случай, когда решения систем (10.10) и (10.11) включают ломаные линии, соединяющие концы диагоналей квадрата. Как следует из рис, 2.8 и рис, 2.9 (см. фрагменты, расположенные во вторых (сверху) рядах), эти монотонные линии необходимо пересекаются в некоторой внутренней точке квадрата (независимо от того, соединяют ли обе ломаные линии концы одной и той же диагонали или концы разных диагоналей). Средний фрагмент на рис, 2.10 представляет возможный случай такого рода (А>0,0<а<1,В>0, 0<а?<1). Пусть теперь множество решений одной из систем (10.10), (10.11) включает сторону квадрата D, а решение другой системы - трехзвеииую ломаную линию, соединяющую концы некоторой диагонали этого квадрата. Тогда одна из вершин является решением для обеих систем (10.10), (10.11), ибо каждая сторона квадрата имеет общую вершину с каждой его диагональю. Случай такэго рода представлен правым фрагментом на рис, 2.10 (А>0,0<а<1,В = 0,6>0). Термином рулетка первоначально называлось устройство для азартной игры. В этой игре участники делают ставки иа номер лунки, в которую попадет пирик после остановки Бракующегося круга. 140
Стронгин Р.Г. Исследование операций и модели экономического поведения Стратегическое равновесие в 2 х 2 играх Свойства оптимальных смешанных стратегий в 2 х 2 играх. Смешанные расширения m х п бнматрнчных игр. Случай единственного устойчивого решения, не реализуемого в чистых стратегиях Первый н третий случаи, рассмотренные в заключительном пункте приведенного выше доказательства теоремы, необходимо включают в число устойчивых решений некоторую пару (х*, у*), образом которой является одна из вершин квадрата D. Это означает, что в таком решении каждая нз сторон использует с единичной вероятностью одну из своих чистых стратегий. Для иллюстрации отметим, что паре (0,1) € D, маркированной темной точкой на левом фрагменте рис. 2.10. соответствуют смешанная стратегия (х*,1-х*) = (0,1) первой стороны и смешанная стратегия (у*, 1 - у*) = (1,0) второй стороны. Устойчивые решения такого типа реализуемы и в чистых стратегиях Пример, рассмотренный в лекции 8 (соглашение об ограничении лова рыбы), иллюстрирует этот случай. Используя выражения (10.6) и (10.8), получаем (в соответствии со значениями элементов матриц, соответствующих примеру), что А=В=0 и а=Ь=1. Этим значениям соответствуют левые верхние фрагменты на рис, 2.8 и рис, 2.9. Следовательно, задача имеет единственное устойчивое решение (а:*, 1-х*) = (S’,1-»’) = (О,1), соответствующее уже рассмотренному ранее решению в чистых стратегияхСитуация, когда 2x2 игра ие имеет устойчивых решений в чистых стратегиях, но обретает такое решение в смешанных стратегиях, соответствует второму случаю из пункта, заверинющего доказательство теоремы. Устойчивое решение в смешанных стратегиях окажется единственным, если решениями систем (10.10) и (10.11) являются лишь точки трехзвенных ломаных линий, соединяющих концы разных диагоналей квадрата. При этом единственная устойчивая пара стратегии 141
Стронгин Р.Г. Исследование операций и модели экономического поведения « 1 - Z) = (Д 1 - Д, (V*, !-»’) = Д. 1 - а), (11.1) порождается единственной точкой (.г*, у*) — (3, а), в которой пересекаются указанные выше ломаные лнннн. В этом случае О < а < 1, О < 3 < 1 (11.2) н, кроме того, знаки величин А н В должны быть различны, т.е. АВ < 0 (11.3) (см. рис, 2.8 н рис, 2.9).Неравенства (11.2) для величин а и 3 нз (10.19), (10.20), определяемых соответственно коэффициентами а, А нз (10.6) и Ь, В нз (10.8), имеют следствием отношения «11 «21, «22 / «12, 611 612, 622 621. (11.4) Те. условие единственности решения в смешанных стратегиях предполагает, что коэффициенты, находящиеся в одном и том же столбце матрицы первого игрока, должны быть различны. Аналогично, должны быть различны и коэффициенты нз одной и той же строки матрицы второго игрока. Оптимальные смешанные стратегии в 2 х 2 матричной игре Как уже отмечалось, антагонистическому случаю соответствуют условия (8.2), согласно которым для величин из (10.6) и (10.8) справедливы отношения « — «22 — «12, 6 — —«22 + «21- (11.5) При этом Л = -В, (11.6) что обеспечивает выполнение неравенства (11.3). В силу 142
Стронгин Р.Г. Исследование операций и модели экономического поведения справедливости условий (8.2), справедливость неравенств (11.4) является необходимым следствием отсутствия седлового значения 2 X 2 матрицы игры (см. определение в лекции 8). поскольку совпадение значений коэффициентов в любой строке (или в столбце) 2x2 матрицы гарантирует существование такого значения. Таким образом, в 2x2 антагонистической игре отсутствие устойчивых решений в чистых стратегиях устойчивого решения в (Да), где гарантирует существование единственного смешанных стратегиях, порождаемого парой а = (ага — ai2)M, & = (fl22 — а-21 )/Л. Прн этом х* = (а22 - О21)/Л, 1 - Z* = (ап - (11.7) У* = (а2з — ахз)М, 1 — У* = («и — а21)М» (И.8) и для ядра м (х, у) =М]_ (х, у) смешанного расширения исходной игры справедлива оценка (Уу € [0,1]) Л/(я*,у) = {|ац(а22 - Q21) 4- 021(011 - ai2)] • у 4- 4- [а12(а22 — а21) 4- а2з(а11 — а1а)](1 — — = (аца22 — В12°21)М = A/(a?*,j/*). Таким образом, цена игры в смешанных стратегиях (т.е. математическое ожидание выигрыша первой стороны при реализации устойчивой пары смешанных стратегий из (11.7), (11.8)) есть г — (аиа22 — ^i2ti2i)M. (11.10) Отметим одно важное обстоятельство. Из (11.9), (11.10) следует, что (Vi/ ё [О, l])Af(z*,s/) = v. Аналогично можно получить симметричное утверждение (Угг G [0,1]) М(х,у*) = V. 143
Стронгин Р.Г. Исследование операций и модели экономического поведения Отсюда следует вывод о том, что замечание, сделанное в лекцнн 10. не зависит от конкретных значений элементов 2x2 матрицы игры. Пусть одна из сторон (заведомо) использует рулетку, реализующую оптимальную смесь чистых стратегий. Тогда, независимо от того, какую стратегию выбирает другая сторона, ее ожидаемый выигрыш совпадает с ценой игры. Те. любая ее стратегия обеспечивает максимальный гарантированный уровень математическэго ожидания выигрьпш (величину v для стороны Pj и величину ( -v для стороны Р2 ).Согласно выражениям (11.7), (11.8) и (11.10), рассмотренный ранее пример рекламной борьбы (см. лекцию 10). ие имеющий устойчивых решений в чистых стратегиях, имеет единственное устойчивое решение в смешанных стратегиях: (/,1-х-) = (/•,!-»•) = (|,|), и = 0. Это же решение было получено ранее (некэторым частным способом); см. (10.3). Заметим, что игры, которым соответствует нулевая цена, часто называют безобиднымн.Теперь вернемся к примеру погони за конкурентом, в котором при отсутствии полной информации (см. дерево игры на рис, 2.5) нет устойчивых решений в чистых стратегиях (см. также замечание 2.2 в лекции 9). Обратимся к соответствующей этому случаю матрице 4x2 матрице игры, приведенной в лекции 9. Заметим, что первая и вторая стратегии стороны Pi дают одни и те же выигрыши против одной и той же стратегии стороны р2. При этом третья стратегия стороны Pi даже превосходит ее четвертую стратегию. Фактически, мы имеем ситуацию, тогда каждый элемент матрицы, находящийся в строке с номером i, превышает соответствующий (т.е. находящийся в том же столбце) элемент из строки с номером к (или хэтя бы ие меньше, чем этот элемент): cijj > dkj, 1 < J' < 2. В этом случае говорят, что строка 1домииирует строку к. Ясно, что любое значение выигрьпш, обеспечиваемое использованием доминируемой стратегии с номером к, может быть достигнуто использованием доминирующей стратегии с номером i. Поэтому в рассматриваемом примере сторона Рг может ограничиться 144
Стронгин Р.Г. Исследование операций и модели экономического поведения использованием второй и третьей стратегий. В результате получаем (редуцированную) игру с 2x2 матрицей: Таблица 2.6. Смешанная стратегия Р2 Редуцированная матрица игры 1/6 5/6 „ 2/3 2 4 Смешанная стратегия 1/3 7 3 Согласно (11.7), (11.8) и (11.10), этой игре соответствует устойчивое (и эффективное) решение в смешанных стратегиях вида: 2 1 15 (я-, 1-я?) = (у*,1 -у*) = 3 3 6 6 и цена игрыи = 3|. Примем, что первая и четвертая (чистые) стратегии в исходной 4x2 игре используются первым игроиэм с нулевыми вероятностями. Тогда случайный механизм, характеризуемый вектором вероятностей (0, |,0), обеспечивает игроку Рх математичесиэе ожидание выигрыша, равное указанной выше цене v = 3|. Фактически, обсуждая этот пример, мы обобщили смешанные стратегии на случай, иэгда число чистых стратегий превышает 2. Более последовательное рассмотрение такого обобщения будет проведено ниже. Замечание 2.5 (о природе устойчивости решений в антагонистичесиэй игре) Если изменить знаки всех элементов матрицы игры на противоположные, то, согласно (11.10), знак цены игры также изменится. Например, если значение цены игры было положительным (в этом случае говорят, что игра поставлена в пользу первого игрока), то оно изменится иа отрицательное значение (т.е. игра будет поставлена уже в пользу второго игрока). Однако пара устойчивых смешанных стратегий, определяемых выражениями (10.7) и (10.8), останется неизменной. Стратегическое равновесие при неантагонистических 14S
Исследование операций и модели экономического поведения Стронгин Р-Г. интересах сторон Пусть интересы сторон, описываемые матрицами 2x2 биматричной игры, являются неантагоиистическими. С этим предположением продолжим обсуждение поведения игрокэв, кэторое характеризуется стратегическими парами (х*,у*), обладающими свойствами равновесия по Нэщу(т.е. отвечающими условиям (10.10), (10.11)). Начнем со случая, кэгда 2x2 биматричная игра имеет единственное устойчивое решение и оно достигается в смененных стратегиях из (11.1). При этом: а — (fl22 — ai2)/(an — ап —fl2i +^22), (П.П) & — (Ьзз — Ьз1)/(Ьц — Ь12 — ^21 + ^22 ) (11.12) Пример 2.5 (иеантагонистическая конкуренция). Пусть два кэнкурирующих фермера и Р2 специализируются на выращивании н продаже с автофургонов некоторой скэропортяшейся продукции (например, свежей клубники). Продажа осуществляется (каждым фермером) ежедневно в одном из двух расположенных далеко друг от друга населенных пунктов Ш и П2, причем продукт, доставленный в одни из этих пунктов, нецелесообразно перебрасывать в другой в силу значительной потери качества при длительной перевозке. Если фермеры завезут товар в разные пункты, то он будет продан каждым из них Полезность такого исхода для каждой из сторон примем за две единицы. В случае, когда автофургоны обоих фермеров одновременно окажутся в одном и том же пункте, спрос на товар, существующий в этом пункте, будет удовлетворен в основном за счет более качественного товара, доставленного первым фермером. Полезность такэго исжда первый фермер оценивает как три единицы. Оценка включает как доход от продажи товара, так и получение рекламных преимуществ, открывающих перспективы полного захвата рынка в обоих пунктах (и соответствующего расширения производства). Второй фермер оценивает полезность исхода, связанного с одновременной торговлей обеих сторон в одном и том же населенном 146
Стронгин Р.Г. Исследование операций и модели экономического поведения пункте, как нулевую. Матрицы, соответствующие этой 2x2 неантагоннстической игре, представлены в табл. 2.7. Стратегии сторон соответствуют выбору конкретного пункта (П1 или П2) для торговли в текущий день. Очевидно, что первый фермер заинтересован торговать в том же месте, что и второй. Интересы второго фермера диктуют противоположный выбор (тем не менее, как уже было отмечено, рассматриваемая игра не является антагонистический). Таблица 2.7. Стратегия Стратегия Матрица первого второго Матрица второго второго фермера фермера фермера фермера П1 П2 П1 П2 Стратегия П13 2 Стратегия П1 0 2 первого фермера П22 3 первого фермера П22 0 Как следует из табл, 2.7. все исходы игры в чистых стратегиях не улучшаемы для обеих сторон и, следовательно, оптимальны по Парето. При этом не существует пар чистых стратегий сторон, обладающих свойством равновесия по Нэшу Согласно (10.6) и (10.8) Л — 2, а — 1, -4, —2. Здесь выполняются условия (11.3), (11.4) н, следовательно, существует единственная устойчивая (по Нэшу) пара смешанных стратегий вида (.г*, 1 - .г") = (у", 1 - у*) = (|, (11.13) см. (11.1) и (11.11), (11.12). Т.е. каждый фермер может выбирать пункт для торговли в текущий день, например, путем бросания симметричной монеты. Определяемые выражениями (10.5)-(10.8) математические ожидания полезностей сторон, соответствующие устойчивой паре 147
Стронгин Р.Г. Исследование операций и модели экономического поведения стратегий (11.13), равны величинам Л/1(т’,!/’) = 21 М2(х-,у*) = Замечание 2.6 (антагонизм поведения без антагонизма интересов). Как следует нз (11.11), (10.12), смешанная стратегия каждой из сторон, вждящих в устойчивую пару (11.1), зависит исключительно от матрицы другой стороны (т.е. зависит от интересов другой стороны и не зависит от собственных интересов). Рассмотрим эту зависимость более детально. Согласно (11.1) и (11.11), стратегия (у*, 1-у*) игрока Р2 в 2x2 биматричной игре совпадает со смененной минимаксной стратегией (11.8) второго игрока в антагонистической игре с левой матрицей нз табл, 2.6. Т.е. действия р2, соответствующие устойчивой паре, направлены на уменьшение выигрыша первого игрока, а не на увеличение собственного выигрыша. Аналогична направленность действий стороны Рх. Инвертируя знаки всех элементов в правой таблице из табл, 2.6. получим матрицу I-Ьи -bnl | —i»21 — ^22 I коэффициенты которой соответствуют проигрышам стороны Р2.Макснминная стратегия первого игрока в антагонистической игре с тамэй матрицей имеет вид: « 1 - Г*) = (((>22 - i>21 )/В, (b„ - 612/В)): (11.14) ср. с (11.7). Согласно (11.1) и (11.12), распределение (11.14) есть также смененная стратегия игрока р1; входящая в единственное устойчивое решение для смешанного расширения биматричной игры. Те. поведение Р2 в равновесном (по Нэшу) решении направлено на уменьшение выигрыша второго игрока, а не на максимизацию собственного выигрыша. Этот феномен обычно называют антагонизмом поведения без антагонизма интересов. 148
Стронгин Р.Г. Исследование операций и модели экономического поведения Продолжим обсуждение характера равновесных решений в биматричной игре, допустив, что, наряду с устойчивыми решениями в смешанных стратегиях, существуют также устойчивые (по Нэшу) стратегические решения в чистых стратегиях. Пример 2.6 (выбор пункта для строительства с долевым участием). Две фирмы Р]_ и Р2 планируют строительство (с долевым участием) гостиничного комплекса в одном из двух районов города (Р1 и Р2). Фирма рг заинтересована строить комплекс в районе Р1, где у нее есть ряд предприятий обслуживания, которые могли бы принести (в этом случае) дополнительный доход. Фирма не имеет таких предприятий в районе Р2. Но именно в этом втором районе расположены точки обслуживания, созданные фирмой р2, которая (по этой причине) заинтересована в том, чтобы комплекс строился в районе Р2. Таблица 2.8. Стратегия Р9 Стратегия Р9 Матрица Pi Матрица Р2 Pl Р2 Р1 Р2 Pl 2 0 Pl 1 0 Стратегия Pi Стратегия Pi Р2 0 1 Р2 0 2 Ни одна нз фирм не имеет достаточных свободных средств, чтобы построить комплекс в одиночку Поэтому, если фирмы не смогут прийти к согласию относительно района строительства, то стройка окажется невозможной. Полезность такого исхода является нулевой для каждой фирмы. Матрицы описанной нгры^* представлены в табл, 2.8. Из данных табл, 2.8 и выражений (10.6), (10.8), (10.9), (10.20) получаем, что 4 = 3, а=1, а=-, В = 3, 6= 2, /3 = -. 3 3 При этом из рис, 2.8 и рис, 2.9 следует (см. средний фрагмент на рис. 2.10). что существует три пары (х*, у*), удовлетворяющие условиям устойчивости (10.10), (10.11). Этот случай иллюстрируется рис, 2.11. 149
Стронгин Р-Г. Исследование операций и модели экономического поведения Множество решений системы неравенств Множество решений системы неравенств Рнс. 2.11. Смешанные стратегии, соответствующие этим парам, н отвечающие нм математические ожидания м^х^у*), м2(х*, у*) выигрыша сторон представлены в табл, 2.9. Отметим, что (неэффективная) равновесная пара смененных стратегий нз третьей строки табл. 2.9. соответствующая описанному выше антагонизму поведения без антагонизма интересов, может быть естественным образом интерпретирована, если выбор сторон является повторяющимся. Таблица 2.9. (х’,у*) '1 (у '1 Mi(x*,y*) М2(х*,у*) Эффективность X ) у ) (0,0) (0,1) (0,1) 1 2 Есть (1,1) (1,0) (1,0) 2 1 Есть (2 I,-. /2 1\ /1 2.1 2 2 Нет 3 ’ 3' ^3’ 3' ^-3’ 3-^3 3 Такая ситуация возможна, например, если стороны последовательно (по мере накопления свободных средств) создают систему небольших гостиничных комплексов. В этом случае рассмотренная задача выбора Одного из двух районов строительства будет повторяться, и математическое ожидание выигрыша можно интерпретировать как 150
Стронгин Р.Г. Исследование операций и модели экономического поведения средний выигрыш (в расчете на одну партию игры) в серии последовательно решаемых задач. Однако рассмотрение такой повторяющейся игры допускает и другие подходы. Возможно планирование всей сернн выборов, а не единичного акта принятия решения по строительству одного гостиничного комплекса. Есть еще одно обстоятельство, которое следует отметить. Рассмотренный пример демонстрирует существование трех стратегических пар, обладающих свойствами равновесия по Нэшу н при этом каждая оперирующая сторона имеет различные выигрыши во всех этих парах. Это существенно отличает рассматриваемый неантагоннстический случай от антагонистических конфликтов (ср. с утверждениями следствия из теоремы о необходимых н достаточных условиях существования седловой точки ядра антагонистической игры см. лекцию 6). Кроме того, реализация любой из устойчивых пар стратегий требует согласования действий сторон. Действительно, например, если игрок Pi выберет чистую стратегию i*=2, являющуюся компонентой первой устойчивой пары нз табл. 2.9. а игрок Р2 выберет чистую стратегию {j*=l}, а нявляющуюся компонентой второй устойчивой пары, то такой совместный равновесии. Таким интересами сторон недостаточным для этих сторон. Мы вернемся к обсуждению этого вопроса в следующей лекцнн. выбор не обладает свойствами поведения в образом, в конфликтах с неантагоннстическими анализ устойчивости решений может оказаться выработки удовлетворительных схем поведения Смешанные расширения m х п бимагричных игр Рассмотренная выше схема выбора поведения, основанная на (искусственном) внесении неопределенности путем использования случайных механизмов, может быть обобщена на случаи, когда число чистых стратегий каждой из сторон превышает две. Прн таком подходе первая сторона Рх использует рулетку, которая имеет m исходов, характеризуемых вероятностями наступления xi; 1 < i < т , а вторая сторона - рулетку с п исходами, характеризуемыми вероятностями 151
Стронгин Р.Г. Исследование операций и модели экономического поведения наступления у3, 1 < j < п. Прн этом ш н п есть числа чистых стратегий, имеющихся соответственно у первой и второй сторон. Теперь введем следующее определение. Определение 2.5. Смешанными стратегиями нгроюв Рг н Р2 в т х п биматричной игре соответственно называются векторы х = (xi... X, ... с л”, V = (VI • -Hi • Un) ё S„ С Я”, где Sm и Sn есть множества векторов с неотрицательными юординатамн, сумма юторых равна единице, т.е. Sm = {ж Е Rm: Xi > 0, 1 < i < пг, xi + ... + хт = 1}, , (111 Sn = {j< e я : Vj > 0, 1 < j < n, JI1 + ... + Um = 1}. Числа Х| и у, есть вероятности, с которыми (независимые) рулетки игроюв Рх н Р2 порождают исходы соответственно с номерами i и j. Тем самым определяется использование игроками р2 и р2 соответственно чистой стратегии с номером i и чистой стратегии с номером j в текущей партии игры. парПосюльку в классе sm смешанных стратегий^.} стороны Рх для любого номера i, 1 < г < ттг, существует стратегия х (1), удовлетворяющая условиям zfc(z) = 0, к = 1.. .г — 1,4 + 1.. .ттг, х,(г) = 1, и, следовательно, обеспечивающая применение чистой стратегии i с единичной вероятностью, то игра в чистых стратегиях может интерпретироваться как частный случай игры в смененных стратегиях. Аналогичное утверждение справедливо для игрока Р2 .Выбор игроками Pi и Р2смешанных стратегий ат Е Sm н у Е 8п еще не определяет юнкретиого исхода игры. В связи с этим, в качестве оценок эффективности мг (х, у) и м2 (х, у), которую обеспечивает игрокам выбор пары (х, у), принимаются математические ожидания 152
Исследование операции и модели экономического поведения (11.16) Стронгин Р-Г. Л/1(х, у) М2(х,у) при определении юторых учтена (вероятностная) независимость случайных механизмов, используемых стороиами.Если принять, что х и у есть векторы-столбцы, и обозначить матрицы, представляющие выигрыши первого и второго игроюв (при игре в чистых стратегиях), соответственно через Айв, то, согласно (11.16), смешанное расширеииет х п биматричной игры можно представить следующей моделью (в нормальной форме): Mi(x,y) = хт Ay, М2(х,у) = хт By, !' е Sm, у е Sn (11.17 (верхний индекс т соответствует операции транспонирования, сопоставляющей вектору-столбцу вектор-строку).Для произвольной тп х п биматричной игры справедливо утверждение, что в ее смененном расширении существует хотя бы одна ситуация равновесия (по Нэшу). Те. в смененном расширении каждой биматричной игры существует пара смешанных стратегий ( х*,у*), удовлетворяющая неравенствам (3.3), ще x=sm и Y=sn. В случае, тогда интересы сторон являются противоположными (антагонистическими), это утверждение подразумевает существование седловой точки (х*,у*) ядра М(х,у) — М\(х,у) — хТАу, (11.18) удовлетворяющей условиям: (Vx е Sm)Vy е ХтАу' < х*тАу' < х,тАу, (11.19) см. (6.2) и (6.3). Существование пар стратегий, удовлетворяющих условиям (11.9) и, следовательно, являющихся равновесными решениями для смененных 153
Стронгин Р.Г. Исследование операций и модели экономического поведения расширений т X п антагонистических игр, нэторые имеют ядра вида (11.18) (с любыми матрицами А ), будет показано в следующем параграфе. Доказательство упомянутого выше факта разрешимости условий (6.3) для смешанного расширения (11.17) любой т х п биматричной игры может быть найдено в других источниках^. Мы опускаем это доказательство в нашей небольшой (соответствующей программе вводного курса) книге, посиэльку для общего т х п случая (в отличие от уже рассмотренных 2x2 задач) оно не дает способа вычисления пары стратегий, порождающих ситуацию равновесия (т.е. оно не является нэнструктивным ). Кроме того, как уже было отмечено, анализ устойчивости в таких задачах может оказаться недостаточным для выработки удовлетворительных схем поведения сторон. Приведенный пример имеет и другие известные в литературе интерпретации: "семейный спор"(Льюс Р.Д., Райфа X. Игры и решения. - М.: ИЛ, 1961), "вежливые водители" (Мулен Э. Теория игр с примерами нз математической экономики. - М.: Мир, 1985) и др. Многомерные фигуры, обладающие свойствами (11.15), называются симплексами 3) См., например: Оуэн Г. Теория игр. - М.: Мир, 1971. 154
Стронгин Р.Г. Исследование операций и модели экономического поведения Матричные игры и линейные программы как модели поведения Двойственные задачи линейного программирования и рыночное равновесие. Сведение решения матричной игры к решению пары двойственных задач линейного программирования. Двойственные задачи линейного программирования и рыночное равновесие Рассмотрим задачу линейного программирования с ограничениями вида неравенств в следующей интерпретации^. Пусть некоторая фирма располагает m видами сырья, используя которые, она может выпускать п типов продукции. Известны цены с3 > 0, 1 < j < п, по которым происходит реализация единицы продукции каждого j -го типа, составляющие вектор-столбец с= (ci.. .Cj . . .Сп)Г, где верхний индекс т соответствует операции транспонирования. Известны также запасы &, < О, 1 < i < т, сырья каждого вида, составляющие вектор-столбец В =((>!... bi... Ьт)Т. Наюнец, задана матрица А коэффициентов aXj, 1 < j। < n, характеризующих количество сырья вида i, необходимое для производства единицы продукции типа j. Требуется определить плановые уровни Wj, 1 < j1 < п, производства продукции каждого типа, обеспечивающие максимальный доход при заданных сырьевых ресурсах.Еслн принять, что план производства описывается вектором- столбцом w = (il'i ... wj ... 155
то условие его обеспеченности сырьевыми ресурсами можно описать с помощью неравенств + • • + a.inwn < bi, 1 < i < m, которые можно свернуть в векторную запись вида Лш < Ъ. Теперь поставленная задача выбора плана ш", максимизирующего ДОХОД (cT»w) = C1W1 + ... + cnwn, может быть представлена в форме следующей математической задачи: (сТУ) — max{(cT,u’): w > 0n, Aw < 6}, (12.1) которую будем называть прямой задачей линейного программирования (с ограничениями типа неравенств). Заметим, что указанный в (12.1) вектор-столбец 0п соответствует началу координат в пространстве Rn, а условие ш > 0п эквивалентно координатным неравенствам ил, > 0, 1 < J < п. В дальнейшем (там, где это ие может вызвать сомнений) мы будем (для краткости записи) опускать нижний индекс при 0п, указывающий размерность пространства. Примем, что фирма Рх, помимо продажи своей продукции, может также продавать имеющиеся у нее запасы сырья по ценам, характеризуемым вектором-столбцом и = (ul ...ис...ит)Т. Такая продажа может быть экономически оправданной для фирмы Рх, если средства, выручаемые от продажи сырья всех видов, которое необходимо для производства единицы продукции некоторого типа j, будут ие меньше, чем выручка от продажи этой единицы продукции. Т.е. 156
Стронгин Р.Г. Исследование операций и модели экономического поведения экономические мотивы для рассмотренной продажи сырья могут существовать лишь при выполнении неравенств aiyui + ... + amJum >Cj, 1 < j < n, которые можно свернуть в векторную запись вида Ати > с. Рынок, с которым взаимодействует фирма Рр продавая продукцию (или сырье), будем рассматривать как вторую (агрегированную) сторону в описываемой операции и обозначать Р2- Естественно принять, что участники рынка, покупающие сырье, заинтересованы в уменьшении своих затрат. Поэтому их задачу можно описать как формирование вектора цен и’, удовлетворяющего условиям (bT,u*) = min{(bT, и): и > 0т, Ати > с}. (12.2) Задачу (12.2), решаемую второй стороной н представляющую интересы рынка, будем называть двойственной задачей линейного программирования (с ограничениями вида иеравеиств).Для двойственной пары задач (12.1), (12.2) линейного программирования справедлива теорема двойственности . % Согласно этой теореме, если одна из задач (12.1) и (12.2) имеет решение, то н вторая задача имеет решение, причем в этом случае = (6T,u'). (12.3) Величины, введенные при описании пары двойственных задач (12.1), (12.2), собраны (для наглядности) ниже. 157
Заметим, что фактически мы рассматриваем разные механизмы, определяющие цены на продукцию и цены иа сырье. Цены, по которым реализуется продукция, считаются заданными и не зависящими от объемов производства. Такая ситуация возможна, например, в случае, когда существует внешний механизм регулирования этих цен, призванный стимулировать производство и продажу товаров из рассматриваемого перечня. При этом цены иа сырье (зависящие согласно (12.2) от заданных цен на продукцию) формируются как результат описанных выше взаимодействий производителя и рынка. Примем теперь, что производитель, выбрав некоторый план производства w > 0п, может продавать на рынке не только произведенную продукцию, ио и остатки сырья. Кроме того, ои может закупать иа рынке недостающее сырье. Продажа и закупка сырья происходит по одним и тем же ценам и > 0т, которые формирует рынок. В такой постановке доход производителя, который мы будем рассматривать как критерий м (w, и) первой стороны, определяется выражением 158
Стронгин Р-Г. A/(w,u) — I &£ — '^Iaijwi J — (12.4) или (в векторной форме) А/(w, и) = (ст, w) + (bTu) — иТАш. (12.5) Если принять, что производитель имеет достаточное финансовое обеспечение, любой план производства w > 0п является допустимым. Допустим также и любой вектор и > 0т, формируемый рынком, интересы которого противоположны интересам производителя, желающего максимизировать свой доход. В результате получаем, что отношения сторон рх и Р2 характеризуются антагонистической игрой с ядром м (w, и) н множествами стратегий сторон, определяемыми соответственно условиями w > 0п и и > 0т Исследуем вопрос о существовании равновесного поведения сторон, т.е. вопрос о существовании пары стратегий (w‘,u*), являющейся седловой точкой ядра м (w, и). Оценим величину дохода производителя, гарантируемую выбором плана ш>0п. Согласно (12.4), (ст,и'), (Vi=l...m) < b,-, mmu>o M(w, u) — — oo, (3i, 1 < i < m) 22aijWj > bt. Действительно, при выполнении условия Aw < Ь выбор вектора 159
Стронгин Р.Г. Исследование операций и модели экономического поведения u=0m минимизирует доход M(w,u), поскольку вынуждает производителя отдавать излишки сырья по нулевым ценам. В случае, когда реализация принятого производителем плана w > 0„ требует покупки недостающего сырья вида i, вторая сторона может неограниченно уменьшать доход Рг путем увеличения цены ih иа дефицитное (для рт ) i -е сырье. Следовательно, max ini n M(w, и) = max {(ст, w): w > 0„, Лш > б}. (12 6) Т.е. производитель может максимизировать гарантированный доход, если откажется от закупок недостающего сырья и ограничится имеющимися запасами. В состав этих запасов могут входить и те объемы, на поставку которых заблаговременно заключены соответствующие контракты^. Таким образом, максиминная стратегия стороны Рг (если такая стратегия существует) является решением w* прямой задачи линейного программирования; ср. (12.1) и (12.6).Теперь оценим возможные максимальные затраты второй стороны р2, соответствующие некоторому вектору и > 0т цен за сырье. Согласно (12.4), minw>0 ЛГ(ш,и) = (6T,u), (Vj = l...n) < cj, i=l -I- OO, (3j, 1 < j < n) > Cj. Действительно, при выполнении условия Лги > с выбор плана w=0n (т.е. отказ от производства продукции) максимизирует доход М (w, и) первой стороны (или затраты второй стороны). В этом случае продажа сырья дает ие меньший доход, чем продажа продукции, произведенной из этого сырья.Допустим, что доход от продажи продукции некоторого типа j превышает затраты иа приобретение сырья, необходимого для производства единицы этой продукции. Тогда производитель может неограниченно увеличивать свой доход, закупая сырье в ассортименте, необходимом для производства продукции типа 160
Стронгин Р.Г. Исследование операций и модели экономического поведения j. Заметим, что это рассуждение предполагает наличие у производителя необходимых оборотных средств (или возможность использования кредитов). Таким образом (при указанных условиях), min max М (и1, и) = min {(bT,u): и > 0т, Дти > с}. (12.7) Те. вторая сторона может минимизировать свои возможные максимальные затраты, если установит такие цены на сырье, что производитель откажется от производства. Прн этом минимаксная стратегия стороны Р2 (если такая стратегия существует) является решением ц*двойственной задачи линейного программирования; ср. (12.2) и (12.7).Теперь нз (12.1)-(12.3) вытекает, что (cT,w*) = max min Л/(w, tz) = minmax M(w, u) = (bT,u*). w>0 u>0 ’ u>0 w>0 ' ' ' ' Следовательно, если хотя бы одна нз пары (12.1), (12.2) двойственных задач линейного программирования имеет решение, то функция M(w,u) имеет седловую точку (см. теорему о необходимых н достаточных условиях существования седловой точки ядра в лекции 6). т.е. (Уш > Оп)(Ум > 0,u) Л/(ш,и*) < М(ш*,и*) > Af(w*,u), (12.8) = (cT,w*) = (ЬГ,и’). (12-9) Таким образом, мы установили, что пара двойственных задач линейного программирования определяет равновесную ситуацию (w*,u*) на рассмотренном выше рынке. Сведение решения матричной игры к решению пары двойственных задач линейного программирования Подставляя (12.5) в (12.8) и учитывая (12.9), устанавливаем справедливость следующцхнеравенств: (Уш > On)(Vu > Ощ) (ст, w) — < 0 < (Ьт. и) — uTAw*. 161
Стронгин Р.Г. Исследование операций и модели экономического поведения Приняв, что цены на продукцию всех типов н запасы сырья всех видов являются единичными, т.е. Cj = 1, 1 < j < n, bi = 1, 1 < i < (12.11) приводим (12.10) квнду: (wi + ... wn) — и*ГАш < 0 < (ui + ... um) — uTAw*. (12.12) Введя нормированные переменные Xi = Ui/(ui + ... um), 1 < i < m, ,, i <1213) t/j = Wj7(W1 + . . . U’m), 1 < J < n, и составленные из них векторы-столбцы X = (j?i.. ,xmf, у = (yi.. .у„')т, перепишем (12.12) как 1 - и*тАу < 0 < 1 - 2,-тЛц'*, ИЛИ < 1 < и*Т Ау. (12.14) Прн этом предполагается, что суммы нз знаменателей правых частей равенств в (12.13) являются положительными. Это допущение не противоречит условиям ш > 0л, и > От из (12.10). Таким образом, Xi > 0, 1 < i < m, Уз > о, 1 < j < п, ЗТ1 + . . . + ГГт = 1, У1 + ... +Уп = 1, или (11.15)) yesn. (12.15) 162
Стронгин Р.Г. Исследование операций и модели экономического поведения Предположим, что общее значение минимакса н максимина ядра, указанное в (12.9), является положительным. Обозначим обратное ему число через v, т.е. (ст, w*) = wj 4-... 4- w* = v 1 > О, (Ьг,'и*) = и* 4-... 4- li* = > 0. (12.16) Заметим, что эти записи учитывают также условия (12.11). Теперь из (12.13) н (12.16) следует, что ** = «*/(«; + •• + "ml = yj = U’j /(wL 4- ... 4- wm) = VW3, 1 < i < m, 1 < J < n. (12.17) Умножая (12.14) на положительное число v, используя обозначения (12.17) н учитывая (12.15), выводим справедливость отношении (Va; е Sm)(Vy е s„) v = z‘TAy\ (12.19) zTAy* < v < z-TAv. (12.18) Из (11.19) и (12.18), (12.19) следует, что пара (х*,у*) является равновесной (по Нэшу) в смешанном расширении конечной антагонистической игры с матрицей А. При этом введенное выше положительное число v оказывается ценой этой игры в смешанных стратегиях. Рассмотрим произвольнуюm X п матрицу А с коэффициентами a±j, 1 < i < m, 1 < j < n, и сопоставим ей вспомогательную m х п матрицу С с положительными коэффициентами сц — ац 4- а > 0» 1 < i < m, 1 < j < пу (12.20) а > | : 1 < г < т, 1 < j < п) | > 0. Линейная программа вида (12.1) при единичных коэффициентах из (12.11) заведомо имеет решение. Действительно, условия Cw<b, имеющие вид 163
Стронгин Р-Г. Ciiu’i 4- ... 4- с,ящп < 1, 1 < i < m, w} > 0, 1 < j < n, (1 определяют непустую область в Rn, поскольку вектор w=0n удовлетворяет этим условиям. В указанной области линейная форма (ст, w) оказывается ограниченной сверху, нбо, согласно (12.21), u’i + ... + u’n < 1/са 4- ... l/cjn, 1 < i < т. Таким образом, для линейной программы с матрицей С неравенства вида (12.8) и вытекающие из них отношения (W 6 Sm)(yy £ 5„) хТСу* < vc < х*тСу, vc = х*тСу*, аналогичные утверждениям (12.18), (12.19), являются справедливыми прн любой заданной матрице А.Лемма 2.2. Антагонистическая игра с ядром (11.18), соответствующим произвольной™ х п матрице Л н связанная с ней антагонистическая игра с ядром Мс(х,у) = хТСу, (12.22) соответствующим вспомогательной матрицеСиз (10.20), имеют одно и то же множество ситуаций равновесия. При этом vc — v + а, где vc есть цена смешанного расширения игры с матрицей с, a v - цена смешанного расширения игры с матрицей А.Доказательство. Как следует из (11.15), (11.18) и (12.20), (12.22) - ° = М(х,у)+а, где м (х, у) есть ядро смешанного расширения антагонистической игры с матрицей А. Прн этом М(х, у) = Мс(х, у) - а. (12.23) 164
Стронгин Р-Г. Исследование операций и модели экономического поведения Следовательно, справедливость отношений № е Sm)(V» е 5„) Mc(z, /) < Mc(z’, /) < Mc(z\ sO (12.24 для игры с матрицей С влечет справедливость аналогичных отношений (11.19) для игры с матрицей А, ибо последние выводятся из (12.24) путем вычитания числа а из всех частей содержащижя в (12.24) неравенств. Доказательство леммы завершается выводом равенства vc — Ме(х\ у*) — М(х*, у*) 4- а — v а, (12.25) вытекающего из (12.23). Итак, мы установили, что при любой т х п матрице А смешанное расширение антагонистической игры с вспомогательной матрицей С из (12.20) всегда имеет равновесное решение (х*, у*), которое является равновесным решением также и для исходной антагонистической игры. Таким образом, мы установили справедливость следующей теоремы. Теорема 2.3. Матричная игра с произвольной??? X п матрицейАвсегда имеет ситуацию равновесия (по Нэшу) в смешанных стратегиях аг* 6 Sm, у* € Sn, которые могут быть определены из решения (u*, w*) следующей пары двойственных задач линейного программирования + ... + -»• min щ > 0, ...,um > О, (ai_,+a)ui + ...+ (amj+a)um > 1, 1 < j < п, wi + ... + wn —» max wi > 0... wn > О, (a,i+a)wi + .. .+(a,n+a)wa < 1 1 < i < m, гдеаиз (12.20). При этом = Vu\ у* — VW*, v = (uj + ... + О-1 = (wj + ... Пример 2.7. Рассмотрим численный пример, которому соответствуют 165
Исследование операций и модели экономического поведения Стронгин Р.Г. рассмотренные выше матрицы: А = 2 -3 -3 4 4 -5 4 -5 6 9 О 11 Заметим, что вторая матрица соответствует значению а=5.Первая из двух линейных программ, указанных в условиях теоремы, имеет вид: щ + U2 Ч- из —» min, U1 >0, U2 > 0, из > 0, 7ui + 2и3 + Эйз > 1, 2ui + 9и2 > 1, 9ui + Пиз > 1, н ей соответствует решение и 1 1 1 \ —, —» — I, vc — 5, 20 10 20 / с найденное симплекс- методом^. Следовательно, v = гс — а = 0. У Многие другие интерпретации задач линейного программирования представлены, например, в известной книге: Юдин Д.Б., ГЪльшгейи Е.Г. Линейное программирование. Теория, методы и приложения. М.: Наука, 1969. 2) Два разных доказательства этой теоремы содержатся в учебном пособии: Мухачева Э.А. Рубинштейн Г.Ш. Математическое программирование. Новосибирск: Наука, 1987. См. также: Васильев Ф.П., Иваницкий А.Ю. Линейное программирование. М.: Факториал, 1998. 3) Необходимость заблаговременного обеспечения производства сырьем и комплектующими (например, на договорной основе) является 166
Стронгин Р.Г. Исследование операций и модели экономического поведения обстоятельством, хорошо известным в практике рыночной деятельности. 4) См., например, учебное пособие: Сухарев А.Г., Тимохов АВ., Федоров В.В. Курс методов оптимизации. М.: Наука, 1986. 167
Стронгин Р.Г. Исследование операций и модели экономического поведения Многошаговые задачи выбора решений Задача инспектирования. Рекуррентные соотношения для ожидаемых выигрышей. Стратегии поведения. Мы уже рассматривали (см, лекцию 8) операции, в которых процесс принятия решений представляет собой последовательность актов выбора, названных ходами сторон. При этом было показано, что все этн последовательные выборы можно описать как принятие некоторой стратегии, которая определяет действия стороны во всех ситуациях, требующих решений. Описание всех таких стратегий позволило привести многоходовую задачу к нормальной форме, что дало возможность установить связь устойчивости решений с информированностью сторон (см. теорему о достаточных условиях существования устойчивых решений. Общее число стратегий, которые соответствуют модели в нормальной форме, порождаемой при таком подходе, может оказаться значительным даже в относительно простых задачах (см. пример ниже). Поэтому при поиске оптимального поведения в конкретных приложениях зачастую рассматривается непосредственно процесс миогоиагового выбора. Такой подход оказывается особенно эффективным, если удается установить рекуррентную связь между величинами, характеризующими последовательные акты выбора. Пример 2.8 (задача инспектирования^). Пусть сторона Рх ( нарушитель ) заинтересована в совершении некоторого запрещенного действия. При этом нарушение может быть совершено в один из N>1 периодов времени. Примерами таких действий могут быть ухудшение экологического состояния (сброс мусора или слив загрязненных вод), продажа партии бракованного товара, несоблюдение предписанных норм при строительных работах и т.п. Сторона Р2 ( инспектор ), задачей кэторой является предотвращение запрещенных действий, может осуществить единственную инспекцию в один из этих к периодов времени. Отношения сторон являются антагонистическими, причем выигрыш нарушителя равен 1, если совершенное им нарушение не было 168
Стронгин Р.Г. Исследование операций и модели экономического поведения обнаружено. Установление инспектором факта нарушения (что возможно лишь в том случае, если инспекция проводится в тот же период времени, что и запрещенное действие) ведет к потерям нарушителя, которые оцениваются как величина, равная - 1. Операция завершается либо совершением запрещенного действия, либо проведением инспекции. Допускается, что в течение всех N периодов сторона Рх воздерживалась от нарушений, а сторона р2 - от инспекций. В этом случае выигрыш нарушителя равен нулю. Для иллюстрации условий задачи на рис, 2.12 представлено дерево описанной игры, соответствующее случаю №2. Символы Н и И маркируют(правые) дуги дерева, соответствующие совершению нарушения (Н) стороной рг и проведению инспекции (И) стороной Р2. Дуги без маркировок представляют альтернативные варианты (т.е. отказы сторон от совершения действий). Одноэлементные ннформкцнонные множества стороны Pj обозначены пунктирными кружками, а двухэлементные множества стороны Р2 - пунктирными прямоугольниками. Множества нумеруются снизу вверх (на рисунке номера множеств не указаны). 169
Исследование операций и модели экономического поведения Стронгин Р.Г. Рис. 2.12. Отметим, что наличие двухэлементных множеств (отражающих иеииформированность инспектора о действиях нарушителя) свидетельствует о том, что рассматриваемая задача ие является игрой с полной информацией (см. определение в лекции 8). Таблица 2.11. Случай N=2 Стратегия Р2 Стратегии Pi И, И И, О О, И О, О Н, Н -1-11 1 Н,О -1-111 О,Н 11-11 О, О 1110 Описанному дереву сопоставим 4x4 матрицу игры, представленную в табл, 2.11. Символы О вщцят в двухсимвольные пары, обозначающие стратегии сторон, и соответствуют отказам от действий. Первые две строки и два столбца матрицы повторяют друг друга, что является следствием дублирования стратегий (см. замечание в лекции 9). Найдем решение этой игры в смешанных стратегияхх, у 6 S-i, полагая (в связи с отмеченным дублированием), что X! = У1 = 0. (13.1) Равенства (13.1) позволяют записать условия нормировки для распределений х и у в виде отношений Х2 4- Хз -I- 2Г4 = У2 -I- Уз -I- SU = 1. (13.2) Из (11.18), (12.18) и определения смененных стратегий (см. лекцию 11) следуют неравенства Л/(х(г),л) < v < М(х,у(з)), 1 < i, j <4. (13.3) 170
Стронгин Р.Г. Исследование операций и модели экономического поведения для оптимальных смешанных стратегий х, у € S4, цены игры v и смешанных стратегийх (i) и у (j), представляющих чистые стратегии сторон Рх и ?2 соответственно с номерами i и j. Для матрицы из табл. 2.11 условия (13.3) эквивалентны неравенствам A/(a?,y(2)) = —х2 + хз + х4 > v, (13.4) Л/(а;,1/(3)) = — +^4 > v, (13-5) Л/(а;,у(4)) — х2 + агз > и, (13.6) М(х(2),у) = -У2 + Уз + У4 < V. (13.7) A/(i’(3),y) = у2 - Уз + У4 < V» (13.8) М(х(4),у) = У2 + Уз < V, (13.9) при выводе которых учтено допущение (13.1).Из (13.4), (13.5) и условий (13.2) следуют неравенства 2x2 < 1 — V, 2^з < 1 - v, (13.10) которые в сочетании с (13.6) дают отношения V < Х2 + Хз < 1 — V, (13.11) приводящие к оценке 1 v < (13.12) Аналогично, из (13.7), (13.8) и (13.2) следуют неравенства 2у2 > 1 - v, 2уз < 1 - v, (13.13) которые в сочетании с (13.9) дают отношения 1 - v < у2 + уз < v, (13.14) приводящие к оценке, обратной (13.12). Следовательно, 171
Исследование операций и модели экономического поведения Стронгин Р-Г. v= i (13.15) и, согласно (13.1), (13.2) и (13.10), (13.11), п 1 1 1 = 0, т2 = х3 — х4 — (13,16) 4 4 2 Аналогично, из (13.1), (13.2) и (13.13)-(13.15) вытекают оценки 111 У1 = 0, У2 = Уз = т, Уз = 7- (13.17) 4 4 2 Таким образом, согласно оптимальным смешанным стратегиям из (13.16), (13.17), вероятность совершения действия (нарушения или проверки) в любом из двух периодов равна Соответственно, полная вероятность отказа от совершения действия равна Заметим, что с увеличением числа периодов N количество чистых стратегий каждой из сторон растет экспоненциально и определяется величиной 2n, а это неизбежно затрудняет как сведение игры к нормальной форме, так и анализ соответствующей матрицы (уже при не очень больших значениях N ). Непосредственное рассмотрение многоивгового процесса выбора, которое мы проведем ниже, оказывается более простым. В случае, когда N= 1, игре соответствует 2x2 матрица, представленная в табл, 2.12 и не имеющая седловых значений. Следовательно, эта игра имеет решение в смешанных стратегиях и, согласно (11.10), ей соответствует цена 1'1 = 1 (13.18) Таблица 2.12. Случай №1 Инспекцию: Нарушение: Проводить Не проводить 172
Исследование операции и модели экономического поведения О Стронгин Р.Г. Совершать -1 Не совершать 1 Теперь рассмотрим случай, тогда N=2 (именно этому случаю соответствует рис. 2.12). и построим матрицу (см. табл, 2.13). описывающую выигрыши (или математические ожидания выигрышей) стороны в первом нз двух периодов. Таблица 2.13. Случай №2 Инспекцию: Нарушение: Проводить Не проводить Совершать -1 1 Не совершать! vj Отметим, что отказ сторон от действий в первом периоде переводит игру во второй период, характеризуемый уже рассмотренной матрицей из табл, 2.12. Постольку согласно (13.18), цена этой игры меньше, чем 1, то матрица из табл, 2.13 также ие содержит седловых значений и ей соответствует цена игры 1 + г’1 1 г’2 = т---------= (13.19) 3 — т?! 2 совпадающая со значением из (13.19).Аналогичио, для любого значения N>1 выводим, что цена игры, соответствующей выбору действия в первый из N периодов, определяется выражением 1 + vN = ----. (13.20) 3- VN-i Используя подстановку 1 -----------г, (13.21) VW -1 выводим равенство 173
Исследование операций и модели экономического поведения Стронгин Р-Г. U’jy + 1 w;v 2it’,y_i -н 1 2wat-i — 1 ’ приводимое к легко разрешимому разностному уравнению 1 ДГ-1 W = WN_1 - - = U'!----------—. (13.22) Из (13.18) и (13.21) получаем начальное значение wi = — 1 которое в сочетании с (13.22) дает решение 7V+2 W _ 2 ' Отсюда, учитывая подстановку (13.21), выводим равенство Таким образом, выбору действия в первый нз N>1 (осгающижя) периодов соответствует игра с матрицей нз табл. 2.14. Тогда, согласно (11.7) и (11.8), оптимальные стратегии сторон Рг и Р2 в первом нз N периодов определяются рулетками вида iN = ^=G^2’£W(13-23) Таблица 2.14. Случай N>1 Инспекцию: Нарушение: Проводить Не проводить Совершать -1 1 Не совершать 1 N-t N+i Следовательно, для любой нз двух сторон вероятность выбора действия в первом нз N периодов равна 1/ (N+2). Если стороны не совершали действий нн в одном нз к начальных периодов (k<N), то вероятность совершения действия в (к+1) -м периоде равна 174
Исследование операций и модели экономического поведения Стронгин Р-Г. jV-fc + 2\ / N + 3-kJ N-k+2 1 /7+2’ Те. вероятность совершения действия одинаюва во всех периодах. Тогда определяемая оптимальными рулетками (13.23) вероятность Ро (N) того, что действие (т.е. нарушение или инспекция) вообще не будет совершено за N периодов, есть величина При этом ро(1) — | и po(aV) —» 0 при N оо. Таким образом, обе схемы, использованные для анализа рассмотренного примера при N=2 (многошаговая схема н схема, основанная на предварительном построении нормальной модели), приводят к одним и тем же значениям вероятностей выбора действий и отказа от действий. Нетрудно заметить, что возможность успешного применения многошаговой схемы прн произвольных значениях N>1 связана с тем, что дерево игры оказалось существенно не полным. В каждом его четном ярусе содержится ровно два узла, а в каждом нечетном - ровно один узел и три вершины (кроме первого яруса). Те. возможность построения рекуррентных отношений, связывающих ожидаемые выигрыши сторон на последовательных стадиях процесса принятия решений, определяется специфиюй рассмотренного примера. Замечание 2.7 (о стратегиях поведения. Рассмотренная схема последовательного выбора решений использует на каждом ходе некоторую рулетку определенную не на множестве всех чистых стратегий (число юторых может быть велию), а на множестве вариантов, имеющихся у этой стороны на юнкретном ходе (число иэторых обычно не велию). Чтобы отличать рассмотренные юмплекты рулеток от введенных ранее смешанных стратегий, их обычно называют стратегиями поведения. Таким образом, стратегия поведения юнкретной стороны сопоставляет каждому информационному множеству этой стороны вероятностное распределение, заданное на наборе альтернатив, юторые имеются в этом множестве. 175
Стронгин Р.Г. Исследование операций и модели экономического поведения Предлагаемый пример подобен задаче, описанной в книге: Оуэн Г. Теория игр. М.: Мир, 1971. 176
Стронгин Р.Г. Исследование операций и модели экономического поведения Сделки без побочных платежей Арбитражные схемы. Множество допустимых сделок. Принципы формирования сделки (аксиомы Нэии). Арбитражные схемы Вернемся к рассмотрению операций, описываемых играми двух лнц с непостоянной суммой. Прн этом мы ограничимся классом конечных неантагонистических игр, нормальная форма которых характеризуется бнматрнчным представлением. Случай, когда участники такой игры действуют независимо^, уже рассматривался во второй лекции. В частности, было установлено, что единственное устойчивое решение 2x2 неантагонистической бнматрнчной игры (если оно достигается в смеиинных стратегиях) оказывается неэффективным в силу характера поведения игроков в этом (единственном) устойчивом решении. Этот эффект "антагонизма поведения без антагонизма интересов" подробно обсуждался в лекции Ц. С другой стороны, в том же классе задач возможны ситуации существования нескольких устойчивых решении, часть из которых являются эффективными. При этом возникают проблемы выбора конкретного решения, связанные с тем, что ситуации равновесия, более выгодные для одной стороны, оказываются менее выгодными для другой. Если же стороны выберут действия, соответствующие разным состояниям равновесия, то результат такого несогласованного выбора может не обладать свойствами поведения в равновесии (см. обсуждение задачи строительства с долевым участием лекции 11). Таким образом, в случае непротнвоположных интересов сторон, достижение устойчивых и одновременно эффективных решений требует организации соответствующего взаимодействия участников операции. Практика выработала ряд механизмов такого кооперативного поведения, ядром которых является принятие сторонами некоторого соглашения о совместных действиях Модели таких операций обычно называют кооперативными играми. 177
Стронгин Р.Г. Исследование операций и модели экономического поведения К числу ключевых вопросов организации кооперативного поведения, которое стимулируется стремлением к достижению ситуаций, оптимальных по Парето, относится обеспечение гарантий выполнения принятых соглашений всеми участвующими сторонами. Одним из путей создания таких гарантий является введение некоторого контролирующего органа, которому подчиняются все игроки. Типичным учреждением такого рода является арбитраж^ (или третейский суд). Модели кооперативного поведения, которые учитывают существование системы стабилизации соглашений, основанной иа арбитраже, называются арбитражными схемами. Юридические и технические аспекты организации арбитража выходят за рамки этой книги. Для наших целей существенно лишь то, что система арбитража обеспечивает устойчивость соглашений сторон. Поэтому в центре рассмотрения будет исследование характера сделок (договоров), совершаемых сторонами и подпадающих под юрисдиацию арбитража. Предлагаемые ниже модели ие содержат описаний самого процесса переговоров сторон, могущего включать торг, блеф и другие психологические маневры. Цель проводимого моделирования заключается в предсказании той сделки, иа которую согласятся стороны, руководствующиеся некоторыми достаточно естественными принципами. В связи с этим, арбитражные схемы называют также задачами о сделках Множество допустимых сделок Примем, что стороны Рх и Р2, интересы которых описываются т X п матрицами А и В с коэффициентами и b1j, 1 < i < т, 1 < j। < п, могут вступать в кооперацию, допускающую совместный выбор стратегий. Замечание 3.1 (о траисферабельиости полезностей и побочных платежа? Построение модели операции в нормальной форме, проведенное в первой лекции, включало описание интересов сторон с помощью вещественных функций, сопоставляющих исходам операции некоторые числовые значения, которые мы интерпретировали как полезность этих исходов (см. определение в лекции 1). Введение такого представления о полезности позволило охарактеризовать целенаправленное поведение 178
Стронгин Р.Г. Исследование операций и модели экономического поведения участников операции как их стремление к максимизации соответствующих вещественных функций. Далее, рассматривая антагонистические взаимодействия (см. замечание в лекции 1). мы приняли, что полезности исходов для одной стороны противоположны (по знаку) полезностям этих же исходов для другой стороны. Однаыэ для задач с непротивоположными интересами вопрос о соотнесении полезностей сторон не рассматривался, постольку их независимое поведение не требовало таыэго сопоставления. Допущение кооперации участников операции ставит новый вопрос о том, может ли одна сторона оплатить сотрудничество другой стороны, используя для этого часть своего выигрыша. Такая оплата (если она возможна) называется побочным платежом. Сама возможность таких платежей предполагает, что выигрыш одной стороны представляет интерес для другой. Но так бывает не всегда. Например, вопросы престижа могут сделать выигрыш ценным для одной стороны, ио практически ничего не стоящим для другой. Конкретная физическая форма выигрыша (например, здания, сооружения, транспортные системы, сельскохозяйственные угодья н т.п.) также может представлять интерес для одной стороны и не представлять такого интереса для другой стороны в силу различий характера их экономической деятельности. Классический подход к решению этой проблемы обмена полезностями состоит во введении специального товара, полезность которого была бы линейна (т.е. полезность некоторого его количества прямо пропорциональна этому количеству) и который мог бы выступать как средство обмена (во многих ситуациях указанную функцию могут выполнять деньги). В этом случае побочные платежи могли бы выражаться в единицах такого товара. Мы ограничимся случаем, когда функции выигрышей сторон можно интерпретировать как линейно трансферабельные полезности. При этом передача части полезности от одного игрока к другому не изменяет их общей (суммарной) полезности. Заметим, что и при линейно трансферабельных полезностях побочные платежи могут оказаться нереализуемыми, как вследствие иедробимосги выигрышей, так и вследствие существующего правового 179
Стронгин Р.Г. Исследование операций и модели экономического поведения регулирования отношений. Поэтому мы сначала рассмотрим кооперацию без побочных платежей, а затем исследуем взаимодействия с побочными платежами. Для целей дальнейшего рассмотрения уцобно представлять пару (a i j, b х j), соответствующую согласованному использованию сторонами н Р2ЧНСТЬ1Х стратегий! н j, как точку на плоскости. Прн этом условимся, что абсцисса (и) соответствует выигрышам (полезностям) стороны ₽1; а ордината (v) - выигрышам стороны Р2- Множество всех таких точек, соответствующих конкретной задаче (т.е. конкретным матрицам А н в ), обозначим символом R: R = {(ву,b-tj): 1 < г < т, 1 < j < п}. (14.1) В качестве иллюстрации на рис, 3.1 изображены (темными кружками) точки множества R, соответствующего задаче выбора пункта для строительства с долевым участием, матрицы которой содержатся в табл. 2.8 (см. лекцию 11). Прн этом для каждой точки указаны пары стратегий, совместная реализация которых обеспечивает выигрыши сторон, представленные этой точюй. 180
Стронгин Р.Г. Исследование операций и модели экономического поведения Как уже обсуждалось выше, варианты, представленные на рис, 3.1. имеют разную привлекательность для сторон Рг и Р2. Поэтому для создания условий юоперации (без побочных платежей) важно расширить множество возможных вариантов. Такое расширение оказывается возможным, например, для повторяющихся сделок, когда соглашения сторон могут относиться не к отдельному акту выбора, а к поведению во всей серии подобных сделок. В этом случае объектом договоренности может быть принятие смешанной стратегии р = (pH • • .ртпп) € SmXn, (14.2) определяющей согласованные сторонами вероятности р^ совместного выбора пар чистых стратегий (i, j ). При этом выбор конкретной стратегии р из (14.2) обеспечивает сторонам Рх и Р2 математические ожидания выигрыша, определяемые (соответственно) выражениями: Я1(р) = ££ (14.3) и д3(р) = ££ (14.4) В качестве иллюстрации вернемся к примеру, представленному на рис, 3.1. и рассмотрим согласованную смешанную стратегию сторон Рг и Р2 вида Р* = Q,o.o,0 eSj, (14.5) "смешивающую" пары чистых стратегий (i=l, j=l) и (i=2, j=2) с равными вероятностями. Как следует из (14.3)-(14.5), соответствующая этой смешанной стратегии пара математических ожиданий 181
и=Р1(р') = 1|, i? = /Z2(p*) = l|, отмеченная темным прямоугольникам на рис. 3.2. могла бы быть основой согласия сторон.Заметим, что, согласно (14.3) и (14.4), каждая пара (/xi(p), /ха(р)) есть выпуклая линейная комбинация точек множества R из (14.1) с весами Pij, l<J<n. Следовательно, множество s = {(р1(р),рг(р)): Р е 5™x„} (14-6) всех пар математических ожиданий, достижимых сторонами Рх и Р2 путем выбора соответствующих рулеток р из (14.2), является выпуклой оболочкой множества R из (14.1). В силу конечности множества R его выпуклая оболочка S представляет собой наименьший плоский многоугольник, включающий все точки из R (см. треугольник, являющийся образом множества S в примере, представленном иа рис, 3.2). При этом вершинами такого 182
Стронгин Р.Г. Исследование операций и модели экономического поведения многоугольника могут быть лишь точки из R (причем не обязательно все точки из R ). В связи с отмеченной выше реализуемостью любой пары ожидаемых выигрышей (u, v) из множества S (обеспечиваемой согласованным выбором сторонами Рг и Р2 соответствующей рулетки) его называют допустимым множеством. Принципы формирования сделки (аксиомы Нэша) Перейдем к обсуждению условий, определяющих выбор сторонами конкретного варианта сделки (u,v) нз множества S (или выбор рулетки р нз (14.2), порождающей этот вариант). Конкретные условия, которые мы рассмотрим, были предложены Дж.Нэшем (см. лекцию 3). Поэтому их обычно называют аксиомами Нэша. Прн всей специфике взаимодействий участников конкретной операции, согласующих взаимоприемлемый вариант сделки, можно выделить некоторые общие моменты, обычно присущие таким взаимодействиям. Согласно Нэшу они состоят в следующем. Участник Рх своими односторонними действиями (т.е. без кооперации с участником р2 ) может гарантировать себе математическое ожидание выигрыша, равное величине и* = = max min Mi (х,у), (14,7) где Мг (х, у) из (11.16), (11.17), а х Е Sm и у Е Sn есть смешанные стратегии, независимо используемые сторонами. Те. при оценке гарантированного уровня мы исходим нз того, что сторона Р2 может вести себя как противник стороны Рх в антагонистической игре с матрицей А, характеризующей интересы Рр Прн таком поведении стороны Р2 ее ожидаемый выигрыш есть величина v = (14.8) 183
При этом пара (u*,v') принадлежит множеству S, постольку рулетка р из (14.2), имеющая компоненты Pij = x*y'j, 1 < i < т, 1 < j < п, обеспечивает выполнение равенств pi(p) = u*, p2(p) = i’': ср. (11.16) и (14.3), (14.7). Кроме того, согласно (14.7), и* = тш(Л/1(яг*,у): у € (14.9) Аналогично сторона Р2 (также своими односторонними действиями) может гарантировать себе ожидаемый выигрыш v* — №2(1'> у*) — тахпппЛ/г^,?/)- (14.10) При этом и = A/i(z',y*), (14.11) v* — пнп{Л/2(зг, У*): х € Sm} < М?(х*, у*), (14.12) и (iZ, f*) Е S поскольку рулетка с компонентами = х[у*, 1 < г < т, 1 < j < п, обеспечивает выполнение равенств pi(g) = u, р2(д) = и*. Далее, рулетка р * с компонентами р* = г*®,, 1 < г < т, 1 < j < п, (14.13) также порождает допустимую точку 184
(М1(р’),М2(р'')) = е S, (14.14) юторая, согласно (14.9), (14.12), доминирует пару (u*,v*). Заметим, что эта последняя пара может и не быть допустимой. Таким образом, в допустимом множестве S всегда есть вариант сделки, превосходящий (возможно, нестрого) пару гарантированных уровней ( u*,v‘), что н является основанием, определяющим интерес сторон к юоперацнн. Следующий пример иллюстрирует отношения всех рассмотренных пар выигрышей. Пример 3.1. Рассмотрим 2x3 бнматрнчную игру с матрицами из табл, 3.1. Допустимое множество S для этого примера построено на рнс, 3.3 как многоугольник. Вершины этого многоугольника принадлежат множеству (14.1), соответствующему матрицам нз табл, 3.1. Точки, соответствующие вершинам многоугольника S, отмечены на рисунке темными кружками. Таблица 3.1. _ |0 8 12| |4 6 12| Л-|о 10 2|’ |2 14 о| Согласно (14.7), (14.8) и (14.10), (14.11) рассматриваемый пример характеризуется значениями^ •и* = 0, v = 4, v* = 8,4, и = 8,76 и рулетками ат* = (1,0), у =(1,0,0), у* = (0; 0,6; 0,4), х = (0,7; 0,3). Прн этом ( u*, г?*) S, а точка (9,6:8,4) нз (14.14), соответствуюиря рулетке р* нз (14.13), принадлежит границе допустимого множества.Первое предположение Нэпа состоит в том, что стороны Рх и Р2 будут согласовывать лишь сделки (uo,v°), удовлетворяющие неравенствам 185
Стронгин Р.Г. Исследование операций и модели экономического поведения Это естественное допущение, юторое мы будем записывать также в векторной форме (•и0,!?5) > (и*,и*), (14.15) получило название аксиомы индивидуальной рациональности. Прн этом принимается и другое естественное условие, что стороны согласуют лишь допустимые сделки (аксиома допустимости ), т.е. G S. (14.16) Как мы уже установили, сделки, отвечающие условиям (14.15), (14.16), заведомо существуют. Следующее условие ( аксиома неулучшаемости нли оптимальности по Парето), введенное Нэшем, отражает то обстоятельство, что обе стороны проявят готовность рассматривать варианты, повышающие выигрыш каждой из них. Поэтому сделка, принимаемая оюзнчательно, 186
Стронгин Р.Г. Исследование операций и модели экономического поведения должна быть уже неулучшаема (см. определение в лекции 3). Мы будем записывать это условие в следующей форме С S) (it, v) > (u°,v0) —► (14.17) юторая аналогична записи (3.4).Формулировки двух следующих условий Нэша предполагают, что сделка (u°,v°), согласуемая сторонами, может быть определена как некоторая функция (i/°,v°) — y>(S,-u*, v*). (14.18) Те. выдвигаемые принципы поведения сторон прн согласовании сделки могут быть отражены в операторе , аргументами которого являются допустимое множество S и выигрыши u*, v*, гарантируемые односторонними действиями соответственно н Р2- Предположение (14.18) фактически означает, что оператор (ниже мы установим его существование) является моделью формирования сделки. Заметим также, что излагаемая ниже теория справедлива для любого выпуклого, ограниченного н замкнутого множества S н пары уровней u’,v' доминируемых какэй-либо точкой нз S. Те. величины S н u*, v‘, соответственно, из (14.6), (14.7) и (14.12), связанные с некоторой т х п бнматрнчной игрой, можно интерпретировать как (основной в нашем рассмотрении) частный случай.Теперь введем четвертое условие Нэша, утверждающее, что согласованная сторонами сделка (u0,r°) сохраняется при усечении нсждного множества S до некоторого подмножества Т с S. включающего эту сделку Эту аксиому независимости от посторонних альтернатив можно записать в следующем виде: [(и0, и0) g1'cS]&[(u°, и0) и*, г*)] —»(и0, г°) = ^(7',и*, г*). Сформулируем пятое условие, называемое аксиомой независимости от линейного преобразования. Введем линейное преобразование шкал полезностей сторон вида: й — сш + a, v — flv + Ь, а > 0, /3 > 0, (14.20) 187
Стронгин Р.Г. Исследование операций и модели экономического поведения переводящее множество S в некоторое множество Т. Пятая аксиома утверждает справедливость следующего следствия: (u°, v°) = <'>(£, и*, v*) —»(ам°+а, /Зи°4-&) = ^?(7‘, Зи*+а, /?«* + &). Те. при линейном изменении шкал полезностей согласованная сделка просто пересчитывается в соответствии с новой шкалой, сохраняя свою приемлемость для обеих сторон. Следует, однако, заметить, что при значительных изменениях масштабов выигрышей могут меняться сами принципы поведения людей (и в том числе их отношение к нравственным н другим запретам). Поэтому аксиома (14.21) может оказаться реалистичной лишь прн не очень больших изменениях масшгабов.Последнее условие ( аксиома симметрии ) имеет вид следствия: [и* = v*]&[(iz, и) £ S <-> (t\u) G S] —> и: = (14.22) Те. аксиома относится к случаю, когда допустимое множество S симметрично относительно биссектрисы первого координатного угла на плоскости (v,u), а выигрыши u’,v*, гарантируемые односторонними действиями игроков Рг и Р2, совпадают по величине. Пример такого случая представлен нарис, 3.2. Предполагается, что в подобной задаче полезности, достигаемые сторонами в согласованной сделке (и°,г’°), должны совпадать. Можно интерпретировать это предположение как признание невозможности увеличения своего выигрыша по сравнению с выигрышем партнера, если ресурсы сторон, отражаемые симметричным множеством S и совпадающими гарантированными уровнями u’,v*, являются в некотором роде одинаковыми. Разумеется, эти три аргумента оператора р из (14.18) не описывают всех (могущих встретиться в практике переговоров) аспектов взаимоотношений сторон при согласовании сделки. Поэтому условие (14.22) можно интерпретировать и как некоторое нормативное определение справедливости. Замечание 3.2 (о дележах ). Любая допустимая, индивидуально рациональная сделка, уцовлетворяюггря условию (14.17), может рассматриваться как некоторое (не улучшаемое одновременно для обеих сторон) распределение полезности в исходе операции. Поэтому сделки, 188
Стронгин Р-Г. Исследование операций и модели экономического поведения удовлетворяющие условиям (14.15)-(14.17), называют дележами. Такое поведение, называемое также некооперативным нлн бескоалиционным, может являться следствием условий операции, например, следствием существования антитрестовского законодательства н т.п. 2> Арбитраж - способ разрешения споров (главным образом имущественного характера), при котором стороны обращаются к арбитрам (посредникам), избираемым самими сторонами или назначаемым по их соглашению либо в порядке, установленном законом. 3) Заметим, что матрица А содержит седловое значение, а в матрице В второй столбец доминирует первый и, следовательно, получение оценок для второго игрока сводится к анализу 2x2 матрицы. 189
Стронгин Р-Г. Дележ, отвечающий аксиомам Нэша Единственность дележа, удовлетворяющего аксиомам Нэша. Сделки с побочными платежами. Теорема 3.1. Существует единственная функция^ из (14.18), определенная для всех задач о сделках, задаваемых тройками (S, u*, v*) и удовлетворяющих аксиомам (14.15)-(14.17), (14.19), (14.21), (14.22). При этом предполагается, что хотя бы для одной пары (u, v) из замкнутого, ограниченного и выпуклого множестваЗ, входящего в определение задачи, справедливо (может быть нестрогое) доминирование (u,v) > (u*,v*). (15.1) Доказательство теоремы опирается на следующие леммы. Лемма 3.1. Если миожествоЗ содержит точку (u, v), такую, что и > и*, v > и*, (15.2) т.е. если доминирование (15.1) является строгим, то функция g(u,v) = (ti — u*)(v — v*) (15.3) достигает максимума на множестве So = {(u, v) € S-. и > и*} (15.4) в единственной точке (и0, г’°).Доказательство Поскольку функция (15.3) является непрерывной, а непустое множество (15.4) - ограниченным и замкнутым, то существует максимум g(uo,v°) — max{g(u,и): (u»v) € Sb} > О- (15.5) Правое неравенство в (15.5) является следствием условий (15.2) и определений (15.3), (15.4).Допустим, что существует еще одна точка 190
Стронгин Р.Г. Исследование операций и модели экономического поведения (u ’, v ’), максимизирующая функцию g на So. Тогда (и - u*)(v - г*) = (и° - -u*)^0 - г>*), (15.6) откуда, учитывая (15.2), получаем отношение: и0 — и* v' — г’* и' — и* — V* Постольку точки (u°,v°) и (•u/,v/) являются (по предположению) различными, то из (15.6) вытекают следствия: Из выпуклости множествам 0 следует справедливость включения (й, й) — (^(t/ + и0), |(V + w0)) G So. Покажем, что для точки (й,г?) имеет место неравенство д(й, у) > д(и°, v°), (15.8) противоречащее определению точки (u°,t’°) из (15.5), что доказывает единственность точки максимума функции д. Действительно, g(u,v) = [(u' - и*) + (u° - и*)] [(и' - г*) + (г>° - и*)] = = i(t/ - - и*) -I- ^(и° - и*)(и° - v*) -I- i(u° - u){v - v°), 1 1 4 откуда, согласно (15.6) н (15.7), следует справедливость утверждения (15.8), противоречащего (15.5). В дальнейшем мы покажем, что условия (15.5) определяют функцию (г? нз (14.18), н опишем графический прием для определения аргумента 191
Стронгин Р-Г. Исследование операций и модели экономического поведения (и°, v°) из левой части (15.5). Лемма 3.2. Пусть выполняются условия (15.2) и точка (a0, v°) удовлетворяет определению (15.5). Тогда множествоS лежит под прямой линией, определяемой уравнением h(u, v) — h(u°, v°), (15.9) h(u, v) = (v0 — v'*)u 4- (u° — u*)v, (15.10) и касающейся множестваЗв точке (-u0, v°), т.е. (¥(u,u) 6 S) h(utv) < Доказательство. Допустим, что прямая (15.9) не является опорной для множества S в точке (и0,г’°). Тогда существует такая точка (u', v') € S , что h(u', v) > h(u°t »°). (15.11) Построим выпуклую линейную комбинацию: (и, v) — e(u, v) + (1 — e)(u°, a°), 0 < г < 1, которая принадлежит множеству S в силу его выпуклости. Поскольку (й, v) —> (и0, г/3) при £ —> 0 и, согласно правому неравенству в (15.5), и° > и*, то при достаточно малых значениях £ > 0 справедливо включение (й,£) G So-Теперь покажем, что при достаточно малых значениях £ > 0 имеет место неравенство д(й, v) > g(u°,v°), противоречащее определению (15.5). Действительно, д(й, v) = [и0 4-£(и' — и°) — и*] [и0 + б(г/ — г°) — гл*]) = - (и° - Щ*)(г° - V*) 4- £2(ц' - и°)(г/ - V°) 4- 4- £[(v° — v*)(u' — и°) 4~ (а0 — и*)(г/ — V0)], 192
Стронгин Р.Г. Исследование операций и модели экономического поведения где, согласно (15.11), коэффициент при £ является положительным, а член, содержащий е2, - пренебрежимо малым при е —> 0. Следовательно, прямая линия (15.9) является опорной к множеству S в точке (tr.°,r0). Замечание 3.3 (о графическом определении точки (uo,v°), доставляющей максимум функциид). Согласно (15.9), (15.10), уравнение опорной прямой можно представить в виде V° - V* v = Vе - К (и - 22°), К = ---------------. (15.12) — и* При этом уравнение прямой v = V* + К(и — и*)у (15.13) проводящей через точки (u*,v‘) и (ц°,г0), характеризуется тем же коэффициентом К, что и в (15.12) Таким образом, прямые линии (15.12) и (15.13) пересекаются в точке Кроме того, они образуют равные (по абсолютной величине) и противоположные (по знаку) углы с вертикалью, опущенной из этой точки (в качестве иллюстрации см. рис, 3.3). Отмеченное соотношение углов может быть использовано для графического определения точки (и0,!’0), соответствующей задаче Лемма 3.3. Прн выполнении условий (15.2) точка (u°,v°) из (15.5) удовлетворяет всем аксиомам Нэша. Доказательство Выполнение условий (14.15) и (14.16) является следствием определения (15.5). Допустим, что в множестве S существует точка (и1, v1), доминирующая (т.е. улучшающая) отличную от нее точку (и°,г’°). Тогда должно выполняться неравенство д(и, г/) = (и — u*)(v — V*) > (ы° — — и*) = и0), 193
Стронгин Р.Г. Исследование операций и модели экономического поведения противоречащее определению (15.5). Заметим, что из сделанного допущения > (uQ,vQ') вытекает включение € Sa. Те. аксиома (14.17) также должна выполняться. Если (uQ, v°) € Т С S, то максимум функции g (u, v) иа множестве Т П So достигается в той же точке, что и иа множестве So. Те. пара (•ц°, г0) из определения (15.5) удовлетворяет условию (14.19). Проверим выполнение пятой аксиомы. Согласно (14.20) и (15.3), д(и, и) = авд(и, v). (15.14) Теперь из (15.5) и (15.14) вытекает, что (V(u, v) € То) V0) > a[3g(u, v) = gt(u, v), где To есть образ So при соответствии (14.20). Следовательно, g(u°, v°) = max{g(ft, v): (й, v) € 7b} и справедливость (14.21) устаиовлена.Пусть множество S симметрично, т.е. из включения (u, v) € S следует включение (и, и) € S, и пусть u*=v*. Тогда (uW) € (v°,u°) €S и g(u°,r°) =: (u° - - ?) =: (u° - u’)(u° - a*) = g(v°, u°). Теперь из единственности точки максимума вытекают следствия (О ! О О \ о о и , V ) =- (V , и ) —» 12 = v , доказывающие справедливость аксиомы (14.22). Лемма 3.4. При выполнении условий (15.2) точка (гх°, г°) из (15.5) есть 194
Стронгин Р-Г. Исследование операций и модели экономического поведения единственная сделка, удовлетворяющая аксиомам Нэша. Доказательство Определим множество IF = {(u,и) е Л2: h(u,v) < лежащее под опорной к нему прямой (15.9) и содержащее допустимое множество S (см. рис. 3.4). Введем линейное преобразование и определим множество Т, являющееся образом W относительно преобразования (15.15). Из (15.10) и определения W выводим неравенство (v° — г»*)(и — u°) + (и0 — и*)(г? — г0) < 0, 195
Стронгин Р.Г. Исследование операций и модели экономического поведения которое после использования обратного (15.15) отображения •и = (12° — 1Х*)-Й -н 1Z, V = (t’° — v*)v + V* (15.16) дает определение 'Г = {(й,г»): й + v < 2}. (15.17) При этом, согласно (15.15), й* = 0, и* = О.Таким образом, линейное преобразование (15.15) переводит задачу (W,u*,v*) в задачу (Т, 0, 0), удовлетворяющую условиям аксиомы симметрии. Простота этой задачи позволяет найти отвечающую ей сделку; руководствуясь непосредственно аксиомами Нэша. Требования рациональности, допустимости, ие улучшаемое™ и вытекающее из шестой аксиомы условие = v° удовлетворяются в единственной точке (й°,у°) = (1,1) G т, (15.18) Отображая точку (15.18) иа плоскость (u,v) в соответствии с 196
Стронгин Р.Г. Исследование операций и модели экономического поведения преобразованием (15.16) н принимая во внимание пятую аксиому получаем, что пара (12°, v°) есть единственная отвечающая аксиомам сделка в задаче (W,u*,v*). Наконец, учитывая включения (1/°,г’°) € SC Нг н четвертую аксиому выводим, что пара , v°) есть единственная удовлетворяющая аксиомам сделка в нсжднон задаче (S, u*, v*). Таким образом, единственная удовлетворяющая аксиомам сделка совпадает с точкой из определения (15.5). Завершение доказательства теоремы. Остается рассмотреть случаи, когда не выполняются предположения (15.2). Прн этом возможны следующие три ситуации: (3(1/, г>) Е S) и > 1/*, v = v*, (15.19) (3(1/, v) Е S) и = u*, v > и*, (15.20) (V(iz,v) 6S)n< u*, v < if”. (15.21) Заметим, что ситуации (15.19) н (15.20) не могут иметь место одновременно. Допущение такой возможности ведет (в силу выпуклости множестваЗ ) к выполнимости условий (15.2) для всех внутренних точек отрезка, соединяющего две произвольные точки нз (15.19) и (15.20).Рассмотрим случай (15.19) (случай (15.20) рассматривается аналогично). Решение для таких задач определяется оператором '•Р вида и° = max{i/: (iz, i>) Е Sq,v = и*}, v° = v*. (15.22) Рис, 3,6 иллюстрирует такой случай, заведомо не удовлетворяющий условиям симметрии нз шестой аксиомы. Решение (15.22) допустимо, рационально и неулучшаемо (для обеих сторон). Заметим также, что оно является единственным решением, удовлетворяющим первым трем аксиомам. Кроме того, правило (15.22) определяет пару (i/°,ii0) как решение задачи (7‘, если (tz°, г0) Е Г С S Те. четвертая аксиома также выполняется. Любые преобразования вида (14.20) переводят горизонтальный участок 197
Стронгин Р.Г. Исследование операций и модели экономического поведения границы множества S, лежащий иа прямой u=v*, в горизонтальный участок границы множества Т, лежащий на прямой и = Ди* + Ъ Следовательно, правило (15.22) даст для задачи (Г, й*, v*) дележ (•й*, ?*), согласующийся с пятой аксиомой. В случае (15.21), иэгда кооперация не может улучшить выигрыши сторон, положим (-и0, г’°) = (и*, г*). Соответствие такого решения аксиомам Нэша легко проверяемо. Рис. 3.6. Вернемся к рассмотренным выше примерам. Дележ (•uo,v°)=( 10,14), изображенный темным кружком в верхней части рис. 3.3. получен с помощью графического построения. Построение выполнено в соответствии с ранее описанным приемом. Этот дележ реализуется путем согласованного использования обеими сторонами пары чистых стратегий i=2, j=2 (см. табл, 3.1). Допустимое множество S для рассмотренной в лекции 8 задачи об ограничениях при ловле рыбы, представлено на рис, 3.7. Согласно (14.7)-(14.14), для содержащих седловые значения матриц этой задачи справедливы оценки: («•,«•) = «?) = (uW) = = (6,6). 198
Стронгин Р.Г. Исследование операций и модели экономического поведения Имеющее место совпадение всех указанных точек отражает то обстоятельство, что пара выигрышей (u*,v‘) соответствует единственному в этой задаче устойчивому решению, реализуемому в чистых стратегиях при независимом поведении сторон. Решение (u°,r°) — (10,10), оцененное графическим способом (см. рис, 3.7). существенно превосходит выигрыши, достижимые односторонними действиями участнниэв. Таким образом, введение (по взаимному согласию сторон) системы контроля за соблюдением соглашения (например, путем организации проверок в местах лова рыбы) могло бы повысить их доходы (и дать средства для содержания инспекторов). Рис. 3.7. Допустимое множество для задачи о строительстве с долевым участием (см. лекцию 11) уже рассматривал ось (см. рнс, 3.2). Этому примеру соответствуют оценки 2 2 («*,«*) = (Д1(р*),Д2(р*)) = (3,3). 199
Стронгин Р.Г. Исследование операций и модели экономического поведения Заметим, что указанная выше пара смеинниых стратегиях* и у* не является равновесным решением задачи при независимом поведении сторон (см. табл, 2.9). Поэтому пары (u*,v*) и являются различными (см. рис, 3.8). Сделка, отвечающая аксиомам Нэша, соответствует точке (uQ,vQ) = (3/2, 3/2), реализуемой уже обсуждавшейся рулеткой (14.5). Рис. 3.8. Сделки с побочными платежами Согласно сделанному выше предположению (см. замечание в лекции 14, функции выигрышей сторон можно интерпретировать как линейно трансферабельные полезности. Однако в предшествующем рассмотрении (при определении допустимого множества S из (14.6)) было введено ограничение, запрещавшее обмен полезностями между сторонами. Теперь мы рассмотрим случай, когда такого ограничения нет. При этом передача полезностей от одного игрока к другому не 200
Стронгин Р.Г. Исследование операций и модели экономического поведения изменяет их суммарной полезности. Допустимость обмена полезностями расширяет круг возможных договоренностей игротов, постольку становятся реализуемыми сделки (и, v) 0 , если они удовлетворяют условию u + v = /ц(р) + /12 (р), (15.23) где р и pi (р), /12 (р) соответственно из (14.2)-(14.4). Те. получаемая сторонами суммарная полезность из правой части равенства (15.23) может быть перераспределена между ними в согласованную пару (u,v) за счет побочных платежей.Это обстоятельство определяет заинтересованность сторон в согласованной реализации тэтой стратегии р+ из (14.2), тоторая максимизирует суммарную полезность: те = Д1(р+) + д2(р+) = тах{^,(р) + д2(р): р ё (15.24; Задача оценки величины тг (15.24) эквивалентна линейной программе вида тг - и+ + г,+ — max{u + v: (и, v) € S}. (15.25) При этом решению одной из задач (15.24), (15.25) можно сопоставить решение другой из этих задач таким образом, что будут выполняться условия “+=Д1(Р+). в+ = рЛр+). Заметим, что в случае, тогда допустимое множество S представляет собой плоский многоугольник (как это имеет место в случае биматричиых игр), решение задачи (15.25) достигается в одной из иеулучшаемых вершин этого многоугольника. Те. максимальная возможная величина суммарной полезности тг может быть достигнута в чистых стратегиях. Исходя из реализуемости максимального значения из (15.22) и руюводствуясь основными идеями схемы Нэша, перейдем к вопросу об 201
Стронгин Р.Г. Исследование операций и модели экономического поведения оценке сделки (u+, v+), которую будут готовы согласовать стороны Рх и Р2 с учетом побочных платежей. При этом будем полагать, что и+ + Т+ = 7Г (15.26) н передача полезностей от одной стороны к другой характеризуется побочными платежами 7Г1 — U4- — U+, 7Г2 — t’-|- — . (15.27) Первый из них соответствует части выигрыша, которую получает (или передает) сторона Р1э а второй указывает аналогичную величину для стороны Р2. Отметим, что согласно (15.25)-(15.27), яд 4- тгг = О.При этих предположениях стороны могут согласовать любую сделку из множества S+ — {(u, v) Е R2: и + v < тг, и > и*, v > v*}, (15.28) которое заведомо ие пусто. В силу простоты треугольного множества s+, сделка (и+ + v+) = ^(5_|_, u*,if*), (15.29) удовлетворяющая аксиомам Нэша, может быть определена как решение системы двух уравнений 4- v+ = тг, и+ — и* = г’+ — V*. Отсюда и+ = [ж- + («• - в*)], v+ = | [т - (и* - V*)], (15.30) что позволяет оценить также побочные платежи из (15.27). Пример 3.2. Вернемся к задаче о строительстве с долевым участием (см. лекцию 11) и введем новые платежные функции сторон, 202
Стронгин Р.Г. Исследование операций и модели экономического поведения представленные в табл. 3.2. Пары чистых стратегий ( i=l, j=l ) н ( i=2, j=2 ), соответствующие двум возможным районам строительства гостиничного комплекса с долевым участием, по-прежнему обладают свойствами устойчивости и эффективности. Одиако, как мы уже указывали, при этом иет механизма выбора конкретной пары. Матрицы отражают также, что в случае отказа от строительства комплекса стороны используют свои средства для развития системы предприятий обслуживания. При этом сторона несет убытки, если она развивает предприятия в "своем" (достаточно насыщенном услугами) районе Р1. Таблица 3.2. ч °=П Допустимое множество S для рассматриваемой задачи представлено на рис. 3.9. Рис. 3.9. 203
Стронгин Р.Г. Исследование операций и модели экономического поведения Точка (и*, г1*) = (2^, 1у), оцененная в соответствии с выражениями (14.7), (14.10) и (11.10), также отмечена на рис, 3.9. Дележ (и°,г>°) = ^(S,u*,v*) = (155/48,170/48), удовлетворяющей аксиомам Нэша в задаче без побочных платежей, определен с помощью приема нз замечания 3.3 этой лекции (отмечен на рисунке). Этот дележ реализуем рулетюй вида = (11/48,0,0,37/48). Далее, (u+, v+) = (3, 4), тг = 7 н, согласно (15.30), (u+,v+) = (91/24,77/24). Те. (в случае договоренности) стороны согласованно реализуют пару чистых стратегий ( i=2, j =2 ), и затем вторая сторона выплачивает первой стороне часть своего выигрыша, юторой соответствует полезность 7Г1 = 19/24. 204
Стронгин Р.Г. Исследование операций и модели экономического поведения Использование угроз при формировании сделки Мрозы в сделках с побочными платежами. Оптимальные угрозы в задаче с побочными платежами. Мрозы в задаче без побочных платежей. Угрозы в сделках с побочными платежами Продолжим обсуждение последнего примера. Введение механизма побочных платежей привело к тому что выигрыш v+ второй стороны в сделке (15.29) с побочными платежами оказывается меньше, чем ее выигрыш в сделке (14.18) без побочных платежей (ср. расположение точек (u+,v+) и (i/°,v°) на рис, 3.9). Выигрыш первой стороны, однако, увеличился («+ > и°). В таыэй ситуации вторая сторона могла бы настаивать на том, что она согласует лишь такую сделку (u+,v+) с побочными платежами, при которой от введения побочных платежей выигрывают обе стороны, т.е. выполняются условия > ix°, и+ > г>°. Принятие этих условий обеими сторонами означает, что допустимыми вариантами становятся сделки из множества — {(u, v) G Л2: и + v < тт, и > v > v°}, (16.1) а не из множества (15.28). При этом дележ, удовлетворяющий аксиомам Нэша, определяется оператором (и+,г'+) = ^(S+,t/°,i>°). (16.2) Соответствующая точка отмечена на рис, 3.10 номером 1. Фактически, схемы (15.28), (15.29) и (16.1), (16.2) соответствуют разному поведению сторон при согласовании сделки. Основным аргументом каждой стороны, настаивающей на своем предложении, является отказ от сотрудничества. Таюй отказ, как уже отмечалось, 205
Стронгин Р.Г. Исследование операций и модели экономического поведения ограничивает гарантированные выигрыши сторон Р]_ и Р2 максимиииыми значениями и’ и v*, соответственно, из (14.7) и (14.10). Тем не менее, стороны могут пойти на эти (или даже большие) потери с тем, чтобы другая сторона также понесла потери и стала более сговорчивой. Таким образом, возможен стиль поведения, при ютором сторона Рх угрожает стороне Р2 отказом от юоперации и применением иеюторой (в общем случае смеивниой) стратегии х” Е Sm, если ее пожелания не будут учтены. Аналогично, сторона Р2 может объявить свою стратегию угрозы у” Е Sn. В рассматриваемом примере сторона Р2 может, например, настаивать иа строительстве комплекса в ее районе Р2, заявляя, что в любом случае она будет реализовывать свои средства толью в этом районе. Таюе поведение можно интерпретировать как объявление чистой стратегии угрозы j =2. Допустим, что сторона Р^. решила вести себя аналогично и объявила о применении чистой стратегии i=l в случае отказа строить юмплекс в ее районе Р1. В результате при отказе от юоперации выигрыши сторон будут определяться величинами u" = -1 и / = 1 (см. рис, 3.10). Т.е. в ситуации отказа от юоперации положение стороны Рх оказывается хуже, чем положение стороны Р2. Это неравенство позволяет стороне Р2 требовать большую долю при разделе максимальной общей полезности тг. Отметим, что ключевым моментом в проведенном рассмотрении является признание сторонами реалистичности угроз, т.е. их готовность иа самом деле использовать угрозы при отказе от сотрудничества, и отсутствие сомнений в том, что другая сторона поступит аналогично. При этих предположениях множество сделок, юторые могут согласовать стороны (с учетом возможности побочных платежей), есть S" — {(и, v) Е R2: и + v < тг, и > -и", v > vl>}. (16.3) Кроме того, дележ (и+?и+) — tp(S,f,1/*), (16.4) 206
Стронгин Р-Г. Исследование операций и модели экономического поведения удовлетворяющей аксиомам Нэпа, определяется выражениями и+ — — [тг + («" — и")] , Ъ’_|_ = — [тг (и" — т/')]. (16.5) Множество S" из (16.3) и точка («+,«+) = (2^,45) из (16.4) изображены иа рис. 3.10 (точка имеет номер 2). Рис. 3.10. Оптимальные угрозы в задаче с побочными платежами 207
Стронгин Р.Г. Исследование операций и модели экономического поведения Проведенное рассмотрение ведет к постановке вопроса об оптимальных стратегиях угрозы, которые максимизируют долю ( и + для ?! и v+ для Р2 ) общей ожидаемой полезности тг, гарантированно получаемую игроком в случае достижения соглашения. Как следует нз рнс. 3.10. повышение значения и” ведет к увеличению доли стороны в согласованном дележе. Аналогично, повышение значения v,z увеличивает долю стороны Р2. Однако стороны выбирают не уровни и", v>r, а стратегии угрозых" Е Sm, y"E.Sn, которым соответствуют значения «" = Л/1(У',1/"), v" = (16.6) определяемые в соответствии с выражениями (11.16), (11.17).Согласно (16.5) и (16.6), = | [тг 4- М(х",у”)], V+ = | [т - Л/(т", ?/")], (16.7) где М(ат. у) = — Mzfx, у) — хт (А — В)у. (16.8) Из (16.7) следует, что сторона Рг (прн выборе стратегии угрозы х” ) заинтересована в максимизации величины (16.8), а сторона Р2 (при выборе стратегии у" ) - в минимизации этой же величины. Таким образом, стратегия стороны рр обеспечивающая ей максимннное значение доли и+, совпадает с оптимальной стратегией первого игрока в антагонистической игре с матрицей A-В. Аналогично, вторая сторона может обеспечить максимннное значение своей доли v+ с помощью оптимальной стратегии второго игрока в той же игре с матрицей А-В.В рассматриваемом примере матрица 208
Стронгин Р.Г. Исследование операций и модели экономического поведения содержит седловое значение, которому соответствуют стратегии х" — (0,1) и у" — (0,1). Те. в обсуждаемой операции стороне Рх целесообразно принять предложение о строительстве комплекса во втором районе (вместо того, чтобы копировать неуступчивое поведение второй стороны). Прн этом множество (16.3) содержит единственную точкун (u+,i’+) = (,u+,u+) = (u", 1Л) = (3,4). (16.9) Этот вариант лучше для стороны Рх, чем дележ (tz-c»v+) — оцененный выше для стратегии х" = (1,0) .Рассмотрим еще одни тип поведения. Пусть сторона Рх планирует (в случае срыва соглашения) использование стратегии х* — (1/6,5/6), гарантирующей ожидаемый выигрыш и* = нз (14.7). Прн этом сторона Р2 объявила описанную выше стратегию угрозы у" — (0,1). Тогда, в случае срыва кооперации, выигрыши сторон составят пару «1/') = (16.Ю) которой соответствует точка, лежащая на левом верхнем ребре границы допустимого множества S (отмечена темным кружком на рнс, 3.10). Решение (16.10) менее выгодно для первой стороны, чем вариант (16.9), соответствующий оптимальным стратегиям угрозы х", у" . Кроме того, дележ (16.5) (отмечен точкой с номером 3 на рис, 3.10) прн уровнях «v") нз (16.10) также менее выгоден для первой стороны, чем дележ нз (16.9). Угрозы в задаче без побочных платежей Соображения о поведении, которое включает угрозы, рассмотренные выше, целесообразно учитывать н прн анализе сделок без побочных платежей. Отлнчие состоит в том, что без побочных платежей реализуемы лишь сделки нз допустимого множества S. 209
Стронгин Р.Г. Исследование операций и модели экономического поведения Отметим частный случай, для которого применимы полученные выше оценки оптимальных стратегий угрозы. Пусть содержащая эффективные (т.е. неулучшаемые) точки граница множества S лежит на прямой, описываемой уравнением u + v Примером такого рода является задача, представленная иа рис. 3.8. Кроме того, пусть все множество S находится под этой прямой в полосе между двумя нормалями к указанной границе, проходящими через концевые точки "паретовского" ребра. Пример, которому соответствует рис. 3.8. удовлетворяет и этому условию. Некоторая модификация этого примера, которая иллюстрируется матрицами нз табл, 3.3. представлена иа рис, 3.11. Рис. 3.11. При этом (u*,v'l = (4/7,2/3) и дележу из (14.18) соответствует пара (u°,v°) = (61/42,65/42), определяемая описанным выше графическим приемом и вычислимая (в силу свойств паретовского ребра границы множества S ) по формулам (15.30) при -д- = 3- Таблица 3.3. 210
Стронгин Р-Г. Исследование операций и модели экономического поведения Ч« vl' В-И Посюльку матрица л-в = |о л| содержит седловое значение, то оптимальные угрозы реализуемы в чистых стратегиях i" — 1, j" — 2. При этом (и",г/') = (—1,0) и, согласно (16.7), («+, v+) = (1 j, if)- В случае, когда описанные свойства множества S не имеют места, определение оптимальных стратегий угрозы является более сложным. 211
Стронгин Р.Г. Исследование операций и модели экономического поведения Выбор решений при неизвестных состояниях природы (игры с природой) Вероятностные модели выбора решений в условиях неопределенности. Прогнозирование и оценка состояний природы. Статистические игры. Принцип Байеса. Выбор простой гипотезы из юнечного множества гипотез Пример 4.1 (планирование посевов). Руководство сельскохозяйственного предприятия определяет вариант использования имеющихся посевных плопрдей (100 га), пригодных для выращивания двух типов зерновых культур. Урожайность этих культур и ожидаемые цены (за один центнер) при различных вариантах возможных погодных условий представлены в табл, 4.1. Таблица 4.1. Матрица Н Культуры: Матрица С Культуры: Лето: 1 2 Лето: 1 2 Суже 8 2 Суже 5 8 Нормальное 8 6 Дождливое 4 10 Урожайность (ц/га) Нормальное 5 6 Дождливое 6 4 Цены (тыс.руб./ц Данные о затратах иа проведение иеобждимых работ и о вероятной прибыли (также в зависимости от погодных условий предстоящего лета) содержатся в табл, 4.2. При этом прибыль ai;j, юторая ожидается от продажи урожая культуры j, выращенной в погодных условиях i, определяется (в расчете иа одни гектар посевной плоирди) выражением ац = djhij - Wij, 1 < i < 3, 1 < j < 2. Таблица 4.2. Матрица W Культуры: Матрица А Культуры: Лето: 1 2 Лето: 1 2 Суже 6 8 Суже 34 8 Нормальное 4 3 Нормальное 36 33 212
Стронгин Р.Г. Исследование операций и модели экономического поведения Дождливое 4 3 Дождливое 20 37 Затраты (тыс.руб./га) Прибыль (тыс.руб./ц Примем, что предприятие может одновременно засеять обе культуры, используя для первой из них часть площадей, задаваемую долей х (0<;г<1), а для второй - оставшуюся часть площадей, определяемую долей 1-х. Тоща ожидаемая прибыль от продажи урожая обеих культур (в расчете на один гектар используемой посевной площади) составит (как функция параметра х и погодных условий) величину Ь’(«,х) = — aja)+а»2. 1 < i < 3, 0 < х < 1. При этом, в соответствии со значениями коэффициентов матрицы А из табл, 4.2. Ь’(1,х) = 26^ + 8, (17.1) Е(2,х) = Зл-+ 33, (17.2) £’(3,z) = -17z + 37. (17.3) Зависимости (17.1)-(17.3) представлены на рис, 4.1. 213
Стронгин Р-Г. Исследование операций и модели экономического поведения Рис. 4.1. Приняв некоторый план использования посевных площадей, определяемый параметром х, 0 < х < 1, предприятие гарантирует себе ожидаемую (уцельиую) прибыль Е(х) = min{£(«,j;): 1 <г < 3}, (17.4) которой соответствует (выделенная на рис, 4.1 толстыми линиями) иижияя огибаюиря семейства кривых (17.1)-(17.3). Согласно рисунку стратегия х’, максимнзируюиря уцельиую прибыль (17.4), является решением уравнения Е(1,х)=Е(3, х). При этом х*=29/43 и Л'(х*) са 25,53. Те. ожидаемая прибыль, соответствуюиря минимаксной стратегиих*, составляет (для всей посевной площади) не менее 25, 53 тыс. руб. Напомним, что рассмотренный пример относится к задачам вида (1.17), в которых есть лишь одна сторона, являюиряся носителем интересов. Трудности выбора решений в таких задачах связаны с тем, что исжд 214
Стронгин Р.Г. Исследование операций и модели экономического поведения операции зависит от некоторых неконтролируемых параметров, знамения которых влияют иа исход операции, но ие известны оперирующей стороне. Эти параметры (их роль в рассмотренном выше примере играли неизвестные погодные условия) обычно называют состояниями природы. В связи с этим, обсуждаемый класс задан принятия решений в условиях неопределенности определяют также как игры с природой. При этом следует иметь в виду что в любой конкретной операции природа ие является носителем чьих-либо интересов. Это обстоятельство открывает определенные возможности для прогнозирования неизвестных состояний природы (заметим, такие возможности обычно не могут быть использованы для прогнозирования действий сторон, имеющих свои интересы в операции). Вероятностные модели прогнозирования и оценки состояний природы (модели с испытаниями)} Рассмотренная выше задана является примером операции с единственной оперирующей стороной. В связи с этим, выбор решения ие осложняется конфликтом интересов. Основная трудность выбора в таких условиях связана с влиянием на исход операции неизвестного состояния природы л, что интерпретируется как наличие неопределенности. В связи с этим, в таких операциях обычно оцениваются ие выигрыши оперирующей стороны, а ее потери а) вызываемые принятием решения а в ситуации, когда природа находится в состоянии &. Подобные задачи часто интерпретируются как антагонистические игры с природой, в которых единственная реально имеющая интересы оперирующая сторона (называемая статистиком ) рассматривается как второй игрок (см. замечание 1.3 в лекции 1). В дальнейшем мы ограничимся случаем, когда множество возможных состояний природы П и множество возможных решений статистика А являются конечными, т.е. Q = (1.. .и»...m}, А = {1... а .. .«}. (17.5) При этом будем полагать, что состояния природы и; могут быть 215
Стронгин Р-Г. Исследование операций и модели экономического поведения охарактеризованы вероятностями их наступления £(uo), о? £ Q. Это важное допущение позволяет накапливать информацию о состояниях природы с помощью наблюдений, иа основании которых оцениваются распределения 4 = «(!)...4(m)) es = sm, (17.6) W S» из (11.15)1>. Помимо распределений (17.6), позволяющих прогнозировать неизвестное состояние природы иа основании результатов (длительных) наблюдений, оценка текущего состояния может осуществляться с помощью экспериментов. Пример 4.2 (диагностика туберкулеза) Органы здравоохранения проводят обследование населения некоторой территории с целью выявления и последующего лечения больных туберкулезом^. В отношении каждого обследуемого принимается решение, следует ли ему пройти курс лечения (а=2) или он не нуждается в таком лечении (а=1)? Это очевидным образом предполагает два состояния, в которых может находиться пациент^ "здоров" (и; = 1) и "болен" = 2). Одной из типичных форм обследования, широко применяемых для раннего выявления туберкулеза (например, у детей), является использование пробы Манту^ (для лиц старше 12 лет обычно используется флюорография). Эксперименты такого рода, целью которых является установление состояния природы, мы будем называть испытаниями. Каждой схеме испытаний можно сопоставить множество Z возможных исходов z, которое мы будем полагать конечным, т.е. Z = {^...2Ar}. (17.7) Заметим, что, в случае пробы Манту каждый исход представляет собой (измеренную с помощью линейки) ширину инфильтрата. При этом, хотя и нет однозначной связи между шириной инфильтрата и наличием 216
Стронгин Р.Г. Исследование операций и модели экономического поведения заболевания, тем не менее существует достаточно выраженная статистическая связь, которая может быть охарактеризована следующим образом. Введем функции px(z) и p2(z), соответствующие вероятностям появления инфильтрата с показателем z € Z У лиц, не имеющих заболевания (функция рх ), н у лиц, имеющих заболевание (функция р2 ). Эти функции определяются свойствами пробы Манту н могут быть установлены на основании анализа статистики испытании для пациентов с заранее известным диагнозом. Допустим, что графики этих функций подобны кривым, представленным на рнс. 4.2. В таком случае большая ширина инфильтрата действительно типична для лиц, пораженных заболеванием. Этим определяется практическая применимость пробы Манту хотя не исключаются н ошибки из-за острой аллергической реакции у некоторых здоровых люден или вялой реакции у некоторых больных Примем также, что на обследуемой территории длительное время ведется сбор статистики заболеваний. Наличие такой статистики позволяет интерпретировать долю населения, пораженную 217
Стронгин Р.Г. Исследование операций и модели экономического поведения туберкулезом, как вероятность соответствующего состояния природы. Разумеется, что использование подобных оценок для целей прогнозирования имеет смысл лишь в случае, если указанные выборочные частоты стационарны (т.е. не имеют тенденции к быстрым изменениям)^. Согласно сделанным предположениям, вероятность того, что реакция Манту даст результат z , описывается величиной Р(-=) =Р1(г)?(1)+Рг(г)?(2), г 6 Z. При этом вероятности того, что пациент, реакция которого характеризуется исходом z, является (соответственно) здоровым или больным, описываются выражениями р(-) Таким образом, в общем случае, которому соответствуют множества (17.5), введение испытаний, характеризуемых исходами из (17.7) и распределениями p^(z) € SN,z G Z, uj G П. (17.8) позволяет пересчитать априорное распределение вероятностен для состояний природы (т.е. распределение, имевшее место до проведения испытания) в апостериорное распределение: 4= = (£(l/x)...£(m/z))<=S, (17.9) еиг) = Ц^,(17.ю) р(г) Р(г) = P1W4(1) + ...+pm(x){(m). (17.11) Замечание 4.1 (об однократном и многократном проведении испытаний). В рассмотренном примере результат (исход) каждого испытания представлял собой число. В общем случае он может быть и более сложным объектом (например, вектором или графическим 218
Стронгин Р.Г. Исследование операций и модели экономического поведения образом). Однанэ в любом случае мы полагаем, что после реализации выборки (т.е. проведения испытания) результат z доступен "целиыэм" и не подлежит каюму-либо уточнению. О таких испытаниях говорят, что они характеризуются фиксированным объемом выборки. Альтернативный вариант состоит в том, что (в целях экономии средств) эксперименты проводятся сначала на части образцов. Затем иа основании анализа полученных результатов принимается либо онэичательиое решение о Е .4, либо решение о продолжении экспериментов на оставшейся части образцов (таких стадий в осуществлении испытаний может быть иеснэльнэ). В этих случаях говорят об испытаниях с последовательными выборками. Обсуждение их мы отложим до заключительной части следующей лекции. Статистические игры В рассмотренных операциях с испытаниями правило выбора решения а 6 А (в зависимости от исхода испытания z 6 Z ) можно описать как некоторую функцию а = d(z), а^А, ZtZ. (17.12) Эту функцию называют стратегией статистика или решающей функцией. Класс всех решающих функций будем обозначать символом □.Функция (17.12) сопоставляет каждому решению q Е.4 ненэторое подмножество Qa С Z исходов испытаний, порождающих это решение, т.е. Qa = {* ё Z: d(z) = а}, а 6 А. (17.13) Множества Qa из (17.13), соответствующие разным решениям а, не пересекаются друг с другом. При этом их объединение совпадает с множеством всех исходов из (17.7). Те. любая решающая функция d 6 D порождает разбиение множества исходов Z на подмножества Qa из (17.13) и, следовательно, может быть нэиструктивио задана таким разбиением. 219
Стронгин Р.Г. Исследование операций и модели экономического поведения Пусть задано априорное распределение вероятностей £ для состояний природы из (17.6) и семейство функций из (17.8), характеризующих используемую статистическую схему проведения испытаний с фиксированным объемом выборки. Тогда математическое ожидание потерь статистика, реализующего стратегию d 6 D, определяется выражением p(4,d) = 52 (17.14) кэторое, согласно (17.9)-(17.11), может быть представлено также в виде ₽(c.d) = (17.15) Ptfe.d) = 52 (17.16) При этом математическое ожидание (17.14), соответствующее априорному распределению £ , называется функцией априорного риска (или априорным рискам ), а математическое ожидание (17,16), соответствующее апостериорному распределению , - функцией апостериорного риска (или апостериорным рискам ). Заметим, что введенная оценка эффективности стратегий с помощью математического ожидания потерь возвралрет нас к уже использованному ранее приему усреднения полезностей (см. обсуждение в лекции 7.Построеииая модель p(£,d), £ (ЕЕ, d € D, (17.17) в кэторой возможные стратегии статистика, описываемые решающими функциями d 6 D из (17.12), характеризуются априорным рискам p(£,d) из (17.14), зависящим от распределения £ 6 Е из (17.16) для состояний природы^ 6 П из (17.5), называется статистическэй игрой. При этом априорное распределение £ иногда интерпретируется как смешанная стратегия природы. 220
Исследование операций и модели экономического поведения Стронгин Р-Г. Принцип Байеса При заданном априорном распределении £ любая стратегия d Е D статистика характеризуется ожидаемыми потерями p(£,d) из (17.14). Это позволяет рассмотреть задачу выбора стратегии d$, минимизирующей риск при заданном распределении ч , т.е. р(£, d?) = min{/j(£, d): de £>}. (17.18) Стратегия d$ из (17.18) называется байесовской решающей функцией (относительно заданного априорного распределения £ ), а соответствующий ей риск = (17.19) - байесовским риском Из (17.15), (17.18) выводим, что />(?•<*{) =1тп^2р(г)Х£з,</) = е sez = 52 = sez = y^p(^)min L(cu, a)£(iu/.z). =eZ “\t!i Следовательно, байесовское решение az, соответствующее конкретному исходу испытания z, может быть получено из условия: а. = d{(«) = argmin{p(^3,a): а Е А}, (17.20) где /э(£-,а) есть апостериорный риск, соответствующий решению а при исходе испытания z.Поскольку множества Q и А являются конечными, то условие (17.20) может быть представлено системой неравенств 221
которую, учитывая (17.10), можно привести к виду: £ -,-еп *€ii а е А, (17 21) уцобному для определения решения az при заданных априорном распределении £ и исходе испытания z. Заметим, что приведение условий (17.20) к виду (17.21) с использованием соотношения (17.10) предполагает положительность значения р (z) из (17.11). В случае исходов z, вероятность реализации юторых является нулевой, в качестве байесовсюго значения az может быть использовано любое решение а Е А Потери от таюго решения не дают вклада в функцию риска-см. (17.11) и (17.14). Выбор простой гипотезы из конечного множества гипотез} Пусть функция потерь, соответствующая множествам П н А нз (17.5) прн m=n, имеет вид: £(<щ, а) = w, и / a, а) = 0, и = a, j Е П, а Е А, (17 где величина w является положительной. Замечание 4.2 о простых гипотезах ). Согласно (17.22), решение статистика влечет потери лишь в случае, если его номер во множестве А отличается от номера текущего состояния природы ex’. В связи с этим рассматриваемая операция может интерпретироваться как задача определения текущего состояния природы. Напомним, что статистик принимает решение после наблкщення исхода z неюторого испытания, модель юторого задается набором распределений (17.8). Поэтому выбор юнкретного значения а Е А 222
Стронгин Р.Г. Исследование операций и модели экономического поведения может также интерпретироваться и как заключение о том, что полученный исход z порожден распределением pa(z). Таким образом, при функции потерь вида (17.22) выбор решения, фактически, состоит в принятии гипотезы о том, какое именно распределение вероятностей из набора (17.8) определило реализацию исхода z. Далее, поскольку любое предположение относительно распределения вероятностей наблюдаемой случайной величины называется статистической гипотезой, то можно также говорить о том, что рассматриваемая операция представляет собой задачу принятия статистической гипотезы (относительно распределения вероятностей из (17,8) для наблюдаемой случайной величины z ). Отметим также, что в рассматриваемом случае любое решение а £ Л полностью определяет соответствующее распределение вероятностей pa(z) из (17.8). Статистические гипотезы, обладающие таким свойством, называются простыми. Следовательно, функция потерь вида (17.22) определяет задачу выбора простой статистической гипотезы из множества простых гипотез. Согласно (17.21) и (17.22), байесовское решение т — а: для рассматриваемой задачи может быть описано неравенствами: Рг(г)€(г) >Pa(iW), А (17.23) Отсюда вытекает, что минимальный риск соответствует гипотезе с номером т — аг> имеющей максимальную вероятность Р(г,г) = = тах{ра(г)£(а): а е А} реализации совместно с исходом z. В рассматриваемых задачах, длительное время развивавшижя вие связи с возникшим позднее общим представлением об операции, обычно используются свои (исторически сложившиеся) термины и обозначения. Туберкулез относится к числу старейших известных заболеваний. В четырех египетских мумиях (относимых к XXVII веку' до новой эры) обнаружены туберкулезные повреждения позвоночника. В начале XX века (только в Европе) туберкулез был причиной смерти около одного 223
Стронгин Р.Г. Исследование операций и модели экономического поведения миллиона человек (ежегодно). Микробактерня туберкулеза (палочка Коха) открыта в 1882 году: Заболевание по наследству не передается. 3) Выбор нумерации решений (а) и состояний природы (и;) определяется соображениями, которые будут рассмотрены позднее. 4) Реакция Манту - аллергическая диагностическая проба с внутрикожным введением туберкулина. Вздутие кожи (инфильтрат), наблюдаемое через 72 часа и имеющее размер более 5 мм, считается положительной реакцией. Предложена французским ученым Шарлем Манту в 1908 году Случай принятия решений в отсутствие танэй статистики будет рассмотрен в следующей лекции, 6) Байес Томас (1702-1761) - английский исследователь в области теории вероятностей, член Королевского общества (1742). Принцип выбора, называемый его именем, не упоминается в опубликованных работах ТБайеса - см., например, работы Майстрова Л.Е.: (1) Теория вероятностей. Исторический очерк. М.: Наука, 1967; (2) Развитие понятия вероятности. М.: Наука, 1980. 224
Стронгин Р.Г. Исследование операций и модели экономического поведения Проверка простой гипотезы относительно простой альтернативы Байесовское решение как проверка по отношению правдоподобия. Значимость и мощность критерия. Функция байесовского риска. Байесовское решение как проверка по отношению правдоподобия Рассмотрим статистическую игру (17.17) при m=n=2. Примером операции такого рода является обсуждавшаяся в предыдущей лекции задача диагностики туберкулеза. Будем использовать эту задачу для иллюстрации основных положений, вводимых ниже. Примем, что функция потерь £-(сд, а) включает лишь затраты, вызываемые ошибками при постановке диагноза. При этом потери L (1,2), связанные с ошибочным направлением на лечение здорового человека, примем за единицу потерь. Тогда Х(1,1) = £(2,2) —0, £(1,2) = 1, £(2,1) = w, (18.1) где w>0 есть (выраженные в указанных выше единицах) потери от постановки ошибочного диагноза лицу пораженному заболеванием. Заметим, что прн сделанных предположениях функция L(iV,a) полностью определяется заданием единственного числа w>0. В соответствии с замечанием о простых гипотезах (см. лекцию 17). любая статистическая игра с функцией потерь вида (18.1) может интерпретироваться как выбор одной из двух простых гипотез. При этом остающаяся альтернатива также соответствует простой гипотезе. Отметим, что два типа ошибок статистика, возможных в обсуждавшейся задаче диагностики туберкулеза, вообще говоря, не являются одинаковыми по сопровождающим их потерям. Случай, клда обследование не выявило факт заболевания, следствием чего буцет позднее начало лечения запущенной формы болезни, должен рассматриваться как более серьезная ошибка, чем направление 225
Стронгин Р-Г. Исследование операций и модели экономического поведения здорового человека для прохождения курса лечения^. В задачах выбора решений, для которых характерно указанное различие последствий, вызываемых ошибками, более серьезную ошибку, ведущую к большим потерям, принято называть ошибкой первого рода. Вторая возможная ошибка называется ошибкой второго рода. Указанное различие в классификации ошибок ведет к соответствующему различению двух рассматриваемых гипотез. Если отвержение гипотезы, являющейся истинной, ведет к ошибке первого рода, то ее называют испытуемой гипотезой или иуль-гипотезой. В рассматриваемом примере диагностики туберкулеза такой гипотезой является наличие заболевания (т.е. факт порождения исхода испытания z t Z случайной величиной с распределением р2 (z) ). Матрица потерь, соответствующая функции (18,1), и введенные наименования для состояний природы, действий статистика и ошибок представлены в табл, 4.3. Введем обозначение £ = £(1) для априорной вероятности первого состояния природы, т.е. примем, что ? = (Gl- С), 0<С<1, (18.2) и определим условия, при выполнении которых решение а=1, соответствующее отвержению иуль-гипотезы, буцет байесовским. Согласно (17.21), эти условия состоят в выполнении неравенства Z( 1,1 )Р1 (.-X(1) + Z(2,1 )р2(~Х(2) < L(l, 2)Р1И<(1) + L(2,2)р2(г){(2), которое, учитывая (18.1) и (18.2), может быть представлено в виде шр2(г)(1 - С) <Р1(г)< ИЛИ < c(w,Q = С (18.3) Pl(z) и>(1 - <) ____________________________ТлАпипл Л Ч 226
Исследование операций и модели экономического поведения Стронгин Р-Г. Матрица потерь Состояния природы: Нуль гипотеза Не верна (^ — 1) } Решения статистика: Нуль-гипотезу Отвергнуть ( а=1) Принять ( а=2 ) Верна (cl? = 2) Ошибки нет L(1,1)=0 Ошибка 1 рода L(2,l)=w Ошибка 2 рода L(1,2)=1 Ошибки нет L(2,2)=0 Условие (18,3) выделяет точки z € Z > которым сопоставляется решение az-l, определяемое байесовской решающей функцией . При этом az=2, если для соответствующего значения z условие (18,3) не выполняется. Следовательно, байесовская стратегия df может быть задана разбиением множества исждов Z из (17.7) иа подмножества и Q2 из (17.3), где Qi = {z 6 Z: < c(w, <)}, (18.4) <32 = {2eZ:^>C(“’<)}’ и c(w, С) из (18.3). Определение 4.1 ( критической области критерия). Для именования стратегий (или реииющих функций) статистика используется также и более старый термин статистический критерий (или просто критерий). При этом множество исходов z £ Z, наблюдение которых ведет к отвержению иупь-гипотезы в соответствии с некоторым критерием d С D , называется критической областью этого критерия Заметим, что в силу принятого условия п®2, разбиение множества исходов Z на подмножества из (17.13) содержит лишь два элемента Qi и Q2, т.е. Z=(5iUQ2. (18.5) 227
Стронгин Р.Г. Исследование операций и модели экономического поведения Следовательно, критическая область Qi С Z полностью определяет соответствующий критерий d Е D В дальнейшем для выделения критических областей, соответствующих байесовским критериям d$, £ Е S?, будем обозначать определяющие их критические области из (18.3) символом Q<^ , где С из (18.2). Замечание 4.3. (о проверках по отношению правдоподобия). Отношение вероятностей p2(z) и рх (г) из левой части правила (18.3) называют отношением правдоподобия, постольку сами эти вероятности, характеризующие частоты исходов испытаний, первоначально именовались функциями правдоподобия. Поэтому правила выбора решений, основанные на условиях типа (18.3), получили название проверок по отношению правдоподобия. Идея использования отношений правдоподобия для выбора простой гипотезы (при простой альтернативе) путем сравнения этого отношения с некоторой положительной константой с возникла независимо от концепции байесовских решений, минимизирующих ожидаемые потери. В ее основе лежит простое соображение, согласно которому при р2(z)/рх(z)<1 более правдоподобно, что истод z Е Z соответствует случайной величине с распределением рх (z). При этом, учитывая разный характер последствий, связанных с различными ошибочными решениями, а также (обычно имеющееся) различие частот появления состояний «; = 1 и = 2, значение константы сравнения с могло быть выбрано отличным от 1. Таким образом, байесовский критерий , задаваемый критической областью Qc из (18.4), относится к классу проверок по отношению правдоподобия. При этом рассмотренный байесовский подюд позволяет дать содержательную интерпретацию значений константы Постольку при любой функции потерь вида (18.1) значение величины с — c(w, С) из (18.3) пробегает весь диапазон 0 < с < оо при 228
Стронгин Р.Г. Исследование операций и модели экономического поведения изменении вероятности С от нулевого до единичного значений, то класс всех проверок по отношению правдоподобия совпадает с классом всех байесовских критериев , £ € Е — S?. Значимость и мощность критерия Рассмотрим некоторый критерий d С D, заданный критической областью Qi С Z. Ошибки первого рода, порождаемые этим критерием, соответствуют отвержению правильной нуль-гипотезы. Следовательно, такие ошибки происходят при попадании выборочной точки z, являющейся реализацией случайной величины с распределением p2(z), в критическую область (см. табл, 4.3). Вероятность таких ошибок а = Е (18.6) =€Qi называется значимостью (или уровнем значимости критериям Ошибка второго рода соответствует выборочным точкам z, порожденным случайной величиной с распределением pj(z) и попадающим в дополиеииекритической области, т.е. во множество Q2 из (18.5). Поэтому вероятность таких ошибок есть /3= Е (18.7) При этом величина 1 - 0 = Ерь<г> - Е = Е (18.8) ?€Q2 =eQi характеризуюиця вероятность отвержения неверной испытуемой гипотезы, называется мощностью критерия. 229
Отметим, что величины (18.06) и (18.8), характеризующие (соответственно) значимость и мощность критерия, определяются суммированием распределений р2 (z) и рг (z) по одной и той же критический области Qx. Это обстоятельство ограничивает возможность формирования критичесюй области, обеспечивающей одновременно высокую (т.е. близкую к нулевому значению) значимость критерия и высокую (т.е. близкую к единичному значению) мощность критерия. В качестве иллюстрации на рис, 4.3 приведены функции правдоподобия Pl (z), р2 (z) и соответствующие им кривые мощности 1 — /?(г) и значимости q(z) для случая JV = 17- Параметр z задает критическую область Qi = {«eZ:u< г}, (18.9) по которой осуществляется суммирование в (18.6) и (18.8). На рисунке отмечена точка z, которой соответствует единичное значение 230
Стронгин Р-Г. Исследование операций и модели экономического поведения отношения правдоподобия, н указана область нз (18.9), определяемая этой точной. Функция байесовского риска Введем обозначение ст для возможных в модели испытаний (17.7), (17.8) значений отношения правдоподобия: с2 = Р2^, 1 < i < N. (18.10) Pi Дополним этн значения величинами со = O,cjv+i = оо (18.11) н условимся, что нумерация чисел (18.10), (18.11) выполнена в порядке возрастания их значении, т.е. Ci<c1+i, 0 < i < N. (18.12) Постольку прн такой нумерации нз включения с Е [e»,Ci-n) вытекает выполнение неравенств то проверке по отношению правдоподобия с константой сравнения с соответствует критическая областьС^ (1), содержался первые i исходов нз множества (17.7). Те. (УО<г < N) се [c.sci+i) -> Qi(i) = {zi... z,-}. (18.13) Таким образом, класс всех проверок по отношению правдоподобия (и, следовательно, класс всех байесовских решающих функций) определяется набором, содержащим N+1 критическую область: <31(0) = 0... Qi(i) = (2! ... Zi} ...<Э1(ЛГ) = Z. (18.14) 231
Стронгин Р.Г. Исследование операций и модели экономического поведения Теперь для конкретного значения w, определяющего функцию потерь нз (18.1), вычислим вероятности Ci нз (18.2), прн которых величина с(Сй w) из (18.3) совпадает с числом нз (18.10), т.е. Cj = с(С*, w) = ш(1 - С)' Отсюда WC; 0 = ту—-------V о < i < N +• 1, (18.15) (1 + WCi) v 2 причем, в силу (18.11), (18.12), 0<£<ЛГ, Со = 0, Cjv+1 = 1. (18.16) Таким образом, интервал [0,1) возможных значений априорной вероятности С= £(1) появления первого состояния природы разбивается значениями из набора (18.15), (18.16) иа N+1 подынтервал [Ci,Ci+i)> О < i < . При этом из включения C^[CisC«+i) вытекает справедливость неравенств а < c(c,w) < с;+1, и, следовательно, критическая область Qc байесовского критерия d$ совпадает с критической областьюй: (i) из (18.13), т.е. (vce [Ci,Ci+i)J Qc = Qi(i) = Oi -. Согласно (18.1), потери статистика происходят лишь в случае ошибочных решений. Следовательно, математическое ожидание потерь, соответствующих критерию d, характеризуемому критической областной! и вероятностями ошибок (18.6), (18.7), определяется величиной p(t-.d) =L(1,2)C3 + L(2,l)(l-C)a, (18.18) 232
Стронгин Р.Г. Исследование операций и модели экономического поведения где С из (18.2).Согласио (18.6) и (18.7), критической области (18.17) соответствуют вероятности ошибок первого и второго рода, представляющие собой следующие суммы: = »(•£!) + + Р2(*>), (18.19) Pi = Pl (-1,1) + ... + Pi (zn)- (18.20) Теперь из (18.18)-(18.20) следует, что величина Р(С) = pt&df} =i(0i ~ + won, С g [<;, C1+0, (18.21) соответствует ожидаемым потерям для байесовского критерия.Согласно (18.21), байесовский риск р(£) является кусочно-лииейиой функцией параметра £, поскольку значения коэффициентов оч и $г из (18.19) и (18.20) остаются неизменными при вариации С в подынтервале фб [£»» 0+1)- Непосредственной проверкой можно убедиться, что функция р(£) является непрерывной, поскольку линейные дуги (18.21) пересекаются в точках £а , 1 < i < N . Действительно, положим Ci()3i-L — Wa,'-!.) -Ь = £(Д — WOti) -Ь WOfi и подставим в это выражение значения вероятностей ошибок из (18.19), (18.20). В результате получим равенство _ wp2(.s,) pi(z.) + шр2(;;)’ совпадающее, согласно (18.10), с определением (18.15)Д Отметим также, что из (18.14) и (18.19)-(18.21) можно получить оценки р(0) = р(1) = 0. (18.22) Продолжим изучение свойств байесовского риска. Лемма 4.1 (о вогнутости инфимума семейства вогнутых функций). Пусть 233
Стронгин Р-Г. функции <^>i (х), 1(^1, определенные на выпуклом множествеХ, вогнуты поха этом множестве. Тогда нижняя огибающая этого семейства v’t-r) = X ex, (18.23) также вогнута на множествеХ, если она является юнечной^.Доказательство. Пусть xj н х2 есть Две произвольные точки нз множества X н точка х = ^xi 4- (1 — т)хз, 0 < 7 < 1, (18.23) есть нх выпуклая юмбннацня, принадлежащая множеству X в силу его выпуклости. Согласно условиям леммы и определению (18.23), для любого t G 1' справедливо, что = ^(7^1 4- (1 - 7)^2) > T'A(zi) 4- (1 - 7)^(а:2) > > + (1 Поскольку неравенства (18.24) верны при любом значении t 6 Т, то они должны быть справедливы и для функции (х). Следовательно, ^(т) = + (1 - T)z2) > + (1 - где хь Х2 € X и г 0 < 7 < 1. Следствие 4.1. Функция байесовского риска /?(С) вогнута по С на интервале [0,1]. Доказательство В соответствии с определением (17.18), (17.19) и учитывая (18.21) н возможность задания любого байесовского критерия критической областью (18.17) нз юнечного набора (18.14), получаем, что р(С)=min{p(£,d) • d € £*} — min{£(ji3i — wj+w,: 0<z<;\'}. (li 234
Стронгин Р-Г. Постольку линейные функции из правой части (18.25) являются вогнутыми, то в соответствии с утверждением леммы их иижняя огибающая также должна быть вогнутой. Пример 4.3. Второй и третий столбцы табл. 4.4 представляют значения функций правдоподобия для иетоторой схемы испытаний с четырьмя возможными истодами. При этом истоды занумерованы в соответствии с правилами (18.10)-(18.12) (см. четвертый столбец таблицы). Для заданного значения w=l, 5 таблица содержит также граничные точки подынтервалов из (18.15), (18.16), вероятности ошибок первого и второго рода из (18.19), (18.20) и выражения для функций р»«) — — woti) + wot;, С G [0,1]» (18.26) совпадающих с байесовским ристом в соответствующих подынтервалах [G.C.+1). о < i < 4. Таблица 4.4. iPl<zi) P2<zi’ =i С. “• /3. pi(z) 0- - 0 0 0 1 £ 1 0,675 0,05 0,074 0,1 0,05 0,325 ода -I- 0,075 2 0,059 0,016 0,285 0,3 0,066 0,266 QД66< +- 0,1 3 1,133 0,134 1 0,6 0,2 0,133 -0Д66С +0,3 4 0,133 0,8 6 0,9 1 0 -1,5<Ч-1,5 Представленная иа рис. 4.4 функция /?(С) из (18.21), соответствуюиря данным из табл. 4.4. иллюстрирует рассмотренные выше свойства байесовстого риска. 235
Рис. 4.4. Определение 4.2 (наименее выгодного распределения). Априорное распределение 4° нз (18.2), при котором функция байесовского риска достигает максимального значения = тах{р(С): 0 < < < 1} (18.27) где С — £(1), называется наименее выгодным распределением вероятностей для состояний природы. Заметим, что точка является внутренней точкой интервала (0,1) и совпадает с одной из точек С > 1 < i < , поскольку функция р(С) является вогнутой и имеет, согласно (18.22), нулевые значения на концах интервала [0,1] ; см. рис, 4.4, Заметим, что такое направление предполагает более подробное обследование, предшествующее лечению. Затраты на это обследование и ущерб от временного прерывания нормальной жизнедеятельности пкцнента (не нуждавшегося в лечении) составляют содержание потерь, вызываемых обсуждаемым ошибочным диагнозом. 2) Ниже мы установим, что функция р(£) является вогнутой, из чего 236
Стронгин Р.Г. Исследование операций и модели экономического поведения автоматически следует ее непрерывность. Тем не менее, небольшое упражнение по непосредственной проверке непрерывности риска р(С) представляется уместным с методнчесюй точки зрения. 3) Заметим, что рнс. 4.1 демонстрирует семейство из трех вогнутых (линейных) функций, определенных на выпуклом (отрезок [0,1] ) множестве н имеющих вогнутую нижнюю огибающую. 237
Стронгин Р.Г. Исследование операций и модели экономического поведения Минимаксные критерии для задач с неизвестным априорным распределением Минимаксный критерий в задаче проверки простой гипотезы относительно простой альтернативы. Проверка по отношению правдоподобия в случае трех решений. Рассмотрим случай, тогда статистик руководствуется оценкой априорного распределения (17.6), задаваемой вероятностью Q' из некоторого подынтервала [£i,G+i)- Если ПРИ этом истинному распределению соответствует значение Q” из того же подиитервала т0 ожидаемые потери pi(£")> определяемые функцией (18.26), совпадают с байесовским рисюм, постольку значениям £ и Q" соответствует одна и та же критическая область Qx (i) из(18.17). Возможно, однако, что истинное значение С," вероятности появления первого состояния природы принадлежит другому интервалу [С?, С?+1) , j 7^ i . Тогда байесовсюму критерию относительно этого распределения соответствует другая критическая область Qx(j) из (18.17) и, следовательно, байесовский риск p(t?1) определяется выражением (18.21) при других вероятностях ошибок первого и второго рода. Поэтому может случиться, что ожидаемые потери Pt(<A) окажутся значительно больше потерь рАО, соответствующих байесовсюму риску. Более того, оии могут оказаться выше, чем максимально возможный байесовский риск р° из (18.27). Именно тэтой случай представлен иа рис, 4.4. Поэтому в случае неизвестного априорного распределения для состояний природы, целесообразно использовать минимаксную стратегию, юторая гарантирует уровень ожидаемых потерь, ие превышающий значения pQ из (18.27). В рассматриваемом классе задач такая стратегия может быть построена как случайная смесь двух чистых стратегий. Эти чистые стратегии 238
задаются критическими областями Q х (i -1) и Q х (i). При этом иомер i соответствует точке Q > в которой достигается максимум функции р(0, т.е. С = • Указанным областям Q1(i —1) и Qj_(i> соответствуют функции рг_1(£) и £i(C) из (18.26), удовлетворяющие условиям Pi-l(C’) =₽<«’)=/, (19.1) (5,-1 — wch-i > 0 > /3, — wctt. (19.2) Пусть критическая области^ (i -1) используется с вероятностью 7, а область Qx (i) - с вероятностью 1 — 7 (0 < 7 < 1). Тогда ожидаемые потери статистика определяются взвешенной суммой Ж, 7) = 7р;-1 (С) + (1 - 7)/Ж)- (i9-3) В силу (19.1) и 19.2, существует значение 70, 0<7°<1, обеспечивающее выполнение равенств Ж,7°)=/Д 0<С<1. (19.4) Следовательно, смешанная стратегия, определенная значением 70 из (19.4), является минимаксной стратегией статистика.Подставим правую часть выражения (18.26) во взвешенную сумму (19.3). В полученном выражении приравняем к нулю нээффициеит при ( и из этого равенства выведем формулу для значения вероятности 70, удовлетворяющего условию (19.4): п ша, — 3. 7° = ( . -------(19.5) При этом р° = ш[а; - 7°Р2(г;)|. (19.6) 239
Стронгин Р.Г. Исследование операций и модели экономического поведения В качестве иллюстрации укажем, что для функции байесовских потерь, представленной на рис, 4.4. условие (19.2) выполняется для значения i=3 и, согласно (19.5) и (19.6), имеют место оценки 7° = 0,5 и р' — 0,2, Следовательно, минимаксная стратегия для примера, характеризуемого данными из табл, 4.4, обеспечивается равновероятным использованием критических областей Qi(2) = Замечание 4.4. Поскольку Qi(t — 1) С Qi(i), то попадание выборочной точки z в критическую область Qjd-l) ведет к отвержению иуль-гипотезы независимо от того, какой из двух критериев будет выбран рулеткой, соответствующей рассмотренной смешанной стратегии. Принятие иуль-гипотезы прн появлении любого исхода г-,, i < j' < N, также не зависит от результата случайного выбора критериев. Случайный выбор оказывается существенным лишь в случае, когда исходом испытания является значение zi; посиэльку £ Qi(z — 1) и Zi Е Qi (г). Поэтому естественно задавать процедуру случайного выбора с помощью набора условных распределений вида = (т)(1/г),т)(2/;)) е S2, z Ч Z, (19.7) где ^(l/s) есть вероятность отвержения иуль-гипотезы после наблюдения выборочной точки z, a r)(2/z) есть вероятность ее принятия при том же условии. При этом набор (19.7) условных распределений т?=, обеспечивающий реализацию указанной процедуры, определяется следующими условиями (эти условия гарантируют тот же уровень ожидаемых потерь, что и рассмотренная выше минимаксная стратегия): (О, 1 < j = < 7°. ’ = 3: о, 240
Стронгин Р.Г. Исследование операций и модели экономического поведения Как следует из вида распределений (19.8), фактический запуск случайного механизма необходим лишь в тех случаях, когда исход испытания совпадает с единственным значением z А. Отметим еще одно обстоятельство. Как следует из (17.18) и (17.20), байесовское решение относительно любого заданного распределения £ достижимо в классе чистых стратегий d 6 D В случае, когда одна из функций Pi (С) из (18.26) удовлетворяет условию Д = Wi и, следовательно^, pi«)=p°, О<<<1, (19.9) критерий, определяемый критической областью Qi (г), является чистой минимаксной стратегией статистика. Одиакэ, в общем случае, условия (19,9) могут ие иметь места. Тогда минимаксная стратегия статистика реализуема лишь в классе процедур, использующих случайные механизмы выбора. Проверка по отношению правдоподобия в случае трех решений Во многих задачах выбора решений в условиях неопределенности окончательному выбору могут предшествовать несколько стадий оценки текущего состояния природы. При этом на последующих стадиях применяются более точные (и обычно более дорогие) схемы проведения испытаний. Ограничим наше рассмотрение случаем, когда возможны лишь две такие стадии. При этом начальная стадия включает проведение некоторого испытания и принятие (на основании полученных результатов) одного из трех решений. Первые два решения соответствуют выбору одной из двух простых гипотез. Третий вариант предполагает проведение дополнительных испытаний, завершающихся окончательным выбором гипотезы. Примем, что реализация третьего варианта передается другому исполнителю. Ожидаемые потери для этого случая будем считать известными. 241
Стронгин Р.Г. Исследование операций и модели экономического поведения Таким образом, мы рассматриваем операцию, в которой т=2, п = 3 и матрица потерь задана коэффициентами из табл. 4.5. Таблица 4.5. Матрица потерь Решения статистика Состояния природы а=1 а=2 а=3 = 1 0 w12 «13 _ 2 w21 0 w23 При этом, согласно (17.9)-(17.11) и (17.16), знамения апостериорного рискар((\.а), соответствующие решению a=d(z), определяются следующими формулами: ₽(•) />(6,2) = М (19.u) р(~) Р&,3) = ^1зР1(г) + (1-О^Рг(г); (1912) где p(z) из (17.11) и £ из (18.2). Далее, в соответствии с (17.20), байесовское решение определяется условиями: />(6,1) < />(6,2), />(6,1) < />(6,3) ->а, = 1, />(6, 2) < />(6,1), />(6, 2) < р(6, 3) > а, = 2, />(6, 3) < pf&, 1), />(6,3) < р&, 2) а. = 3, Эти условия (после подстановки в них правых частей из выражений (9.10)-(9.12)) преобразуются к виду: /?(z) < ci, R{z) < Сз —»az = 1, (19.13) Я(г) > су, H(z) > с2 а~ = 2, (19.14) ci < R(z) < С2 —* а- — 3» 242
Исследование операций и модели экономического поведения Стронгин Р.Г. где С1 (1-О(в>21-«23)’(19'15) С2=С^:тЧ (19.16) (1 -0W23 = CWi; С3 (1-0W21' и символ R (z) соответствует отношению правдоподобия, т.е. ад = ^. Р1(0 Заметим, что применимость третьего решения предполагает выполнение условия с± < с?, которое эквивалентно следующему неравенству для коэффициентов матрицы потерь: WL2W21 > W13W21 + W12W23- (19.17) Условимся, что неравенство (19.17) является справедливым. Тогда неравенства с1<с3<с2 также являются справедливыми, что устанавливается непосредственной проверкэй. Поэтому в условиях (19.13) достаточно выполнения лишь первого неравенства, а в условиях (19.14) - второго неравенства. Таким образом, в рассмотренном случае ( т=2, п=3 ) байесовский критерий d$ сводится к следующей модификации проверки по отношению правдоподобия: —— е Ia —* а?(*) - а, где А = [0,Cl), 12 - (с2,оо), 1-з - [ci,c2] (19.18)_______ 243
Стронгин Р-Г. Исследование операций и модели экономического поведения и clt с2 соответственно нз (19.15), (19.16). Равенства (19.9) являются следствием вогнутости функции байесовского рнска. 244
Стронгин Р Г Содержание Исследование операций и модели экономического поведения Титульная страница 2 Выходные данные 3 Лекция 0. Противоречия и компромиссы в задачах выбора решений Лекция 1. Математическая модель задачи выбора решений Лекция 2. Устойчивость и эффективность поведения сторон: принцип максимума гарантированного 28 результата Лекция 3. Устойчивость и эффективность поведения сторон: совместимость свойств устойчивости и 37 эффективности Лекция 4. Распределение информации и устойчивость решений Лекция 5. Об устойчивости баланса спроса и предложения Лекция 6. Принцип максимина и устойчивость решений в антагонистических конфликтах Лекция 7. Анализ антагонистической игры иа основе о, оЭ принципа максимума гарантированного результата Лекция 8. Нормальная форма конечной игры. Задание конечной игры в позиционной форме Лекция 9. Приведение позиционной игры к игре в нормальной форме. Условия существования 113 стратегического равновесия Лекция 10. Смешанные стратегии и проблема ^5 устойчивости решений Лекция 11. Стратегическое равновесие в 2 х 2 играх 141 Лекция 12. Матричные игры и линейные программы как 245
Исследование операций и модели экономического поведения Стронгин Р Г модели поведения Лекция 13. Многошаговые задачи выбора решений 168 Лекция 14. Сделки без побочных платежей 177 Лекция 15. Дележ, отвечающий аксиомам Нэша 190 Лекция 16. Использование угроз при формировании сделки Лекция 17. Выбор решений прн неизвестных 2^ состояниях природы (игры с природой) Лекция 18. Проверка простой гипотезы относительно ^5 простой альтернативы Лекция 19. Минимаксные критерии для задач с __о 25 о неизвестным априорным распределением 246