Обложка
Титульный лист серии
Титульный лист
Аннотация
Оглавление
Введение
Глава I. О формализации и основных принципах исследования операций
§ 2. Примеры моделей
§ 3. О целях, критериях, неполностью сформированных моделях и объединении операций
§ 5. Примеры свертывания критериев способами I и V
§ 6. О моделях с векторным критерием эффективности
§ 7. Некоторые общие принципы исследования операций
§ 8. Об оценке эффективности при наличии неконтролируемых факторов
§ 9. Сравнение эффективности стратегий
§ 10. Примеры оценки эффективности стратегий
§ 11. Об оценке эффективности при наличии случайных неконтролируемых факторов
§ 12. Гарантированные оценки надежности
§ 14. Эффективность стратегий при многократном повторении операции. Смешанные стратегии
Глава III. Оптимальные стратегии
§ 16. О седловых точках
§ 17. Необходимые условия оптимальности
§ 18. Аппроксимация игр и моделей операций
§ 19. Освобождение от ограничений. Игровой смысл множителей Лагранжа
§ 20. Две теоремы о распределении ресурса при большой неопределенности
§ 21. Примеры аналитического нахождения максиминов и минимаксов для моделей главы I
Глава IV. Общие теоремы о решении антагонистических игр в смешанных стратегиях
§ 23. Основная теорема для непрерывных игр
§ 24. Решение матричных игр
§ 25. О численных методах решения матричных игр
§ 26. Примеры аналитического решения игр в смешанных стратегиях
Глава V. Игры с платежными функциями частного вида
§ 28. Игры с выпуклой и обобщенно-выпуклой платежной функцией
§ 29. Игры с выбором момента времени
Литература

Автор: Гермейер Ю.Б.  

Теги: математика  

Год: 1971

Текст
                    Ю. Б. ГЕРМЕЙЕР
ВВЕДЕНИЕ
В ТЕОРИЮ
ИССЛЕДОВАНИЯ
ОПЕРАЦИЙ
ИЗДАТЕЛЬСТВО «НАУКА»
ГЛАВНАЯ РЕДАКЦИЯ
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУР Ы
МОСКВА 19 7 1


517.8 Г 38 УДК 519.9 Введение в теорию исследования операций. Гермейер Ю. Б., Главная редакция физико-математической литературы изд-ва «Наука», 1971. Одной из основных задач книги является попытка формализации исследования операций в общем случае информированности исследователя и проводящего операцию об обстановке. Основой принципа выбора поведения являегся гибко понимаемый принцип гарантированного результата, конкретное выражение которого зависит от информированности. Вводится понятие ценности информации и демонстрируются различные варианты понятия макси- мина (наилучшего гарантированного результата) в зависимости от информированности об обстановке операций. Излагаются необходимые условия максимина и примеры его определения для ряда моделей операций, имеющих не только учебный характер. Остальные разделы посвящены изложению ряда традиционных результатов теории игр с противоположными интересами. Библ. — 37 назв. 2-2-3 54-71
ОГЛАВЛЕНИЕ Введение 7 Глава I. О формализации и основных принципах исследования операций 12 § 1. Обобщенная схема операции и ее нормальной математической модели 12 § 2. Примеры моделей 21 § 3. О целях, критериях, неполностью сформированных моделях и объединении операций 36 § 4. Полнота системы элементарных действий над критериями (методов свертывания) 44 § 5. Примеры свертывания критериев способами I и V ... 51 § 6. О моделях с векторным критерием эффективности ... 58 § 7. Некоторые общие принципы исследования операций . . 61 Глава II. Оценка эффективности стратегий (решений) ... 69 § 8. Об оценке эффективности при наличии неконтролируемых факторов 69 § 9. Сравнение эффективности стратегий 83 § 10. Примеры оценки эффективности стратегий 87 § 11. Об оценке эффективности при наличии случайных неконтролируемых факторов 98 § 12. Гарантированные оценки надежности 118 § 13. Об оценке эффективности при неопределенном критерии (цели) операции 129 § 14. Эффективность стратегий при многократном повторении операции. Смешанные стратегии 137 Глава III. Оптимальные стратегии 158 § 15. Понятие оптимальной стратегии в зависимости от информированности оперирующей стороны и противника . . . 158 § 16. О седловых точках 188 § 17. Необходимые условия оптимальности 211 § 18. Аппроксимация игр и моделей операций 235 § 19. Освобождение от ограничений. Игровой смысл множителей Лагранжа 243 § 20. Две теоремы о распределении ресурса при большой неопределенности 258 § 21. Примеры аналитического нахождения максиминов и ми- нимаксов для моделей главы I 271
О ОГЛАВЛЕНИЕ Глава IV. Общие теоремы о решении антагонистических игр в смешанных стратегиях 290 § 22. Основная теорема теории матричных игр и свойства оптимальных стратегий 290 § 23. Основная теорема для непрерывных игр 296 § 24. Решение матричных -игр 302 § 25. О численных- методах решения матричных игр . . . . 318 § 26. Примеры аналитического решения игр в смешанных стратегиях 330 Глава V. Игры с платежными функциями частного вида . . 341 § 27. Игры с разделимой платежной функцией и конечные выпуклые игры 341 § 28. Игры с выпуклой и обобщенно-выпуклой платежной функцией 351 § 29. Игры с выбором момента времени 367 Литература 382
ВВЕДЕНИЕ Под операцией в настоящее время понимают совокупность действий, мероприятий, направленных на достижение некоторой цели, т. е. совокупность целенаправленных действий. Это определение операций, как видно, чрезвычайно широко и охватывает значительную часть деятельности людей. Основной задачей исследования операций является поиск путей достижения цели. В каждой частной сфере деятельности, в каждой конкретной операции человечество, используя опыт и интуицию, с незапамятных времен создавало искусство выработки наилучших решений. Наиболее яркими примерами являются экономика, военные действия, спорт. Однако наука о принятии решений, особенно математическая теория, стала создаваться сравнительно недавно н сейчас развивается довольно быстро, хотя и весьма далека от завершенности даже по основным вопросам. В исследовании операций можно выделить четыре основных направления. 1. Создание и описание способов действий, которые могут вести к достижению цели; среди них-то и необходимо производить выбор «наилучших» способов. 2. Создание модели операции, дающей математическое описание цели, процесса и результатов проведения операции. 3. Оценка и сравнение эффективности конкурирующих способов действий на основании созданной модели. 4. Разработка понимания оптимального выбора действий и математических методов поиска их. Первое направление является областью конкретных исследований, учитывающих специфику конкретной операции и опирающихся на соответствующие разделы науки; математикам здесь делать почти нечего. Моделирование должно быть «пограничной» областью, где особенно важно достижение взаимопонимания и взаимодействия специалистов рассматриваемой конкретной
8 ВВЕДЕНИЕ операции и более широко и абстрактно мыслящих работников, которых условно можно назвать математиками. Разработка модели почти всегда связана с борьбой двух по существу противоречивых желаний: как можно точнее отобразить в модели реальные процессы и получить модель достаточно простую, чтобы можно было надеяться решить задачу до конца и получить обозримые результаты. Именно поэтому и необходимо содружество «специалистов» и «математиков». После создания модели работы по остальным направлениям могут производиться математиками уже самостоятельно, хотя и здесь взаимодействие остается чрезвычайно ценным. В соответствии со сказанным в основном и будут рассматриваться последние из упомянутых разделов, что же касается моделирования, то здесь мы ограничимся лишь самыми общими методологическими соображениями. Созданный в последние десятилетия новый раздел математики—теория игр —по своему духу и постановкам вопросов наиболее тесно связан с исследованием операций. Однако исключительное внимание, которое в теории игр оказывается так называемым смешанным стратегиям и ситуациям равновесия, не позволяет приравнивать математическое исследование операций к теории игр. Кроме того, в теории игр совершенно не обсуждаются вопросы I моделирования, что неизбежно в исследовании операций. Другим разделом математики, на котором базируется I исследование операций, несомненно является теория ве- ^ роятностей и, особенно, математическая теория надеж- >i ности и теория массового обслуживания. Однако предположения, заложенные в основу, например, развитой сейчас теории надежности, слишком ограничительны. Широко применяющийся теперь язык теории массового обслуживания зачастую лишь создает обманчивое впечатление больших возможностей этой теории в ее настоящем виде. Сказанное, конечно, отнюдь не умаляет практической полезности идей и методов этих наук в соответствующих конкретных условиях. В современной литературе, особенно в теории автоматического регулирования, иногда производится противопоставление так называемых максиминных подходов,
ВВЕДЕНИЕ У характерных для теории игр, теоретико-вероятностным. Однако такое противопоставление является в основном результатом нечетких постановок вопросов и непонимания многообразия различных вариантов операций, предоставляемых исследователям жизнью. Лучшим ответом на такие противопоставления является теория статистических решений, в которой статистика соединена с теорией игр. Поскольку существеннейшей частью исследования операций является поиск оптимальных решений, то в орбиту этой науки, естественно, входят и методы такого поиска, особенно такие, как линейное и нелинейное программирование. Существует, оказывается, теснейшая связь между этими разделами математики и теорией игр, и основы этой связи будут далее продемонстрированы как со стороны постановок вопроса, так и по линии решения задач. Список взаимосвязей исследования операций с различными разделами математики может быть, конечно, еще более расширен, однако и сказанного вполне достаточно, чтобы подчеркнуть широту этих связей и, следовательно, трудность сколько-нибудь подробного изложения математических основ исследования операций. В предлагаемой книге упор сделан не столько на строгое изложение многочисленных конкретных результатов и направлений, сколько на демонстрацию общих подходов и постановок задач, так как работ именно такого рода пока еще мало. Преодоление математической, методологической и даже языковой разобщенности работающих (или собирающихся работать) в области исследования операций может явиться одним из условий быстрого развития этой науки, так же как это случилось в кибернетике. Некоторые из вспомогательных теорем, которые нужны для развития общей теории, будут доказываться, на иные будет просто сделана ссылка. Это будет зависеть от сложности вопроса и от степени близости его к основной линии изложения. Автор стремился сделать книгу доступной для читателя, не владеющего рядом разделов современной математики. По-видимому, наиболее близок к данной книге труд С. Карлина «Математические методы в теории игр, программировании и экономике», носящий почти энциклопе-
10 ВВЕДЕНИЕ дический характер и содержащий многочисленные материалы, не нашедшие отражения в предлагаемой книге. Определенные связи есть и с книгами по исследованию операций Е. С. Вентцель и группы авторов во главе с Ю. В. Чуевым, которые отражают понимание задач исследования военных операций в нашей стране. Желающие углубить свои знания по теории игр должны познакомиться с серией переводов по теории игр, изданной под редакцией Н. Н. Воробьева. Однако далеко не все, излагаемое далее, можно почерпнуть в указанных работах, а по некоторым вопросам может быть замечено и известное расхождение во взглядах. Это обстоятельство является естественным следствием ранее указанной разобщенности и неустановившихся поэтому общих абстрактных постановок задач. Отсылая за общим списком литературы *) и имен к указанным трудам, отметим лишь исключительные заслуги Дж. фон Неймана, по существу создавшего теорию игр, которая по излагающейся здесь концепции является краеугольным камнем математической теории исследования операций и содержит наиболее общее, возможное сейчас понимание оптимального выбора решений. Книга состоит из пяти разделов. I. О формализации и основных принципах исследования операций. II. Оценка эффективности стратегий. III. Оптимальные (максиминные) чистые стратегии. IV. Общие теоремы о решении игр в смешанных стратегиях. V. Игры с частными видами платежей. Первые два раздела носят постановочный характер, хотя в них имеются отдельные математические результаты. Хочется подчеркнуть, что и само это построение и явная незавершенность многих математических задач свидетельствуют о молодости излагаемой науки и тем самым призывают к ее интенсивному развитию. Излагаемая здесь методология разрабатывалась в Вычислительном центре АН СССР, в лаборатории, руково- *) Рассчитывая на широкий круг читателей, ссылки на журнальные статьи будем делать только в случаях, когда невозможно сослаться на книгу.
ВВЕДЕНИЕ 11 димой Н. Н. Моисеевым. Основные материалы предлагаемой книги были опубликованы в виде лекций кафедрой вычислительной математики МГУ по инициативе и при поддержке А. Н. Тихонова, И. С. Березина и Б. М. Бу- дака. Книга не смогла бы быть оформлена без громадной помощи Е. М. Гермейер. Значительна помощь ряда сотрудников Института теоретической кибернетики и особенно Е. П. Калабуховой и И. М. Лившица. Трудную работу по редактированию рукописи проделали К. Н. Петрищева и Э. Г. Давыдов. Автор благодарит всех, способствовавших появлению этой работы, и надеется на критику, которая позволит в дальнейшем развить и улучшить излагаемые ниже взгляды, постановки вопроса и методы их решения.
ГЛАВА I О ФОРМАЛИЗАЦИИ И ОСНОВНЫХ ПРИНЦИПАХ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ § 1. Обобщенная схема операции и ее нормальной математической модели Как уже говорилось, операция есть совокупность действий, направленных на достижение некоторой цели. Таким образом, пока не задана цель, например, получение хоть одного очка в футбольном матче или выполнение заданного плана производством, не существует и операции. В данной операции цель единственна. Совокупность тех лиц или автоматов, которые стремятся в данной операции к поставленной цели, можно назвать оперирующей стороной. Такое выделение имеет смысл, ибо обычно в операции имеются лица или природные силы, поведение которых отнюдь не описывается стремлением достигнуть цели данной операции. Так, например, в футбольном матче, наряду с командой, тренером и болельщиками, составляющими оперирующую сторону, имеются еще и активные противники, стремящиеся не допустить достижения цели, и судьи, по идее нейтральные к цели операции. Оперирующая сторона представляет собой, вообще говоря, несколько неопределенный конгломерат членов, совершенно неодинаково участвующих в проведении операции. Однако если трактовать оперирующую сторону достаточно широко, то в нее войдут и те участники, которые определяют цель операции; в этом случае можно считать, что оперирующая сторона сама по своему произволу формирует себе цель операции. В иных случаях цель операции назначается извне и обсуждению, по существу, не подлежит; так происходит в спортивных играх и в так называемых иерархических системах, где вышестоящие определяют цель нижестоящим. Следует, однако, подчеркнуть еще раз, что при включе-
§ 1] ОБОБЩЕННАЯ СХЕМА ОПЕРАЦИИ 13 нии в оперирующую сторону всех составляющих иерархической лестницы оперирующая сторона замыкается в самой себе и определяет себе цель операции. Исследователь операции принадлежит к оперирующей стороне и преследует ту же цель. Эта цель должна быть ему известна, равно как и другие обстоятельства проведения операции. Если же (а так часто бывает) этого нет, то за исследователем должно признаваться право на соответствующие предположения и упрощения. Исследователь может оказаться отличающимся от оперирующей стороны в целом по степени информированности об операции, и это может случиться как по сути дела (об этом будет сказано дальше), так и просто по желанию или недомыслию некоторых членов оперирующей стороны. Последнее наносит ущерб исследованию и проведению операций, и об этом нельзя забывать. Исследователь операции, как правило, сам не принимает решений по выбору способов действий, а лишь помогает в этом оперирующей стороне. Таким образом, несмотря на принадлежность исследователя к оперирующей стороне, он занимает в ней особое место, исследуя операцию в целом, но будучи зачастую лишенным всей полноты информации об операции и не принимая окончательных решений. Выделение исследователя операции в самостоятельную часть оперирующей стороны представляется полезным, так как позволяет более четко разобраться в некоторых вопросах взаимодействия при постановке задач исследования операций и при принятии решений. Поскольку далее речь идет об исследовании операций, то материал будет излагаться применительно к возможностям и позиции исследователя операции. Для достижения цели оперирующая сторона имеет в своем распоряжении некоторый запас (ресурс) активных средств, используя и, как правило, расходуя которые, она может добиваться цели. В операции по выполнению производственного плана в качестве активных средств выступают: станочный парк, запасы сырья, рабочая сила, денежные средства и т. п. В операции по проведению расчетно-теоретических исследований активными средствами могут быть машинное время и люди.
14 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. I Способы действий, т. е. способы использования активных средств, будем называть стратегиями оперирующей стороны, каковыми являются, например, тактика футбольной команды или алгоритмы в упомянутой расчетно- теоретической операции. Оценка приемлемости и сравнение стратегий и составляет суть работы исследователя операций. Результаты операции по достижению цели зависят, конечно, при данном количестве активных средств от выбора стратегий, т. е. от факторов, находящихся в распоряжении оперирующей стороны (контролируемые факторы). Однако наряду с этим результаты, могут зависеть и от факторов, которые не контролируются оперирующей стороной. Эти факторы и составляют то, что обычно называют обстановкой проведения операции. Так, в сельском хозяйстве неконтролируемым фактором является метеорологическая обстановка; при стрельбе—так называемое рассеивание снарядов, т. е. случайный разброс их траекторий; в военных действиях основу обстановки составляют действия противника, стремящегося помешать оперирующей стороне. Самое общее качественное описание компонент любой операции заканчивается указанием на информированность оперирующей стороны и исследователя операции об обстановке операции, т. е. на точность знания значений неконтролируемых факторов в данной конкретной операции. Кроме этой информированности важна также и информированность различных частей оперирующей стороны о решениях, действиях и результатах действия этих частей. Математическая модель операции должна давать, пусть приближенно, количественное описание операции; поэтому математический эквивалент должен иметь все указанные компоненты операции. Как и всякий процесс, ход операции должен описываться некоторым количеством п фазовых координат ?,.; считается, что задание функций ?/@ полностью описывает конкретное течение операции в данной модели. Чем больше фазовых координат, тем, вообще говоря, точнее описание операции, но тем и сложнее исследование модели.
§ 1] ОБОБЩЕННАЯ СХЕМА ОПЕРАЦИИ 15 Как правило, ход операции с точки зрения достижения цели можно характеризовать небольшим числом или даже одной фазовой координатой. Так, например, ход футбольного поединка вполне описывается положением мяча и игроков в зависимости от времени. Однако иногда удобнее пользоваться и более подробным описанием. Степень соответствия хода операции поставленной цели характеризуется достигаемым значением функционала W = Р[Ъгу), ..., in(t)], именуемого критерием эффективности; цель операции математически означает стремление к увеличению (или уменьшению) величины критерия эффективности. В дальнейшем для определенности будем считать, что выгодно увеличивать значение критерия. Стремление к увеличению критерия эффективности, таким образом, является математическим описанием цели операции. В данной модели он полностью заменяет собой цель, и исследователь операции имеет дело только с ним. Так же, как и цель, ее эквивалент—критерий эффективности—в модели операции единствен и может быть выбран (по согласованию с оперирующей стороной) столь же произвольно, как произвольна цель. Примером критерия эффективности может служить разность забитых и пропущенных мячей, количество изготовленной продукции в производстве, значение 0; 1 в операции посадки на поезд. Часто путают критерий эффективности с фазовыми переменными, но это разные вещи. Так, разность забитых и пропущенных мячей — фазовая переменная а, но не обязательно критерий. Критерием может быть 1 или 0 в зависимости от выигрыша или невыигрыша, т. е. критерий F (а) = 0 при а < 1 и F(a)= 1 при а^ 1. Незнание или недостаточно точное знание критерия эффективности есть прямое следствие недостаточно четкого понимания цели операции или недостаточной изученности процесса ее протекания. Это незнание может лишить какого-то ни было смысла исследование операции и само проведение ее; далее будет дана математическая характеристика неточного знания критерия эффективности, которая приравняет его к неконтролируемым факторам (обстановке) операции.
16 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. I Активные средства характеризуются своим количеством. Если они состоят из различных вещей (например, станки, деньги, рабочая сила или оружие разного! вида), то количество активных средств различного вида образует вектор А = {аг, ..., ап}, а ограниченность активных средств математически выражается как ограниченность компонент вектора: а^а?. Возможности действий оперирующей стороны могут быть представлены как набор некоторых величин Xj A ^ / < k)f влияющих на фазовые координаты. Эти величины могут быть выбраны произвольно оперирующей стороной из некоторого заданного множества. Вообще говоря, этот выбор изменяется со временем или с получением информации о ходе операции, т. е. о фазовых координатах. Величины х}- можно трактовать как реальное разбиение активных средств на группы, используемые в разных местах и в разное время, или просто как номер того или иного способа использования активных средств. Второй случай более част, когда способов действий конечное число. Стратегией оперирующей стороны с точки зрения исследователя операции является в общем случае правило поведения, разрешенное ожидающейся информацией, т. е. операторы x/[t, ^CO, ..., &„(тл)], где т,.<* — 6,, a 8t—неизбежное запаздывание во времени, необходимое на получение и обработку информации о течении операции и реализацию решения на назначение Xj в момент /. Еще раз подчеркнем, что здесь предполагается наличие у оперирующей стороны информации о |/(т,-), позволяющей реализовать операторы. Если же такой информации не ожидается, то выбор Xj не может зависеть от соответствующих ?;, и набор самих Xj(t) является стратегией. Допустимые по информированности и другим соображениям стратегии оперирующей стороны составляют множество, часто называемое пространством стратегий. Если, например, будут известны только ?Дт) с четными номерами, то пространство стратегий может состоять только из операторов вида Xj(t, ?2(т/)> • • •> ?21 (т/))- Если п предполагается получать информацию только о 2 ?;@>
§ 1] ОБОБЩЕННАЯ СХЕМА ОПЕРАЦИИ 17 то пррстранство стратегий может состоять только из [п 1 В свою очередь, I-Дт,-) зависят от значений х,(т), вектора А и некоторого количества неконтролируемых оперирующей стороной функций ys(x), отражающих изменяющуюся во времени обстановку. Неконтролируемые факторы, исходя из информированности о них исследователя операции, следует разделить на три группы. I. Фиксированные факторы, значения которых известны исследователю операции. II. Случайные фиксированные факторы, т. е. случайные процессы с известными законами распределения. III. Неопределенные факторы, для которых известна только область распределения фактора, внутри которой они могут находиться, или область, внутри которой находятся законы, если известно, что фактор случаен, но неизвестен точно закон распределения. В последнем случае лучше говорить о неопределенном законе распределения случайного фактора. Неопределенные факторы, в свою очередь, следует разбить на следующие подгруппы: а) неопределенные факторы, появляющиеся за счет наличия независимо от оперирующей стороны действующих людей или автоматов, не преследующих, вообще говоря, цель оперирующей стороны; неопределенные факторы такого типа можно условно назвать стратегиями противника, обладающего и своими активными средствами, ограничения которых и набор (пространство) стратегий противника составят область подобных факторов; б) неопределенные факторы, появляющиеся из-за недостаточной изученности каких-либо процессов или величин; такие неопределенности можно назвать природными; в) неопределенные факторы, отражающие нечеткость знания цели операции или критерия эффективности; формально этот вид неопределенных факторов может быть, конечно, отнесен к природным, однако необходимо б место в исследовании операций.
18 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ ГЛ. I Наиболее яркие примеры неопределенностей первого типа дают военные действия и спорт, где заранее' неизвестная тактика противника создает неопределенности, самым серьезным образом влияющие на исход операции. Типичным примером неопределенности второгр типа является неопределенность в законе распределения случайной величины, относительно которой известны только первые моменты—математическое ожидание и дисперсия. Наконец, примером неопределенности третьего типа является неопределенность в выборе критерия оценки деятельности предприятий, выпускающих продукцию нескольких существенно различных типов. Введение неопределенных факторов является сравнительно новым элементом, выходящим за пределы ставших уже традиционными случайностей; систематическое изучение ситуаций с неопределенностями и представляет собой то новое,что содержит теория игр. Следует заметить ещг раз, что указанное разбиение неконтролируемых факторов сделано с точки зрения исследователя операции и соответствует его информированности в момент производства исследований. Что же касается оперирующей стороны в целом, то она может иметь большую информацию, что и отражено в общем понятии стратегии. Для нее неопределенные и случайные факторы или соответствующие им значения фазовых координат могут стать известными (фиксированными факторами) в ходе проведения операции или даже раньше (но после проведения исследований), и это может быть использовано при выборе поведения. В дальнейшем нам будет неудобно пользоваться только что сформулированной общей схемой модели операции ввиду того, что она недостаточно наглядна и требует систематического использования функционального анализа. Следует также заметить,что соответствующие теоретико- игровые вопросы недостаточно разработаны. Поэтому мы ограничимся дискретной моделью, которая может рассматриваться как приближение к указанной ранее модели, необходимое, например, для проведения исследования модели на машине дискретного счета. Многие из практических моделей по существу являются такими дискретными моделями.
§ 1] ОБОБЩЕННАЯ СХЕМА ОПЕРАЦИИ 19 В Дискретной модели считается, что ход операции вполне^ характеризуется значениями фазовых координат в дискретные моменты времени; эти значения мы можем записывать как ?/z, где/—номер момента времени. Точно так же' решение о выборе Xj принимается дискретно, и их значения могут быть перенумерованы в виде xjt\ неконтролируемые факторы соответственно записываются в виде ysl. При этом %и оказываются просто функцией всех xJh и ysli (и, конечно, вектора А) при /г^/. Стратегией соответственно будет набор функций xfl (Ъ,и /), где 1**^.1—/о, а 1*0—запаздывание. Для дальнейшего упрощения записи схемы обобщенной модели будем обозначать через Хг вектор {%} и через Yl — вектор {yst}. _ _ Вектор Хь и вектор {Х1} = Х являются значениями, которые могут принимать стратегии в момент / или во все моменты. Саму стратегию, как правило, для краткости часто будем обозначать через X. В частности, когда дополнительная информация о ? не ожидается, стратегия сводится к выбору значений X заранее, т. е. Х = Х. Именно поэтому мы часто и само X будем называть стратегией. Однако этим не исчерпывается множество возможных стратегий, если информация о ? ожидается и будет использоваться. Далее заметим следующее. 1. Неконтролируемые фиксированные факторы можно в функциях опускать, поскольку они постоянны в данной модели, 2. Для удобства будем вместо одного вектора "FJ употреблять иногда отдельные обозначения для разных типов факторов, например Y}9 У}1, Y}u, ще Y] означает случайные неконтролируемые факторы, Y]1—природные неопределенности (включая и третий тип) и Y\u — неопределенные факторы, связанные с противником; для вектора активных средств последнего будем использовать обозначение В. 3. Поскольку \и являются функциями контролируемых и неконтролируемых факторов, в общей схеме модели можно, опуская указание на промежуточную зависимость W от 5, записать критерий эффективности W
20 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. I в виде W = F(Xl9 Y}t, Y)l Y\l\ A\ В»). A) Эта запись и станет общей упрощенной схемой додели, если будет указано, что оперирующая сторона стремится увеличивать W и что возможные значения векторов X и Y11 и У111 находятся в соответствующих областях, известных исследователю операции, а для Y] известны законы распределения. Кроме этого, исследователю операции должно быть задано семейство исследуемых стратегий, т. е. вектор-функций ХДХг, Y\o У/2\ У/1"), где /' < / и /i</ —/0, 12^1 — 10у /3</ — /0> дающих право выбора оперирующей стороной векторов Хг при наличии некоторой информации о предыдущих значениях контролируемых и неконтролируемых факторов*). Из этой записи следует, что при отсутствии случайных и неопределенных факторов достаточно рассматривать стратегии типа X = X. Это обстоятельство является прямым отражением того, что в этом случае информированность оперирующей стороны о неконтролируемых факторах (а значит, и о |,.) не превосходит информированность исследователя операции. Поскольку задание стратегии X = {Х^Ху, У/1Э У/2\ Y\\1)} при данных значениях неконтролируемых факторов определяет Хи то этим определено и значение W. Таким образом, наряду с A) можно пользоваться и записью W = F(XfY), (П где Y={Ylly Y\\ У|"// = 1, 2, ...}. Следует еще раз заметить, что для хода операции знание предыдущих моменту I значений ? эквивалентно знанию всех предыдущих X и У; это обстоятельство, несущественное с точки зрения обобщенной записи модели, весьма важно с практической точки зрения, особенно при исследовании операций с наличием противника. *) Здесь опять опущена промежуточная зависимость Хь от \ и последних от контролируемых и неконтролируемых факторов.
§ 2) ПРИМЕРЫ МОДЕЛЕЙ 21 Поскольку А0 и В0 в данной модели обычно фиксированы, в A) будем опускать эти аргументы. В теории игр функция A) называется платежом одного из игроков; этим игроком у нас является оперирующая сторона. Если бы для противника тоже был задан платеж и соответствующие ограничения стратегий, то указанная обобщенная математическая модель операции была бы тем, что называется игрой. Однако в теории операций это далеко не всегда можно предположить, и это на первый взгляд существенно отличает исследование операций от теории игр. § 2. Примеры моделей Приведем некоторые примеры моделей операций и покажем разнообразие возможных практических вариантов моделей, даже сравнительно несложных. Однако все они соответствуют указанному выше общему виду. Большинство из этих моделей будет так или иначе обсуждаться в последующих разделах книги. I. Модель анализа технологических процессов. Пусть имеется п технологических процессов, с помощью которых производятся некоторые изделия одного и того же или различных типов. Пусть х;- — планируемый выпуск продукции /-м технологическим процессом. Для производства единицы продукции /-й процесс требует количества си сырья *'-го типа. Количество сырья t-ro типа, имеющегося ь распоряжении планирующей организации (оперирующей стороны), ограничено величиной а?. Поэтому имеем ограничения п i=l, ..., т. B) Критерием эффективности считается общая ценность продукции, которая может быть записана в виде У*У C) где dj—цена единицы продукции /-го процесса. Максимизация W и есть задача планирования. В этой модели нет ни случайных, ни неопределенных неконтролируемых факторов (и, значит, информированность
22 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [Г^1. I исследователя и оперирующей стороны одинаковы); однако они могут появиться, если, например, dj точно не известны. Активными средствами является сырье, а стратегиями — выбор величин ху; таким образом, здесь X,=X = {xj}. Эта модель дает типичный пример задачи линейного программирования. II. Аппроксимация функций полиномами—традиционная математическая задача. Пусть дана функция /(/), заданная на отрезке [0,1]. Требуется аппроксимировать ее полиномом Pn{t) степени не выше п. Активные средства—степень полинома, а стратегия— выбор его коэффициентов. Цель операции не конкретизирована, пока не указано, Зто понимается под аппроксимацией. Чаще всего рассматривается аппроксимация в среднем, где за ошибку принимается [П 2 * = 0 J и требуется ее минимизировать. В этом случае неконтролируемых факторов опять нет. Однако более общей постановкой вопроса является такая аппроксимация, где ошибкой считается просто \fV)-P{t)\ = -W. E) В этом случае значение t, при котором нужно приближенно выразить f(f), обычно заранее неизвестно и, значит, является типичным неконтролируемым природным неопределенным фактором. Необходимость определить полином может появиться для того, например, чтобы создать программу приближенного определения известной /(/) для упрощения исследований и т. п. Однако возможна и, может быть, даже более интересна задача с неточно известной /(/). III. Схематическая модель численного поиска экстремума функций. Пусть о функции /(Of заданной на [0,1], априори известно, что она удовлетворяет условию Липшица с коэффициентом&,т.е. что |/(х) —f (xf)|<k\х—х'|. Требуется приближенно определить ее минимум (максимум).
§ 2] ПРИМЕРЫ МОДЕЛЕЙ 23 Активным средством является машинное время, ограниченное величиной Т. На каждое вычисление одного значения f(x) пусть требуется время А. [Это также ограничивает класс /(*).] Тогда максимально возможное число точек х, в которых может быть определена функция, есть д-, и это также можно считать определением активных средств *). Стратегиями является выбор значений xt при 0^^f^l т Приближенным значением min / (х) = / (х0) и места х0 его реализации считается min / (#,) = / (дс/о). Ошибкой в определении экстремума является вектор |; I*/-*/, 1Ь F) который в этой модели и есть фазовый вектор. Однако в такой постановке задачи критерий эффективности остается пока еще неясным, поскольку неясно, какой компоненте в F) при минимизации ошибки следует отдать предпочтение. Можно, конечно, использовать критерии типа Более же общим видом критерия будет, например, X)\xo-xio\9 G) где *) Без ограничения рассматриваемого класса функций обойтись, очевидно, нельзя. Даже непрерывность функций без указания равно- степенности этой непрерывности для всего семейства не может сделать задачу осмысленной. Действительно, если не делать предположений о равностепенности, то, какое бы число точек / (х{) мы ни взяли, всегда можно указать непрерывную функцию такую, что min/(#) х отличается от min Д а:/) на сколь угодно большую величину как по Х1 значению, так и по месту экстремума. Именно поэтому и принято предположение об условии Липшица.
24 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. I Имеет смысл рассматривать также критерий W = -max{k\f(xo)-f(xiQ)\, (l-*)|*0-*/e|}. (8) Величины X и 1-Х называются коэффициентами важности или веса составляющих ошибки F). Возможны, однако, и другие постановки вопроса. Так, например, критерий может иметь вид W = -\xo-xl9\ при непременном условии Здесь е0 — заданная точность определения минимума. Возможна и сильно отличающаяся постановка вопроса, когда критерием является машинное время, потребное для определения экстремума с заданной точностью. Во всех этих случаях неопределенными факторами являются значения функции f(x) и X, если X не фиксирован (неопределенный фактор третьего типа). Однако поскольку в критериях мы имеем дело только с / (xj), х0 и / (jc0), то их (вместе может быть с X) и достаточно считать неопределенными факторами. В заключение заметим, что для окончательной конкретизации задачи требуется уточнить, необходимо ли определять все значения х0 или хотя бы одно из них. Для простоты будем считать, что достаточно определить хотя бы одно. Вообще говоря, в «замкнутой» операции (т. е. не связанной с другими операциями) всегда достаточно определить хотя бы одно решение, поскольку все они равноценны с точки зрения рассматриваемой операции. IV. Модель действий нападения против защиты в военных операциях. Пусть имеется N средств нападения и п средств защиты. Пусть имеются k мест возможного прохода средств нападения через линию средств зашиты; i пусть будет номером места прохода. Предположим, что при расположении одного средства защиты на i-u месте оно в состоянии уничтожить р{ средств нападения, проходящих через этот пункт. Нападение стремится увеличить общее количество прошедших через защиту средств нападения. Обозначим через х{ количество средств нападения, прорывающихся через i-Pi пункт, а
§ 2] ПРИМЕРЫ МОДЕЛЕЙ 25 через tji — количество средств защиты, расположенных на этом месте. Критерием эффективности операции средств нападения, очевидно, будет x,-/^,; 0] (9) при условии *,^0, %Xt = N9 */<>0, 2й = п. A0) Фиксированным неконтролируемым фактором здесь является величина п\ стратегия нападения состоит в выборе величин х(. Случайностей и природных неопределенностей нет. Имеется активный противник, стратегии которого {у(} являются обычно неопределенным фактором при планировании операции заранее. Оперирующая сторона— нападение,—может быть, сможет получить и использовать информацию о {у{} в момент боевых действий. Таким образом, стратегиями могут быть функции xt{y19 ... , yk). V. Модель производства продукции для экспорта. Пусть имеется п видов продукции, нумеруемых индексом i, которые могут быть проданы на внешнем рынке по цене pt за единицу продукции. Внешний рынок, естественно, ограничен как по количеству kt продукции /-го типа, которое может быть им поглощено в год, так и по сумме денег С, которую покупатели могут выделить на приобретение всех видов продукции за год. Предположим далее, что производство вектора X — продукции, состоящего из xt единиц t-й продукции в год, требует расхода или наличия gj(X) единиц так называемых производственных факторов (деньги, рабочая сила, оборудование и т. п.), общее количество видов которых пусть будет т, а номер вида /. Первый номер присвоим деньгам. Пусть вектор V = {Vly ... , Vm) является вектором годовых запасов производственных факторов. Предположим, наконец, что имеется конкурент, также могущий производить yt единиц /-й продукции и продавать ее по цене /у, примем, что
26 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. 1 Целью операции является увеличение прибыли, т. е. величины 2 pimin[хч; kt—y^ max(C—2г/. УГ> —gi(xlt...9xn)9 A1) где yy = min [fe/5 у, max (jf^j; o)] ; A2) при этом должны быть выполнены условия 8/(xlt ...,*„)< У/, / = 1, .... т. A3) В такой задаче pt и rt могут считаться заданными. Тогда стратегиями являются векторы Х = {х1, ..., хп}, а неопределенными факторами могут быть yh выбираемые конкурентом. В этом случае должны быть ограничены производственные возможности противника путем введения функций gj и ограничений V/, аналогичных g) и Vj. Стратегиями оперирующей стороны и конкурента могут стать и векторы {рх-} и {г{}. Последнее особенно вероятно, если целью конкурента окажется уменьшение дохода оперирующей стороны. В обычном же случае цель конкурента может быть записана совершенно так же, как A1)—A2). Отметим, что сформулированная задача далека от обычных задач линейного и нелинейного программирования, которыми часто описывают экономические проблемы. VI. Модель оценки надежности неремонтируемых систем. Пусть имеется некоторая система (например, радиолокационная), состоящая из п агрегатов с номерами it которая может находиться только в одном из двух состояний — работоспособном или неработоспособном. То же пусть относится и к отдельным агрегатам. Предположим, что агрегаты соединены последовательно, т. е. неработоспособность (выход из строя) одного агрегата влечет за собой выход из строя всей системы; и наоборот, система может потерять работоспособность только в случае выхода из строя агрегата. Если обозначить через tt—момент выхода i-го агрегата из строя, то критерий эффективности системы, показы-
§ 2] ПРИМЕРЫ МОДЕЛЕЙ 27 вающий, что до момента t система находилась в работоспособном состоянии или в [0, t] потеряла работоспособность, можно, очевидно, записать в виде W(t)=l при t< min ft]; при *> min ft], где 1 означает работоспособность. Часто, однако, в качестве критерия используется и само время безотказной работы системы, которое равно 7= min ft]. A5) Величины ti обычно считаются случайными с законами распределения pt(f), дающими вероятность невыхода агрегата из строя до момента t. Таким образом, здесь налицо неконтролируемые случайные факторы; однако стратегия пока только одна, поскольку конструкция системы полностью задана. Повышение надежности, т. е. работоспособности системы к данному моменту t0, или увеличение времени работы 7 достигается обычно за счет дублирования агрегатов или системы в целом; различные способы дублирования и составляют стратегии конструктора системы—оперирующей стороны. Для дублирования нужно иметь соответствующие активные средства, которыми могут быть или запасы (резервы) агрегатов в виде вектора {nf}9 или деньги на их приобретение С при стоимости агрегата rt. Приведем примеры некоторых способов дублирования. А. Дублирование системы в целом путем параллельного {одновременного) включения в работу нескольких систем с номерами от 1 до т. Задублированная система в целом выходит из строя, конечно, только, если все отдельные системы выходят из строя. Имеем тогда вместо A4) W (t) = 1 при t < max min ttj\ ИГ @ = 0 при />max mmtu l</<m 1< i < n или же 7= max min tu. A7)
28 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. I При этом должны выполняться условия /яДЗг,<С A8) или же т ^ n?; I ^ i ^ п. A9) Б. т—кратное дублирование системы в целом, но путем «холодного резервирования», когда последующая система включается в работу в момент выхода из строя предыдущей. В этом случае при сохранении условий A8) или A9) W(t)=\ при t<T; IF @=0 при *>7\ ( ' но т Т = 2 min t,j. B1) Стратегия в этом случае состоит в выборе момента включения /-й дублирующей системы, равном моменту выхода из строя (/ — 1)-й системы. Таким образом, здесь, в полном соответствии с общим определением стратегии, стратегия есть функция будущей информации оперирующей стороны о неконтролируемых величинах min tif. 1</</г В. Дублирование каждого отдельного агрегата системы т{ раз путем параллельного соединения агрегатов, так что дублированный агрегат в целом выходит из строя тогда и только тогда, когда выходят из строя параллельно работающие агрегаты. В этом случае B0) остается, конечно, справедливым, но вместо A7) имеем Г= min [ max tu]9 B2) а ограничения принимают вид 2 B3) <п. B4) При ограничениях B3) выбор величин т{ неоднозначен и, следовательно, входит в стратегии конструктора.
§ 2J ПРИМЕРЫ МОДЕЛЕЙ 29 Г. «Холодное резервирование» агрегатов. В этом случае, очевидно, Т= min (S^ B5) при сохранении B3) и B4). Здесь также предполагается использование информации, но теперь о всех ttj. Описание возможных стратегий конструктора можно закончить указанием на возможность комбинаций вышеприведенных способов и включения агрегатов не параллельно и не после выхода из строя предыдущего, а путем некоторого смещения их по времени включения друг относительно друга. Как уже сказано, t{j являются случайными неконтролируемыми факторами. Это полностью описывает ситуацию, если законы распределения рД/) известны. Знание Pt{t) эквивалентно знанию среднего времени работы агрегата: B6) если, как это обычно предполагают в теории надежности, Pi(t) = e~t. B7) Однако если это не так, то знание /,. и дисперсии времени работы 00 $fl B8) не фиксируют однозначно /*,-(/)• Между тем из эксперимента обычно можно иметь /,., Д и может быть только еще несколько характеристик />,-(/)• Поэтому, если вид закона pt(f) априори совсем неизвестен или характеризуется достаточно большим количеством параметров, то возникает «природная» неопределенность, заключающаяся в неопределенности /?/(/), область изменения которых ограничена лишь, например, знанием /; и Д-, т. е. равенствами B6) и B8). Многочисленная
30 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. 1 литература по надежности пока обходит стороной возможность неопределенных факторов в этой модели. VII. Стрельба по одиночной цели группой снарядов контактного действия. Заметим, что под целью здесь понимается не цель операции, а просто объект, по которому ведется стрельба. Эта операция характерна прежде всего наличием так называемого рассеивания снарядов, т. е. случайных отклонений траекторий полета снарядов от идеальной. Эти отклонения обязаны своим происхождением суммированию множества сравнительно мелких случайных величин (таких, как отклонение формы снаряда и ствола от идеала, разброс характеристик пороха и атмосферных условий и т. п.). Поэтому дифференциальный закон рассеивания снарядов согласно центральной предельной теореме теории вероятностей должен быть близок к нормальному гауссовому закону; и это подтверждено практикой. Наличие случайных факторов приводит к желательности (об этом далее будет говориться подробно) использования вероятностных критериев эффективности таких, как вероятность хоть одного попадания снаряда в цель, вероятность попадания всеми снарядами, математическое ожидание числа попавших снарядов и т. п. Будем обозначать вероятность попадания t-ro снаряда (из общего числа п) в цель через Р^Хц—у^; x2i—y2i), гДе (jfih У21)—координаты «центра» цели в некоторой декартовой системе, а (хи, х21)—координаты точки прицеливания в той же системе координат, т. е. идеальное место попадания снаряда, совпадающее с центром нормального рассеивания снарядов. Для Pt имеем выражение dudv, где S—область, занимаемая целью, и, v—координаты точки в системе координат с центром' в (уи, у21), а а\ и al — дисперсии! отклонений снарядов по осям координат. Если считать (xli9 x2i) и (ylh y2i) фиксированными, то из-за наблюдаемой на практике независимости случайных отклонений различных снарядов можно записать
§ 2] ПРИМЕРЫ МОДЕЛЕЙ 31 в следующем виде вероятность хоть одного попадания: Р=1-П[1-Р/(*1|-01<; *,/-У./)]. B9) вероятность попадания всех снарядов: xu-yu\ Хц-Уы) C0) и математическое ожидание числа попаданий: п М = S Р,(д^-^; х,,-^). C1) В настоящее время в теории стрельбы чаще применяются не критерии B9)—C1), а так называемая вероятность поражения цели, т. е. вероятность разрушения ее или нарушения ее функционирования—приведения в негодность. Такое направление развилось после одной из работ А. Н. Колмогорова. Основой вычисления вероятностей поражения является условный закон поражения цели G(m), дающий вероятность поражения цели при условии т попаданий в нее. Наиболее прост показательный закон, предложенный А. Н. Колмогоровым: G(m)=l— (I— a)m, C2) где а—вероятность поражения цели одним попавшим снарядом. Закон C2) называется еще законом поражения цели при отсутствии накопления ущерба от попаданий снарядов. Этим выражается тот факт, что если цель не поражена предыдущими попаданиями, то вероятность поражения ее следующим попаданием не зависит от числа предыдущих попаданий. В этих условиях вероятность непоражения цели п снарядами равна, конечно, произведению вероятностей непоражения отдельными снарядами, равных 1—aPt. Таким образом, для вероятности поражения цели, если выполнено C2), получаем W = 1 -П [1 -аР, (хи-уи; xti-yti)]. C3)
32 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. I Если а= 1, т. е. если одно попадание приводит к поражению цели, C3) превращается в B9). Стратегиями оперирующей стороны в этой задаче, называемой задачей о выборе искусственного рассеивания снарядов, являются правила выбора точек прицеливания (xli9 x2i) для каждого выстрела. Однако решение этой задачи зависит от того, что известно исследователю операции и будет известно оперирующей стороне о неконтролируемом факторе—положении цели (ylh y2i) в момент /-го выстрела. Исследователь операции может иметь здесь дело со всеми ранее перечисленными случаями. A. Положение цели принадлежит к фиксированным факторам (например, если цель неподвижна и ее координаты заранее тщательно измерены). Тогда решение задачи для симметричной цели тривиально хи = у1?, x2i-=y2[. Б. Положение цели измеряется с какой-то случайной ошибкой измерения; тогда положение цели в фиксированной системе координат оказывается как бы случайным, поскольку (у19 у2) будут равны известным измеренным значениям плюс ошибки измерения. Стратегиями здесь могут быть функции измеренных (но не истинных) значений. В простейшем случае, когда положение цели неизменно, а измерение происходит только один раз, все случайные точки (yUi y2i) совпадают между собой. Этот случай называется схемой двух групп ошибок стрельбы: одна группа — совпадающие ошибки прицеливания, а вторая — независимые отклонения рассеивания снарядов (учтенные в Р{). Дело не изменится принципиально, если цель будет не неподвижной, а двигающейся по известной траектории, определяемой начальным положением. В остальных случаях схема усложняется. Подробнее об этом можно прочитать в книге Е. С. Вент- цель «Введение в исследование операций». B. Известен лишь район расположения цели, т. е. известно, что a1^:yli^:b1; a2^y2i^b2. Имеем дело с неопределенным фактором. Этому важнейшему случаю должного внимания пока не уделяется. Г. Если цель может двигаться по произвольной траектории, ограниченной лишь скоростью цели, а измерения положения цели происходят не при каждом выстреле, то
§ 2] примеры моделей 33 будут присутствовать как неопределенные, так и случайные факторы. Впрочем, если даже измерения и производятся непрерывно, то учет возможного перемещения цели (маневрирования) за время полета снаряда приведет к наличию как случайных, так и неопределенных факторов. Приведенной задаче без учета неопределенных факторов посвящено довольно много работ. Однако в военных действиях неправильно и даже невозможно не учитывать сознательного противника, если он может так или иначе управлять маневрированием цели, атакуемой оперирующей стороной. VIII. Линейная обработка измерений (фильтрация) координат движущихся объектов. Эту задачу, также имеющую большую историю и лежащую в основе теории автоматического регулирования, изложим сразу в дискретном виде, что не слишком повлияет на широту охвата явлений. Для простоты рассмотрим движение объекта, характеризуемое одной координатой у (/), которую будем рассматривать лишь в дискретные моменты ti и соответственно обозначим через у{. В результате измерений оперирующей стороне будет известно не yif а величины yt + ?,-, где \(—случайные ошибки измерения. Для увеличения точности знания у{ предлагается использовать линейную фильтрацию измерений путем введения в качестве приближенных значений величин у( величины _ t / гдеру—весовые коэффициенты фильтрации (не обязательно положительные). Здесь уа отражает априорное (до измерений) представление о величине у{. В качестве ошибок фильтрации, как и всегда при измерениях или аппроксимации, можно принять \yi—yt\ или, что более удобно, (y/-y/)f = -lF- C4) Ввиду наличия случайных неконтролируемых величин ti часто используют осреднение критерия C4) по этим случайностям. Если считать величины \г независимыми и имеющими нулевое математическое ожидание (нет 2 Ю. Б. Гермейер
34 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. 1 систематических ошибок измерений), то окончательно выражение для критерия эффективности приобретает вид -W = B pjyj + РоУа-уJ + 2РР/, C5) где Dj—дисперсия ?у. Стратегиями оперирующей стороны здесь является выбор величин ру-. Этот выбор, естественно, зависит от величины i, которая, вообще говоря, является первым неопределенным фактором, хотя может быть и фиксирована. Это типичная природная неопределенность. Вторым неконтролируемым фактором является закон изменения у^ Как и в предыдущем случае, здесь может быть много практически осмысленных вариантов. A. yj случайны с равным нулю (или, что все равно, постоянным) математическим ожиданием, с известными дисперсиями и корреляцией между yf для разных /. При этой постановке вопрос изучался в работах Колмогорова и Винера. Простейшими случаями здесь будут: случай, когда все у( одинаковы (полная зависимость), и при полном отсутствии корреляции. Б. yj неслучайны. Зависимость у;- от / принадлежит к определенному классу функций, зависящих от k параметров as, но значения as неизвестны. Например, в задаче Заде и Рагозина У/= 2 asjs. S = 0 В этом несколько искусственном, но важном случае мы имеем дело с совершенно неопределенными факторами. Во избежание сколь угодно больших ошибок необходимо потребовать, чтобы первые члены C5) не зависели от as, что приводит к условиям i 2 Р//5 —F = 0; 0<s<fe—1. /=i Также ясно, что поскольку yt—уа неизвестна, то необходимо ро = О. Задача сводится поэтому к минимизации второй части C5) при этих условиях.
§ 2] ПРИМЕРЫ МОДЕЛЕЙ 35 В. у; представляют собой движение объекта с ограниченными возможностями, например, с ограниченной скоростью или ускорением. Тогда эти неопределенные факторы подчинены условиям C6) ИЛИ Естественно также принять \уа—# Такой случай довольно правильно отражает то, что происходит при свободно маневрирующем объекте. Он может, в частности, и управляться сознательным противником оперирующей стороны. Не следует думать, что рассматриваемая модель интересна только для военных исследований. Рассмотрение варианта В началось лишь в последнее время (например, в работах автора и Д. С. Иргера). Комбинация указанных вариантов может уже создать модель с весьма широкими возможностями отображения реальной действительности. IX. Модель для выбора дальности стрельбы в дуэльной ситуации. Оперирующая сторона (дуэлянт) и противник могут произвести по одному выстрелу друг в друга. Целью оперирующей стороны является поражение противника. Если противник поразит дуэлянта до выстрела последнего, то дуэлянт выстрела произвести уже не сможет. Дана зависимость вероятностей поражения дуэлянта противником g(D) и обратно—противника дуэлянтом р (D) как функции дальности стрельбы, если соответствующий выстрел будет произведен. Критерием эффективности является полная вероятность поражения противника, которая записывается в виде W = p{D1) при ] при где Dx и D2—дальности выстрела дуэлянта и противника. Стратегией оперирующей стороны является правило выбора Dx, a D2 является неопределенным фактором, зыбираемым противником (его стратегией). 2*
36 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. 1 Дуэльные ситуации, характеризующиеся разрывным критерием эффективности, распространены достаточно широко и не только в военном деле. Они появляются всегда, когда выбор момента времени производства какого-либо действия имеет принципиальное значение. Так, в модели надежности использование холодного резервирования приводит к дуэльной ситуации, если перерыв больше заданной величины в работе системы недопустим. Роль «противника» здесь выполняет природа, «выбирающая» моменты выхода из строя агрегатов. Заканчивая на этом весьма краткий перечень примеров моделей операций, имеющих определенное практическое значение, отметим, что наличие неопределенных факторов является широко распространенным и может быть даже неизбежным явлением. Относительная простота моделей не должна обманывать; исследование большинства из них отнюдь не просто. § 3. О целях, критериях, неполностью сформулированных моделях и объединении операций Можно различать два вида целей и соответствующих критериев эффективности *). I. «Качественные» цели, которые могут быть только или достигнуты, или не достигнуты. Все результаты операций, приводящих к достижению цели, одинаково хороши; точно так же все результаты, не приводящие к достижению цели, одинаково неудовлетворительны. При этом критерий эффективности должен принимать только два значения (конечно, безразлично какие): 1 (в случае успеха) и 0 (в противоположном случае) или 1 и — сю (если нужно подчеркнуть полную неприемлемость недостижения цели). Такой целью операции является сохранение работоспособности системы в VI модели предыдущего параграфа. При «качественной» цели определение цели может предшествовать определению критерия эффективности. Кажущаяся простота критерия эффективности обманчива, поскольку функциональная зависимость величины *) Это разделение по существу совпадает с данным в книге Р. Айзекса «Дифференциальные игры».
§ 3] о целях и критериях 37 критерия от стратегий и неконтролируемых факторов может быть весьма сложной. II. Количественное определение цели заключается в стремлении увеличить (или уменьшить) значение некоторой величины, зависимость которой от фазовых координат и составляет критерий эффективности операции. Таким образом, здесь формулирование критерия как бы предшествует определению цели операции. Все примеры моделей (кроме VI), приведенные выше, относятся к этому классу, и это неслучайно. Действительно, часто первоначально цель операции формулируется качественно. Однако наличие, например, случайных факторов делает случайным и исход операции; поэтому совершается переход к другой «более достижимой» цели операции, которая уже обычно оказывается целью второго типа, образованной на базе первоначальной. Подробнее об этом будет сказано ниже. Часто появляются обманчивые формулировки первого типа, хотя и носящие по форме категорический качественный характер, но бесплодные ввиду отсутствия связи между фазовыми координатами (и, тем более, между контролируемыми и неконтролируемыми факторами) и двузначным результатом операции. Так, например, цель, состоящая в выигрыше войны, в действительности не является целью, а остается только неопределенным лозунгом, непригодным для исследования операций. В этих случаях отсутствие эквивалентной математической замены лозунга приводит или к состоянию неопределенности или к введению некоторого критерия второго типа, не носящего категорического характера. Такая ситуация отнюдь не всегда может быть поставлена в вину исследователю операции; скорее, она отражает нечеткое понимание своих целей оперирующей стороной в целом. Следствием неопределенных ситуаций часто являются неполностью сформулированные модели операции, в которых нет единого критерия эффективности в смысле, указанном выше. Вместо этого появляется вектор-функция ^{Ху y) = {<ui(x, у)} контролируемых и неконтролируемых факторов, состоящая обычно просто из всех фазовых координат или их части. Очевидно, что каждую координату вектора (of(xf у) следует увеличивать (или
38 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. I уменьшать), но остается неясным, какие именно комбинации значений координат вектора следует предпочитать другим, когда нет возможности (а это обычно) увеличивать или уменьшать их одновременно. Переход от неполностью сформулированной модели к обычной, корректной, есть не что иное, как процесс свертывания вектор-функции со (х, у) в обычную функцию W (х, у). Какие же методы свертывания используются обычно? Этот вопрос тесно соприкасается и даже является частью более общей постановки вопроса о методах объединения операций в более широкую операцию, или, что то же, вопроса о методах разбиения операции на более мелкие. Объединение s операций состоит в объединении активных средств, стратегий, неконтролируемых факторов, фазовых координат и введении общего единого критерия объединенной операции. Объединение активных средств есть просто сложение соответствующих векторов Лу(/=1, ..., s); для этого путем введения нулевых координат (если это нужно) все векторы приводятся к одной и той же размерности. Объединение неконтролируемых факторов—векторов Y{i) (i^s) происходит еще более формально введением У fyjU) /уA) //B) /7B) /7(S) f.(S)\ i — \У\ у • • • > У ms У\ > • • • 1 У m2» • • • > У\ > • • • > Ут31* Объединение стратегий производится как образование из векторов Х(/) = {*!/, ..., xnjf} новых векторов где [Aj]—произвольное разбиение суммарных активных средств 2 А°1 п0 составляющим операциям, которые не обязательно должны обладать прежним запасом активных средств. В общем виде стратегия опять запишется как X (F). Разумеется, могут быть и такие случаи, когда распределение активных средств при объединении не может изменяться, но $тр нетипичный случай сознательного объединения.
§ 3] о целях и критериях 39 Может быть также и так, что при объединении операций активные средства не увеличиваются по сравнению с одной операцией; это равносильно в общей схеме принятию Л? = 0 для всех /, за исключением одного. Очевидно, по такому же принципу объединяются и фазовые координаты. При формировании единого критерия объединенной операции можно представить себе две различные ситуации. 1. Суммарный критерий имеет вид Wc = F(Wl9 ..., Ws), где Ц?у—значения критерия для у-й составляющей операции, т. е. критерий суммарной операции есть функция только критериев частных операций. 2. Суммарный критерий может быть представлен только как функция фазовых координат новой операции, но не сводится к функции частных критериев. Во втором случае объединенная операция не имеет ничего общего по своей цели с частными операциями и, значит, является новой операцией, только базирующейся на активных средствах «прежних» частных операций. Естественно поэтому, что под объединением операций следует понимать только первый случай; так и будем считать в дальнейшем. Формально можно, конечно, рассматривать и объединение бесконечного числа операций. Рассмотрим ряд элементарных способов объединения (свертывания) критериев, т.е. функций Wc = F(№у), которые наиболее часто фигурируют в практике исследования операций. При этом мы неизбежно вторгаемся в область математической логики, хотя и самым поверхностным образом. I. Суммирование или «экономический» способ соединения, когда целью объединенной операции является максимизация суммарного критерия типа s Wc= ^XjWj. C9) /=i Положительность Яу, вообще говоря, не предполагается, хотя чаще всего Х;- неотрицательны вместе с Wj. По такому принципу, например, образован критерий в примере IV (формула (9)); здесь Ау=1, а под частными операциями понимаются операции средств нападения на отдельных пунктах расположения средств защиты.
40 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. I Аналогично образован критерий в примере I и в формуле D). В последнем случае используется интегральный эквивалент C9) вида Wc=^W(u)X(u)du, C91) который получается при свертывании критериев, зависящих от непрерывного параметра (т. е. при объединении бесконечного числа операций). Эта распространенная модификация C9) получается, например, при осреднении критериев эффективности, зависящих от случайных параметров; тогда К(и)^0 и ^(и)йи=1. Если в C9) одна из операций такова, что она всегда выполняется, а это можно характеризовать, например, критерием Ws+1=l9 то в качестве частного случая C9) получим (ks+1 для удобства обозначается Яо) В свою очередь, полагая Хо = 0, возвратимся к C9). Рассмотренный способ объединения приводит к цели операции второго (количественного) типа, если даже для частных операций были цели первого типа, т. е. Wj = 0; 1. При объединении критериев первого типа по C9) для ряда составляющих операций может быть принята необходимость достижения своих частных целей, т. е. достижения 1. Тогда для этих операций необходимо принять L>0 и Wj=— сю; 1. II. Способ перехода к цели первого типа путем разбиения векторов {Wj} на удовлетворительные и неудовлетворительные. Удовлетворительными объявляются только векторы {Wj}, для которых Wj^zW}; 1</<s. D0) При этом критерий объединенной операции имеет, естественно, вид Wc--= 1 при выполнении D0); Wc = 0 или —сю в остальных случаях. Этот вариант может применяться даже при s = 1 и означает тогда замену цели — увеличение W на цель—достижение неравенства W ^W°.
§ 3] о целях и критериях 41 Обычно затруднительно дать убедительные доводы в пользу того или иного выбора вектора {№?}, и поэтому при применении такого способа объединения особенно подчеркивается необходимость использования принципа свободы выбора критерия оперирующей стороной. III. Способ последовательного достижения частных целей. Здесь учет выполнения последующей операции начинается только тогда, когда достигнуты уже абсолютные максимумы критериев эффективности предыдущих частных операций. Если №у>0, то результат суммарной операции при этом естественно принять равным сумме достигнутых результатов в учитываемых операциях. Формально этот способ объединения (при Wj^O) можно записать в виде j ^pt, D2) когда / удовлетворяет условиям Wt = sup Wt при / ^ /— 1, Wj < sup Wj, где sup Wi означает верхнюю границу возможных значений критерия эффективности. Типично использование такого объединения для случаев, когда все частные операции, кроме, может быть, последней, имеют цели первого типа; тогда supWf=l. Обычно практическая реализация подобного рода объединения целей проводится, если есть уверенность в получении информации (для своевременного переключения на следующую частную операцию) о достижении верхней грани критерия предыдущей операции, хотя, конечно, указанное объединение формально определено и при отсутствии такой информации. Экономические усилия и военные действия часто удачно могут описываться этим способом объединения целей частных операций. Пример: организация постепенного уничтожения нападающих подразделений или занятие опорных пунктов. IV. Логическое объединение целей. Пусть критерии частных операций есть критерии первого типа и принимают только значения 0 и 1. Тогда часто используются элементарные действия над целями (критериями): а) целью, противоположной данной /-й цели, называется стремление к невыполнению /-й цели; для критериев W = \— W/, D3)
42 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. 1 б) суммарная цель состоит в выполнении всех частных целей (конъюнкция) /, D4) в) суммарная цель состоит в выполнении хоть одной из частных целей (дизъюнкция): П(^у). D5) Эти действия, обычные для математической логики, и составляют, как известно, полную систему булевых операций (см., например, В. М. Глушков «Введение в кибернетику», гл. II, § 3). Это означает, что любая связь WC = F(W1, ..., Ws)> где Wc и Wj принимают только значения 0; 1, может быть записана в виде конечного числа последовательных повторений действий а), б) и в). Этим самым полностью описаны все возможные связи между суммарным критерием и частными критериями, если как частные, так и суммарные операции принадлежат к первому типу, т. е. имеют качественный характер. Примером использования такого соединения является модель VI, если в качестве частных критериев выступает не время работы, а само работоспособное или неработоспособное состояние отдельных агрегатов. При этом последовательное соединение агрегатов дает пример конъюнкции (все агрегаты должны работать), а дублирование системы в целом есть пример дизъюнкции конъюнкции (должна работать хоть одна система, в которой должны работать все агрегаты). Наконец, поагрегатное дублирование дает пример конъюнкции дизъюнкций (должен работать хоть один агрегат каждого типа). V. Обобщенное логическое свертывание критериев. Прямым обобщением действий предыдущего пункта являются: вместо D3) антагонистические интересы Wn= —W/, вместо D4) Wc= min WXa K>0; D6) K/<s J J
§ 3] О ЦЕЛЯХ И КРИТЕРИЯХ 43 вместо D5) Wc= max WjK/, Xj>0. D7) к/о Эти способы объединения применимы для любых типов целей (критериев). Выражение D6) немедленно превращается в D4), если все Wy принимают только значения 0; 1, а Яу = 1. Точно так же в этом случае и D7) эквивалентно D5). Использование операций минимума и максимума видно во многих приведенных выше примерах моделей; особенно ярким является пример VI, где за критерий принимается время работы системы (см., например, A5), A7) и т. д.). VI. Случайное и неопределенное свертывание. Суммарным критерием объявляется тот или иной частный критерий в зависимости от того, какое значение примет неконтролируемый фактор /, т. е. В общем случае частные критерии могут определяться непрерывной случайной или неопределенной величиной, и мы получим We = W{a) = Wu. D8) Несмотря на кажущуюся тавтологию, именно этот случай является одним из путей проникновения случайных и неопределенных факторов в исследование операций и как раз отражает неуверенность оперирующей стороны при выборе критерия операции. В частности, если оперирующая сторона не может точно определить коэффициент веса А,у. частных операций в способах объединения I и V, то эти {Яу} и будут теми неопределенными факторами, о которых идет речь. С нашей точки зрения, неуверенность оперирующей стороны при выборе критерия увеличивает количество случайных или неопределенных факторов, неконтролируемых оперирующей стороной, что, несомненно, затрудняет выбор стратегий и уменьшает их эффективность. Следует подчеркнуть, что при таком способе объединения критерии Wj становятся как бы равновесомыми; все равно, увеличивать ли Wj или WJ+1, если увеличение одинаково. Если и в этом нет уверенности, то нужно одновременно вводить неопределенные коэффициенты веса
44 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. I частных критериев, т. е. вместо D8) писать We = X(a)W.. D81) Перечисленные методы объединения критериев применимы и к случаю не полностью сформулированной операции. Здесь в роли частных критериев должны выступать функции соДя, у). § 4. Полнота системы элементарных действий над критериями (методов свертывания) Покажем, что введенные в предыдущем разделе элементарные действия в состоянии отразить всю широту возможных однозначных зависимостей Wc от Wj, если использовать всевозможные комбинации этих действий. Это обстоятельство следует из нескольких результатов, которые сейчас будут приведены. Теорема I. Если однозначная функция Wc = = F(Wly ..., Ws) и каждое из Wj принимают лишь конечное число конечных возможных значений, то зависимость W с от Wj может быть представлена в виде конечного числа действий типа IV, [т. е. D3)—D5)] и типа I и II [C9) и D1)]. Доказательство. Пусть W tJ—возможные дискретные значения /-го критерия (i=l, ..., iy), занумерованные в порядке возрастания. Wс также, очевидно, принимает лишь конечное число значений, которые в порядке роста обозначим через Wck(k=l9 ..., N). Введем функции cocft = 0 при We<Weh; <ort=l при Wc^*Wck. Поскольку a)ck является функцией Wc, то она является и функцией Wj. Имеем, очевидно, % *~WcH-Ak<Wc)> D9) где Wc0 = 0. Таким образом, Wc образовано из о>сЛ по правилу I C9).
§ 4] ПОЛНОТА СИСТЕМЫ ЭЛЕМЕНТАРНЫХ ДЕЙСТВИЙ 45 Пусть аналогично Wu (Wj) определяются равенствами W'~=l при l',>lt l=h -'Ъ- т Таким образом, функции Wи образованы из Wj по способу II. В то же время Таким образом, ©ffft, являющиеся функцией Wy, могут быть записаны как функции W tJ(W j). Поскольку cock и W/y являются булевыми переменными (принимают только значения 0 и 1), то по уже упоминавшейся теореме математической логики зависимость сосЛ от Wtj может быть представлена *) как последовательность действий типа IV. Но так как сами Wtj выражаются через Wj по способу II, a Wс — через corft по D9), т. е. по правилу I, то теорема доказана. Теорема I исчерпывает здесь результаты, говорящие о точном представлении зависимостей F {Wj) в виде конечного числа элементарных действий. Последующее утверждает только возможность того или иного приближенного представления, но с любой заданной точностью. Теорема II. Пусть WC = F (Wly ..., Ws) принимает конечное число — N значений Wck> a Wу пусть произвольны, но ограничены. Тогда, каково бы ни было г > 0, существуют множество М векторов {Wf} и функция F*(Wlf ..., Ws)t составленная из конечного числа действий 1, II и IV, такие, что _ ^Функция <oCk [Wij(Wj)] всегда может быть доопределена до tockiWtj) для независимых №//, принимающих значения 0; 1. Для этого достаточно, например, положить со^(и^,-у)=0, если хотя бы для одного / вектор (W1.t ...yWj.j) не есть вектор {№,у (№у)}. Вектор (Wjy, ..., ^7у/)» очевиДно» тогда и только тогда есть вектор {Wjj (Wj) ... Wy (Wj)} для некоторого /, когда Fly-
46 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. 1) F(W,) = F(Wj), когда {Wj}€M; 2) F*(Wj) пробегает все N значений Wck при {Wj}> пробегающем Му не принимая иных значении и при любых {WM 3) М образует е-сеть на ограниченном множестве всех {Wj}j т. е. для любого {Wj} найдется {W)) g М, удаленный от [Wj] не более чем на е. Доказательство. Пусть Mk—множество векторов {W,}, для которых F(Wj)=-Wck. Ввиду ограниченности Mk в нем всегда можно выделить е-сеть УИ?, составленную из конечного числа векторов {№}/}}, где /=1, ..., mk. Занумеруем все Wffi, для данного /, в порядке возрастания в виде величин WjrJ где г = 1, ..., Пу<! ^ 2]тл. Введем и образуем новые переменные /¦=1 Очевидно, что {Wj} = {Wj}t если {wf}eM%Mk. Оставим определение Wj тем же, если соуг—независимые переменные, принимающие только значения 0 и 1. Функцию F1(WJ) определим равенством (F{WX {t,} g M, l( j) \ Wcl> _ Функция F2((d/r) = F1(WJ)i очевидно, удовлетворяет условиям теоремы I и потому представима в виде конечного числа действий I, II и IV. То же относится и к функции т. к. coyV (Wj) образованы по способу II. Поскольку F*(Wj) = (W) при {Wj}?M и принимает лишь
§ 4] ПОЛНОТА СИСТЕМЫ ЭЛЕМЕНТАРНЫХ ДЕЙСТВИЙ 47 значения Wch принимая все эти значения уже на множестве Му и поскольку М образует е-сеть, то теорема доказана. Так как любая равномерно непрерывная функция с любой заданной степенью точности может быть представлена кусочно постоянной функцией, то, видоизменяя несколько доказательство, в основном аналогичное только что приведенному, можно убедиться, что справедлива Теорема III. Если Wc = F(Wj) равномерно непрерывна на некотором параллелепипеде возможных значений {Wj)y то она с любой степенью точности может быть представлена в виде конечного числа действий типа I, II и IV. Хотя эти теоремы и не полностью исчерпывают вопрос, однако с точки зрения практики они достаточно убедительно говорят о полноте системы операций I, II и IV. Поскольку действия типа V, как показано выше, включают в себя IV, то тем самым продемонстрирована и полнота системы действий I, II и V. Однако можно доказать и значительно более сильное утверждение. Теорема IV. Если WC = F(WJ) (/<s) непрерывна на области —оо < WJ^Wj^Wff<C °о, то каково бы ни было е, найдется такое конечное число коэффициентов ашр cik (f^fo"» &^&o^s + 2), что в этой области — min max ( 2 Доказательство. Ход доказательства не зависит от величины s, поэтому для простоты ограничимся случаем s = 2. Разобьем прямоугольную область точек (tt^, W2) на столь малые прямоугольники, чтобы разность^ между максимумом и минимумом F(W19 W2) в этих "прямоугольниках была меньше е. Затем разобьем каждый из прямоугольников диагональю на два треугольника. Таким образом, область изменения (W19 W2) разбита на треугольники, внутри которых изменение Wс не превышает 8.
48 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. I Проведем через три точки пространства (W1У W2, Wc), отвечающие вершинам треугольника, плоскость W^a^W. + a^W. + c^ E2) где 6—номер треугольника. Внутри треугольника эта плоскость отличается от F(Wly W2) не более чем на е. Пусть теперь Rb—угол между 6-й плоскостью и положительной осью Wс\ через R обозначим -H-min/?b. Прове- 1 ь дем через каждую пару точек пространства (W19 W21 Wc), соответствующих вершинам 6-го треугольника, плоскости W^abk.W. + abk.W. + c^ k = 2, 3, 4, E3) каждая из которых составляет с положительной осью Wс угол, равный R, и острый угол с внешней нормалью в плоскости (Wlt W 2) к стороне 6-го треугольника, проходящей через соответствующую пару вершин. Тогда плоскость E2) расположена над 6-м треугольником выше, чем три остальные плоскости, отвечающие k = 2; 3; 4; а функция max [abklWl + abk2W2 + cbk]==fb(W1, W2) 1 fc4 представляет собой трехгранную «чашу», дном которой является часть плоскости E2), лежащая над 6-м треугольником, а боковые грани—куски плоскостей E3). Далее, по определению /?, fb{Wly W2) расположена над треугольником с номером ЪХФЬ выше, чем плоскость ^,11^1 + ^12 + ^1' а значит, и выше, чем MWX, W2). Поэтому совпадает над 6-м треугольником с соответствующим куском плоскости E2) и потому отличается от F (W19 W2) всюду не более чем на е, что и требовалось доказать. Как видно из доказательства, утверждаемая приближенная запись F(Wj) есть не что иное, как иная формулировка кусочно линейной аппроксимации. Замечания к теореме IV. 1. В формулировке теоремы можно, конечно, с соответствующим изменением коэффициентов линейных форм,
§ 4J ПОЛНОТА СИСТЕМЫ ЭЛЕМЕНТАРНЫХ ДЕЙСТВИЙ 49 брать не мищимакс, а максимин. Чтобы в этом убедиться, достаточно воспользоваться теоремой IV для F1(Wj) = = —F (WJ) ц равенством —J!flbk/W/—cbk\ =—max L i=i J ь min max ь k L J^iv"J J ~"J ь k L/=i 2. В современной математике, в частности в линейном и нелинейном программировании и в теории игр, большое значение приобрели выпуклые (вогнутые) функции f(xlt ..., хп), которые определяются как удовлетворяющие неравенству ...9уя] E4) при любых X из интервала [0, 1]. Для вогнутых функций справедливо обратное неравенство. Легко убедиться, что функции max к 14 1 2j abk/xJ + сЬк L/=i J выпуклы. Действительно, max [S Отсюда следует, что любая непрерывная в ограниченной области функция F(xJ) с любой заранее данной степенью точности приближенно равна minfb(xj)y где все ь fb(xj)—выпуклые функции, т.е. приближенно равна минимуму, взятому по конечному семейству выпуклых функций. Разумеется, сглаживая кусочно-линейные выпуклые *) Совершенно аналогично доказывается выпуклость функции вида max/ft(jt), если все /&(*) выпуклы. Точно так же min ф/g (xj вогнута, если вогнуты все фА (*). k
50 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. I функции, можно всегда считать fb{xj) достаточно гладкими, если это потребуется. 3. Теорема IV может быть использована и для приближенного представления зависимости критерия эффективности от контролируемых и неконтролируемых факторов. Таким образом, любой непрерывный/критерий эффективности может быть представлен как минимакс семейства линейных функций или как минимум семейства выпуклых функций. Анализ примеров моделей в § 2 показывает широту применения операций максимума и минимума при формировании критериев, что как будто усиливает практическую значимость теоремы IV. Обратим внимание и на то, что, например, |Х — 7| = maxf|X — У; Y—X\. 4. Как сказано в условиях теоремы, ko^.s + 2t т.е. по существу не зависит от точности и области представления. Наоборот, /0 находится, вообще говоря, в сильной зависимости от точности представления е и области, в которой эта точность достигается. Если функция F(WJ) удовлетворяет условиям Липшица по всем аргументам, то, как нетрудно понять, просматривая доказательство теоремы, Это неравенство совместно с k0 ^ s + 2 достаточно точно описывает возможную степень сложности приближенной записи критериев с помощью действий суммирования и взятия максимума и минимума. Итак, теоремы I — IV достаточно убедительно показывают полноту данных в § 3 элементарных способов соединения критериев, если Wc= F (Wj). Если же Wc = F(WJy а), где а —неконтролируемый параметр, то, используя при фиксированном а уже доказанное и соединяя это с элементарным соединением VI, получим подтверждение полноты способов соединения и при наличии неконтролируемых факторов. В заключение отметим, что приближенное представление критериев по теореме IV может быть иногда удобным инструментом исследования. Однако нет математического
§ 5] ПРИМЕРЫ СВЕРТЫВАНИЯ КРИТЕРИЕВ 51 способа получения такого представления, если исходить из свойств '»функции F(Wj). Будет интересно произвести соответствующее исследование. Пока же можно обратить внимание на следующее. Если известно, что F(Wj) при всех Wj больше, чем любая из линейных форм 2 ai№j + bh то F (Wу), оче- / 1 / s видно, больше чем max ( 2 aijWj + bt , так что послед- i \/=1 / няя функция может рассматриваться как приближенная оценка снизу (гарантирующая) критерия F(Wj). Точно так же, если F(Wjj для всех Wу меньше, чем хотя бы одна из указанных линейных форм, то F (W) меньше, чем Так же легко могут быть получены и оценки снизу типа максимина линейных форм и аналогичные оценки сверху. На практике могут существовать соображения, дающие возможность непосредственно получать оценки такого рода. § 5. Примеры свертывания критериев способами I и V Наличие общей теоремы IV только увеличивает интерес к различным частным случаям точного выражения суммарных критериев с помощью приемов I и V. Дадим несколько примеров, практическое значение которых станет ясным при рассмотрении вопроса о неопределенностях третьего типа. Отметим, в частности, подобные выражения и для способа свертывания III и способа II в варианте WC=U -оо. А. Нетрудно проверить, что если хоть одно Wit < W°, или, что то же, min {Wt—W?) < 0. 1 1</<s
52 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. I Столь же очевидно равенство min J?ki(Wi—WI) = 09 если для всех i W^ W7?, или, что то же, min {W,- Отсюда ясно, что есть запись способа объединения II через I и V, причем а 1>0 означает Х^О при l^^ В этой формуле и во всех аналогичных далее, как легко проверить, достаточно взять дискретный (но бесконечный) набор Xh например, принять Х{ = пу где я = 0, 1, 2,... Б. На практике часто свертывание критериев Wt= = /7ДХ, Y) осуществляют, вводя «основной» критерий W1^=F1(Xy У), который стремятся увеличить при обязательных требованиях на остальные ^ОЩ\ i = 2y ..., s. Такой способ является обобщением II способа свертывания и может быть записан путем введения единого суммарного критерия 1 = F1(X9 Y) при min (№,— 2<i< —оо при min (Wt — WJ)<0. 2</<s Точно так же, как и в предыдущем случае, легко проверяется для этого критерия справедливость выражения wc= = inf \w,+ 2 XiWi-i где Ь =
§ 5] ПРИМЕРЫ СВЕРТЫВАНИЯ КРИТЕРИЕВ 53 В. Пусть все W( неотрицательны, a sup№t- = = sup/?/(X", У)—конечные верхние границы критериев при заданных областях изменения X и Y. Образуем для каждого i критерий Ф,- по способу II (см. пункт А): Ф,= inf bt(Wt—sup IP,)+ 1. Далее для каждого fe^s образуем по способу I критерий k-\ Wh= У supWJS>? + Wk, i = l где числа snpW{ играют роль %t. Наконец, пусть Хк = .= max Wk= max inf k-\ Эта формула образована по типу теоремы IV с той лишь разницей, что при каждом k коэффициенты линейной формы пробегают бесконечное число значений. Утверждается, что написанное Wс совпадает со способом объединения III. Действительно, если при данных X и Y достигнуты supW; для i^.k0—1, но \^feo<sup^^o, то критерий по способу объединения III равен, очевидно, Но тогда и для записанного выше Wc9 очевидно, при этом имеем (при kk) inf J;| supWMWi-supWi) + k2 sup = *2 sup
54 о формализацией исследования операций [гл. i а при k^ko+\y очевидно, из-за Wko < sup Wk inf [kj>supWiXih(Wi-svipWi) + "jlsupWt + W,] =-oo. 4 li = l i = l J Поэтому из-за неотрицательности W., а значит и sup W.-, *e-i получим, что и W7^ = 2 SUP W/ + №* • Обратно, если в выражении Wc для данных X и Y9 т. е. для данных W,., максимум по й достигается при k = kly то это, очевидно, может случиться только тогда, когда Wki < sup Wki и Wt = supW{ при i<kx. А этого достаточно для того, чтобы убедиться в тождественности Wc данного пункта и способа объединения III. Г. Если в способе объединения I о Х{ не известно s ничего, кроме ^-^0, 2 ^/=1» то» как следует из дальнейшего, представляет интерес объединение j Очевидно, что т. е. равно одному из способов свертывания V. Непосредственным обобщением этого является равенство s Wc = min2>,.W,= min |i, если Пусть теперь S Тогда, полагая Х}1} = j _ , учитывая,
§ 5] ПРИМЕРЫ СВЕРТЫВАНИЯ КРИТЕРИЕВ 55 и используя только что полученное равенство, имеем i=\ 1 < / < s Если r = 0, то и Х? = 0, и рассматриваемый случай превращается в предыдущий. Наоборот, если г=1, то получаем способ свертывания I при заданных Xi = Xf. Д. Связи, указанные в предыдущем пункте, изменяются, если частные критерии расположены в порядке «важности», т. е. если имеются дополнительные ограничения Х^Х[+1^О s при сохранении JJ Я,-= 1. /=1 Положив при этом Xs+1 = 0, получим s i = min2 P/ У, WJt p /=i /=i где Pt = bt-bi+i>o> ^ Ф/ = S i p/=S ^=1. Поэтому по результатам предыдущего пункта при ^> ту/ min '\П 1 XV/ S Обобщая это на случай S X{Wf = 1 при вследствие S / S S S ^t~1 '^ki TT77 П "^1 IV/ Л ^С^ "^ 2/( р, У Wj = ij vy 2j. Pi = 2
56 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОЦЕРАЦИЙ [ГЛ. I имеем = min V X,,.W,-= min i J ~ * Наконец, если .S-l то, вводя jx/^^/IIo (/<s—1), ii, = X, имеем*) Поэтому для этого случая Ve = min 2 ^^min 2 ,i, ГЦ r,l V,= min i /s-l Г тп S E. Пусть Xt^O и 2 ^/= !• Покажем справедливость равенства max Для этого прежде всего убедимся, что реализующие ми- нимакс в Wс значения Xf должны удовлетворять условиям X^Wi = XlWv Действительно, если бы это было не так. *) Для краткости записи далее формально положено S-1 П /=»
§ 5] примеры свертывлния критериев 57 то существовали бы ilf для которых Но тогда, взяв достаточно малое А и отняв его от всех XI (пусть количество V равно т)9 реализующих max XfWh < получим новые XI, = XI —А. Образовав K'it = X°ib + m& и оставив без изменения остальные Х\ = ХЧ при 1Ф%' ъ i?=h9 получим при достаточно малом А новый вектор А/, для которого max X'tW; < max X°tW'it 1 < i < s 1 < / < s что противоречит предположению о Х°ь, как реализующем min max X(Wt. X i</<s Итак, Отсюда V=?j и 1 = 1>,°=с1^. Таким образом, Wc = c = —s , что и требовалось доказать. Аналогично можно убедиться и в справедливости равенства min ц 1 Это последнее равенство означает в силу ранее сказанного еще и следующее. S S Пусть ^-jT=l и ?ц/=1 при и-/^0 и ^/>0. Тогда s Wс = max min? ^-W,- = max min \ktW(= —jJ .
58 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ (ГЛ. 1 § 6. О моделях с векторным критерием эффективности Сказанным в §§ 3 и 4 можно было бы и ограничить рассмотрение не полностью сформулированных моделей (моделей с несвернутым векторным критерием {w;(x> у)}), считая, что эти модели обычные, с одним критерием, но включающие в себя специальные неконтролируемые факторы, связанные с нерешительностью или нечеткостью формулировок оперирующей стороны. Однако в современной литературе значительное внимание уделяется вопросу о множестве критериев; в связи с этим необходимо сказать еще несколько слов. Рассуждения о выборе рациональных действий при «множестве» критериев можно подразделить на три группы: а) В результате терминологической нечеткости часто к критерию эффективности присоединяют и активные средства, называя их вектор также критерием. Но активные средства задаются, ограничиваются, как сказано в пункте Б § 5, а не оптимизируются, если только они не входят вместе с исходным критерием в сложный критерий эффективности, образованный по способу III. Во всех этих случаях критерий эффективности, очевидно, единствен и выражается так, как показано в § 5. б) Довольно неопределенные разговоры о компромиссах между различными составляющими вектора критериев, которые по существу являются введением единственного критерия. На этой части нет смысла останавливаться. в) В ряде экономических исследований имеется попытка ввести понятие рационального выбора стратегий при множестве критериев, аналогичное обычному понятию оптимального выбора (максимума единственного критерия), имеющемуся при отсутствии неконтролируемых факторов (кроме фиксированных). Именно, введено понятие эффективного (в иных источниках — экстремального) значения вектора критериев {Wj(x0)} среди всех возможных векторов {Wj(xj). Вектор х0 можно назвать точкой эффективности. Вектор [wj (x0)} называется эффективным значением вектора критериев, если не существует среди всех возможных векторов {Wj(x)} такого, что Wj(x)^Wj(x0) для всех /, и хотя бы для одного j это неравенство строгое.
§ 6] О МОДЕЛЯХ С ВЕКТОРНЫМ КРИТЕРИЕМ 59 Эффективные векторы и предлагается иногда считать рациональным выбором при множестве критериев. Покажем, что эта постановка вопроса по существу эквивалентна случаю единственного критерия при наличии неопределенных факторов. _ Назовем определенно неэффективным вектором {oPy(Xi)} такой, что найдется х2, для которого Wj(xx)<Wj(x2) при всех /. Теорема V. Пусть {Wj(x0)}—эффективный вектор, причем w/(x0)>0 для всех ]. Тогда он оптимален для некоторых Х;- > 0 B^/=1) пРи единственном критерии mink :Wf(x). Наоборот, определенно неэффективные векторы i не могут реализовать максимум ни при каких Л-у > 0. Доказательство. Пусть {Wj(xo)\ — эффективный вектор. Положим Ау= l/Wj (х0), тогда min XjWj (x0) — 1. Для любого хф х0 в силу того, что х0 эффективен, имеется /0 такое, что w/o(x)^.Wjo(x0). Но тогда k/QWjo(x) ^ 1 и, следовательно, _ min XjWj (х) ^ 1 = min AyOiy (л:0). Это и означает, что х0 реализует максимум критерия min XjWj(x) при Xj = Xj. Разделив этот критерий на^Ху, окончательно докажем первую часть утверждения. Пусть_теперь хх определенно неэффективен. Тогда существует^ такой, что при любых %t > 0, XfWj (x^ < ^/<уДл:2) и, следовательно, minkjWjCx^ <mmijWj(x2), а значит, хх не является точкой реализации максимума W (х) = = min XjWj(x) ни для каких ^у>0. Пример wx (х19 х2) = хх + х2; w2 (л^, х2) = х2 + А —хх при х12^0 и х12^Л показывает, что существуют задачи, в которых множество эффективных векторов бесконечно. Здесь каждый вектор х~0 = (х1, А) является эффективной точкой. Действительно, если хх + х2 > х\ + А, А + х2 — — х±^ А—х\-\-А и хотя бы одно из неравенств строгое, то, сложив эти неравенства, получим х2 > Л, что невозможно. Одновременно неопределенны и Ау. Другой пример с бесконечным множеством эффективных значений вектора критериев можно получить,
60 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. I например, в модели IV, если взять для защиты за вектор критериев вектор {— max [я,—pty{, 0]; 1</</г} количеств прошедших средств нападения на каждом из к пунктов, взятых с обратным знаком. Если х{ фиксированы, то все векторы критериев, получающиеся при выполнении неравенств у( < xrfph эффективны, ибо тогда вектор критериев представим в виде k и при У yt = п увеличение хотя бы одной из компонент зтого вектора немедленно должно сопровождаться уменьшением какой-то другой. Теорема V утверждает, что мы получим все эффективные векторы*), перебрав максимумы для некоторого набора векторов {Kj} при Х;- > 0. Отсюда же ясно, что понятие эффгктивного вектора, если он не единствен, не имеет особого смысла, поскольку не указывается, как же произвести выбор между ними, и в то же время ясна их неравноценность при разных Xj. Развиваемая далее теория выбора при наличии неопределенных факторов позволяет преодолеть эти трудности. Из сказанного видно, что в дальнейшем можно не рассматривать специально не полностью сформулированные модели, т. е. «множество» критериев. Заметим, что в книге Карлина имеется сходный с теоремой V результат, основанный на первом элементарном способе соединения критериев при предположении о выпуклости функций Wj(x) (см. главу 7, стр. 254). Результат этот формулируется в виде следующей леммы. Лемма. Пусть ~х0—точка эффективности для системы критериев {Wj(x)\(j ^г) при наличии системы ограничений fi(~х) >0, и пусть функции Wj (x) и /Д#) вогнуты. г г Тогда существует вектор v = (vlf... ,vr) (Vj > 0,23 v/ = = 1), так что максимум функции *) Легко, несколько видоизменив единственный критерий, добиться, чтобы реализациями его максимумов были только точки эффективности.
§ 7] НЕКОТОРЫЕ ОБЩИЕ ПРИНЦИПЫ 61 на_ множестве всех "х> удовлетворяющих ограничениям fj(x)^Q> достигается при х = х0. Доказательство приводить не будем. С точки зрения задач этого раздела теорема V более интересна^ поскольку на критерии Wj(x) и множество допустимых х не накладывается никаких условий; Wj{x) и /Дх) могут быть любыми функциями. § 7. Некоторые общие принципы исследования операций Подведем некоторые итоги предыдущих суждений о моделировании операций. 1. Критерий эффективности в модели единствен, стремление к его увеличению является математическим эквивалентом цели операции. Однако он может зависеть от специальных неопределенных факторов, выражающих неясность целей оперирующей стороны или недостаточную изученность явлений. Понятие эффективного вектора результатов вряд ли имеет большое значение, поскольку не дает ничего нового по сравнению с оптимизацией скалярного критерия эффективности при наличии неопределенных факторов. 2. В основу методов свертывания вектора результатов (критериев) при объединении операций в более широкую могут быть положены операции взятия максимума и минимума результатов и суммирование их с весовыми коэффициентами; добавив к этому метод разбиения результатов на удовлетворительные и неудовлетворительные, получаем полную систему методов свертывания. Для свертывания системы критериев качественного типа, принимающих лишь значения 0; 1, можно вместо максимума и минимума применять логические операции—конъюнкцию и дизъюнкцию. 3. Оперирующая сторона имеет в своем распоряжении некоторое количество активных средств и распоряжается способами их использования (стратегиями). Целью исследования операций является оценка эффективности стратегий (т. е. величины критерия эффективности при данном способе действий) и выбор рациональных стратегий. 4. Величина критерия эффективности зависит еще и от обстановки операции—факторов, не контролируемых оперирующей стороной. Исходя из информированности
62 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. I исследователя операций, неконтролируемые факторы следует разбить на следующие категории: а) фиксированные, значения которых известны; б) случайные, с известными законами распределения; в) неопределенные, относительно которых известна только их область изменения. Неопределенные факторы в свою очередь можно разбить на «природные», происходящие из-за недостаточной изученности процессов, факторы, обязанные своим появлением нечеткости цели или критерия, и факторы, выражающие действия разумного «противника», не преследующего цель оперирующей стороны. 5. Оперирующая сторона может иметь в момент исследования операции или при ее проведении дополнительную, неизвестную исследователю операции информацию о неконтролируемых факторах. Поэтому исследователь должен, вообще говоря, рассматривать и стратегии, являющиеся функцией конкретного содержания этой возможной информации. Таким образом, в общем случае стратегия оперирукщей стороны, с точки зрения исследователя, есть функция пока неполученной, но ожидающейся информации. 6. Правильно сформулированная модель должна учитывать все существенные неконтролируемые факторы, даже если это ведет к значительному осложнению исследований. В частности, почти всегда необходимо учитывать наличие неопределенных факторов. Особенно это существенно в экономических и военных операциях. Между тем в настоящее время при моделировании в основном учитываются только фиксированные и случайные факторы. Добавим к этому еще несколько практически очевидных суждений, с математическим выражением которых (не всегда тривиальным) приходится часто встречаться. 7. Увеличение вектора активных средств может только увеличить успешность проведения операций при разумном его использовании. Действительно, всегда можно просто не использовать добавок активных средств. Это практически очевидное утверждение может, однако, вступить в противоречие с математической моделью и даже самой реальной операцией, если в них не будет предусмотрена возможность неполного использования активных средств, Т. е, создания резерва,
§ 7] НЕКОТОРЫЕ ОБЩИЕ ПРИНЦИПЫ 63 В математических моделях это обстоятельство легко отражается тем, что в постановке задачи предусматривается ограничение активных средств А ^ А0 (т. е. а^а?), а не полное использование А = Ао. В реальной операции возможность создания резерва отнюдь не всегда может быть легко обеспечена. 8. Увеличение множества стратегий по тем же причинам также может привести только к увеличению успеха. Из этого тезиса, между прочим, следует, что выгодно рассматривать объединение операций, если при этом ясно, как видоизменяется критерий эффективности. Действительно, при этом множество стратегий становится шире, чем просто «сумма» стратегий, за счет возможности перебрасывания активных средств из одной частной операции в другую (см. § 3); следовательно, возможно за этот счет получить выигрыш. Именно так обстоит дело в экономических исследованиях, где критерий по существу не меняется (прибыль), а варьирование ассигнованиями есть основное содержание стратегий; отсюда и выгодность укрупнения предприятий и т. п. В книге Г. Райветта и Р. Л. Акоффа «Исследование операций» приведено много примеров выгодности расширения круга исследуемых связей, т. е. расширения операций. 9. Увеличение информированности оперирующей стороны (и исследователя операции) о неконтролируемых факторах может лишь увеличить успешность действий оперирующей стороны при разумном использовании этой информации. Здесь опять заложена гипотеза о возможности неиспользования информации. Следующий пункт представляет собой основной постулат, который далее будем все время использовать и по ходу дела дополнительно обсуждать. 10. При данном критерии эффективности оценка эффективности стратегий (и выбор из них) должна происходить на основе получения гарантированной (максимальной гарантированной) величины критерия эффективности при данной информированности исследователя операции и предполагающейся при формировании рассматриваемых стратегий информированности оперирующей стороны об обстановке операции.
64 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [гЛ. 1 Таким образом, исследователь операции для осторожности ориентируется на наихудшие значения неконтролируемых факторов. Такое поведение исследователя операции представляется закономерным, хотя бы уже потому, что он не имеет права взять на себя решение, подвергающее риску не только себя, а зачастую и не столько себя, а всю оперирующую сторону, которая, конечно, таких прав исследователю обычно не предоставляет. Исследователь операции, проводя исследование самостоятельно, должен быть осторожен. Если же эта осторожность приводит в каком-то смысле к неудовлетворительным результатам, то исследователь поставит в известность об этом оперирующую сторону, которая и примет тогда то или иное, может быть и рискованное, решение. 11. Разумеется, понятие гарантированного результата зависит прежде всего от принятого критерия. Так, гарантированный результат в виде двухчасового среднего времени работы системы радиоэлектронной аппаратуры (при критерии—математическом ожидании времени безотказной работы) ничего не гарантирует в смысле самого времени безотказной работы; последнее случайно и может при этом оказаться в данной операции сколь угодно малым. Весь риск, на который собирается идти оперирующая сторона, заключен, таким образом, только в самом принятом критерии эффективности и в предположениях о возможной информированности об обстановке операции. На этот риск оперирующая сторона идет часто, но не должен идти самостоятельно исследователь операции. Он сам не решает вопрос о цели—критерии. Еще один пример введения риска в критерий представляет собой переход от квадрата критерия E) к критерию D), где произведено осреднение по t; таким образом, этот переход ликвидирует какую-либо гарантию для отдельного /. Кроме «риска» в критерии всегда, конечно, существует элемент риска и в принятых исходных данных, например, в ограничениях неопределенных факторов. Ясно, что чем шире исследования при соответствующем использовании принципа гарантированного результата, тем меньше будет этот элемент риска. Итак, предлагается разделить риск и исследование модели операции. Риск остается
§ 7] НЕКОТОРЫЕ ОБЩИЕ ПРИНЦИПЫ 65 в выборе критерия, в формировании модели вообще и в полагаемой истинной информации. На эти элементы риска не может, вообще говоря, самостоятельно идти исследователь операции, деятельность которого ограничивается объективным и осторожным исследованием модели. Систематическое и последовательное применение принципа получения гарантированного результата позволяет построить довольно стройную теорию принятия решений, частным случаем которой является обычная оптимизация, получающаяся в случае отсутствия случайных и неопределенных факторов. В заключение данного раздела остановимся вкратце еще на вопросе о влиянии времени исследования экономических и военных операций на построение моделей и выгоду исследований. Так, исследование военных операций перед самими боевыми действиями обычно посвящено выбору тактики действий уже имеющегося, изготовленного оружия. В то же время планирование этих операций заранее позволяет ставить вопрос и о рациональном выборе типов оружия; таким образом, понятие стратегии здесь расширяется и принимает вид поисков рационального использования ассигнований, отпускаемых на оборону. Ясно поэтому, что более раннее планирование должно приводить к более успешной реализации ассигнований, чем довольно случайный выбор типов оружия и последующее детальное исследование способов их применения. С другой стороны, более поздние исследования проходят, конечно, в условиях более точного представления об обстановке—значениях неконтролируемых факторов. Выход из этого кажущегося противоречия прост—нужны исследования обоих типов. Ранние исследования должны дать рациональные типы и характеристики оружия, а более поздние—уточнить способы их применения (которые как часть общего понимания стратегии выбирались, конечно, и на раннем этапе исследований вместе с выбором оружия). Сказанное в полной мере относится и к экономическим исследованиям, где в роли типов оружия выступит, скажем, станочное оборудование, а в роли их использования— технологические процессы и тип продукции. 3 Ю. Б. Гермейер
66 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. I Небезынтересно еще и то обстоятельство, что ранние более широкие исследования могут оказаться математически более простыми и давать опорное решение для последующих более точных исследований, которые уже могут вестись только в окрестности этого опорного решения, если, конечно, не произошло слишком большого изменения обстановки. На примере модели I покажем, как более раннее исследование может оказаться и более простым. Здесь сама модель, как она дана, отражает поздние исследования с большим количеством ограничений B) по запасу сырья, станочного оборудования и т. п. Как известно, большое количество ограничений весьма осложняет численное решение задач линейного программирования. Раннее планирование технологических процессов можно мыслить как планирование закупок сырья (или оборудования). Единственным ограничением тогда остается запас средств, которые выделяются на закупку сырья, в виде Sp/4<B E5) при сохранении B) и критерия C). Здесь р/—цена единицы i-ro сырья, В—запас средств. Теперь уже ищем оптимальные стратегии вида {х19 ..., хп\ а?, ..., а%}. Для таким образом поставленной задачи оптимальные а° и Xj должны быть таковы, чтобы все B) обращались в равенства. Действительно, если бы для некоторого ix в оптимальной стратегии было бы неравенство, то за счет некоторого уменьшения с$х можно было бы увеличить все те а?, для которых имеется равенство; но тогда можно было бы увеличить и все Хр а значит, и платеж (критерий эффективности), а это противоречит предположению об оптимальности стратегии. Итак, имеем Подставляя эти выражения в E5), придем к задаче: п п / т \ max 2 djXj при 2B P/V/) xj < 5'» XJ > °- E6)
§ 7] НЕКОТОРЫЕ ОБЩИЕ ПРИНЦИПЫ 67 , трансформируем задачу в Вводя Xj = max Но здесь максимум, очевидно, достигается при xJo = B; Xj = 0; j?=j0, где /О один из тех номеров, для которых О») При этом Максимум же критерия равен =0 при Итак, решение действительно просто. Оно может остаться таким же и при наличии определенных запасов сырья, если все же решается вопрос и о рациональных закупках его на достаточно большую сумму. В этом случае сохраняется E5), но вместо B) имеем E7') где {at} — имеющиеся запасы сырья. Если закупки производятся на достаточно большую сумму, то опять для оптимального решения E7;) должны обращаться в равенства; тогда задача приобретает вид п / m S ( 23 max 2 при S ( 23 Pfii/J xj=== B + S РЛ 3*
68 О ФОРМАЛИЗАЦИИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ [ГЛ. I и решение запишется, как и ранее, с той лишь разни- т цей, что вместо В нужно вставить В + 2 рД. и О опт g//o^ + 2jP/t/J а. = _ а. = 2 c/i/op/i 2 cA/op/i Условие, достаточное для того, чтобы все рассуждения были справедливы, есть, видимо, а?опт^0. Если уже после закупки сырья несколько изменились цены по сравнению с теми, что были в момент исследования операции, то оперирующая сторона может иногда произвести соответствующее изменение решения о выборе Xj (а не а?). Ясно, что при малых изменениях dj можно приближенно оставить без изменения и х0ПТ; при больших вариациях dj нужно несколько изменить и х™т. Малость этого изменения состоит, конечно, в том, что вместо одного ненулеЕого Xj теперь следует взять два ненулевых (соответствующих двум наиболее эффективным / по прежним dj)Xj. Ясно, что соответствующая задача линейного программирования для двух переменных легко решается. Приведенный пример одновременно показывает и то, что рассмотрение более широкой операции, вопреки традиционному взгляду, может оказаться проще, чем рассмотрение узкой операции. Такая тенденция будет наблюдаться всегда, когда расширение операций математически характеризуется как уменьшение числа ограничений, наложенных на стратегии или активные средства.
ГЛАВА II ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ (РЕШЕНИЙ) § 8. Об оценке эффективности при наличии неконтршифуемых факторов Как уже говорилось, эффективностью стратегии называют значение критерия эффективности W = F (X, Y) для данной стратегии. Обозначая пока все неконтролируемые факторы вектором Y, в общем случае стратегию представляем функцией X (Y) (предполагая, что оперирующая сторона будет иметь какую-то информацию о Y); если информация о Y не предполагается или не может быть использована, то X(Y) = X, т. е. не зависит от Y. Если неконтролируемые факторы сводятся к фиксированным YQy то эффективность^стратегии X(Y) будет, естественно, числом F[x(Y0), F0] = W\ и это число может быть исследователем операции определено; именно это вычисление обычно и называется определением эффективности. Этот результат гарантирован в силу наличия информации о Yo. Однако в общем случае Y не фиксировано для исследователя операции, и поэтому эффективность является, вообще говоря, функцией неизвестных исследователю операции неконтролируемых факторов. В этих условиях сведения об эффективности стратегии, которые может дать (прогнозировать) исследователь, являются сведениями о поведении этой функции W (У) = Однако такое представление об эффективности стратегии обычно неудобно для оперирующей стороны, желающей знать, удовлетворительна стратегия или нет; такой вывод трудно сделать по функции. Особенно ярко это видно для целей операции первого типа, с критерием, принимающим лишь значения 0; 1, если в зависимости
70 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II от возможных значений Y эффективность принимает оба эти значения; удовлетворительна стратегия или нет—зависит от неконтролируемых факторов. Поэтому желательно характеризовать эффективность стратегии одним числом. Если характеристику должен дать исследователь, то естественно, что такая оценка должна базироваться на принципе гарантированного результата. Если о Y ничего не известно, кроме его области изменения N, то единственной такой оценкой эффективности является W = mf W {?). E8) YeN Это можно выразить и так: Единственным способом свертывания критерия, зависящего от неопределенного фактора, который может себе позволить исследователь операции, есть E8) {частный случай V способа соединения). Не следует думать, что такая оценка обычно бывает «перестраховочной», нужно лишь в определении множества N учесть всю информацию исследователя операции об Y. Действительно, если Y есть результат деятельности активного противника, то Y будет выбираться им в соответствии с его целями. Если цели противника противоположны целям оперирующей стороны, то он будет стремиться уменьшить величину критерия F(X, Y), а если ему известна еще и стратегия X(Y), to он, естественно, выберет Y таким, чтобы реализовать E8) или подойти достаточно близко к этой величине. Поэтому E8) заведомо точно, если Y выбирается противником, информированным о Y(X) и преследующим цель, противоположную дели оперирующей стороны. Пусть теперь противник имеет непротивоположную цель, тогда его интересы также выражаются некоторым критерием эффективности WH = Fn(X,Y). E9)
§ 8f УЧЕТ НЕКОНТРОЛИРУЕМЫХ ФАКГОРОЙ Т\ Если исследователю операции известен этот критерий противника, то исследователь, уточняя Л/, может улуч^ шить оценку E8), оставаясь на позициях гарантирован^ ного результата. Так, если исследователю известно, что противник знает стратегию Х07), то он может исходить из того, что противник будет стремиться максимизировать функцию т. е. выберет Ylf таким, чтобы (l F0) если этот максимум для него достижим. Пусть Е—множество всех возможных Yx *). При этом за оценку эффективности стратегии X(Y) исследователь должен принять ^1 = minWr(F1). F1) YteE Минимум здесь берется по всем Y19 удовлетворяющим F0), поскольку исследователю неизвестны мотивы выбора одного Y± из всех, реализующих максимум F0). Применение принципа гарантированного результата по этой неопределенности и означает взятие минимума по всем YX€E. Таким образом, в данном случае в E8) вместо N следует взять Е. Однако F1) будет гарантированной оценкой только в том случае, если гарантировано (точно известно исследователю или, может быть, с риском принято оперирующей стороной), что противник придерживается критерия E9), что противнику известна X (Y) и что ему ничто не мешает добиться F0). Если хоть одно из этих условий не выполнено, то исследователю нельзя пользоваться и оценкой F1); это может, вообще говоря, привести к ошибкам. *) В дальнейшем под обозначением N будем понимать множество всех априори возможных Y; так сказать, множество «физически» возможных Y.
72 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II Пусть, например, E9) известно неточно, а остальные условия выполнены; такой случай может быть выражен в виде Wn = Fn(X, Y, а), F2) где а—неопределенный фактор, изменяющийся в [0; 1]. Тогда противник будет стремиться получить max Fn{X(Y), Y, a)=maxWn(Y, ^fjr^a), a], Y Y где F^Ogt) Гарантированной оценкой эффективности, естественно, будет inf _inf WiYj. F3) a< 1 Если У Е (a) содержит (или близко подходит к) Y\ реа- аепГ 1] лизующий E8), то применение F3) и информация F2) не дают ничего нового по сравнению с E8), взятым по исходному множеству N. Существенным является и предположение о том, что противник знает X(Y). Рассмотрим, например, случай, когда Wn = Fn (X, Y) = F (X, Y) = W, F4) т. е. когда «противник» придерживается такой же цели, как и оперирующая сторона; тогда оба стремятся достигнуть max ^(X, У). Пусть этот максимум достигается в х, у _ __ нескольких точках (Хи Yt), составляющих множество 7\ и пусть стратегия оперирующей стороны Хг независима от Y; пусть, далее, «противник» не знает этой стратегии. Тогда выбор противника непонятен, и_ в лучшем случае можно гарантировать эффективность Хг в виде величины flP = minF(Xlf Yt). F5) Эта величина может быть весьма далекой от, казалось бы, естественного max/^X, Y) и даже совпадающей с E8). X. Y
§ 8] УЧЕТ НЕКОНТРОЛИРУЕМЫХ ФАКТОРОВ 73 Например, пусть т. е. обе стороны стремятся сблизиться, но не назначили точки встречи (оба не знают, куда пойдет другой). Тогда, очевидно, при Хг = 0 E8) для N= [О, 1] дает — 1 и ровно столько же F5). Итак, мало просто стремиться к общи цели, нужно еще и обмениваться информацией о своих действиях (стратегиях), иначе общность целей может быть ничуть не лучше, чем их противоположность. Если нет уверенности в достаточной точности знания E9) и в том, что противник знает X(Y), to нужны или конкретные иеследования или же необходимо ориентироваться на E8) при учете в N всех возможных изменений Y. В военных операциях или при конкурентной экономике знание E9) маловероятно, и потому типичной (хотя, конечно, не единственно возможной) оценкой эффективности должно быть E8). Это положение целиком сохраняет свое значение и для «природных» неопределенностей (в том числе и для неопределенностей третьего типа), когда поведение неопределенного фактора может быть уподоблено противнику с неопределенной целью и, конечно, неинформированному. Поэтому и здесь целесообразна оценка E8). Сказанное можно выразить еще и в следующей форме: если цель противника (в том числе и «природы») неизвестна или нет уверенности в знании им X(F), то целесообразно принять случай противоположности интересов такого «противника», что является, конечно, наихудшим вариантом. Остается понять, что дает уверенность в отсутствии информации у противника о X(Y). Все зависит от того, известна ли точно цель противника. Если нет, то выбор противником из всего множества N остается совершенно неопределенным, и поэтому следует пользоваться E8). Таким образом, вновь подтверждается разумность E8) для природных неопределенностей, которые не могут быть охарактеризованы определенной целью. Если же цель противника известна и он разумен, то при отсутствии
74 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ |ГЛ. II у него информации о X (Y) он может выбрать Fo из еле* дующих соображений: а) он считает, что, какую бы Y ни выбрать> оперирующая сторона выберет X1(Y)i так, чтобы )9 F]; 6) Yo тогда будет выбираться из условия Fn [Хг (Fo), Fo] = max ^ [X (F), F]. у Тогда, если Е есть множество таких YQ, оценка эффективности нашей стратегии X(F) будет minF\X{Y0), Fo]. Y0<zE Отмечая принципиальную возможность такого случая, можно все же в основном базироваться на типичном случае E8), не опирающемся на сомнительные гипотезы об информации и поведении противника. В дальнейшем будет показано, что при выборе «оптимальных» X(Y) знание того, информирован противник oX(F) или нет, может иметь существенное значение, определяя, например, целесообразность применения так называемых смешанных стратегий. Однако и в этих случаях оценка эффективности стратегий будет все равно проводиться по E8). Еще раз подчеркнем, что формально E8) охватывает все остальные рассмотренные случаи, если брать нижнюю границу не по всем априори возможным Y, а только по тем из них, которые соответствуют нашим данным о целях, разумности и информированности противника. Таким образом, эти различные случаи могут трактоваться как способы ограничения множества возможных стратегий противника (множества изменения неопределенных факторов) на основе принимаемых исследователем данных о целях, разумности и информированности противника. Сказанное звучит довольно исчерпывающе, если противник один и если нет случайностей. В противоположных же случаях кажется, что оценка эффективности может быть улучшена.
§ 8] УЧЕТ НЕКОНТРОЛИРУЕМЫХ ФАКТОРОВ 75 Когда противников много и каждый из них преследует свои цели, не обмениваясь информацией и не заключая союзов (коалиций), то, как показывают исследования Нэша по теории бескоалиционных игр *), можно действительно ожидать улучшения результатов, однако эти результаты, как правило, неустойчивы и не могут быть отнесены к категории гарантированных. Исследования в этом направлении, представляющие в основном интерес для конкурентной экономики, недостаточно еще разработаны и в данной книге не рассматриваются. Однако необходимо заметить, что если только отсутствует уверенность в знании целей многочисленных противников или они могут заключать коалиции, то наихудшим случаем для оперирующей стороны (соответствующим гарантированным оценкам) будет коалиция всех противников, т. е. по существу один противник. А этот вариант уже разобран. Прежде чем переходить к рассмотрению случайных факторов, еще раз отметим, что оперирующая сторона в целом может отходить от гарантированных оценок при свертывании функции эффективности W (Y) в одно число. Однако, как бы это ни делалось, это будет по существу введением нового критерия эффективности, образованного из старого путем использования способов свертывания критериев, изложенных ранее; в результате такого свертывания значение критерия может стать и не зависящим от неопределенных факторов. Примером таких действий может явиться то или иное осреднение W (F) по Y. Другим примером может служить предложение Л. Гур- вица оценивать эффективность следующей величиной: W* = amaxW{X) + (l— a)minW{Y); 0<а<1 Y Y (использование способов I и V объединения критериев). Выбор а остается при этом совершенно произвольным и должен быть сделан оперирующей стороной, а не исследователем операции. Если же оперирующая сторона не рискует этот выбор сделать, то для исследователя это — *) Статья Нэша имеется в сборнике «Матричные игры», указанном в списке литературы в конце книги.
76 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II неопределенный фактор, и он выберет наихудший случай а = 0, т. е. вернется к E8). __ Перейдем к рассмотрению случайных У. Сам факт фиксации случайности У считается некоторой информацией, которая должна дать лучшие результаты, чем E8). Однако если критерий эффективности остается прежним и не меняется множество N или понятие гарантии, то никакого нового гарантированного результата знание закона распределения У не дает. Действительно, при этом У, реализующие E8), остаются возможными, хотя, может быть, и «маловероятными». Поэтому выгоды в смысле оценки эффективности при знании закона распределения Y обычно извлекаются следующими двумя путями. 1. Множество N заменяется на меньшее множество N* так, что вероятность Р [Y ? Л/*] ^ 1 —р, где р достаточно мало. Приемлемые р каждый раз обсуждаются конкретно. Таким образом, здесь все остается без изменения, только N в E8) заменяется на N*, а гарантия понимается в смысле малой вероятности выхода Y за пределы N*. Такая вероятностная гарантия имеет настоящий смысл только при повторяемости операций (что отнюдь не всегда обязательно). Кроме того, следует заметить, что при сравнительно равномерных в N законах распределения, выигрыш в эффективности при замене N на N* будет мал вместе с малостью р. Наоборот, при законах распределения с ярко выраженной неравномерностью выигрыш может быть велик. Так или иначе, но здесь сама оценка опять производится по E8), и нам нет необходимости ее отдельно рассматривать; случайности здесь по существу не отличаются от неопределенностей. 2. Вторым путем является изменение критерия эффективности против принятого в начале исследования. Как уже говорилось, такое изменение исследователь операции, как правило, сам производить не должен. Настоятельная потребность в изменении критерия эффективности может возникнуть, если оценка E8) дает неприемлемые результаты и нет другой стратегии, которая давала бы достаточно удовлетворительные результаты по E8). Такое положение особенно часто встречается при первом типе цели операции, если E8) дает оценку 0.
§ 8] УЧЕТ НЕКОНТРОЛИРУЕМЫХ ФАКТОРОВ 77 Тогда оперирующая сторона должна или отказаться от проведения операции, или изменить критерий эффективности, конечно, в сторону отхода от категоричности, свойственной первому типу цели. В настоящее время обычно изменение критерия состоит в его осреднении по случайностям. Тем самым в критерий вводится согласие с определенным риском. При многократном повторении операции такой риск сейчас считается вполне допустимым. В общем случае, когда вектор неконтролируемых факторов у состоит из вектора независимых случайных^ факторов ух = {уг1, ..., ylk} и вектора неопределенных у2, новый критерий имеет вид*) F=W y] = =J • • • j" F [х G/i, Ъ). Iv ~УА d/i (Уи) • • • dfk (Уik)- F6) Здесь fi(t/lt)—закон распределения величины уи. При новом критерии оценка эффективности будет х(у),у\. F7) Уг JBt тех случаях, когда стратегия х(у) зависит только от у2, критерий ^ = ^[^"@» ~У\ не зависит от у[, т. е. приобретает вид F[x(y2), y2], а это значит, что получается уже модель без случайностей. Следует отметить, что всегда имеет место inf 7 [х(у\ у] > inf F [7$), у]. Уг yty2 Правая часть этого неравенства может трактоваться как гарантированная оценка значения F6) при неизвестных //(#!,), могущих, в частности, быть произвольными ступенчатыми функциями. Таким образом, увеличение информированности о ~ух (знание законов распределения) приводит к определенному *) В дальнейшем будет использоваться и более общая запись W для случая зависимых уу- в виде ^-мерного интеграла Стилтьеса по вероятностной мере.
78 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [гЛ. II увеличению ожидаемой эффективности, правда, при новом толковании критерия эффективности. При выводе F6) и F7) использована независимость векторов ух и у2. Если же это не так, например, если противник, управляющий вектором t/2, знает у1У то вместо F7) нужно использовать, очевидно, оценку Г.. . Г min F [х (?, у2\ у19 у2] dfx (У11) ...dfk (ylk)9 F8) J «J Уг в которой по сравнению с F7) переставлена последовательность действий осреднения и взятия минимума. Эти действия, как правило, неперестановочны и, как известно, F8) всегда не больше F7). Это обстоятельство есть частный случай принципа 9 § 7 о роли информированности, но только в применении к разумному противнику, преследующему интересы, противоположные цели оперирующей стороны. Введение нового критерия эффективности по F6) можно проиллюстрировать на примере VI § 2. Если взять критерий A4) и законы распределения независимых величин t{ в виде [1—Pi(ti)]9 то применение F6) к A4) приведет к вероятности невыхода системы из строя Wx (t) до момента времени ty которая выражается формулой JJ d[I-Pi&)]...<Ф-/>„(<»)] = t < min ti t=l t Вместо A5) соответственно имеем $$ min о о * <l < n Но, с другой стороны, законом распределения величины 7\ A5), очевидно, является 1 — Wx(t). Отсюда получаем 00 П [\-WAt)] = lw.it)dt= JП p,{f)dt. G0) О /=1
§ 8] УЧЕТ НЕКОНТРОЛИРУЕМЫХ ФАКТОРОВ 79 Формулы F9) и G0) относятся к недублированной системе. Вместо A6) и A7) будем иметь -<-[•-ИИ"". <7„ Далее можно получить вместо B1) G2) а вместо B0) —рекуррентную формулу -П PyWl, G3) /=i J где Wsi(t) означает критерий при t-кратном дублировании (i = l, ..., пг)\ W30 = 0. Осреднение B0) при B2) и самого B2) даст для по- агрегатного параллельного соединения {1—[1—лчоз^л. Наконец, для «холодного» резервирования агрегатов имеем ^. @=11/>,.(<); '" t G5) Здесь /7/у—вероятность невыхода из строя / штук агрегатов t-ro типа, включаемых последовательно друг за другом, после выхода из строя предыдущего. Вместо B5) будем иметь G6) о i=v,
80 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II Стоит также отметить, что среднее время работы т раз дублированного «холодным» способом агрегата i-то типа будет 00 ]d G7) Формулы F9)—G7)—основные формулы теории надежности, причем G1)—G6) являются оценками эффективности различных стратегий дублирования А—Г примера VI. Точно так же осреднением критерия первого типа получен и критерий эффективности примера VII. Как известно, всякая величина может считаться случайной, стоит только неслучайную величину а представлять случайной с законом распределения F(x) = 0 при х < а\ F (х) = 1 при х ^ а. Если величина а неопределенная, то ее можно считать случайной, но с законом распределения, в котором есть неопределенный фактор. Эта трактовка позволяет считать, что все неконтролируемые факторы случайны, но в их законах распределения есть неопределенные факторы. Конечно, такая трактовка не дает ничего нового, но может быть иногда методологически удобна, хотя бы уже потому, что поднимается вопрос о роли информированности оперирующей стороны относительно законов распределения случайных факторов. В § 11 этому вопросу будет уделено должное внимание, здесь же подчеркнем, что и при такой общей трактовке неконтролируемых факторов формула F7) остается, очевидно, справедливой, но приобретает еще более общее звучание. * Если рассматриваемая стратегия х(у) не зависит от случайных факторов, а неопределенных факторов вообще нет, то х(у)-=х, и после осреднения F6) получается модель операции без случайных и неопределенных факторов. Тогда задача оценки эффективности становится чисто вычислительной задачей по определению величины F6). Именно так ставится вопрос в так называемом анализе систем автоматического управления после проводимого там осреднения по ошибкам измерений. Аналогично обстоит дело и с современной теорией эффективности стрельбы, как правило, игнорирующей на-
§ 8] УЧЕТ НЕКОНТРОЛИРУЕМЫХ ФАКТОРОВ 81 личие неопределенных факторов. Сложность соответствующих расчетов целиком определяется сложностью записи критерия эффективности, содержащего, как правило, многократные интегралы. В остальных случаях определение эффективности может оказаться значительно более трудным. Эта трудность определяется двумя обстоятельствами: возможной сложностью зависимости х (у), а также наличием неопределенных факторов и связанной с этим необходимостью нахождения минимума F7) или E8) или еще более сложных расчетов по F8). В связи с этим трудно дать общие рекомендации по методике оценки эффективности вне конкретных моделей, за исключением указания на возможность применения численных методов определения интегралов и минимумов. Однако обычные численные методы поиска экстремума (типа градиентного метода) далеко не всегда применимы, поскольку речь в данном случае идет только о глобальном минимуме; локальный же минимум ничего не гарантирует. В значительно меньшей мере это возражение относится к модификациям метода случайного поиска экстремума. Может быть, стоит обратить внимание еще и на то, что порядок вычислительной сложности определения минимумов в принципе не отличается от такового же для определения интегралов; во всяком случае это так для достаточно гладких функций при использовании разбиения области на мелкие части с достаточно малым колебанием функции в них. Если исходить из этого тезиса, то естественно считать и операцию взятия минимума или максимума столь же «элементарной», как и интегрирование. Частота же ее использования в настоящее время в математике и на практике несомненно говорит в пользу такого увеличения числа «элементарных» действий. Стоит также обратить внимание на то, что при оценке эффективности нас интересуют не уу реализующие E8), а именно само значение минимума. Некоторой конкретизацией вида критерия является приближенная его запись по теореме IV. Для этой записи критерия имеем и некоторую регламентацию оценки эффективности E8).
82 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II Теорема VI. EcAulj€Dy и F{x9 у) =* min max \%alhJyj+ 2c,w*, + dJ = = min max f lk (x, t/) mo I?In Z7 [* E). i/l = min min ( min Flk(x(y),~y)\ , У где Dy(l, k) состоит из тех y?Dyi для которых Fik\x(y)> У]> max Fik>(x(y)t у). Иначе говоря, теорема утверждает, что нахождение min F(x(y)y) приводится к нахождению минимального _ из lo-kQ минимумов функций Flk при у, ограниченном условиями Доказательство. mmF[x(y),y\= min min max Flk[x(y),y] = yeDp у € Dy 1 </< /01 <fc<fc0 = min min max Flk[x(y)9 y]. Ho max Flk[x(y), у] равен ЛЛ1[дГ(^, у], где &х таково, что ^[^(у), y]>Flk[x(yI у] при всех Минимум же maxFlk[x(y), у] по области Dy представляет собой минимальный из минимумов функции maxFlk[x(y), у], взятых соответственно по fe0 областям y С i) {у / ^ [%) уТ> iu № Т < 0} Но в каждой из этих областей функция тах/7^ и есть k Объединение сказанного и заканчивает доказательство. Эта теорема полезна, видимо, только тогда, когда
§ 9] СРАВНЕНИЕ ЭФФЕКТНОСТИ СТРАТЕГИЙ 83 функции х(у) и область Dy достаточно просты^ так чтобы сравнительно легко находился min Flk[x(y)> у]. Так, например, если Dy описывается совокупностью линейных неравенств .2 t/fj^t = 1, ..., t0, и л: не зависит от у (или зависит линейно), то теорема утверждает, что дело сводится к решению loko задач линейного программирования: Г т п 1т ИП 2 а1к/У/~^~ 2 clkixi~\~^lk\9 2 btjHj^bu [/=1 i=l J /=i m л m « /=l /= 1 Если 10 и особенно fe0 невелики при небольших /0, то число задач и, главное, сложность решения каждой из них тоже будут невелики. В частности, если х и у есть скаляры, то &0^4, /0^2 и численное решение задачи по оценке эффективности даже при больших 10 не представит затруднений. § 9. Сравнение эффективности стратегий При критерии первого типа, принимающем лишь два значения— 1 и 0 (достижение и недостижение цели) — оценка эффективности часто используется для предъявления требований к запасу активных средств, чтобы оценка эффективности давала 1 (достижение цели). Однако при таком предъявлении требований оценка эффективности часто не бывает гарантированной; тем самым и требования оказываются произвольными, не гарантирующими успеха операции. Хуже всего то, что этот факт остается завуалированным. Если критерий эффективности есть критерий второго типа, т. е. принимает непрерывный ряд значений или
84 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II даже просто много значений, то оценка эффективности сама по себе не имеет особого практического интереса. Основной смысл оценки эффективности здесь состоит в том, чтобы на ее основе можно было сравнить ценность двух стратегий. Если критерий эффективности фиксирован, то сравнение эффективности двух стратегий Хг (Y) и Х2 (F) может быть произведено, так сказать, на двух уровнях. 1. Если F{Xl{Y)^)>F{X2(Y\ Y) при всех Г?Л/, то можно сказать, что первая стратегия абсолютно лучше, чем вторая. Абсолютно худшая из двух стратегий может без сомнения отбрасываться. Разумеется, такое абсолютное превосходство одной стратегии над другой нетипично, но все же встречается не так уж редко. Так, например, далее мы убедимся, что поагрегатное дублирование абсолютно не хуже, чем дублирование в целом. Точно так же очевидно, что при наличии точной и своевременной информации о моменте выхода агрегата из строя холодное резервирование абсолютно лучше, чем параллельное соединение. Легко понять также, что при уверенности в достаточно полной информации об К у оперирующей стороны исследователь операции всегда может сконструировать третью стратегию X3(Y), которая будет абсолютно не хуже, чем две данные стратегии X1(Y) и Х2(У). Для этого достаточно определить X8(F) следующим образом: х,(П = ^1(П при /чхдТ), F]>F[Xt(T), П Х3(У) = Х2 (У) при F [Хг (У), Y]<F [X, (Y), У]. 2. Однако, как правило, нельзя все же ожидать достаточно полной информации об У и тем более нельзя ожидать абсолютного превосходства одной стратегии над другой; так, например, трудно рассчитывать на абсолютное превосходство стратегии Хх над Х2, если они обе не зависят от У. Поэтому типичным следует считать сравнение стратегий по результатам их оценки эффективности по E8). Таким образом, стратегию ХХ(У) можно считать лучшей, чем Х2(У), если inf F[Xx(y)t Y] > inf F[X2{Y), Y]. Y<ZN Yf-N
§ 9] СРАВНЕНИЕ ЭФФЕКТИВНОСТИ СТРАТЕГИЙ 85 Такого рода сравнение эффективностей возможно всегда; оно не требует и предположения о достаточной информированности оперирующей стороны об Y. В отличие от оценки эффективности одной стратегии сравнение эффективностей позволяет производить, не меняя результата сравнения, ряд операций над критерием эффективности. Так, например, сравнение обоих типов не может измениться от прибавления к критерию постоянной или умножения его на положительную константу. В связи с этим обратим внимание на следующую простую теорему. Теорема VII. Результаты сравнения эффективности стратегий остаются неизменными при любом монотонном преобразовании критерия F(X, Y), т. е. если ф (и) — монотонно-возрастающая функция, то из inf F [Хг (F), Y] > inf F [X"a (F), Г] следует Y Y infq.^foc?), F]}>inf<p{F[r8(F), Y)}, Y Y и обратно. Сохраняется и абсолютное превосходство. Доказательство почти очевидно. Пусть us = iniF[Xs(Y), Y]\ s=l, 2 и их>и2. Тогда Y существует Yo такой, что при любом Yx u2<F[X2(Y0), Y^^u^FXX.iY,), KJ. Отсюда следует tol<f{F[XtG)9 F]}<T{F[X2Go), Fo]}< Y <Ьй^Р[Хг(Уг)9 Yx]\. Yx Обратное утверждение будет просто следствием монотонности обратной функции qr1. Если ослабить требование к ф, оставив ее лишь неубывающей, то сохраняется только следующее свойство: первая стратегия не хуже второй при переходе к Ф [/**]• Эта теорема может иногда принести пользу, позволяя сделать критерий эффективности несколько более удобным
86 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [гл II для отыскания минимума. Так, например, неаналитический критерий \Х — Y\ (пример модели II) можно заменить на критерий (X — УJ, позволяющий дифференцировать. По существу теорема VII утверждает коммутативность операции взятия минимума и любой монотонной функции. Это свойство не сохраняется, если вместо операции минимизации взять элементарное действие I (суммирование); поэтому осреднение по F6) монотонно преобразованного критерия отнюдь не равноценно тому же монотонному преобразованию осредненного критерия F6). Так, 1 Г1 П2 S [Х@-Г@Г<М l\X(t)-Y (t)\dt . о Lo J Также и минимум неперестановочен с суммированием; именно поэтому преобразование критерия по F6) меняет, вообще говоря, результаты сравнения эффективности [E8) не эквивалентно F7)]. Примером такой неэквивалентности является следующая задача. Пусть противник может проникать на нашу территорию в пунктах А и Б, причем все его силы будут проходить или только в А или только в Б; пусть известно, что вероятность прохода через А равна 0,75, а через Б—0,25. Пусть, далее, в распоряжении оперирующей стороны имеется 2п единиц противодействия проходу, каждая из которых может вывести из строя т единиц сил противника. Цель оперирующей стороны—вывести из строя больше единиц противника. Используются две стратегии: а) деление сил оперирующей стороны на две группы по п единиц, располагаемых в А и Б; б) все силы в 2п единиц сосредоточиваются в пункте А. Если производить оценку и сравнение эффективности стратегий по E8) без осреднения по случайностям, то гарантированная эффективность первой стратегии будет, очевидно, т-п\ вторая стратегия гарантирует только 0, поскольку наихудшим для нее случаем будет проход противника через Б, где сил оперирующей стороны нет.
§ 10] ПРИМЕРЫ ОЦЕНКИ ЭФФЕКТИВНОСТИ СТРАТЕГИЙ 87 Если же произвести осреднение критерия по случайностям, т. е. учесть вероятность прохода противника в пунктах А и Б, то эффективность первой стратегии окажется той же, т. е. равной т • п, в то время как вторая дает величину т-2л-0,75=1,5тя. Итак, при отсутствии осреднения по случайностям более выгодна первая стратегия, а после осреднения выгоднее вторая. В связи со сказанным целесообразно иногда при сравнении стратегий по осредненному критерию F6) говорить о том, что X1(Y) лучше, чем Х2(К) в среднем, чтобы отличить это сравнение от сравнения по E8). Также можно говорить и об абсолютном превосходстве в среднем. Однако если вопрос о смене первоначального критерия на осредненный решен, то сравнение стратегий по F7) становится по существу единственно нас интересующим и термин «в среднем» можно опустить. В заключение опять обратим внимание на то, что и E8), и F6) есть не что иное, как действия свертывания критерия эффективности по неопределенным и случайным факторам в соответствии с элементарными действиями типа V и I из § 3. Это еще раз подчеркивает, что все исследование операций проводится на основе последовательного использования элементарных действий над критериями, имеющих своей задачей исключение, в том или ином смысле, влияния неконтролируемых факторов. § 10. Примеры оценки эффективности стратегий Для иллюстрации приведем несколько оценок эффективности стратегий в моделях § 2, сохранив нумерацию моделей. Модель I. Если стратегия уже задана в виде {ху-} и известно, что она возможна по сырьевым ограничениям, п то оценка ее эффективности просто равна W = ^djXp i = l поскольку здесь нет ни случайных, ни неопределенных факторов.
88 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. П Удобнее, однако, пользоваться таким пониманием стратегии, чтобы сразу определялся максимально возможный для нее объем производства и снимался бы тем самым вопрос о ее возможности. С этой целью в качестве стратегии возьмем вместо вектора {xt\ вектор с координатами /?/ = -^—; тогда и Р/>0, Максимальный объем производства со стратегией {р;} будет, очевидно, определяться величиной ||*||=2*/» i=i представляющей собой максимальную норму вектора {xj\ с данным процентным содержанием продукции {/?/}< Из условия B) получим IUI|= min 4 , и оценка эффективности стратегии {/?у} сведется к определению величины <i/Pj Любопытно появление в оценке минимума, несмотря на отсутствие неопределенных факторов в критерии; тем самым ограничения B) оказываются в некотором смысле эквивалентом наличия неопределенных факторов. Задача линейного программирования в новой записи выглядит как максимизация функции W (pj) при условиях п Pj ^ 0, 2 Pj == 1 ,т. е. является обычной задачей поиска экстремума функции переменных р19 ..., рп^11 р„= 1— У\р* \ л-1 заданной в простой области 2 Pj^ "» Р/^0; сложность состоит только в недифференцируемости W (pj).
§ 10] примеры Оценки эффективности стратегий 89 Модель II. Пусть дан полином p(t) при критерии E). Согласно E8) эффективность полинома р (t) будет равна *) = min \mm[p(/)-/(/); /(*)-/> @И = ^min{ min [p@-/@1; min [/(О-р(ОН = = min{-max [/@-p@1; min [/@-/7@)}. G8) 0<*<1 0</<1 Таким образом, для оценки эффективности нужно отыскать максимум и минимум разности /@—p(t). Такая трактовка позволяет избегать рассмотрения не всюду дифференцируемой |/@—р @1- Если /(/) дифференцируема, то, обозначив через t{ (t = l, ..., /—1) все решения уравнения f (t)—p'{t) = O и добавив to = O9 tl=lf получим еще одно выражение для эффективности р(/): = min { min [/>(/,)-/(//)]; min [f(t,)-p(t,)]\ = = min {min[p(/,)-/(/,); f(t,)-p(/,)]} = Для целей сравнения эффективности различных полиномов, как ранее уже отмечалось, можно пользоваться и критерием [f{t)—р@]2> тогда мерой для сравнения стратегий будет величина min [/(/)—pit)]2. Однако при этом < увеличится число точек ti9 определяемых как корни производной критерия. Модель III. Пусть х19 ..., хм—стратегия, которая выбирается заранее без использования информации о / (*,.) (неопределенных факторах), появляющейся у оперирующей стороны в процессе поиска экстремума. *) Здесь мы приходим к знаменитой задаче Чебышева, являющейся одним из первых примеров задач с неопределенными факторами.
90 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II Благодаря условию Липшица, очевидно, имеем )-*|*-*/1 G9) для любого i9 т. е. f(x)> max [/(*/)—k\x—x(\]. i </<w Оценку эффективности стратегии [х19 ..., xN] проведем для двух крайних случаев критерия G), т. е. для Х = 0 и Х=1. В первом случае критерий имеет вид где f{xu)= min /(*,), a /(xe)= min f(x). Согласно E8) оценка эффективности W= inf {-\хи-хш\\ = -тр\хи-х.\. (80) Какова бы ни была совокупность точек [х19 ..., ] с ^=^=0, x^^sl, можно всегда выбрать почти постоянные функции, чтобы точки х0 и хг (или xN) лежали на разных концах отрезка [0, 1], причем хх или xN и будут для этих функций величинами #/0. Действительно, если, например, взять функцию f(x) = ex+l при x^.xn и /(*) = — *! (х—х^) +ел:^ + 1 прих > xN и ел:^ < Лх [1— xN]9 то /(^)= min /(x,), a min /(x) /(l) Отсюда следует, что при 0 < хх < х^ < 1 гарантированная оценка эффективности стратегии (80) даст результат —max [1—хг; xn] ^—0,5, каковы бы ни были хг и Хм и число точек Л^. Таким образом, можно гарантировать ошибку в определении х0, только не меньшую 0,5, если 0 < хх < xN < 1. Если же, скажем, х^=1 и ^ = 0, то, положив функцию /(jt) = e*+l при х^.1—9; f(x)*=— k(x— 1 + в) + еA— в)+1 при 1— 9 1 = Л (jc— 1 + -g.) + вA — в) + 1 —«-|-; 1—| Л убедимся, что хо=1—у, а Х/о = 0, что дает верхнюю
§ 10J ПРИМЕРЫ ОЦЕНКИ ЭФФЕКТИВНОСТИ СТРАТЕГИЙ 91 грань ошибки в определении х0, благодаря произвольности Э, равную 1, т. е. всей длине сегмента, на котором отыскивается экстремум. Из сказанного ясно, что все стратегии весьма малоэффективны для критерия с X = 0; увеличение количества точек не увеличивает точности поиска места экстремума. Необходимо, следовательно, еще сузить неопределенность, т. е. класс рассматриваемых функций, предположив достаточную крутизну их в районе экстремума или, что естественнее, их^Гунимодальность [(т. е. наличие только одного локального минимума). В последнем случае легко проверить, что ошибка \xi0—хо\ не превзойдет max [хх\х2—хг\ ...; xN—xN_x; I—xN] даже, если не накладывать ограничения G9). Иначе обстоит дело с критерием при % = 1, т. е. когда Пусть х~ лежит где-то между х1 и х^9 скажем, между xi и xi+i- Тогда в силу G9) имеем /(*0)>max [/(*,.)—k(x0—*,); f{xi+1)—k(xi+1—x0)]. (81) Если f{xi) и f(x{+1) фиксированы, то наименьшее значение правая часть неравенства имеет, если х0 расположено в точке пересечения прямых z = f(xi)—k(x—xl) и * = /(*,«)-*(*,.!-*), т. е. если Хо = 1ЩПА 1 */ + !+*/ "*" 2 При этом правая часть (81) равна 2 2 ^ '+1 '*• Отсюда следует, что всегда I Kx xo) ^ 2 " ( (x) Поскольку, с другой стороны, всегда min f{x) = f {х0) </(^0), то | / (x0W (Xi.) I <| (xi+1-xi). 0 <лг< 1 z
92 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. И Точно так же очевидно, что при х0 g [0, хх) 1 а при хо€[хц, 1] и, следовательно, если неизвестно, где находится х0, то —0; 1— xN\ \(хих—х()\ Эта оценка достижима, т. е. всегда можно указать такие значения неопределенных факторов f(xg), что в этом нестрогом неравенстве будет реализоваться равенство. Для этого, если -jCk/j+i—xit)—максимальная из разностей, стоящих в правой части, достаточно взять и остальные f(x) так, чтобы соблюдались условия Липшица. Аналогично можно поступить и в случае, если максимальной окажется хх—0 или 1—xN. Все сказанное суммируется в утверждении, что для критерия W = —1/(#/0)—/(*0I гарантированная оценка эффективности равна W = —kmax[xlf l—xN; 0,5 max (*/+1—х(I. (81') ~ L \<i<N-\ J В этом случае при разумном выборе стратегии ее эффективность возрастает с ростом W, т. е. увеличивается точность определения значения minf(x) вместе с ростом количества активных средств N. Модель IV. Пусть фиксирована стратегия {*?}. Поскольку все члены суммы (9) всегда неотрицательны, то противнику, стремящемуся минимизировать (9), имеет * х* k х смысл брать г/, > xypt только, если ]jj? ф- < ^ yt = п
§ 10] ПРИМЕРЫ ОЦЕНКИ ЭФФЕКТИВНОСТИ СТРАТЕГИЙ 93 В этом случае оценкой эффективности стратегии k о будет 0. В остальных случаях, т.е. при л<^,"^г, наи- худшие для оперирующей стороны у{ не превосходят х{\р{\ но тогда (9) приобретает вид k k 2. (х1—Р1Уд = N— Минимум этого выражения при yi^:xilpi получается следующим образом. Пусть нумерация такова, что Р/^р/+1. Тогда противнику прежде всего выгодно увеличивать уг до у\т1П) = хЦр19 если n^xl/Pi, или до я в противоположном случае. Вообще y{rSn)=*Vpi или i<i0, где 1=1 i=l '•-1 о Соответственно оценка эффективности по E8) [/.-1 о 1 * *-S"w + И 4- (82) Пусть теперь оперирующая сторона (не исследователь операции), обращая внимание на слабейший по р( k-й пункт, будет иметь информацию о ук и применять стратегию х\ = 0 при t<fe—2, xl^t = N при yk>n/2\ xg-i^O при yk^n/2; x°k = 0 при yk> n/2; x% = N при yk^n/2. Тогда, очевидно, и #/min) = 0 при i^.k—2, и критерий эффективности принимает вид рк^г(п—ук); 0] + тах [хЦук)—pkyk\ 0], где х%(ук) = 0\ N в зависимости от ук > д/2 или ук^ Если(/Л> п/2, то критерий равен max [N—p*-i(n—Ул);О] и его минимум будет достигаться при ук = /г/2 + 1, т. е. равен max[N— рл-1(д/2— 1); 0].
94 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II Если же */fc<n/2, то имеем критерий max [N—pkyk; 0] с минимумом (при ук = п/2) max[N — pkn/2;Q]. Оценкой эффективности этой стратегии будет, таким образом, величина min {max [W-/?^ (|--l); о]; max [N-pk \\ о] | . Сравнивая это выражение с (82) при xk = N; х{ = 0\ 1фп, легко убедиться, что появление информации о ук существенно увеличивает гарантированную эффективность стратегии по сравнению с априорной стратегией направить все силы на слабейший по р( пункт. Модель VII. Если координаты цели случайны и не меняются во время стрельбы, то, осредняя критерий C3) по правилу F6), сведем оценку эффективности к вычислению интеграла • « п W = 1 — ) $ Ц [l—apdXtf—yj xir-yt)] фг (угу2) dyx dy2, — 00 — 00 '— 1 (83) где ФрО/хУа)—дифференциальный закон распределения положения цели (обычно принимаемый нормальным). Здесь предполагается, что оперирующая сторона не получит новой информации о {уху^). Напомним, что случайность у19 уг не обязательно означает случайность истинного положения цели, а часто просто отражает случайность ошибок однажды произведенного оперирующей стороной измерения ее положения. Как уже говорилось в § 2, этот случай называется схемой двух групп ошибок, а формула (83) есть оценка эффективности стрельбы в случае схемы двух групп ошибок. Подробнее с оценкой эффективности для схемы двух групп ошибок можно познакомиться в упоминавшейся книге Е. С. Вентцель. Случай стрельбы с пристрелкой является более сложным; становятся известными величины xu—y1 + ui и x2i—y2 + vb гДе Щ и О/—случайные величины, характеризующие рассеивание t-ro снаряда. Эта информация позволяет с точностью до ошибок ut и vt судить о величинах уг и у2 и последующие выстрелы направить согласно этой информации.
§ 10] ПРИМЕРЫ ОЦЕНКИ ЭФФЕКТИВНОСТИ СТРАТЕГИЙ 95 Обычно за примерные данные о уг и у2 берут при k— I fe—i k-м выстреле величины -Д-рЦ {Уг + Щ) = У1 + ъ—г 2» **/ и аналогично для у2. Так как дисперсия величины , . У^ ut равна a?/(fe—1), то с увеличением k сведения о ух все уточняются, и это может использоваться при выборе xlk и л:2? для k^2. Обычно величины и,- и vt можно считать приближенно равными случайным величинам индивидуальных отклонений снарядов от расчетной траектории, если, конечно, пренебречь собственно ошибками измерения величины отклонения точек падения снарядов от центра обстреливаемого объекта. Тогда при естественном выборе стратегии 2/ 2/ в виде *u = yi + ipiT и ^•* = -^=Г + Л ПРИ произвольных х1Х и х21 эффективность такой стратегии *) вместо (83) приобретет вид X Ух, у,) Д 2Jaia%e Ol °2dy1dy2duldv1...dundvn,(84) где величины р? равны 0 или 1 в зависимости от того, попадает точка-аргумент на цель или нет. Жз| Таким образом, здесь в J силу связи между xlh x2i и индивидуальными ошибкамидстрельбы нельзя осреднять критерий C3),7 полученный в свою очередь осреднением критерия ртша^О; 1 (поражен; не поражен); следует непосредственно осреднять этот первоначальный критерий для данной стратегии. *) Таким образом, здесь стратегия —функция будущей информации о значении случайных факторов ух и у2, получаемой с дополнительными случайными ошибками.
96 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. И Вспоминая, что сами pt в (83) получены аналогичным осреднением, т. е. интегрированием, видим, что большая сложность (84) определяется необходимостью расчета нераспадающегося 2/г-кратного интеграла. Здесь уместно использование методов Монте-Карло, для которых это обстоятельство не слишком существенно при численном расчете эффективности. Введение «пристрелки» целесообразно, конечно, и при априори неопределенном положении цели. Формула (84) тогда в общем остается без изменения, только вместо интеграла по (у19 //2) с дифференциальным знаком распределения фг(#!, у2) должен находиться минимум по (угу%). Однако такие оценки эффективности стратегий существенно базируются на предположении о неподвижности цели. При подвижной цели пристрелка осложняется и будет связана с решением задачи о фильтрации (пример VIII). Когда пристрелки нет и цель неподвижна (у19 у2 неопределенны), эффективность оценивается по E8) величиной {n[Mw& «-У*)]}- (85) Уи Уг I f=l ) Если же предположить возможность перемещения цели от выстрела к выстрелу по закону I Уи—Уи-i К Ai; I Уы—Уы-х I < а2; (86) У2 <Ь то min Ц Ухи Ун Ум* Ум I 1=1 <1 — Ц [1— ар({хи—yxi\ x2i—y2i)]> I 1=1 ) (86') при условии (86). Модель VIII. Рассмотрим только случай неопределенно движущегося объекта (случай В) при условии C6) и |U</C
§ 10] ПРИМЕРЫ ОЦЕНКИ ЭФФЕКТИВНОСТИ СТРАТЕГИЙ 97 Критерий C5) приведем к виду Pi- J) Pi 2 2 2 Pi- l po + 2 Pi- + 2 Отсюда в силу ограничений на tjj—у/+1 и на у{—уа ясно, что наихудшие yj—yJ+1 = ±K, а наихудшее yh конечно, определяется из равенства yt—ya = ±K99 причем знаки yj—yJ+1 и У(—уа должны совпадать соответственно со знаками S Pi / (р. + 2] Pi -1) Уа> (jk Pi -1) / (po + ^P/—l) Уа, если Уа ) если же 1/Л ( р0 + 2 Pi — 1 ) = 0» то #у—#у+1 должны I Г ' 1 , совпадающие с 2 Pt (У(~Уа) 2 Pi —1 » (У1—Уа) ( S P* — 1 ) Ф 0, и, наконец, знаки иметь знаки если (yj—yj+i) 2 Pi должны быть одинаковы, если (У1—уа)Х ХBр|—1) = 0. Поэтому оценку эффективности по E8) дает -Z= Р.+ 2Рг-1. 1^1 + К. 1-1 ?r>/. (87) В частности, если /Со очень велико, точнее /Со—»-оо, то во избежание бесконечно больших ошибок стратегия ^ Ю. Б. Гермейер
98 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II должна удовлетворять условию i 2р/=1. (88) При этом все стратегии с ро=7^О будут не лучше, чем стратегии с теми же ру, но с ро = О. Таким образом, при /Со = оо достаточно рассматривать лишь стратегии с ро = О при выполнении (88). При этих условиях (87) превращается в оценку эффективности (89) § 11. Об оценке эффективности при наличии случайных неконтролируемых факторов Пусть все неконтролируемые факторы принимаются случайными. Если при этом осреднение F6) признается целесообразным, то для его осуществления необходимо знать законы распределения соответствующих случайных факторов. Когда эти законы известны недостаточно точно, то, как уже отмечалось в § 2 (модель VI), возникают новые неопределенные факторы, а с ними и необходимость соответствующих гарантирующих оценок по E8). Можно различать три вида информированности о законе распределения f(z) случайной величины г. 1) f(z) известна достаточно точно—случай желательный, но сравнительно редкий и, в особенности, при исследованиях новых вопросов, что типично для исследования операций. 2) Известен тип закона распределения, т. е. функция / (г, а), однако неизвестны или недостаточно точно известны значения вектора параметров а, которые индивидуализируют закон распределения (например, для нормального закона неизвестна дисперсия). В достаточно общем случае информация об а может быть записана в виде неравенства а0 < а < alf где векторы а0 и ах известны. Именно к этому случаю относится и представление неопределенной величины х в виде случайной, но с неопределенным законом распределения.
§ 11] УЧЕТ СЛУЧАЙНЫХ ФАКТОРОВ 99 Действительно, вид закона распределения здесь известен: /(г) = 0 при г<а и /(г)=1 при г>а. Однако параметр а здесь не известен, а ограничен неравенствами указанного типа или более общего: где Е — некоторое заданное множество. 3) Неизвестен тип закона распределения, но известно или ограничено конечное число его характеристик. В качестве таковых обычно выступают или значения /(г,) в некоторых точках zL или моменты закона распределения Ограничения неопределенности /(г) (т.е. информации о законе распределения) выглядят здесь следующим образом: f(z) — неубывающая функция, и при l^j^m, О i < (90) К этому, конечно, могут быть прибавлены условия: при z <?о f (z) = 0 или ПРИ 2>г/(г)=1 и Другие аналогичные условия, которые описывают область возможного изменения г. Объединенно все эти виды информации о законе распределения могут быть записаны в виде неравенств (91) где rt(z) — известные функции, в частности, при rl(z)=l для z^Zj и rl(z) = 0 для остальных z получаем первую группу условий (90). Таким образом, при оценке эффективности в моделях со случайными факторами приходится иметь дело с разной степенью точности знания закона распределения, и это обстоятельство является существенным моментом, затрудняющим оценку эффективности и приводящим к появлению неопределенных факторов. Между тем обычно оценка эффективности базируется без особых оснований на принятии наиболее благоприят^ ного первого случая информированное™ о законах рае- пределения, 4*
100 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II К указанным трем типам постановок вопроса так или иначе близки все другие. Приведем примеры. 1. Иногда вместо первой группы условий (90) (или вместе с ней) задаются условия на дифференциальный закон распределения /(г): 0<f'(z)<N. (92) Если считать 4>(z) = f'(z) функцией ограниченной вариации, заданной на интервале [0; 1] с нулевыми значениями на концах, то 1 1 1 f z'df{z) = С z''<p(z)dz = --JL- f 0 0 0 Если теперь соответствующие интегрирования по частям провести и в F6), то видим, что задача в этом случае остается по существу такой же, как и в случае 3), с заменой /(г) на ср(г). Условие 0^.q>(z)^.N заменяет при этом 0 <; / (г) ^ 1, а монотонность F (г) заменяется ограниченностью вариации <p(z). Оценка эффективности стратегий в случае условия (92) может базироваться на известных леммах типа леммы Неймана—Пирсона. Эти леммы будут приведены далее. По существу некоторые из этих результатов ранее были получены А. А. Ляпуновым, но в менее подходящей трактовке. 2. В теории надежности часто вместо f(t)=l—p(t) (p(t)—вероятность безотказной работы элемента в течение времени t) и f'(f) используется интенсивность отказов М0П0[1/@] 0П0/[/@] Из опыта кроме моментных характеристик /(/) получают еще интегральные характеристики X(t)—средние t интенсивности отказов в виде неравенств А^< J X(t)dt < X. Но это неравенство влечет за собой
§ 11] УЧЕТ СЛУЧАЙНЫХ ФАКТОРОВ 101 ИЛИ Очевидно, эти условия есть опять-таки условия типа (91). Так, например, левая часть первого неравенства соответствует г (t) = е- — 1 при t < tx\ r (t) = е- при tt^t^t2 и r(i) = 0 в остальных точках. 3. В статистике, при получении опытным путем векторов а или f(zj) и моментов Mh широко используются для оценок измеряемых величин доверительные границы и соответствующие доверительные вероятности. При этом неравенства (90) или а0 < а < аг объявляются не достоверными событиями, а событиями, имеющими определенную (доверительную) вероятность. Если мы признаем некую доверительную вероятность достаточной гарантией достоверности, то неравенства (90) или а0 < а < аг при соответствующих доверительных границах могут рассматриваться как обязательные неравенства, и мы приходим к третьему варианту информированности о законе распределения. Однако можно, хотя без особенного эффекта, использовать знание доверительных вероятностей иначе, а именно: ошибки при измерении, например, величины а (или Mt) можно объявить случайными, а доверительные вероятности—законами распределения этих ошибок. Тем самым появляются новые случайности, а именно—а или Mt и f(zj), и следует вновь повторить все операции осреднения над критериями за счет добавочных случайных факторов, в результате чего вернемся так или иначе к указанным трем типам постановок задач. Если закон распределения f(z> а) зависит только от одного случайного параметра а с законом распределения Ф(а> Р)> то осреднение условного закона распределения /B, а): /(г, р) =$/(*, a)d(D(cc, P), приведет к рассмотрению нового (безусловного) закона распределения /(г, р), зависящего от известного или неизвестного параметра р. '
102 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II Если известна функция Ф^а, р), то (при известном / (z, а)) известен и вид закона / (z, р). В других случаях информированности о Ф (а) (так же, как и при известной Ф(а, Р)) иногда может быть целесообразен иной ход сведения задачи к указанным трем типам. Так как известно /(z, а), то после осреднения по z критерий F6) будет функцией только а. А при осреднении по а как раз и повторяются все три типа задач. JlycTb теперь в опыте измеряются сами /(zy)==ay. = = uj + Ej с замеренным значением а;- и законом распределения ошибок Ф(бу) и моменты М, = т/ + Д/п/. Тогда, фиксируя еу- и Am/, мы при оценке эффективности должны прежде всего определить все /(г), минимизирующие F6) при условии, что М( и f(zj) известны точно (поскольку фиксированы еу. и Am,). Полученная гарантированная оценка эффективности окажется зависящей только от 8у и Am,-, и, осредняя ее по этим величинам, вернемся к указанным трем типам задач. Итак, имеет смысл рассматривать три типа задач оценки эффективности, сводящихся к нахождению F7) при неопределенности в /(z), остающейся для указанных трех типов информированности, т. е. к нахождению по функциям //0/i/), ограниченным информацией указанных трех типов. Кроме того, отметим, что часто вместо моментов Добывают известны центрированные моменты, например, вместо М2 дисперсии D = M2—Ml. Если при этом центрированные моменты известны точно, то точно известны и М2, и задача оценки эффективности не меняется. Если же, скажем, Мг и D только лишь ограничены, то задача оценки эффективности может быть представлена вначале как задача с точно известным Мг и ограниченным М2 (вслед за D), а затем уже происходит вторая минимизация по возможным значениям Mv Возможно* конечно, и другое описание задачи, но тогда область изменения Мг и Мг не может рассматриваться как пря-
§ 11} УЧЕТ СЛУЧАЙНЫХ ФАКТОРОВ 103 мое произведение областей изменения Мх и М2, что внесет соответствующие осложнения в оценку эффективности, не меняя ее существа. Вид закона распределения /(г, а) (а тем более закон полностью) может быть известен или из длительного и массового эксперимента, что, например, для новых образцов техники, как правило, невозможно, или из математических и общих физических соображений. К последнему относятся указания на выполнимость условий, позволяющих применять асимптотические законы теории вероятности — предельные законы. Перечислим основные предельные законы, наиболее часто используемые в настоящее время в практике оценок и сравнения эффективности. I. Нормальный закон распределения. Закон может использоваться, когда случайная величина есть сумма большого количества независимых случайных величин с дисперсиями, малыми относительно суммарной дисперсии. Применяется для характеристики процессов измерения и рассеивания при стрельбе. Однако, например, измерение с помощью калибров наверняка не может им характеризоваться. То же, видимо, относится и к стрельбе самонаводящимися снарядами. И. Закон Пуассона для числа появлений т события: р и=?*"• <93> где а—среднее значение числа появлений. Закон Пуассона возникает или как предел биноминального закона распределения, имеющего место при повторении независимых испытаний, или же как характеристика простейшего потока событий (например, вызовов в телефонной станции), т. е. потока ординарного, исключающего появление двух событий в один и тот же момент, и без последствия (вероятность появления того или иного количества события в любом интервале времени не зависит от того, что было ранее). Закон Пуассона особенно широко применяется в теории массового обслуживания, а также в работах по эффективности стрельбы. Использование его в теории стрельбы было связано с тем обстоятельством, что закон C2) при одновременном стремлении т—юо и а—> ()
104 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [гЛ. II так, что ат = а, стремится к Однако как в практике массового обслуживания, так и в ряде вопросов теории стрельбы, часто закон Пуассона используется без достаточных оснований, а то и просто неправильно. Причиной этого является невыполнение условий его применимости, а именно, наличие зависимости между появлениями событий. Эта зависимость может быть обычной зависимостью случайных величин, что имеет место, например, при упоминавшейся схеме двух групп ошибок стрельбы. Однако особенно часто она появляется за счет организации потока событий противником оперирующей стороны. В первом случае вместо (93) можно пользоваться хотя бы законами типа Р <т> = 1 If *~*d(p (a); * = Ia d(p (a)' (94) где ф(а)—закон распределения, а а—среднее значение числа появлений. Однако при этом необходимо знать закон ф(а), да и пользование (94) менее удобно, чем (93). Применение же (93) для характеристики организованных действий противника априори вообще лишено какого-либо смысла. III. Экспоненциальный закон распределения f{t) = \-P(t) = \-e-"; Г=4 (95) занял выдающееся место в теории надежности для характеристики времени выхода t системы или агрегата из строя. Он является предельным законом, характеризующим надежность недублированной системы P(t) при большом количестве независимых по отказам агрегатов. Это хорошо видно из формулы F9). - Пусть п-*оо, причем Р,(*) = 1-|р;@)\t + o[|PJ@)U]; пусть, далее, | Р\ @) | ф 0 и 21 Pi @) I = A- t=i Тогда, очевидно, lim = Ига
§ 11] УЧЕТ СЛУЧАЙНЫХ ФАКТОРОВ 105 Аналогичная асимптотика получается и для малых t и фиксированных P({t)t если *2|^Н°I остается фиксированным при возрастании п. Однако надежность дублированной системы асимптотически уже не выражается (95). Многократное дублирование системы в целом потребует применения нормальных законов с относительно малой дисперсией. Поагрегатное параллельное соединение типа G4) асимптотически хорошо характеризуется законом Вей- булла: f(t)=l-e-uk; к>19 (96) непосредственно обобщающим (95), но при к > 2 значительно от него отличающимся. Применение (95) ограничено и предположением о независимости отказов агрегатов. Часто (95) совершенно необоснованно используют для характеристики надежности агрегатов (элементов), отнюдь не всегда представляющих собой сложные системы; известно, например, что простые механические автоматические устройства весьма далеки от закона (95). Из сказанного легко сделать вывод, что очень часто при малом количестве экспериментальных данных не будет достаточных оснований для фиксации вида закона распределения, а тем более для его полной фиксации. Поэтому большую важность приобретает третья постановка вопроса с ограничениями типа (90) или (91), в наименьшей степени аппелирующая к априорному знанию законов распределения. Отметив, что практически вектор а в /(г, а) имеет обычно малую размерность и что поэтому оценка эффективности F7) при а0 ^ а ^ ах есть сравнительно простая задача нахождения минимума при малом числе переменных, перейдем к более подробному рассмотрению основной задачи с ограничениями типа (91) и в остальном неизвестным законом распределения /' (г). Поскольку х (у) есть фиксированная стратегия, эффективность которой оценивается, то можно, опуская промежуточные зависимости, записать интересующую нас
106 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. I* задачу гарантированной оценки эффективности в виде F = Jnfu S • • • S W &. • • • . при условии, что У7,-(z/)—неубывающая функция, *=1, ... Д-; i=l, ..., /п. (98) В этой записи заключены и условия j^F/(*,-) = 1. Если области возможного изменения всех zt есть конечные отрезки [z°iy г\], то /г.(г?) = 0; /7/(zJ)=l; при этом если aik(zt) кусочно-непрерывны и ограничены, a W Ov^m) непрерывна, то inf может быть заменен на минимум ввиду достижимости нижней границы на семействе монотонных функций F(z{), заданных на конечных отрезках. Получившаяся вариационная задача не классическая и может рассматриваться как задача оптимального управления. Однако ее можно существенно упростить, если отказаться от независимости z19 ..., гт. При этом ее можно трактовать и как непрерывную задачу линейного программирования. Для того чтобы убедиться в правомерности такого взгляда, превратим ее в дискретную задачу, разбив каждый из [г?, г]] на п отрезков точками Z/i, *..•• zin = z'i и обозначив через p{j приращение Fi(zij)—Fiizij-i)> понимая под Т7,-(г/у) предел слева. Очевидно, pij^Q. Если функции aik(Zi) ограничены и имеют только конечное число разрывов первого рода, a W{z19 ... , zm) непрерывна, то по свойствам интеграла Стилтьеса задача (97) приближенно может быть записана как т У W(z1A, ...,Ч)Пр«л 09) 1 < /t < П *=1 при условиях 0; c'lk < X aik (zi;) PiJ < c(k. A00) i=\ Среди этих условий содержатся и $! ри- = 1,
§ 11] УЧЕТ СЛУЧАЙНЫХ ФАКТОРОВ 107 т Введем теперь x!tf /2,... ,/т = П Рц* Тогда ибо Аналогично /fc. я Условия 2 Pi/= 1 превращаются, очевидно, в условие . 2 . xh /m=i. /l» • • • » /w Обратно, если п переменных x/t /m обладают свой- n ствами Xjt, ,.,,/„,^0 и 2 xh /ж= 1» то» вводя i Э Pi! = Sc */» i/-i. /. /г + i Jm* n получим, что р'ц>0 и J р'ц = 1 при всех i. Однако при т этом нельзя утверждать, что Xjt /m = П Pij(» что соответствует независимости г19 ..., гт. Запишем тем не менее задачу, аналогичную (99) и A00): (ЧЛ г"-)Х1-' '" A01) при условиях х/, /,_,. /. /#.+ 1 /m<сЛ; A02) i < m; I < к <ft,.
108 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [гЛ. И Это и есть типичная задача линейного программирования, только с необычной индексацией. Характерным для нее является значительное превышение числа неизвестных над числом ограничений с константами cik\ это становится очевидным при достаточно больших л, желательных для достаточно точного отражения исходной вариационной задачи с непрерывными zt. Общее число ограничений (кроме неотрицательности т __ переменных в A01)—A02)) равно г = 2 ку — (т — 1). Здесь вычтено (т—1), потому что все т условий otJ = 1 превращаются в одно и то же условие Xjt /да=1- В силу сказанного выше о связи задачи A01)—A02) с задачей (99)—A00) ясно, что первая из них менее ограничительна по условиям, чем вторая, а значит, и минимум в ней не больше, чем в (99) — A00). Легко увидеть и реальный смысл задачи A01)—A02). Величины Xfx /m есть, очевидно, вероятности попадания вектора {zt} = z соответственно в области гцг_х< < zt ^ zrn (I ^ i ^ m). Они сохраняют свой смысл и в случае, если величины zt зависимы. Таким образом, A01)—A02) может рассматриваться как общая приближенная запись задачи оценки эффективности стратегий при произвольно зависимых между собой случайных факторах*), закон распределения которых ограничен лишь неравенствами (98). Рассматривая задачу в такой постановке, мы можем вместо (98) ставить любые другие ограничения линейного типа, в которых функции a (z) могут уже быть произвольными функциями вектора z\ в частности, можно, конечно, рассматривать ограничения на смешанные моменты вектора z. Все сказанное не внесет никаких изменений в A01)—A02), за исключением замены *) В этом легко убедиться, рассматривая соответствующие общие m-мерные интегралы Стилтьеса, взятые по_вероятностной мере, определяемой законом распределения вектора г.
§ 11] УЧЕТ СЛУЧАЙНЫХ ФАКТОРОВ 109 A02) на более общие неравенства типа Далее рассмотрим задачу именно в такой постановке. Решение задачи типа A01)—A02') при больших п несколько упрощает следующая теорема линейного программирования. Теорема VIII*). Пусть дана задача линейного программирования: rnin 2 &ixC> */^0j с) ^ 2 aijxi-^ с/ при /=1, ...,*&< л. Тогда если существует решение этой задачи, \Г множество решений ограничено, то существует и такое решение, для которого разве только k из п переменных xt отличны от нуля. Отметим сразу, что вследствие 0^xju..., /w^ 1 множество решений в (99) ограничено. Практическая и методологическая важность этой теоремы ясна; приведем ее доказательство. Для этого необходимо напомнить основные понятия теории выпуклых множеств, которые еще не раз потребуются и в дальнейшем. Множество X точек х = {х19 ..., хп} n-мерного пространства Е называется выпуклым, если оно^ вместе с точками л:A) и х{2) содержит и все точки вида ЪгA) + A—Х)х{2) при 0<Х<1. Крайней или экстремальной точкой выпуклого множества X называется ^очка х°, которая не может быть представлена в виде Хх{1) + ( 1-Х)х{2\ если хA) и х{2) различны и принадлежат множеству X и 0<Х<1. Если X—ограниченное замкнутое множество, то оно имеет крайнюю точку. Такой точкой, например, является точка х°?Х, наиболее удаленная от начала координат. *) В теории линейного программирования эта теорема доказывается часто для односторонних ограничений. Так как двусторонние ограничения могут быть записаны в виде двух односторонних, то теорема VIII, казалось бы, является просто следствием соответствующей теоремы из теории линейного программирования (см. Карлин). Однако при этом можно было бы утверждать лишь, что отличных от нуля xi не более 2k> а не k, как сказано в теореме VIII. Доказательство же остается практически без изменений.
ПО ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [гЛ. I Действительно, если бы х° = кх{1) + A — %)~х{2) при X '=f=- X , и <^ К <С^ 1, ТО _ п п п V* Г12 /v<l)\2 I <)\ /I Qk\vd)vB) — _^л_У I *** \*^/ / "Т~ '"**' \ •*• '*'/ "? ™? 1 = 1 Неравенство будет строгим, так как хотя бы для одного i хф* Ф х?} и 0 < i < 1. Но отсюда следует, что \х°\ строго меньше наибольшего из чисел |#A)|, |*B)|, т. е. х0 не является точкой, максимально удаленной от начала координат. Прежде всего отметим, что множество s допустимых точек, т. е. удовлетворяющих условию х(^0> с]^. ^ 2 a>ijXj^Cj> выпукло. Действительно, пусть ха) = и x{2) = {xf)] принадлежат s. Тогда и для х = Хх{ -f(l—Х)х2 при 0^Х<1 выполнено 1> i= I = X t ацф + A - А,) ? atJxf < cj. Так же обстоит дело и со вторым ограничением. Множество s0 решений задачи линейного программирования также выпукло, ибо если для х{1) и х{2) достигается одинаковый минимум нашей задачи, то в силу линейности минимизируемой функции он же достигается и при ^с = Хх{1) + (\— К)х{2) для любых X из отрезка [0; 1]. Очевидна, также замкнутость s и s0, a s0 по предположению и ограничено.
§ 11] УЧЕТ СЛУЧАЙНЫХ ФАКТОРОВ 111 Утверждается теперь, что крайняя точка s0 (а она существует, как показано, если s0—не пустое множество) является и крайней точкой s. __ Действительно, пусть л:0—крайняя точка s0; x° конечно допустима, т. е. принадлежит s. Если_ х°— не крайняя точка s, то существуют различные xA)?s и Р^ ()() что *° = uA)-f(l—?0*B) @ < Я< 1). Но тогда п Отсюда следует (из-за О < X < 1), что 2 /^ i = 1 п п = У-* d(xj2) = 2 d/^-0), или если первые две суммы не равны между собой, меньшая из них строго меньше третьей. В первом случае х{1) и х{2) также реализуют минимум и принадлежат поэтому к s0; тогда х{0)—не крайняя точка s0, вопреки предположению. Во втором же случае х° реализует не наименьшее значение, т. е. не принадлежит s0. Эти противоречия и доказывают требуемое. Для доказательства теоремы осталось показать, что любая крайняя в s точка х° имеет лишь k отличных от нуля координат х?\ Предположим противное, т. е. что имеется крайняя точка xo?s, имеющая хотя бы k+l ^n ненулевых координат х\0) > 0 при i ^fe+ 1 (перестановка номеров значения п не имеет), где k^k. Пусть с]—значения сумм 53 Я//*/0) (/=1, ..., k)y которые согласно предположению удовлетворяют неравенствам tftf Рассмотрим систему 1+1 / i 2 =i Так как в этой однородной системе количество переменных превосходит ранг матрицы (не больший &), то
112 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II существует нетривиальное решение {xjly} (/ ^ k-\-1) системы. Дополним эту точку координатами xjl} = 0 при / ^ k +1 до полной размерности и обозначим ее через хA). Поскольку *,°>0, а при *<fc+l дс?>0, то всегда найдется такое е, чтобы все координаты точек х<0) + +вх{1) и х{0)—гх{1) были неотрицательны. Очевидно также, что 2( afl (х?> ± в*И = *S в/| (*}•> ± ех?>) = г? и из-за с] ^ с? ^ С| точки jc@) ± ел:A) допустимы, т. е. при- надлежат s. Нох<°) = -у(Р + 8ХA)) + у(^° —8хA)), а это в силу различности х@)+вх{1) и х{0)—гх{1) (хI) не все равны нулю) противоречит предположению о том, что х°—крайняя точка s. Таким образом, любая крайняя точка в s, а значит, и любая крайняя точка в s° имеет не более k ненулевых координат. Этим теорема уже полностью доказана. Очевидно, что доказательство не изменится, если вместо п условий с) <! 2j uijXi ^ Cj рассматривать более общие ус- п ловия 2 a^Xi^Ej, где Ej—любые замкнутые ограничен- /1 /=1 ные множества на числовой прямой. Аналогичные изменения могут быть, конечно, сделаны и в задачах (99) — A00) и A01)—A02). Возвращаясь к A01)—A02), видим, что при любом п имеется решение задачи, у которого разве лишь только г величин из x°flt /2 /w отличны от нуля. Переход к пределу при п—-юо позволяет, пользуясь ограниченностью zh получить следующую теорему. Теорема IX. Если г{ меняются в ограниченных интервалах, a W(г) и aik(z) непрерывны, то задача оценки эффективности при неопределенном законе рас- пределения F(z), ограниченном неравенствами типа (98), имеет дискретное решение, а именно, такое решение,
§ 11] УЧЕТ СЛУЧАЙНЫХ ФАКТОРОВ 113 что число точек z = (zx, ..., zm)f имеющих ненулевую ее- роятность, не превышает г= 2 ki~(m— 1). Как уже говорилось, эта теорема справедлива, когда на зависимость zt не накладывается ограничений, а ограничения (98) могут заменяться на где Eik—замкнутые множества числовой прямой, или на более общие ограничения, получающиеся в пределе из A02'). Для случая m = 1 эта теорема впервые сформулирована и строго доказана (даже в более общем виде) в работе Э. Г. Давыдова на основе теории выпуклых множеств. Наметим примерно путь строгого доказательства теоремы IX. Пусть F0(z) реализует оценку эффективности (т. е. минимум по F(z) осредненных по z критериев). Тогда F0(z) может быть заменен подходящим дискретным законом распределения, т. е. (z1}l zmjm) и x*}tf..;,jm (i^iii^n) таким, что при п—юо эффективность при дискретном законе стремится к эффективности при F0(z). Но тогда тем более минимум в задаче A01)—A02) стремится к эффективности при FQ(z), когда п—юо. Для фиксированного п в силу теоремы VIII существует Fn(z), решающий задачу A01)—A02) и такой, что только точки 2A)(п),..., z{s>(ri)>..., zin(n) (может быть, не все различные между собой) имеют ненулевые вероятности появления ps(ri). В силу ограниченности z{s)(n) и ps(n) при 1^ <Js^r всегда можно выбрать подпоследовательность пг такую, что при п'—^оо, z{s)(n)—>zjf* и ps{n)—>p°s, г V1 no 1 s=l В силу непрерывности W и aik соответствующий переход к пределу показывает, что P0(z), определяемая вероятностями pi на zft°, дает ту же эффективность, что и FQ(z)y т. е. реализует интересующую нас оценку эффек- тизности.
114 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. И Если изменение г{ происходит в неограниченных интервалах, или если W (z) и aik(z) кусочно-непрерывны,то, используя теорему IV для ограниченных интервалов непрерывности функций и устремляя их границы к точкам разрыва или к бесконечности, получим следующее. Теорема X. Нижняя грань эффективности при неопределенных F (г), ограниченных (98), может быть получена в качестве нижней грани для дискретных F{(z)9 каждый из которых определяет не более чем г точек, имеющих ненулевую вероятность. Использование теорем IX и X удобно потому, что при оценке эффективности нужно знать только сам минимум, а не реализующие его {F(z)}\ тем самым достаточно знать хотя бы одну реализацию минимума и, конечно, желательно в каком-то смысле простейшую. Именно эту возможность и предоставляет теорема IX. Чтобы оценить ее смысл не только качественно, отметим случай, когда c'k = ck и т= 1. Тогда количество точек Zj с ненулевыми вероятностями должно быть не больше r = kly но и не меньше, ибо иначе нельзя удовлетворить равенствам 21*(у)Р/Ъ Но тогда или pj определяются однозначно при фиксированных 2у, или эта система вообще не имеет решения. Таким образом, определив pi{zj)y приведем вариационную задачу к задаче поиска минимума функции г переменных Zj. Как же все-таки оценивать эффективность при независимых zlf ..., г,д, т. е. как решать задачу (97) —(98)? Можно представить себе в этом случае два варианта: 1. Фиксируя реализующие min законы распределения Fl{z2)> • • •» Fm(zm) и используя теоремы IX — X для F1(z1) и W, осредненной по z2, ..., zm, получим /^(zj с количеством точек z1 с ненулевыми вероятностями не более kx\ продолжив этот процесс, в конечном итоге можем утверждать, что оценку эффективности в данном случае можно искать на дискретных F(z) таких, что ненулевыми вероятностями обладают разве лишь kx*k^ ... -кщ
УЧЕТ СЛУЧАЙНЫХ ФАКТОРОВ 115 точек (г1Л, ..., zm/m), где 1 <//<&,, причем вероятность появления этих точек х-!и ..., \т = р1}1 •... -pmjm- Таким образом, здесь подлежат определению величины zij. и ptj. при ji^ki путем решения задачи типа (99) — A00) с заменой п на ni^ki. 2. Приближенно заменим требование независимости zt на их некоррелируемость. Это означает, что можно в принципе воспользоваться теоремами IX — X при включении в число ограничений A02') условий некоррелируемости. Анализ такого пути показывает, что для возможности использования здесь теорем IX — X нужно предполагать и точное знание первых моментов, иначе нельзя в виде A02) записать равенство нулю коэффициентов корреляции. Отметим далее, что указанное приближенное сведение задачи с непрерывными zi к задаче A01) — A02) позволяет для оценки эффективности при наличии неопределенностей в F (z) использовать численные методы линейного программирования. Так как оценка эффективности требует лишь знания самого минимума, а не его реализации, то можно переходить и к двойственной задаче, если это почему-либо окажется выгодным. Однако это практически эффективно только при сравнительно небольших т, k{ и, видимо, я. При больших т трудно рассчитывать на эффективность численных методов; правильнее искать здесь пути для использования тех или иных асимптотических методов, например, предельных теорем. Итак, оценка эффективности стратегий является сравнительно простой задачей для расчетов, только если законы распределения случайных факторов известны достаточно точно я, кроме случайных факторов, других неконтролируемых факторов нет. Во всех остальных случаях оценка эффективности требует решения задач на отыскание глобального минимума. Ранее отмечалось значение лемм Неймана—Пирсона и Беллмана. Первая из них относится к следующей задаче. Пусть /(/)>0 и g(/)>0 —функции, заданные и интегрируемые на [0; Т], причем g(t) нормирована:
116 оцннкА эффективности стратегий [гл. и В классе интегрируемых функций ф(^), почти всюду подчиненных ограничениям 0^y(t)^.M, т $Ф@*@Л<<х; 0<сс<М, о пусть нужно определить фо(/), для которой т т $ ф О Лемма Неймана — Пирсоь а. Решение указанной задачи имеет вид 0 = А1 при Ф.Ю = 0 при Величина ku<p0 (t) на множестве точек, где f (t) = kg(t), определяются так, что Доказательство. Поясним, прежде всего, как практически определяются k и фо(О- Для каждого kx находится множество Еио на котором / @ > Kg (/) и далее рассматриваются Функция v (kj) не возрастает и непрерывна справа, т. е. k' -*- k* k'>kt Пусть К—множество тех kl9 для которых Величина k определяется как k = sup kx ^ 0. kxzK Положим
§11] УЧЁТ СЛУЧАЙНЫХ ФАКТОРОВ 117 Очевидно, е^О в силу непрерывности справа v(kt). Далее е< v(k—0) —v(k). Функция ф0 на множестве Е%, где f{t) = kg\t), определяется так, что 4 Это всегда можно сделать в силу указанных границ для 8. Функция ф0 и удовлетворяет вместе с k всем требованиям теоремы. В случае, когда функции f(t) и k^fjt) пересекаются лишь в конечном числе точек, е равно нулю, и все построение упрощается. Доказательство того, что фо(О реализует требуемый максимум, элементарно. Имеем т S U(t)-kg{t)] [ф(О- о ибо на множестве Ек f(t)-kg{t)>0 и а на множестве El в остальных же точках f(t)-kg{t) <0; Но из указанного неравенства следует Поскольку по условию \g{t)(p(t)dt ^а9 то о т о о А это и требовалось показать.
llS ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [гЛ. II Более общую лемму дадим без доказательства *). Лемма. Пусть gx (/), ..., gn (t) —система линейно- независимых интегрируемых функций. Пусть f(t) также интегрируема, а функции ф(/) удовлетворяют условию 0^ф(/)<:т. Обозначим через с множество точек [clf ..., сп] п-мерного пространства, представимых в виде О для какого-то <p(t). Если [cj, ..., с*п\—внутренняя точка множества с, то существуют постоянные Х19 ..., %п такие, что ф* (t) мак- 1 1 симизирует l<p{t)f(t)dt при cl= о о тогда и только тогда, когда для почти всех t Ф*@ = т при Ф*(/) = 0 при j § 12. Гарантированные оценки надежности Надежность агрегатов и систем определяется только случайными неконтролируемыми факторами, а именно моментами выхода из строя агрегатов (см. пример VI § 2 и §7). Поэтому есть смысл воспользоваться здесь соображениями, изложенными в предыдущем параграфе. Как уже говорилось, в теории надежности широко применяется в качестве закона распределения времени выхода агрегатов из строя закон (95); объясняется это простотой аналитических выкладок при оценке надежности по закону (95). Однако некритическое его применение может привести к существенным ошибкам. Так, если истинный закон для всех агрегатов имеет вид 1—ре~х** — *) См. Беллман, Гликсберг, Гросс, Некоторые вопросы математической теории процессов управления (лемма 3.1).
§12] ГАРАНТИРОВаННЫЕ ОЦЕНКИ НАДЕЖНОСТИ 119 — A— р)в-*"', то по F9) имеем для надежности системы из п агрегатов формулу при A,2>A,X, \—p<p и больших п: Пусть теперь пA—p) = Af п%1 = В и л велико; тогда рп ^ е-а. р с^ 1, ^ ~ О, (последнее при всех a) Между тем при любом Л закон (95) даст для того, чтобы эта функция не зависела от л, необходимо принять Хп = с и pB(O = e*ct; между этой формулой и выражением e~ABe~Bt невозможно установить близость путем выбора с для сколько-нибудь широкого интервала изменения /. Это и доказывает невозможность достаточно хорошей аппроксимации исходного закона 1—pe-^f— — A—p)e'x*f с помощью (95) при оценке надежности системы с большими п. Возможность избежать необоснованного преувеличения надежности дает лишь подход, основанный на гарантированных оценках, базирующихся на той или иной информации о законе распределения Fi(t)=l—Pi(t) времени выхода из строя агрегатов, которые будем считать независимыми по моментам выхода из строя. Формулы F9), G1) и G4) показывают, что при любых видах последовательного и параллельного соединений при заданном времени работы t = t0 минимум эффективности системы по виду законов распределения 1—рДт) будет достигаться одновременно с минимумом самих Pi(t0). Достаточно, следовательно, получить гарантированные оценки самого р (t0) (индекс i опускаем) при той или иной информации о нем типа (91), которая получается из опыта. Наилучшей информацией может быть непосредственно информация о p(t0) для заданного t0. Однако это не всегда возможно, потому что t0 может меняться или не быть
120 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II известным в момент организации опытов над отдельными агрегатами. Типичной информацией является оценка значений р (tt) при некоторых tb априори не связанных с t0: *=1,2,...,Л, A03) и информация о математическом ожидании времени работы агрегата T^ A04) Менее принятой в теории надежности, но, по-видимому, не менее необходимой является информация о дисперсии времени работы Da < D = J f* d [1 — р (*)] —Г2 < Dx. A05) Во всех случаях обязательно при р @) = 1. Пусть сначала имеется только информация типа A03). Тогда из монотонности p(t) следует, что при с^тахс) и только при этом условии решение задачи существует и равно A при / = 0, ,™х// ПРИ '/<'<'/«• 0 при t>tk. Этот результат находится в полном соответствии с теоремами IX—X. Пусть теперь наряду с A03) дано еще A04). Тогда для непротиворечивости A03) и A04) необходимо J р_ (*,<,($)* <7\. A06) Действительно, для любого p(f), удовлетворяющего A03), имеем
§ 12] ГАРАНТИРОВАННЫЕ ОЦЕНКИ НАДЕЖНОСТИ 121 Пусть A06) выполнено, тогда нижней гранью p(t) опять является р_ (/, tit cj). Прежде всего очевидно, что эта грань не может быть ниже р_ (/, th c't). Теперь построим px(t) следующим образом: px(t) = P-(t>ti>Ci) при /</„ 7J- С p. (*, //f c\) dt Р@ =* и при t>tk + x px(t) = O. Рассмотрим столь большие т, чтобы px(tk + x)<c'k. Тогда для монотонной px(t) имеем tk = 5 p. (<t th c^dt + T,- 5 p. (/, th ct)dt = т. е. условия A04), равно как и A03), выполнены; между тем очевидно, что при т—*оо px(t)—+p-(t,thci)\ это и доказывает, что р_ (t, f/f с/) есть искомая нижняя грань *). Таким образом, получается следующее утверждение. Теорема XI. Добавление условий A04) к условиям A03) не увеличивает гарантированную оценку надежности для ничем более не стесненных р (t). В частности, если все с\ = 09 то знание A04) при любых Т2 не дает никакой гарантии надежности, т. е. существуют сколь угодно близкие к нулю p(t), удовлетворяющие A04). Пусть теперь даны A04) и A05). Начнем со случая когда Т и D известны точно. Тогда получается Теорема XII. Нижняя грань p(t) при фиксированных t9 T и D равна О при t > Т. Это предложение можно доказать путем использования теоремы X, но проще его прямое доказательство. *) Построение px(t) происходит, очевидно, в соответствии с теоремой X.
122 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ (гл. U Поскольку любая р (t) может быть сколь угодно точно приближена аналогичной функцией с непрерывной производной, ограничимся случаем наличия непрерывной рг (/). Тогда [CD 2 СО СО \(t-i)\p'(t)\dt <$(/-т)«|р'(/)|Лх$|р' X J X X Далее, О X Если Т—т^О, то отсюда [со П2 Гсо J(/-T)|p'(9l*J <| J(/-x)|p' = p(T)[D + G— Отсюда следует Докажем точность этого неравенства, т. е. найдем такие p(t), для которых разница между левой и правой частями сколь угодно мала. p(t) имеют вид =1 при = b при т<^^^, = 0 при <>/lf ^ и 6 определяются из условий сохранения Т и
§ 12] ГАРАНТИРОВАННЫЕ ОЦЕНКИ НАДЕЖНОСТИ 123 Отсюда l T—r T—1 h-x (T—iY Полагая т < /0 < Т < tx, имеем Устремляя т к t0, получим требуемое. Осталось показать существование p1{t), сколь угодно близких к 0 при t^Ty несмотря на фиксацию Т и D. Но это будут те же самые p(t)y только при т —> Г; тогда и ~p(t) = b—>0 пои t^T. Поскольку ,_^У ~ — монотонно растет с Т при фик- (Г—rJ + D () + сированном D и убывает с ростом D при фиксированном Т, то при условиях A04) и A05) гарантированная оценка p(t) будет A07) [ 0 при t>T2. Пусть теперь для p{t) даны 7\ D и неравенства A03). Тогда, очевидно, р(/)>max [/>.(*, ^ ?>); Р-С '/. */')]• A08) Поэтому должно быть ci>p[{t^m?ix{p.{th Т, D); />_(*„ /?, с?;)]>с;. A09) Далее имеем F=$p@d*>$max[/M*f ^^); Р-(Л//,с;)]Л, (ПО) гтах[р.(/, Г, D); p_(/, //f c't)]dt9 A09) и ?110) — необходимые условия совместности A03) и данных Т и Di
124 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II Неравенство A08) дает гарантированную оценку надежности, однако она, видимо, не является точной, т. е. не дает минимума функций /?(/), удовлетворяющих всем условиям задачи. Тем не менее с некоторой перестраховкой ею можно пользоваться, во всяком случае, пока не будет получен точный результат. Рассмотрим теперь гарантированную оценку надежности для законов p(t) более узкого класса. В качестве такого класса возьмем непосредственное обобщение закона (95), а именно, все /?(/)=1—F(t), представимые в виде 00 СО p(t)=le-vdf{%), \df(X)=lf A11) о о где f(k) монотонна. Такие p(t) получаются, например, если X зависят от условий работы, которые случайны. Ограничение p(t) рамками A11) позволяет получить гарантированные оценки при информации, которая ничего не гарантирует в общем случае. Так, пусть известно поведение p(t) вблизи / = 0, а именно, пусть известны р'@)=—а<0. Тогда гарантированная оценка состоит в отыскании минимума A11) по f(X) при условии со ^ A12) Из теоремы X следует, что достаточно искать минимум на дискретных распределениях X вида Ях—имеет вероятность р, Х2—имеет вероятность 1—р. Для таких f(X) A12) дает Необходимо при этих условиях получить минимум выражения • Пусть Ха = а + 82, Х1 = а + е1. Возьмем теперь 8f = fetM и посмотрим, как ведет себя выражение A14) как
§ 12] ГАРАНТИРОВАННЫЕ ОЦЕНКИ НАДЕЖНОСТИ 125 функция и, т. е. рассмотрим функцию ^2 e-(a + ktu) t i ** e-{a+k2u) tm Производная от A15) по и равна e-at W [e-k2ut_e-klUt], A16) Но по условию Отсюда следует, что k2 и fex обязательно имеют разные знаки. Например, приняв &2>0>&3, немедленно получим, что производная A16) положительна при и > 0. Отсюда следует, что значение интересующей нас функции при и = 0 меньше значений при и > 0. Также обстоит дело и при fe2 < 0 < kx. В силу произвольности kx и fe2, а значит, и ех и еа, имеем, что A14) всегда больше, чем e~at. Таким образом, нижняя граница (гарантированная оценка надежности) A11) при условии A12) для любых / равна е-«' = еНр'<о)|<. A18) Итак, если априори известно, что закон p(t) имеет вид A11), то применение экспоненциального закона е~и осмысленно с точки зрения гарантированных оценок, а X должно определяться через производную р' @), т. е. по поведению p(t) вблизи / = 0. Если вместо р' @) фиксировать 7\ то условием взамен A12) будет A19) Вновь достаточно отыскать нижнюю границу ре-и+(\—р)е-Ы A20) при Р | 1-Р=:у;
126 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II Устремив ^ к 0 и 12 к оо, очевидно, получим в пределе для A19) нуль при всех t, за исключением t = 0. Таким образом, и здесь, как и в наиболее общем случае, фиксация Т не гарантирует никакой надежности. Совершенно аналогично может быть поставлена задача и для p(t) вида О где к—любое фиксированное число. Приведенные материалы в целом достаточно широко и убедительно показывают рост гарантированной оценки надежности с ростом информации о соответствующем законе распределения; особенно характерен тот факт, что знания одного лишь среднего времени работы Т совершенно недостаточно, знание же хотя бы дисперсии или p(tj) радикально меняет дело. Этот факт существен с точки зрения организации эксперимента, на основе которого производится оценка надежности аппаратуры. Но и наоборот, приведенные материалы свидетельствуют, что некритическое использование того или иного вида закона р (t) (например, e~v) без достаточных к тому оснований может привести к значительным ошибкам в оценке надежности как в сторону завышения, так и занижения ее. Пример последнего: считая справедливым е~и и зная Т, при небольших t оценим надежность величиной 1——; но если бы было известно D и оно ока- Т Гр, А2 залось бы малым, то оценка —^ — могла бы дать (T ty + D значительно более высокие результаты для не слишком малых t. Следует поэтому большее внимание уделять гарантированным оценкам. Посмотрим теперь, что дают приведенные материалы для сравнения стратегий обеспечения надежности, т. е. указанных выше (§§ 2 и 8) методов дублирования агрегатов. Для простоты ограничимся системой из одного агрегата, который дублируется п раз или по методу параллельного соединения или путем «холодного» резерви* рования.
§ 12] ГАРАНТИРОВАННЫЕ ОЦЕНКИ НАДЕЖНОСТИ 127 Пусть известны лишь Т и D. Тогда для параллельного соединения из формулы G4) и теоремы XII следует гарантированная оценка надежности: A21) _ L (T-tr + D] l(T-t)* + D]« При /<7\ Для «холодного» резервирования имеем, прежде всего, что среднее суммарное время работы всех п агрегатов Тп = пТ и Dn = nD. A22) Но тогда та же теорема XII дает (nT-t)* _ V п) _ РЩ -LY+l п ) ^ п при t ^.Тп. Отсюда немедленно вытекает, что при /^7' превосходство «холодного» резервирования неоспоримо; A23) дает W (t)—> 1 при п —> оо для любого /, в то время как параллельное соединение, т. е. A20), при любых п не гарантирует никакой надежности, как только t^T. Этот категорический при данной информированности вывод о превосходстве «холодного» резервирования не изменится, даже если приборы, фиксирующие выход предыдущего агрегата из строя (при «холодном» резервировании), будут работать не идеально, например, так же отказывать с какой-то вероятностью. Некритическое использование экспоненциального закона (95) существенно смазывает четкость указанного сравнения и даже может привести к противоположным результатам, поскольку при p(t) — e-^T параллельное соединение для любых / > Т так же дает возможность получить W (/), сколь угодно близкие к 1, при достаточно больших п, так как W(f)=l—(l—e-"T)n. Таким образом, отказ от гарантированных оценок может привести к неправильному для данной информированности выбору системы по обеспечению ее надежности.
128 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. И Из сказанного в этом разделе можно было бы сделать вывод, что прежде, чем оценивать эффективность системы и выбирать стратегии ее конструирования, следовало бы получить достаточно большую информацию о p(t). Такой вывод несомненно правомерен, когда речь идет о получении информации, дополнительной к Т, например, D или р (/,-), поскольку одно Т не гарантирует ничего. Для общего случая такой вывод, вообще говоря, неверен—затраты на получение информации могут не окупить выгоды, которые она даст, так как надежность может быть обеспечена, например, простым увеличением кратности холодного резервирования. Для того чтобы правильно ставить такого рода вопросы, необходимо ввести понятие ценности информации, и это в дальнейшем будет сделано в полном соответствии с проводимыми здесь идеями о сравнении эффективности стратегий вообще. В заключение отметим изменение постановок вопроса б гарантированных оценках при переходе от критерия эффективности—вероятности выхода из строя до момента t—к среднему времени работы системы. В этом случае невозможно свести оценку надежности системы к оценке надежности агрегатов, поскольку происходит осреднение по / оценок надежности агрегатов, а реализующие приведенные выше оценки законы распределения различны для различных /. Поэтому оценки среднего времени работы, полученные осреднением оценок p(t) типа A21), дадут заниженные результаты против точных гарантированных оценок; исключение составит лишь холодное резервирование, для которого просто есть точные связи A22) между интересующим нас Тп и известным Т. Отметим задачу оценки среднего времени работы системы без дублирования, но с элементами, имеющими одинаковые pt(t). Тогда, если известны Т и D, нужно получить mmrn=min [p"(t)dt;
§ 13] ЭФФЕКТИВНОСТЬ ПРИ НКОПРКДКЛЬНИОМ КРНТКРИИ 129 Это типичная задача на применение принципа максимума Понтрягина. Ее решение (статья Ю. Б. Гермейера, Д. С. Иргера и Е. П. Калабуховой) дает результат для искомой оценки надежности в виде A24) Если же известно только 7\ то, как легко проверить, „ = 0; для этого достаточно положить p(t) = -r при и нулю в остальных точках и взять k—*оо. Таким образом, и здесь знание только Т ничего не гарантирует. § 13. Об оценке эффективности при неопределенном критерии (цели) операции Как уже ранее говорилось, неопределенность цели (критерия) можно моделировать специальными неопределенными факторами в критерии эффективности. Отмечалось уже и то, что обращение с этими неопределенными факторами при исследовании модели не должно особенно отличаться от обращения с другими неопределенными величинами. Отличие, пожалуй, состоит лишь в условности отнесения неопределенности критерия к неконтролируемым факторам; кажется, что оперирующая сторона может ими управлять. Однако на самом деле это отличие не имеет особого значения. Действительно, для исследователя операции рассматриваемый неопределенный фактор ничем не отличается от остальных. Правда, он может рекомендовать оперирующей стороне при необходимости уточнить свои желания. Но и для остальных неопределенностей он может дать рекомендацию о необходимости информации об их значениях. Если такая информация будет получена, то это с точки зрения исследователя есть полный эквивалент «уточнения желаний», т. е. выбора конкретных параметров в неопределенном критерии; ведь исследователь в момент исследований в одинаковой степени не знает ни будущего выбора 5 Ю. Б. Гермейер
130 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II неопределенных параметров в критерии, ни значения неопределенных неконтролируемых параметров, которое даст будущая информация. Что касается получения информации и окончательного выбора цели, то эта проблема решается конкретными исследованиями. Можно отметить и формальную разницу между контролируемыми факторами и неопределенными характеристиками цели (критерия). Последние величины хотя и выбираются оперирующей стороной, но не исходят из целей данной операции; их выбор может быть или просто произволен или выбираться в другой, как правило, более широкой, операции. Наоборот, контролируемые факторы или фиксированы или выбираются, исходя из целей данной операции. Итак, неопределенность критерия не может быть устранена стремлением к его увеличению, и это роднит ее именно с неконтролируемыми факторами. Имеется еще одно обстоятельство, несколько мешающее простому обращению с неопределенными целями — критериями. Дело заключается в возможной размерност- ной несравнимости между собой ряда частных критериев Wi = Ft (x, у), из которых собираются сформировать общий критерий эффективности. Часто в связи с этим возникает недоумение, переходящее в отрицание возможности образования общего критерия. Несмотря на то, что в каждом случае—это вопрос конкретный, для конкретной операции, и несмотря на то, что общие взгляды на этот вопрос ранее уже, по существу, высказаны, не лишне, видимо, еще раз обратить внимание на следующее. 1. С формальной точки зрения (и с точки зрения исследователя операции) операция не может считаться заданной, если не известен хоть в какой-то мере вид критерия эффективности, т. е. вид связи между Wi9 хотя этот критерий и может зависеть от неопределенных факторов. Но задание вида критерия уже означает какое-то решение вопроса о размерностной сравнимости Wt. Так, п скажем, принятие ИР = 2 V^/ Уже говорит о возможнос- ти выбора коэффициентов h/f «уравнивающих» размерность Wу, то же самое относится и к критерию W = min pfl71 и к всевозможным комбинациям этих видов соединения критериев.
§ 13] ЭФФЕКТИВНОСТЬ ПРИ НЕОПРЕДЕЛЕННОМ КРИТЕРИИ 131 Но любой вид непрерывного критерия, как уже досказывалось, представим в виде максимина от взвешенной суммы W",. Поэтому если принять, что какой-то общий критерий существует, то становится ясным, что существуют и, пусть неопределенные, весовые коэффициенты, ликвидирующие несравнимость размерности в самом обычном «линейном» понимании. 2. Что касается неформальных соображений, то следует обратить еще раз внимание на достаточное богатство возможностей, представляемых методами свертывания, изложенными в § 3, и связями между ними, указанными в § 5. Так, во втором методе свертывания априори не нужно знать никаких коэффициентов, «уравнивающих» размерность критериев. Вместо этого фигурируют заданные W\. Но согласно § 5 этот вид свертывания легко записывается через взвешенную сумму и минимум по нефиксированным в ней коэффициентам. Тем самым ясно, что и задание W? в некотором смысле эквивалентно признанию возможности сравнивать Wt с помощью некоторых коэффициентов. Еще более ясно это видно, если говорить не об оценке, а о сравнении эффективности стратегий. Действительно, критерий типа (второй способ соединения) = 1 при = 0 при min очевидно, есть результат преобразования с помощью неубывающей функции критерия W = min Щ . Но в силу теоремы § 9 можно сравнивать стратегии по W, ибо лучшая будет одной из лучших и для критерия W. Но W образован из W с помощью совершенно определенных весовых коэффициентов —г при применении простейшего свертывания 5-го типа. Вообще же очевидно, что деля Wt на некоторые характерные W* (например, уже достигнутые значения или, наоборот, желаемые, хотя может бэть и недостижимые), мы приврдим частные 5*
132 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. И критерии к одинаковой размерности. Покончив с этими общими замечаниями, отметим некоторые довольно любопытные факты, относящиеся к случаю, когда оперирующая сторона не в состоянии уточнить цель ни в момент исследования, ни далее, до момента принятия решения о выборе стратегий. В этом случае, как известно, стратегии оперирующей стороны не зависят от неопределенности цели—критерия. В силу наших общих принципов оценка эффективности стратегии является минимумом критерия как по этим неопределенностям, так и по неконтролируемым неопределенностям. Следовательно, можно взять сначала минимум по неопределенности цели при фиксированных остальных неконтролируемых факторах *). При независимости стратегий от этих неопределенных факторов это эквивалентно введению нового критерия эффективности по формуле W=F(x, ~y)= inf F(*, у, а), A25) где а—неопределенные факторы, отражающие неопределенность цели; Е—множество их возможных значений; F(x, i/, a)—исходный критерий эффективности, отражающий неопределенность цели с помощью неопределенности а. С этой точки зрения почти все формулы § 5 могут трактоваться как определение критерия F(x, у) по критерию F(x, у, а). Отметим несколько этих трактовок. А. Если в суммарном критерии первого типа п весовые коэффициенты неопределенны, будучи ограничены лишь неравенствами Я/^0 (что считается почти обязательным для коэффициентов веса), то рассмотрение такой операции эквивалентно (с точки зрения гарантированного результата) рассмотрению операции с критерием, состоящим в необходимости достижения неравенств Wi ^ W$, т. е. с операцией по достижению заданного векторного результата. Следует отметить, что если не накладывать ограничений и на знак Kif то единственным удовлетворительным результатом является результат W( — W*. *) Эта операция может происходить как до, так и после осреднения по случайностям в зависимости от конкретной ситуации.
§ 13] ЭФФЕКТИВНОСТЬ ПРИ НЕОПРЕДЕЛЕННОМ КРИТЕРИИ 133 Б. Если в критерии 2^/(^/ — Щ) точно известен Xlf но неизвестны Я2 ,..., Хп, относительно которых требуется лишь Я/^0, то такая ситуация эквивалентна операции с критерием Я1(\^1—WJ) при необходимых ограничениях W;^W? (f = 2, ..., п). При сравнении эффективности стратегий, как известно из § 9, можно опустить W\ и %г (если только %г > 0) и свести задачу к исследованию операции с критерием Wx при тех же ограничениях. Но отсюда следует, что не нужно знать %х и WJ конкретно; достаточно иметь уверенность в том, что они могут быть фиксированы, в отличие от Х2, ... , Хп. п В. Если в критерии 2^/^/ ^/ неопределенны, но п так, чтоЯ^О; 2V"/==1> т0 эта операция эквивалентна операции с критерием ri Эта последняя операция с точки зрения сравнения стратегий может заменить (как уже отмечалось) и операцию по достижению необходимого результата ИР/ Г. Пусть дополнительно известно, что п тогда необходимо 2 ^?ri = d < 1. t=i Тогда операция с критерием в виде взвешенной суммы эквивалентна операции с критерием: Д. Рассматривается операция с критерием max в котором коэффициенты веса ограничены условиями И/>0, 2|А,= 1. Это эквивалентно операции с критерием 1 п 1
134 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II Не повторяя остальные связи § 5, отметим только могущий быть полезным частный случай общей формулы A25). Пусть F (х, у у а) непрерывна и вогнута по вектору а, пробегающему выпуклое ограниченное замкнутое множество. Тогда inf F(Xy y> а) достигается. Этот минимум в силу вогнутости F будет достигаться в одной из крайних точек множества Е. Предположим сначала, что F (х, у, а) строго вогнута, и пусть a^Xo^ + U—^)a2» причем af.gJE: (i = 0, I, 2) и 0<А,<1. В силу строгой вогнутости имеем F(x, У> ao)>XF(x, уу aj + fl—X)F(x, У, a2). Поэтому хотя бы одно из чисел F(xy уу ах), F(xy у, а2) меньше, чем F(x9 у] а0); а это означает, что любая не крайняя точка а0 не может реализовать интересующий нас минимум. Следовательно, в случае строгой вогнутости минимум необходимо достигается только в одной из крайних точек. Если F(x9 у у а) просто вогнута, то функция _ __ — — к Fe (х, У, a) = F (Ху у9 а) —8 2 а?, где вектор а = (а1Э ..., aj, при сколь угодно малых е > 0 есть функция строго вогнутая. Это следует из того, что сумма вогнутой и строго вогнутой функций сама строго п вогнута. Строгая вогнутость ф (а) = — 2а? следует из не- равенства i >- S [Ы + Я A -X)(о* + a?2) + A -к)' ay = \ «=i / \ t=i которое строго, если 0<Х<1, и хоть для одног9 \
§ 13] ЭФФЕКТИВНОСТЬ ЙРИ НЕОПРЕДЕЛЕННОМ КРИТЕРИИ 135 /1/2 (т« е. векторы аг и а2 не равны). Пользуясь уже полученным результатом для строго вогнутых функций и переходя к пределу при е—> 0, убедимся в том, что для нахождения минимума вогнутой функции на выпуклом замкнутом ограниченном множестве достаточно определить минимум по крайним точкам. Это обстоятельство запишем формулой; при F(x, у, а), вогнутой по а, W=F(x9 y)= minF(*, у, а'), A26) где Е'—множество крайних точек множества Е. Множество Е' обычно значительно «меньше», чем Е> что облегчает поиск Р. В частности, если Е описывается системой линейных неравенств, то множество крайних точек конечно и нахождение F сводится к тому или иному перебору. Именно так обстоит дело в случаях В и Г, где F(xy r/, к) линейна, а значит и вогнута по X. Многие из других формул, приведенных в § 5, также являются частными случаями A26). Отметим, что это не относится к случаю Д, поскольку W= max \iiwi не вогнута, а выпукла по вектору ц. В случае выпуклости F(x, у, а) по а глобальный минимум совпадает с любым из локальных и, значит, легко численно находится. В заключение приведем один, несколько, может быть, спорный, пример практического появления неопределенного критерия в экономической задаче. Рассмотрим с этой точки зрения модель I. Вид критерия в ней известен — п 2^Л; однако его нельзя считать определенным, если цены di точно не известны. Откуда же они могут стать известными? В случае конкурентной экономики они устанавливаются на рынке. С нашей точки зрения, при этом выбор dt также является стратегией, но в другой более широкой операции, учитывающей конкуренцию. Примером такой операции является модель V из § 2. Однако если эти исследования не проведены и если отсутствует вызывающий доверие практический опыт, то dt не могут быть окончательно назначены, а значит, и критерий становится неопределенным.
ОЦШКА ЭФФЕКТИВНОСТИ СГРАТЫИЙ |гЛ. II Пусть теперь речь идет о плановой, неконкурентной экономике. Тогда проблема назначения цен становится еще более сложной. Необходимо изучение деятельности всего экономического организма страны, т. е. очень широких и сложных операций. Пока такие исследования с надлежащей подробностью не проведены, цены dj остаются достаточно неопределенными для многих видов продукции. Какая же минимальная информация о ценах имеется почти всегда? Из соображений неубыточности или доходности производства легко получаются ограничения типа d^d). A27) Довольно естественным требованием к «справедливым» ценам является требование типа A28) где с—общая сумма денежных средств покупателей, а kj—общая потребность (спрос) рынка на продукцию /-го типа. Совершенно естественно, что назначающие цены будут стремиться увеличивать их до разумных пределов. Поэтому в A28) должно быть равенство. Если нет дополнительных убедительных соображений, то условия A27) и A28) полностью описывают неопределенность цен и соответствующего критерия в модели I. Легко видеть, что получившаяся ситуация вполне вкладывается в рассмотренный выше случай Г. Условие п п ">> ^ Аъи ( 1OQ\ С ^ ^^i^i У*^) есть необходимое условие «сбалансированности» ситуации. Если оно выполнено, то за критерий эффективности*) необходимо принимать ~ A30) 2 d?xt + (с- ? ш1)™*я | *) При обсуждении смысла этого критерия не следуег забывать, что он вводится в основном для сравнения стратегий.
§ 14] ПОВТОРЕНИЕ ОПЕРАЦИИ И СМЕШАННЫЕ СТРАТЕГИИ 137 § 14. Эффективность стратегий при многократном повторении операции. Смешанные стратегии Операция, состоящая в многократном повторении данной операции, является частным случаем сложной операции. Для нее поэтому верно все то, что в § 3 говорилось о действиях над операциями. Однако многократное повторение—особенно часто встречающийся случай сложной операции, имеет, естественно, свою специфику. Анализ одного из вариантов многократного повторения позволяет понять смысл так называемых смешанных стратегий (составляющих основу теории игр) и их практическое значение. Специфика рассматриваемого варианта сложной операции состоит в самом понятии повторения; многократно проводимые операции в чем-то одинаковы. Однако если операции полностью одинаковы, т. е. одинаковы цели (критерии эффективности), применяемые стратегии и значения неконтролируемых факторов, то совпадают и результаты. Ясно, что такой случай интереса не представляет и никакого специального рассмотрения не требует. Итак, несмотря на слово повторение, должно допускаться какое-то варьирование операций или их результатов. В «повторяющихся» операциях могут быть различны: а) стратегии и активные средства, б) неконтролируемые факторы. Что касается целей, то они должны быть едины (хоть бы и не тождественны), т. е. должна существовать, как всегда в сложной операции, общая цель, как-то развивающая ту цель, которая была бы в одной операции, если бы она не повторялась. Образование этой общей цели, конечно, не будет выходить из рамок действий § 3. Полная несвязанность стратегий, активных средств и неконтролируемых факторов при «повторении» операции недостаточно сужает задачу по сравнению с общим случаем соединения операций, да и слишком не соответствует интуитивному пониманию слова повторение. Поэтому естественно ограничиться рассмотрением неизменных параметров операций, т. еГодинаковых фиксированных факторов, одинаковых законов распределения случайных, соответствующих друг другу в повторении, факторов (хотя, возможно, при полной вероятностной независимости их),
138 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II одинаковых областей возможного изменения природных неопределенностей и одинаковых целей, активных средств и наборов стратегий возможного противника. В свою очередь возможности оперирующей стороны также предполагаются стандартными, т. е. одинаковы активные средства и набор стратегий. Именно такой смысл и будет в дальнейшем вкладываться в термин «многократно повторяющейся операции». Поэтому много раз повторяющиеся попытки овладения каким-то пунктом в военных действиях без соответствующего пополнения сил с обеих сторон не могут быть причислены к многократно повторяющейся операции, а есть просто одна большая операция, состоящая из частных, неповторяющихся операций. Наоборот, многократное повторение акта перехвата самолетов противника (одного и того же или различных из запаса самолетов противника) даже разного типа перехватчиками (разные стратегии оперирующей стороны) может быть причислено к повторяющейся операции. Необходимым условием, однако, является принятие неизменности объема множества стратегий при повторении, что означает практическую неисчерпаемость (при данном количестве повторений) всех типов перехватчиков (и самолетов противника). Пусть критерий эффективности в отдельно взятой операции F(xy у); тогда, если при t-м повторении (при общем числе их N) неконтролируемые факторы принимают значения уь результаты проведения операций запишутся в виде F (х, уд (l^i^N) при условии, что оперирующая сторона все время применяет одну и ту же стратегию 1с. Отметим сразу, что стратегия х в этом разделе опять трактуется в общем виде как х = х (у); тогда одинаковость стратегий при повторении означает одинаковость функций х (у), а не одинаковость значений этих функций в повторениях. Обозначение стратегии через х опять остается для стратегий, не использующих информацию о у. Согласно общему определению стратегии в объединенной операции и с учетом неизменности активных средств при повторении
§ 14] ПОВТОРЕНИЕ ОПЕРАЦИИ Й СМЕШАННЫЕ СТРАТЕГИИ 139 операций стратегия имеет вид где ]? = {?,...,«*} и * = {xl9... Предположим, что у случайно с соответствующими законами распределения составляющих этого вектора. Если принять, что фазовыми переменными всей совокупности повторяющихся операций (сложной операции) являются осреднения результатов по F6), то W (х) окажутся не зависящими от ~у и одинаковыми во всех повторениях, т. е. придем к отмеченному выше тривиальному случаю, для которого повторение операций не дает ничего нового. То же самое произойдет и при свертывании результатов каждой отдельной операции по E8) как для случайных, так и для неопределенных факторов. Таким образом, для получения новой оценки эффективности стратегий в многократном повторении следует принимать фазовыми переменными не E8) или F6), а сами исходные значения F(x, у); комбинируя их по правилам § 3, можно определить критерий всей сложной операции. В качестве такового можно принять следующие простейшие, но вполне отражающие интуитивные представления о повторении операции, варианты: 1. Сохранение критерия отдельной операции для всей сложной операции. Если бы ^(л:, у) было двузначным [0; 1], т.е. цель операции была только достижима или нет, то сохранение критерия означало бы также достижение или недостижение той же цели, иначе говоря, достижение цели хоть в одной из повторяющихся операций. Это можно записать в виде {h д) {,} () A31) Такая запись не теряет своего смысла и в общем случае F(x, y)9 означая по существу стремление оперирующей стороны к максимизации максимального результата повторяющихся операций (оперирующую сторону интересует лучший из отдельных результатов). 2. Во многих случаях, когда считается недостаточным хотя бы один раз добиться успеха, стремятся увеличить процент успешных результатов при повторении. Тогда
140 ЪЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ {ГЛ. П естественно употребить критерий вида _ N _ _ который также годится для любого типа F(x, у). 3. Если желательно добиться успеха во всех частных операциях, то это приводит к критерию Wn(x°, y°)= min F&;, #,). A33) Комбинация A31) и A33) может давать критерии весьма широкого вида (см. § 3) и, в частности, получать критерии типа «достигнуть успеха хотя бы в к операциях из N»: max min F(xijy ///.); i=l, ..., N. A34) Однако практически такие критерии сравнительно редко применяются, и потому далее ограничимся рассмотрением A31)—A33). Для них имеется общее неравенство ~?> ?)<Wo(?, П A35) соответствующее интуитивным представлениям о большей доступности успеха хоть в одной из операций. Из упоминавшейся ранее операции перехвата самолетов противника можно получить примеры всех трех типов. Например, многократным попыткам сбить один и тот же самолет противника соответствует A31); многократным попыткам сбить разные самолеты соответствует A33), если нужно сбить все, и A32), если нужно сбить как можно больше. При поиске нефти в данном районе достаточно, чтобы хоть одна из попыток бурения увенчалась успехом—A31), а при игре в карты обычно интересуются суммарным выигрышем, что, очевидно, эквивалентно A32). Многократные попытки сдать экзамен характеризуются обычно максимальной из оценок—A31). Если F(x, у) принимает только два значения 0; 1, а У[ = {Уи> • • •> Dsi}— случайные векторы, то применение осреднения F6) к критерию суммарной операции A31)
§ 14] ПОВТОРЕНИЕ ОПЕРАЦИИ И СМЕШАННЫЕ СТРАТЕГИИ 141 даст, очевидно, при независимых yt и х°=я° №0(?) = 1-П[1-?(*,.)], A36) где W (х{)— результат осреднения по F6) для отдельной операции. Это обычная формула для вероятности хотя бы одного появления события при N испытаниях, если вероятность его появления в i-u испытании W (х(). _ _ Если, наоборот,/// полностью связаны, а именно, у,==#> то при х? = х т. е. не имеется никакой выгоды от повторения операции. Аналогично для A33) при независимых у{\ Wnfr) = Uwfa). A37) Что касается A32), то здесь при любой х°= {#/(#/)} = = {*/} и без предположения о независимости Формула A38) справедлива при любом виде F(x, у), a W (#,), теряя смысл вероятности, остается математическим ожиданием F (х, у). В этом и состоит основная привлекательность A32), благодаря которой этот вариант суммарного критерия широко используется всюду и в том числе в теории игр. В общем случае F(x, у) даже при независимых yt нельзя упростить выражения =[ max F(xh й)Лр&), ...,d<pfe U39) . (НО) — S Здесь для краткости через d<p (у) обозначено JT df /i
Н2 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ ('ГЛ. П Пусть теперь у—неопределенный фактор; тогда согласно общим взглядам на оценку эффективности получим xe) = min max F(xityt)t A41) min F(xhyi), A42) ^ibto) A43) W Легко увидеть, что если F(x, у) принимает только значения 0; 1, то A41) и A42) можно записать в виде -П [1-*¦?/. Уд )) . = min f^ (*,,?). A45) {} Этим можно закончить описание оценки эффективности в многократно повторяющихся операциях; укажем только, что общий случай наличия и случайных, и неопределенных факторов будет описываться, как и раньше, простой комбинацией приведенных формул. Применяя при повторении операции стандартную стратегию х( =х =х(у), оперирующая сторона в варианте A32) при наличии лишь случайных факторов, независимых при повторении, имеет эффективность ровно такую же, как и при однократном проведении операции. Точно такой же вывод получится и^для неопределенных факторов, если возможно взять все yt равными между собой и реализующими mmF(x, у). ~у ~ _ По другому будет обстоять дело, если х = х и изменение iji с изменением i подчинено каким-то новым ограничениям, не сказывающимся, разумеется, при N=1. Пусть, например, у( =~ух + с-1% но у0 <^<yj. Тогда ясно, что невозможно при всех i обеспечить min F (х, у), несмотря на сохранение одинаковых границ у0 и у'о изменения
§ 14] ПОВТОРЕНИЕ ОПЕРАЦИИ И СМЕШАННЫЕ СТРАТЕГИИ 143 всех yt. В таком случае х !*\ Т 2 F (х' у^ > ^l1} F (*' у^ \Уг} i=\ W и получается выигрыш в эффективности в среднем по сравнению с отдельной операцией. Таким образом, при использовании оценки E8) разброс возможных неконтролируемых факторов может дать выигрыш в эффективности стандартной стратегии для A32), в то время как при осреднении по независимым случайностям такого выигрыша не наблюдается. Для A31) даже случайный, но независимый разброс неконтролируемых факторов приводит к увеличению эффективности стандартной стратегии по сравнению с N=1, что хорошо видно из A36) и A41). Напротив, такой разброс для A33) приводит только к уменьшению эффективности по сравнению с N = 1 (см. A37)). Однако разброс неконтролируемых факторов необязателен и, главное, не находится в распоряжении оперирующей стороны. Напротив, выбор степени разброса (нестандартности) стратегий вполне может быть составной частью общей стратегии оперирующей стороны. Поэтому особенно интересно проанализировать влияние этого фактора на эффективность проведения многократно повторяющейся операции. Вопрос состоит в том, не изменит ли факт многократного повторения операции самого смысла сравнения эффективности так, что вместо утверждений о большей эффективности одной из двух сравниваемых стратегий появится утверждение об эффективности пары этих стратегий с указанием, сколько раз при повторении операции нужно применять одну и сколько—другую. Остановимся для простоты на случае оценки эффективности двух стратегий, не рассчитанных на информацию о у, т. е. когда х может принимать только два значения хх и х2. Предположим, что имеет место A32) и стандартное поведение неопределенных факторов, так что Ус = у. Тогда если в pN случаях из N повторений применяется xlt
144 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [l Л. Ш а в остальных х2, то оценка эффективности по A43) будет %, у)]. A46) Если не_ существует у0, реализующего одновременно F1 = min F (х1У у) и F2 = minF(x29 у), то A46), очевидно, 1 у строго больше, чем наименьшее из Fx и F2. Но при разумном выборе р A46) больше, чем наибольшее из Fx и F2. Это утверждение является частным случаем упомянутого в § 7 принципа, заключающегося в том, что расширение множества стратегий может быть только выгодным (применение только хг или только х2 соответствует р = 1 и р = 0). Математическое выражение интересующего нас утверждения очевидно: max min[pF{xu y) + (l—p)F(x2J <p<i 7 > max min [pF(x19 y) + (lp)B, = max Tmin/7^, y)\ mmF{x2> у)Л. A47) 17 J J Таким образом, при неизменных во время повторения операций у выгодно использовать обе сравниваемые стратегии с частотой р0 и 1—р0 такой, чтобы = max min [^(х,, у) + (\ — р) F (х%, ~у)}. A48) 1 р 1 При такой организации повторений ^операций стратегиями становятся собственно уже не хг и х21 а частота их применения р и 1—р. Конечно, такое понимание стратегий автоматически переносится на любое количество значений Xj (/= 1, ..., г), причем стратегиями становятся частоты их применения pj при условии 2 Ру==^
§ 14] ПОВТОРЕНИЕ ОПЕРАЦИИ И СМЕШАННЫЕ СТРАТЕГИИ 145 Когда же можно рассчитывать на стандартные неопределенные факторы? Прежде всего, конечно, при неопределенностях природных, если ясно, что обстановка не может сколько-нибудь быстро меняться, хотя она и не определена. Быстрая изменчивость, имеющаяся для независимых случайных факторов, не мешает стандартности обстановки, во всяком случае после предварительного осреднения _по A38), так что вместо F(x> у) в A43) появятся W (х, у'), зависящие только от неопределенной составляющей у' общего вектора неконтролируемых факторов у. Однако при наличии активного противника это предположение можно считать разумным, только если противник не будет информирован*) о том, в каком именно повторении операции будет использоваться стратегия х19 а в каком х2. Иначе в каждой реализации может выбираться свое у, реализующие min F (лу, у), и, следователь- ~у но, применение 0 < р < 1 приведет к результату: pminF(xly ~y) + (l—p)mmF(x2, #)< У У _ _ __ <max [minF^, y)f minF(x2, ~у)], A49) F у худшему, чем выбор той из стратегий х19 x2J которая реализует написанный справа максимум. Итак, применение обеих стратегий при активном противнике имеет смысл только тогда, когда противник не- информирован о выборе стратегий в каждом повторении операции, хотя, может быть, и знает /?, т. е. частоту использования стратегий хг и х2. Такое предположение часто может оказаться справедливым, в особенности, если решение о конкретном выборе стратегий оперирующей стороной будет приниматься в последний момент, так что противник не успеет получить соответствующую информацию или использовать ее. Однако даже это предположение не гарантирует еще *) Или если эта информация не может быть использована из-за недостаточной мобильности. В дальнейшем отдельно о недостаточной мобильности говорить не будем.
146 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II неизменности у; противник может начать как-то изменять у от повторения к повторению, если это помешает получить указанный выше выигрыш для оперирующей стороны. __ Если рассматриваются стратегии х, не зависящие от "у, т. е. не использующие информацию о у, то, как правило, следует полагать, что оперирующая сторона не будет осведомлена об этих изменениях. Можно ли в таком случае рассчитывать на выигрыш за счет применения обеих стратегий? Будем пока считать, что у противника только конечное число стратегий k. Если fe < N, то гарантирована повторяемость стратегий противника хотя бы в [N/k] +1 операциях; следовательно, при N, значительно превышающих fe, имеются некоторые условия для осмысленности применения обеих стратегий хг и х2, если, конечно, противник не информирован о конкретном выборе стратегий хх или х2 в каждом повторении. Однако если оперирующей стороне неизвестно, какие именно повторения соответствуют одному и тому же значению у> то не понятно, как можно ^реализовать ра шумный выбор порядка применения хг и х2 и на какой выигрыш в эффективности можно рассчитывать. Очевидно, что не может существовать гарантированного расположения стратегий противника в повторениях, следовательно, гарантирующий подход, основанный на критерии A32), привел бы вновь к тому, что следовало бы принимать наихудшие действия противника в каждой реализации операции, а тогда получилось бы A49) и, следовательно, выгодно было бы только или р = 0, или /7=1. Как всегда, мы могли бы получить увеличение эффективности, если бы переход с одного значения у на другое был бы случайным и можно было бы произвести осреднение A32) по этим случайностям. Однако, априори, во всяком случае, при разумном противнике нельзя утверждать наличие здесь случайности, а тем более знать необходимые для осреднения законы распределения. Вот здесь и приходит на помощь тот факт, что важно не само распределение значений у по повторениям, а рас-
§ 14] ПОВТОРЕНИЕ ОПЕРАЦИИ И СМЕШАННЫЕ СТРАТЕГИИ 147 пределение их относительно моментов применения стратегий хх и дг2, поскольку, не меняя результата сложной операции, номера повторений можно менять произвольно. Но тогда интересующую нас случайность можно организовать самой оперирующей стороне, случайно выбирая номера повторений, в которых используются хх или х2. Конкретно это можно реализовать двумя путями. I. Реализуются определенные частоты применения р и 1~-р_в N повторениях, но номера, при которых берутся хх и Хо, выбираются случайно; скажем, комбинация номеров /j, ..., ipN применения хх выбирается с.вероятностью Pit t Nf так что сумма всех таких вероятностей равна 1. Интуитивно ясно, что следует взять равномерное распределение, т. е. принять I N Но тогда, осредняя A32) по этим случайностям, получим { х[ 2 Р&,Уд+ J где yt — стратегия, применяемая противником в t-м повторении. Меняя порядок суммирования, очевидно, имеем wc(p, 7) =4f 4 Е й ipN) = ^-P)F(x*> Уд). A50)
148 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. И Отсюда, учитывая независимость выбора ~yh при разных i получим min W, (р, ?) = ^ min ? [pF (xlf уд + A -~ ? /=i у = Tnin[pF0c19y) + (l-p)F(x2,y)], A51) 1/ т. е. действительно, не предполагая стандартности действий противника, можно получить результат A46), правда, в среднем. Легко теперь убедиться, что указанные значения Ph--ipN действительно дают наилучший результат. В самом деле, при любых pix ipNy полагая, в частности, #1 = • • -^Ч/N^y, получим min lpN) id\ <min ? У {it lpN} = min[pF(xl,y) + (l-p)F(x29 y)]=mmWe(p9lj0)9 A52) У Уо так как 2 Р'»- •••• W= ^# {'t ipN} Но неравенство A52) и означает требуемое утверждение. Суммируя сказанное, имеем, что применение стратегии р, т. е. в Np случаях х19 а в NA—р) случаях лс2, гарантирует нам при случайном равновероятном выборе номеров повторений, в которых применяются хх и х2, в среднем оценку A46) при любых комбинациях неопределенных факторов. Это верно, если противник не информирован
§ 14] ПОВТОРЕНИЕ ОПЕРАЦИИ И СМЕШАННЫЕ СТРАТЕГИИ 149 о конкретном (хотя и случайном) выборе номеров, в которых берется хх. Совершенно аналогично_обстоит дело и при применении различных стратегий хр лишь бы N/k было целым. Тогда вместо A46) при фиксации величин ру ( 2ру = 1 будем иметь оценку ~С ~у \/=i / В этой записи р{ есть частота применения х{ и потому ptN—обязательно целое число. Используя частоты /^ = 0, можно, конечно, считать k k произвольным; однако всегда pi = mi/N и ^m^N. II. Случайность вводится в выбор стратегии хх или хг в каждом повторении операции, независимо от его номера и независимо от предыдущего выбора. Тогда р трактуется уже как вероятность выбора стратегии хх в каждом повторении операции. Появляется, следовательно, искусственно создаваемая оперирующей стороной случайность при каждом повторении операции независимо от N. Осреднение F (х, у) по этим случайностям дает новый критерий эффективности пары стратегий хх и х2 в каждой операции Обобщая это, введем понятие смеси стратегий xlt. ..,хк как совокупности вероятностей р{ применения стратегий xif при обязательном условии 2 Pi = 1 • Если в смесь формально входят все имеющиеся у оперирующей стороны стратегии, пусть некоторые с Р/ = 0, то такая смесь обычно называется смешанной стратегией. Понятие смешанной стратегии легко обобщается и на бесконечные множества возможных значений вектора х—{хх, .. ., xs). Тогда только должны задаваться законы распределения их фСО, т- е- вероятности р(х1<х[, х2 < х2... < хх < х[) того, что случайный вектор ~х
150 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [гл. II окажется меньшим вектора х' = {x's}; смешанной стратегией и называется здесь закон распределения ф(я'). Осредненный критерий эффективности для смешанной стратегии приобретает вид {xly ...,xs, y)dxp(x19 ...,*,) = -J/Ч*. *)*P®. A54) Под интегралом \ F (х, "у) dq> (x) понимается s-мерный интеграл типа Стилтьеса, т. е. предел сумм 2 F(xUl, x2iM, ..., xsis> у)х при увеличении числа точек xki разбиения области изменения каждой координаты хк вектора х. Здесь р означает вероятность попадания вектора х в малый параллелепипед, определяющуюся через р=ф(^!/1+1, ..., xsls+1)— где рл...т— значение у(х'19 ..., х;) при х}=х11р х\ = = *//i» •••> л:т==^т/т и при остальных равных а:«(+1. Именно поэтому для единства записи интеграла мы и воспользовались формой записи A54) вместо обычно используемой формы $/4*1. ¦•• . xs)p(dxx ... dxs). С многомерным интегралом Стилтьеса и его свойствами можно познакомиться в книге Шилова и Гуревича «Интеграл, мера и производная». Если имеется плотность распределения вероятности /(jclf ... , xs), то A54) приобретает вид $ .. . $ F(x19 ... , хш% y)f(xl9 ... , xs) dxx ... dxs.
§ 14] ПОВТОРЕНИЕ ОПЕРАЦИИ И СМЕШАННЫЕ СТРАТЕГИИ 151 Компоненты xt случайного вектора х в смешанной стратегии могут быть, конечно, и независимы, но это только частный случай смешанных стратегий. Обобщение понятия смешанной стратегии на случай, когда значения ~х есть функции, связано с затруднениями в понимании соответствующих законов распределения, и здесь рассматриваться не будет. Как уже говорилось ранее, такие функции будем заменять их значениями на дискретных множествах аргументов, а тогда достаточно рассмотреть уже определенные смешанные стратегии. Из A54) получаем A32): n и отсюда приходим к оценке эффективности смешанной стратегии в виде Ъ [Ф (*)] = mln F (Ф (х), у). A56) у Однако теперь эта оценка имеет смысл и при N = 1, a pi трактуются уже не как частоты применения стратегии х{ в N операциях, а как вероятности их применения в каждой операции. Это существенно отличает применение смешанных стратегий от способа I введения случайности. В дальнейшем, следуя сложившейся в теории игр традиции, будем все время вести разговор о смешанных стратегиях; этому способствует и большая простота действий с ними. Это тем более допустимо, поскольку при смешении конечного числа стратегий A55) и A56) формально совпадают с A53), если не учитывать разницу между вероятностями и частотами. Однако смешанные стратегии определены и при бесконечном числе чистых стратегий, в то время как в способе I число стратегий с р(Ф0 не может превышать числа Nt т. е. числа повторений операции. Не следует забывать и о разнице между этими двумя подходами с практической точки зрения. Действительно, подход I реализуем всегда, поскольку /?, определяемое заранее, обусловливает и необходимый «запас» стратегий хг и хг для N операций. При использовании же
152 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [ГЛ. II смешанных стратегий количества хх и х2 оказываются случайными, что не_может не вызвать затруднений, если подготовка «запаса» хх и х2 связана с какими-либо действиями, например, с производством. Применение комбинации стратегий может, конечно, стать практически невозможным или нежелательным по каким-либо причинам; тогда пропадает смысл в рассмотрении обоих методов искусственного введения случайности (иначе называемых рандомизацией стратегий). Следует не забывать о принципиальном отличии случайности в смешанных стратегиях от обычных случайных факторов, состоящее в том, что первые случайности относятся к категории сознательно выбираемых, контролируемых факторов, а вторые—к неконтролируемым. Итак, применение смешанных стратегий ср (х), расширяя множество стратегий оперирующей стороны (прежние стратегии х, именуемые «чистыми», получаются как частный случай смешанных, когда вероятность появления данной чистой стратегии х0 равна 1, а остальных х — нулю), позволяет рассчитывать и на изменение эффективности с minF(x, у) на m\nF[y(x), у], что при разумном ~ц_ ~у выборе ф (х) должно дать увеличение достижимой эффективности ввиду увеличения множества стратегий. Однако эти надежды основаны на двух существеннейших предположениях. а) Осреднение критерия по случайностям (естественным или искусственным) по F6) допустимо. б) Противник не имеет информации о конкретном, хотя и случайном, выборе х, т. е. неконтролируемые неопределенные факторы не могут выбираться по принципу реализации min/7^, ~у). Иначе это означает предположе- ~у _ _ ние об отсутствии связи между х и у. Возможность же знания ф(#) не отрицается. Принятие первого предположения, как уже говорилось в § 6, может быть иногда неприемлемым риском. Применение же смеси стратегий (т. е. комбинаций), если недопустимо осреднение F6), априори осмысленно только
§ 14] ПОВТОРЕНИИ ОПЕРАЦИИ И СМЕШАННЫЙ СТРАПМШ 153 при стандартном поведении противника в многократно повторяющейся операции. Предположение б) еще более существенно для сравнения эффективности смешанных и чистых стратегий. Между тем во многих книгах по теории игр оно объявляется следствием случайности выбора конкретной стратегии при использовании смешанных стратегий; откуда, мол, может узнать противник то, что заранее не известно самому исследователю операции и даже оперирующей стороне. Это утверждение, однако, неверно, особенно, если случайный выбор по необходимости должен быть произведен достаточно рано по отношению ко всему течению операции. Рассмотрим теперь простейший пример, показывающий возможную выгоду применения смешанных стратегий. Пусть имеются всего лишь две стратегии хх и л;аидва значения неопределенных факторов ух и #2, а критерием пусть является символ Кронекера Тогда для любой стратегии xt min F (xi9 ~yj) = 0. _ УЗ В то же время применение смешанной стратегии с /7 = 0,5 гарантирует получение в среднем W(p91//) = 0,5 при максимально возможном значении исходного критерия эффективности 1. Перейдем теперь к вопросу о том, какой смысл может иметь применение смешанных стратегий или, лучше сказать, комбинации стратегий при многократном повторении операций, если будут критерии A31) или A33). Ограничимся случаем двух стратегий хх и х%. Приняв критерий A33), получим при 0</?<1 даже при стандартном поведении противника оценку эффективности _ _ Кп(р) = гтп min F(x/m9~y), A57) « I ^ i^ A/ * где /f.= 1, 2. Поскольку из-за 0 < р < 1 каждое из этих значений принимается хоть один раз, то W_n (р) = min [min F (x19 ~y)\ min F (x2t ~y)], У У
154 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [гл. И т. е. эффективность окажется равной меньшей из эффек- тивностей стратегий х1 и х2. Таким образом, здесь невыгодно комбинировать стратегии даже при многократном повторении и нужно использовать все время одну и ту же стратегию, которая является лучшей при N=1. Этот вывод верен при стандартном у, который будет выбираться противником при 0 < р < 1 применительно к худшей из стратегий хх и л:2. Для реализации этого противнику не нужна информация о конкретном выборе х при повторении операций и даже не нужно знание р, если оно не 0 или не 1. Тем самым ясна нецелесообразность применения оперирующей стороной смешанных или подобных стратегий при критерии A33). Пусть теперь имеется A31), 0<р<1. Тогда при стандартном поведении противника, знающего р, №o(p) = min max F(x/9~y) = ==mjnmax[F(x1, ~y)\ F(x2, #)]. У Этот результат не зависит от р, если только 0 < р < 1. Если же принять р = 0, р = 1 (т. е. чистые стратегии), то лучший результат будет равен max[rmnF(x19 y)\ mmF(x^ ~y)}, у у если опять-таки противнику известно р. В общем случае применение любого числа стратегий xt при комбинированном использовании их (все pt > 0 и 2л=1) Даст эффективность для р = {Р/} W0(p) = minmaxF(xi9 #), A58) ~ у i в то время как применение лучшей чистой стратегии только _ max min F (xt, у). A59) i 7 Покажем, что имеет место следующая общая лемма» имеющая большое значение для дальнейшего и означа" ющая, что A58) лучше, чем A59):
§ 14] ПОВТОРЕНИЕ ОПЕРАЦИИ И СМЕШАННЫЕ СТРАТЕГИИ 155 Лемма. sup inf F (х, ~у) < inf sup F(x,~y). A60) x у У х Доказательство. Для произвольного х и произвольного у имеем inf F (*, F) < F (х, у)< sup F (х1$ ~у). о хх Но тогда из-за произвольности у при фиксированном х inf У7 (#, у) <: inf sup F (#!, #) = const. v У Хх Поскольку это верно для всех ху то верно A60). Из этой леммы немедленно следует, что выгодно использовать как можно большее число стратегий при повторении операций, если, конечно, противник действует стандартно. При этом безразличны значения ph лишь бы все они были больше нуля. Возможную величину выигрыша в эффективности, т. е. разницу между A58) и A59), можно видеть на примере F{*> У) = {х—УJ Для */ = 0; 1 при 0<#<1. Здесь i У при min max (xt—#)а = -т У i-l* 2 4 тахтах^-—уJ= 1. у i Замечание к лемме. Из этой леммы с очевидностью следует, что при любом виде законов надежности элементов pt(t) поагрегатное дублирование (см. B2)—B3)) выгоднее, чем дублирование системы в целом (A6)—A7)). Все сказанное относительно критериев A31) и A33) имеет место, когда нет случайных факторов (естественных или искусственных). Если таковые имеются, то искать минимум по неопределенным факторам можно уже после соответствующего осреднения.
156 ОЦЕНКА ЭФФЕКТИВНОСТИ СТРАТЕГИЙ [гл. II В заключение приведем еще один пример полезности использования смешанных стратегий. Воспользуемся для этого моделью III поиска экстремума. Согласно проведенной в § 10 оценке эффективности чистых стратегий (8Г) для любой чистой стратегии (xlt ... W_<—k^. A61) Рассмотрим стратегии л: (9) вида где 6 изменяется в 0; „ ' A • Пусть теперь 0 случайно и подчинено закону равномерного распределения. Для образования полной смешанной стратегии достаточно положить недопустимыми все стратегии, кроме х @), распределенных равномерно, вслед за равномерным распределением 8. Оценим эффективность этой стратегии. Пусть истинное место реализации экстремума х0 расположено в Гр- °>5 1 L ' N-0,5] ' Тогда в силу (81) ошибка определения величины экстремума при фиксированном 0 не превзойдет величины k | х0—01. Обозначив 0О = NJ_0 5, без труда убедимся, что в среднем ошибка не превзойдет Если 0О < х0 < -у 0О, то ошибка по-прежнему не превзойдет &гшп(л;0—0; 0 + 28о—х0), что в среднем даст величину, не большую
§ 14] ПОВТОРЕНИЕ ОПЕРАЦИИ И СМЕШАННЫЕ СТРАТЕГИИ 157 При всех других значениях х0 до 1—60 величина ошибки точно так же в среднем не превзойдет х^о» а при х0^ 1 —80 не превзойдет -~-. Таким образом, в целом оценка эффективности стратегии A62) будет удовлетворять неравенству О О Л С VT ^^? —— —— JbXj л — ~~""" ятТт f\, » т л г- • *^ 4 4 N — 0,5 Сравнивая это с A61), видим, что смешанная стратегия A62) при N > 2 более эффективна, чем любая чистая стратегия (в среднем, конечно); при больших N этот выигрыш достигает 25°/0.
ГЛАВА III ОПТИМАЛЬНЫЕ СТРАТЕГИИ § 15. Понятие оптимальной стратегии в зависимости от информированности оперирующей стороны и противника Пусть дано множество М стратегий л: (г, у) = х и множество N значений неопределенных факторов у\ пусть F— случайные факторы. Будем считать, что критерий эффективности F (х, г, у) разрешается осреднять по законам распределения ср(г) (если такое осреднение не разрешается, то случайные факторы приравниваются к неопределенным); осредненный критерий будем обозначать через F(x> у). Тогда, если цель активного противника (когда он есть) противоположна цели оперирующей стороны или если цель противника неизвестна, то по F7) оценкой эффективности стратегии х является inf [F(x, z, y)dy{z)= iniF(x, у). N N Поскольку x зависит, вообще говоря, от z, то результат осреднения зависит от вида х как функции г. В соответствии с двумя отмеченными выше случаями сравнения стратегий можно ввести и два понятия оптимальной стратегии. I. Под оптимальной стратегией (оптимальной гарантирующей) х0 в множестве М следует понимать такую стратегию х0, для которой достигается максимум указанной оценки эффективности, т. е. lF(x9 y) = Fr(M). A63)
§ 15] ПОНЯТИЕ ОПТИМАЛЬНОЙ СТРАТЕГИИ 159 Сама величина Fr есть оптимальный гарантированный результат проведения операции с точки зрения исследователя операции. Это определение, конечно, не может быть заменено термином: «оптимальна пара х0, у0, для которой inf 71 (х, у)», х у ибо максимин является величиной, лежащей между max max F (х, у) и minmin^^, у), и поэтому это значе- х у ух ние принимается в бесконечном числе точек, не имеющих никакого отношения к оптимальной гарантирующей стратегии. Так, например, F (х, у) = х + у, (О < х < 1, 0^#^1) имеет максимин, равный 1, и единственное хо=1; в то же время все пары, удовлетворяющие уравнению х + у=1, также дают значение функции, равное максимину, хотя соответствующие х и не являются оптимальными гарантирующими стратегиями. Если верхняя грань Fr(M) величины inlF(x, у) по х?М недостижима ни при каком х09 то оптимальной гарантирующей стратегии нет, но для любого е всегда существуют приближенно оптимальные стратегии хг (так называемые е-стратегии), удовлетворяющие неравенству inf F(xz, l/)>sup ml F{x, ~у)—г = ?т{М)—г. A63') В случае конечного количества стратегий в М (сравнение эффективности заданных стратегий) оптимальная стратегия всегда существует. Оптимальная стратегия (и тем более е-стратегия) может быть не единственна; тогда задача может состоять или в отыскании всех таких стратегий или в отыскании хотя бы одной из них. Поскольку все стратегии в данной операции для оперирующей стороны априори равноценны, то достаточно нахождения хотя бы одной оптимальной (или приближенно оптимальной) стратегии. Надобность в знании всех может появиться только, если данная операция является составной частью другой более широкой
1G0 ОПТИМАЛЬНЫЕ СТРАТГЛИИ [|Л. Ill операции, исследование которой предполагается произвести когда-либо потом. II. Под абсолютно оптимальной стратегией (когда она есть) будем понимать такую стратегию ха ? М, для которой F(*а> ~У)>~Р fa ~у) при любых х?М и y?N. Иначе говоря, F(xa, ~~y) = maxF(x, ~y)\ lj?N. A64) Под е-абсолютно оптимальной стратегией следует понимать xl^My для которой F{~xl~y)^supF(x9 у)-в A64') хем при любых у ? АЛ Разумеется, всегда желательно получить хотя бы е-абсолютно оптимальную стратегию, а не просто оптимальную. Однако это редко бывает возможно. В качестве примера, где при малых е отсутствуют е-абсолютно оптимальные стратегии, можно указать на F(x, y)=x-y при М = [— 1, 1] = N. Здесь оптимальной стратегией является х = 0, а е-абсолютно оптимальной стратегии при е<1, очевидно, нет, ибо при любой хаФ0 существуют у, = — sign~ха = хх так, что Также очевидно, что при ха = 0 и при ух = 1, хх = 1 имеем F{0,'y1) = 0<F(x1, yj-в При 8 < 1. Пусть теперь существует ха. Оценка эффективности для хаУ очевидно, будет удовлетворять jnf F{xa, y)^miF{x, y) при любом x?M.
§ 15] ПОНЯТИЕ ОПТИМАЛЬНОЙ СТРАТЕГИИ 161 Отсюда очевидно, что jnf F (xaf у) == max inf F (x, ~y) = fr (M). Таким образом, абсолютно оптимальная стратегия (если она существует) является и просто оптимальной. Совершенно аналогичное утверждение верно, конечно, и для оптимальных с точностью до е стратегий. Отсюда следует, что, отыскивая все оптимальные стратегии, мы среди них отыщем и абсолютно оптимальную, если она существует. Здесь, поскольку всегда хочется иметь абсолютно [оптимальную стратегию, мы приходим в противоречие с высказанным только что тезисом об отсутствии необходимости поиска всех оптимальных стратегий. Однако справедливость этого тезиса легко восстановить. Во-первых, абсолютно оптимальные стратегии можно искать отдельно, пользуясь просто определением A64). Во-вторых, если они существуют, то, изменяя критерий эффективности, легко получить операцию, в которой они уже будут являться просто оптимальными, и других оптимальных не будет. Для этого достаточно ввести критерий эффективности F*(x, y)=F(x, у)- sup F(x, у). A65) Поскольку всегда F* (х, ~у) < 0, то, очевидно, sup jnf F * (ху ~у) С другой стороны, столь же очевидно всегда min sup F* (х, ~у) = 0. Справедлива следующая Лемма. Если ха—абсолютно оптимальная стратегия для критерия F (х, у), то она оптимальна для F* (х, у), причем inf F*(xaf y)= max inf F*(x, у) = min max/7* (x, y)=0. A65') 6 Ю. Б. Гермейер
162 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III Обратно у если выполнено A65'), то любая оптимальная для F*(x, у) стратегия есть абсолютно оптимальная стратегия для F(x, у). Доказательство. Пусть ха абсолютно оптимальна для F{x, у). Тогда в силу A64) немедленно имеем F * {хаУ у) = 0 при любых у g N. Отсюда и из отмеченных свойств F*(x, у) немедленно следует A65'), а значит, и все первое утверждение леммы. Пусть, наоборот, выполнено A65') и ха оптимальна для F*(x, у), В силу F*(xa, y)<0 из A65| следует F*(ха>_у) =_9 для Л1°бых y?N. Но отсюда F(xa, y)= = swpF(x, у) для любых y?N, что и доказывает абсо- лютную оптимальность ха для F(x, у). Все сказанное позволяет нам в дальнейшем не выделять отдельно вопросы, относящиеся к абсолютно оптимальным стратегиям, поскольку они так или иначе сводятся к просто оптимальным; однако все же в некоторых случаях будут выделяться некоторые вопросы, связанные главным образом с существованием абсолютно оптимальных стратегий. Вернемся к вопросам оптимального выбора. Наиболее «простым» случаем оптимального выбора является случай, когда х = х не зависят от г/, т. е. когда не предполагается получение или использование информации о неконтролируемых факторах (в том числе и о случайных, если они есть). Этот вариант отражает выбор стратегии для оперирующей стороны, знающей в течение всей операции не более того, что знает исследователь операции. Поскольку это соответствует наименьшей возможной информированности ее (если не считать, что исследователь операции более осведомлен, чем вся оперирующая сторона), то и результат проведения операции в соответствии с общими априорными принципами § 7 должен быть наименьшим. Это утверждение является следствием очевидного неравенства—если М'зМ, то: sup inf T(x, ]/)< sup inf F(x, у).
§ 15] ПОНЯТИЕ ОПТИМАЛЬНОЙ СТРАТЕГИИ 163 Возьмем теперь множество Мо возможных значений вектор-функций х = х(у) при всех y?N и_всех х?М. Тогда, если в М входят все функции ^ = A:==^const при #?M0 (т. е. если МиМ0, где Мо—множество стратегий вида х = х), то, очевидно, F*r = TГ(МО)= sup inf F(x9 y)< sup inf F(x, у). A66) Это и есть математическое выражение принципа роста результата с ростом информированности оперирующей стороны. Существенным здесь является предположение о том, что множество Мо как множество стратегий, не зависящих от у и г, содержится в М и что, применяя только независимые от у стратегии, нельзя расширить это множество Мо всех возможных значений х. Последнее может произойти, потому что информация чего-то стоит (в смысле активных средств), и за счет ее получения в операции могут уменьшиться возможности воздействия оперирующей стороны, выраженные в множестве Мо. Таким образом, A66) не есть само собой разумеющееся неравенство, несмотря на его простоту. В дальнейшем под Мо будем понимать именно максимально возможное множество стратегий типа х = х. Неравенство A66) остается, конечно, справедливым и в том случае, когда М, не содержащее всех стратегий из Мо, содержит все-таки хоть одну стратегию х0 из числа оптимальных гарантирующих для Мо (или приближенно оптимальных с соответствующим видоизменением A66)). Поскольку Мо выражает границы возможных действий оперирующей стороны (аналог ограничений на управление*)), то оно должно быть известно всегда. Но также *) Стоит обратить внимание на то, что всякое множество М стратегий х ограничено практически двумя несколько различными факторами: а) ограниченностью множества значений xt т. е. множества М0; это обычно есть выражение ограниченности активных средств; б) допустимым видом функций х=х (у), что является результатом ограниченности ожидающейся информации оперирующей стороны или способов ее использования. 6*
164 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. Ш ясно, что х = const является простейшей в реализации стратегий. Поэтому недопустимо получать результат худший, чем может дать Мо. Отсюда следует, что правильно организованное (достаточно полное) множество стратегий должно содержать для осторожности хотя бы одну из оптимальных гарантирующих стратегий х0 из Мо. Но xQ можно определить, только находя максимин F°r для Af0; таким образом, эта задача является первой и необходимой задачей на оптимум при исследовании операций. Вслед за этим возникает вопрос, нельзя ли улучшить ожидаемый результат по сравнению с A63), не используя конкретную информацию о у. На первый взгляд это невозможно. Однако в действительности такая возможность заключена, например, в изложенных в начале этого раздела предположениях о цели разумного противника, а именно: если эта цель известна, то (см. § 8) можно видоизменять оценку эффективности стратегий, а следовательно, и оптимальный результат. Такой путь приводит к играм с непротивоположными интересами (недостаточно разработанным) и находится несколько в стороне от основного направления курса. Он не будет здесь разби- раться, хотя бы уже потому, что знание цели противника—это хоть и не прямая информация о 7/, но все же увеличение информации о неопределенных факторах, которая может быть выражена (в условиях, указанных в § 8) в уменьшении множества N. Другая, для нас более интересная, возможность заключена в применении введенных в предыдущем разделе смешанных стратегий. Образуем всевозможные смешанные стратегии <р(х), исходя из чистых стратегий из Мо; при этом, как уже говорилось, чистые стратегии будут являться частным случаем смешанных. Это приводит к расширению множества стратегий относительно Мо и, следовательно, к увеличению (или хотя бы неуменьшению) максимина, который для этого случая будем обозначать: Fc= sup inf ?[<p(x), ~y\. A67) j?(*) 1 *n х €Af0
§ 15] ПОНЯТИЕ ОПТИМАЛЬНОЙ СТРАТЕГИИ 165 Ограничиваемся случаем отсутствия информации о случайных г, тогда Ч<Р(х), ~y\=l~F(x,-j)d<?{x). A67') Однако, как уже известно, величина A67) осмысленна и гарантированна, только если известно, что противник не имеет информации о выборе конкретной стратегии х при реализации случайной стратегии ср (х). Таким образом, и здесь хотя и не предполагается информация о у и о целях противника, но информация о противнике тем не менее увеличивается. Этот вариант заслуживает внимания из-за соответствия действительным условиям во многих случаях. Во всяком случае ясно, что если противник—природа, то такая ситуация типична. Множеству Мс всех смешанных стратегий соответствует и своя оптимальная по A63) стратегия. Поскольку Jnf F(x, у) (а значит, и F°r) может счи- J J таться вполне реализуемой для разумного противника, если он имеет информацию о х, то величину A68) можно считать мерой ценности информации противника о конкретном выборе х оперирующей стороны. Одновременно это и ценность информации о неинформированности противника. Случаем, прямо противоположным полной неинформированности оперирующей стороны, является вариант, когда оперирующая сторона будет знать точно и полностью у и сможет любым способом реализовать эту информацию (информация о 2 пусть отсутствует), не выходя все же за пределы значений х из Мо. Если получение и реализация этой информации никак не уменьшают максимального Множества значений стратегий Мо, то при заданном ~у наилучшей стратегией оперирующей стороны будет, очевидно, л:и, для которой ?[х„ 1/]=тахТ{х, ~у). A69)
166 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III Эта хи оказывается, таким образом, функцией хн = хя (у) и является оптимальной стратегией, рекомендуемой исследователем операции при ожидающейся информированности оперирующей стороны о у. Оптимальная хя определяется здесь с помощью операции максимума, а не максимина, как в общем случае, и оказывается функцией у, что естественно, поскольку предполагается знание оперирующей стороной значений у, неизвестных исследователю операции. Что касается ожидаемого (гарантируемого) исследователем исхода операции, то он, очевидно, равен Jnf maxF(x, if) = FH. A70) x€МФ Выше, в лемме A60) из § 14, уже было показано, что эта величина всегда не меньше, чем Z7?, Если верхняя граница F (лс, у) недостижима, то, определяя дги как стратегию, для которой sup F(x, ~у)—е^~Р(хеи, у), хем, будем иметь приближенную е-оптимальную стратегию х\(у) =Хи и ожидаемый результат не меньше, чем inf sup F(x9 у)—8 = /^—е. ~$eN ~х €Afe Покажем теперь, что всегда Jnf _sup F(x9 ~y) = Fu>Frc^F°r. A71) у € ЛГ х 6 М # Поскольку второе неравенство уже доказано, обратимся к первому. Имеем \d(p (х) = 1 и <sup F(x9 y)'l&p(x)=j\xp Fix,!}). 1 м9 х sm9
5j ПОНЯТИЕ ОПТИМАЛЬНОЙ СТРАТЕГИИ 167 Но тогда jnf ?[ф(х); #]< ml _sup F(x, ~у), yeN yeN х €Л1. и поскольку справа стоит константа, то и sup Jnf ?[<р (*),#]< jnf _sup F(x,~y), A72) <p(*) yeN yeN что и требовалось. Тем самым одновременно доказана простая, но важная Теорема XIII. Если возможно получение и оптимальное использование полной точной и не уменьшающей области возможных стратегий Мо информации о неопределенных факторах у, то нецелесообразно использовать смешанные стратегии. Замечания. 1. Если неопределенных факторов нет, то условия теоремы выполняются автоматически и, следовательно, в этом случае не нужно создавать искусственные случайности. 2. Важно отметить, что определение исследователем операции оптимальной стратегии хя(у) не требует знания цели противника или каких-то предположений о нем, не требуется и предположений о знании или незнании противником стратегии оперирующей стороны. Наоборот, оценка гарантированного результата /*ж применения стратегий хи, даваемая исследователем операции, не знающим конкретного у, основывается на предположен ниях о наихудшем противнике, преследующем противоположные интересы. Знание цели противника изменит оценку A70) так, как это указано в § 8. 3. Из A69) и A64) ясно, что хл есть абсолютно оптимальная стратегия в любом множестве стратегий М, содержащем *и, и с множеством значений х% не выходящем за рамки Мо. В частности, это относится и к множеству Ми, содержащему все функции х = х(у), удовлетворяющие единственному условию х?М0. Точно так же и стратегии ~х\ являются е-абсолютно оптимальными
168 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III в любом множестве стратегий М, не выходящем за рамки М 0 и содержащем if. Не меняя утверждений, можно, конечно, считать и смешанные стратегии включенными в Мл. Величина ?Й-?С = ДО A73) выражает ожидаемый прирост наилучшего гарантированного результата операции за счет получения идеальной информации о выборе противника (точной и не требующей расходов на ее получение) и потому может считаться ценностью информации оперирующей стороны о противнике, цель которого противоположна нашей или неизвестна. Если Z(o = 0, то нет необходимости стремиться к получению информации о у при условии, что применение смешанных стратегий *) имеет смысл. Но даже Цо > О еще не гарантирует осмысленности погони за информацией, поскольку последняя может быть ошибочной и дорогостоящей; для окончательного решения вопроса необходимо составить модель операции, учитывающую все эти обстоятельства. При Z(o = 0 оптимальная смешанная стратегия будет оптимальной и в множестве Л1И, однако, в отличие от хЕ9 не будет абсолютно оптимальной. Если же Цп — 0, то не имеет смысла пользоваться смешанными стратегиями и хранить втайне свои решения от противника. Наконец, если Z(o = Z(n = O, т. е. если Fu = F°r\ jsup _inf F(x, ~y) = jnf _sup F(x9 #), A74) X €М0 у €N у eN x €Ai0 то нет особого смысла использовать смешанные стратегии и стремиться к получению информации о значениях неоп- •) Точнее следует сказать, что при Ц0 = 0 исследователь операции не может гарантировать никакого выигрыша за_счет получения впоследствии оперирующей стороной информации о у. Однако если эта информация «бесплатна», то она, конечно, всегда может принести пользу, если противник отклонится от своей оптимальной стратегии. Поэтому «бесплатной» информацией всегда, конечно, надо пользоваться. Но «бесплатной» информация бываег очень редко. Поэтому практически высказанное в тексте утверждение верно.
§ 15] ПОНЯТИЕ ОПТИМАЛЬНОЙ СТРАТЕГИИ 169 ределенных факторов; стратегия х0 оказывается оптимальной в Ми, т. е. при любой информированности оперирующей стороны и противника; разумеется, х0, как правило, не будет абсолютно оптимальной. Функция F(x, у), удовлетворяющая A74), называется функцией с седловой точкой на MoxN, если верхние и нижние границы достижимы. Тогда A74) можно переписать в виде (*, ~y)= m\nmaxF(x, у). A74') Функции F(x, у), равные х2 + у2 и (л:—уJ при ^x^l; О^.у^.1, дают соответственно примеры функций с седловой точкой и без нее; в первом случае мак- симин и минимакс равны 1, а во втором максимин равен нулю, а минимакс—1/4. Для краткости далее и в общем случае наличия равенства A74) будем говорить о функции с обобщенной седловой точкой, хотя это не полностью соответствует сложившейся терминологии. Все сказанное об использовании информации и Fa относилось к возможности получения информации о неопределенных факторах у. Если же возможно получение оперирующей стороной точной и «бесплатной» информации о конкретном значении случайных факторов г, то оптимальной стратегией оперирующей стороны окажутся *и, для которых уже для неосредненных F F (лги, у, 1) = max F (х, у, г). A75) хем0 Следовательно, оптимальная х*И будет теперь уже функцией х*{(у9 z), а ожидаемый (гарантированный) результат операции ^и = jnf J jmax F (x, ~y, ~z) dcp (г) > j x e Mo nax \f(x, y, г)йф(г) = ?и. A76) Величина F*—F^ = Цс есть ценность информации о случайных факторах.
170 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. Ill Получение добавочно к информации о у информации о г не может, конечно, изменить выводы теоремы XIII. Примером получения и использования такой информации является отмеченное в модели надежности «холодное» резервирование, когда резервный агрегат включается по получению информации о выходе из строя дублируемого агрегата. Стрельба с коррекцией по предыдущим выстрелам также является подходящим примером. Вид выражений A70) и A76) противоположен по последовательности знаков максимума и минимума виду A63); кажется тем самым, что гарантированные оценки A70) и A76) не укладываются в общие рамки. Однако это просто обман зрения. Ведь A70) и A76) представляют собой не выражение максимальной гарантированной оценки по некоторому классу стратегий, а гарантированную оценку эффективности [x^(y), у] или inf $^[#и(#> ^)> У* yeN одной стратегии Тв (у) или xl (у, 1) в полном соответствии с F7), если учесть, что max/7(x, у) или 7€Mft max ^(a:, у, z)dy(z) в силу A69) и A75) яеМо ляют собой просто значения F(x(y)f у) и F[x (у, г), у\ для этих стратегий. С другой стороны, A70) и A76) дают, как уже говорилось, абсолютно лучшие результаты в множествах Мя и Ml всех функций вида х(у) и х(у9 z) соответственно. Поэтому, конечно, max Jnf F(x, ~у) = _inf F (хя9 ~у) = jnf maxF(x> #) = ?„, max Jnf F{x,lj) = Fl A77) Выражения Цп, Цо и Ц0 + Ца = Ря—F°r дают соответственно ценность полной информации противника о решениях оперирующей стороны, оперирующей стороны о противнике и вообще информации друг о друге. Однако очень
§ 15] ПОНЯТИЕ ОПТИМАЛЬНОЙ СТРАТЕГИИ 171 часто желательно иметь оценку ценности любого прироста информации. Если речь идет о приросте информации оперирующей стороны о противнике (а именно это в основном нас и интересует), то ценность такого прироста можно записать в виде прироста наилучшего гарантированного результата. Несколько конкретизируем это в довольно общих предположениях. Пусть Мх и М2—множества стратегий х, разрешенные двумя случаями информированности оперирующей стороны и не выходящие за пределы Мо, или, точнее, пусть информация, лежащая в основе множества Mlf заключается в том, что оперирующая сторона узнает значения заданной функции Тогда множество Мх состоит из всех стратегий вида Ь = х[ЯЛШ х?М0, y?N, A78) где x[Rx]—произвольные функции. Аналогично определяется и множество М2. Соответственно в общем случае ценность изменения информированности можно выразить формулой &Ц=Ц2—Цг= sup inf F(x9 ~y)—jsup inf F(x, If). A78') x 6 Mt у €N x GMt у uN Знак АЦ покажет, какой из сравниваемых случаев информированности более ценен. В частности, если существует вектор-функция <p(R) такая, что Rx (у) = ф [R2 (у)\ при всех у?Ы,то естественно считать, что информация, соответствующая М29 включает информацию, соответствующую М12_ ибо знание вектора R2 (у) влечет за собой и знание Ri(y). При этом AZ(>0, поскольку М^М19 так как любая стратегия A78) может быть представлена в виде и, следовательно, является стратегией из М2. Наиболее полная информация об у соответствует случаю R{y) = y\ именно так получается множество Мв.
172 Оптимальные стратегии [гл. in Выражение inf F (xt y)— sup = inf sup F(x9 y)— sup inf T(x, ~y) A79) y~eN~xeM% xeMi~yeN дает оценку ценности изменения информированности от соответствующей Мг до полной информированности; это, так сказать, ценность «остатка» возможной информированности. Случай, когда A79) дает нуль, обобщает A74). Стоит обратить внимание на следующее: поскольку значения функций х = х(у) при всех y?N принадлежат М09 sup F(x, #)<_sup ?(х, у). Но тогда и FK= inf sup F(x, y)^ inf supF(x> y). 11 с \T v с АЛ ii с А7 v с Д/f Но, с другой стороны, согласно определению Мг в нем содержатся все функции вида "х = х при х?М0, т. е. Mxz> Мо. Поэтому выше написанные неравенства должны быть верны и в обратную сторону, что дает Тя = _inf _sup F (х, у) = jnf sup F (x9 у), A79') yuN xeM0 yeN xeMt Цг = jnf ^sup F(x9 y)—snp jnf F(i, y). yeN Легко убедиться в справедливости A79') для любого Мг Z) УИ0, если даже входящие в Мг стратегии не описываются видом A78), но, конечно, при х?М0. Отсюда случай, когда Ц1 = 0, эквивалентен равенству jnf sup F (?, у) = sup inf F (x, y), xeMt xeMi yeN которое полностью аналогично A74) и также может называться случаем наличия у F(x, у) обобщенной седло- вой точки на MxxN. Само собой разумеется, что определение A74)—A74') седловой точки носит совершенно об-
§ 15] ПОНЯТИЕ ОПТИМАЛЬНОЙ СТРАТЕГИИ 173 щий характер и может применяться к любым функциям, заданным на любых абстрактных множествах Мо и N. Очевидна следующая теорема, устанавливающая связь между существованием абсолютно оптимальной стратегии и равенством Цг = 0. Теорема XIV. Если для любого е> 0 существует в множестве Мх ^абсолютно оптимальная стратегия, то соответствующее значение Ц1 (формула A79')) равно нулю. Действительно, пусть для любого е > О имеется xl ? Mlt для которой при любых ;cgM1 и y$N F(xea, y)>FCx,~y) — *- Отсюда sup F(x, #)<?$ inf sup F (xy y) < inf F (xl, #) + e <! sup inf F (x, y) + e. "ye N ~ ~ В силу произвольности 8 поэтому inf sup F (x, y) ^ sup inf F (x, y). Но в силу леммы предыдущего параграфа всегда справедливо и обратное неравенство; тем самым теорема доказана. Следствие. Поскольку в множестве Мя всегда есть абсолютно оптимальная стратегия хю определяемая A69), или хотя бы г-абсолютно оптимальная xl (для любого г > 0), то F (х, у) всегда имеет хотя бы обобщенную сед- ловую точку на M^xN. Замечание. Пример F(х, у) = ху при Мг = Мо = = [—1; 1] = N показывает, что теорема, обратная XIV, не верна; здесь нет е-абсолютно оптимальных стратегий при е< 1, а седловая точка есть, ибо Zd = O. Из теоремы следует также полезное утверждение о том, что если на MtxN нет седловой точки, то в Мг нет и е-абсолютно оптимальных стратегий для некоторых е > 0. Интересна и часто применяема на практике следующая теорема, устанавливающая достаточные условия для ЦП = 0, т. е. для того, чтобы было нерациональным применение смешанных стратегий даже при М = М01 т. е. при
174 оптимальные стратегии [гл. m отсутствии надежд на получение оперирующей стороной какой-либо новой информации о у. Теорема XV. Если F (х, у) вогнута и непрерывна по х на выпуклом ограниченном замкнутом множестве Мо при любых y?N, то F°r = ?c. Доказательство. Согласно определению вогнутой функции для любых хг и х2, принадлежащих Мо, имеем при 0<^, 0<Х2, ^ + ^=1: h? (*i. У) + КР (*., y)^F (Хл + Х2х2, У), причем в силу выпуклости Мо Х^ + Хл € Мо. Отсюда следует, что если хи х2, х3 взяты из Мо и = 1 при Х,.^0, то з F (xh "у) = Xt? (Jlf у) + { [^ Повторяя это по индукции, получим общее неравенство при любом п: ^^) J[,= 1. A80) Пусть теперь задан закон распределения /(х). Разобьем Мо на достаточно большое число п частей Щ} так, чтобы колебание F(x,y) на М$} и сам диаметр М*о не превышали 8. _ Тогда при любых х^М^сМ0 имеем df {X) + S p,.F (J,, #) = 8 + 2 pf {Xh Д1 ,
§ 15] ПОНЯТИЕ ОПТИМАЛЬНОЙ СТРАТЕГИИ 175 — п где р( = 5 df(x)^O и ]F/7,= 1. Поэтому в силу A80) /1 [ 5 Отсюда из-за | x—*/|^е при х ?М{01\ переходя к пределу, получим $ \ J 1 A80') $ F(x, y)df{x)^F \ J Отсюда следует, что при любом f(x) существует xlt так что mf J F Ос, у) df (ж) <jinf ^ (*i.P) <.supJnf F (x, y) = F°r. у gN yeN xeM9 yeN Но тогда и Fc=suptaf fix) Но всегда Fc ^ Fl, поскольку множество смешанных стратегий шире множества Мо чистых стратегий. Сравнение двух противоположных неравенств и доказывает теорему. Простым примером вогнутых по а: критериев эффективности является критерий E) в задаче об аппроксимации, где в качестве х выступает вектор a = {aOf ... , ап\ коэффициентов полинома степени п. Действительно, если а и Ъ—два таких вектора, то а это и доказывает вогнутость критерия. В теории игр величина Fo имеет особое значение; ее определению и посвящены основные разработки этрй теории.
176 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. Ш В силу теоремы XV задача определения max min \ - = — mm max to<t<h f может трактоваться как задача определения Fc для игры с платежом E). Существует, следовательно, тесная связь между задачей наилучшей аппроксимации Чебышева и теорией игр с вогнутыми по х платежами. Теоремы XIV и XV имеют «двойников», получающихся простой переменой мест между оперирующей стороной и «противником». Здесь уместно уточнить некоторые общие теоретико-игровые понятия. В теории игр совокупность множеств М и N любых стратегий Р и Q с определенным на декартовом произведении этих множеств платежом *)—функцией G(P, Q) — принято называть антагонистической игрой (в нормальной форме), если при этом сторона, выбирающая Р, стремится увеличивать G, а сторона, выбирающая Q, увеличивать [—G]. Выражения sup inf G(P, Q) и inf sup G(P, Q) Рем QeN QGN PeM называются соответственно нижней и верхней ценой игры; если они совпадают, а все верхние и нижние границы достижимы, то игра называется игрой с седловой точкой и общее значение максимина и минимакса—ценой**) игры. В этих терминах теорема XIV и ее следствие означают, что при соответствующем расширении множества стратегий М путем рассмотрения функций Р (Q) игра станет игрой с седловой точкой с ценой, равной верхней цене исходной игры, если верхние и нижние границы достижимы. Это, конечно, не единственная теорема подобного рода; в дальнейшем будет видно, что расширение обоими противниками множеств стратегий путем применения смешанных стратегий опять приводит к игре с седловой точкой. *) Вместо термина платеж употребляюг и термин выигрыш. **) Вместо термина цена игры часто употребляется, видимо, более правильный термин —значение игры (а также верхнее и нижнее значение).
§ 15] ПОНЯТИЕ ОПТИМАЛЬНОЙ СТРАТЕГИИ 177 Обратим внимание на «симметричность» игры относительно противников. Так, если взять за основного игрока (оперирующую сторону) второго игрока (распоряжающегося Q), то тогда критерий эффективности оперирующей стороны будет—G(P, Q) и потому max min Г — G(P, Q)] -max [—max G(P, Q)] = Q P Q P = — min max G(P, Q), Q P minmax[ — G(P, Q)] = — maxminG(P, Q). P Q P Q Но тогда, применяя следствие теоремы XIV к противнику оперирующей стороны, очевидно, получим следующее утверждение. Теорема XVI. max min F (х> у) дает цену игры в игре _ __ _ _ -^6 м ° Л^— F[x, у(х)], где х?М0 и y(x)?Na—множеству всевозможных функций у(х) со значениями из N; эта игра имеет седловую точку и абсолютно оптимальную стратегию для противника. В этом случае оптимальные стратегии х0 уже не могут быть, конечно, определены путем рассмотрения только максимума или минимума; нужно рассматривать максимин. Обратим внимание теперь на то, что если —G(P, Q) вогнута по Q, то G(P, Q), конечно, выпукла по Q. Кроме того, забегая вперед, отметим, что по основной теореме теории игр, когда критерий эффективности F (х, у) непрерывен по х и у, а Мо и N выпуклы, ограничены и замкнуты, то /7c=sup inf V F (x, y)dy(x)= inf_ sup \ F(x, Используя эти замечания, формулу A81) и теорему XV, немедленно получим следующее. Теорема XVII. Если F(xy у) выпукла по у и непрерывна на выпуклых замкнутых и ограниченных Мо и N, то F]lL = Fz и, следовательноу точная информация оперирующей стороны о у не может иметь гарантированной положительной ценности Цг
178 оптимальные стратегии [гл. hi В этом случае, следовательно, если применение смешанных стратегий допустимо, то они уже и обеспечивают получение максимально возможной гарантированной эффективности FE, хотя, как уже ранее отмечалось, и не обеспечивают, как правило, получения абсолютно оптимальной стратегии. Как уже говорилось, множества стратегий Мо и Мя отражают крайние степени возможной будущей информированности оперирующей стороны. Если Мо абсолютно реально, то реализация Ми, даже приближенная, как правило, затруднительна; с чисто методической точки зрения реализация Ми (и, значит, получение FB) вообще невозможна, потому что любое измерение или узнавание неизбежно связано с новыми случайными и неопределенными факторами, значения которых уже не будут известны оперирующей стороне. Дело усугубляется еще и тем, что информация о у появляется обычно не сразу, а по мере развития операции во времени, в динамике операции. Поэтому решения о выборе координат вектора х необходимо производить постепенно, по мере поступления информации о у. Рассмотрим общий случай предполагающейся динамики в информированности оперирующей стороны. Положим, что информация о г не поступает ни к опе- рирущей стороне, ни к противнику. Пусть вектор х состоит в свою очередь из векторов xlt x2, ..., xk, записанных в порядке течения времени и принятия о них оперирующей стороной решений в соответствии с изменением информации о у. Информация оу в момент i считается состоящей в указании того, к какой из частей Nt(a^ множества N принадлежите/. Здесь аг — может быть, даже континуальные «номера» этих подмножеств, например, «наименьшее» из ~у, принадлежащих этим множествам. Должно быть 2 #/(<*/) = # Для любого L а/ Далее, поскольку информация может с течением времени только увеличиваться, то каждое из Л^Да,) должно представлять собой сумму некоторых из Ni+l(ai+l). Mho-
§ 15] ПОНЯТИЕ ОПТИМАЛЬНОЙ СТРАТЕГИИ 1?9 жество тех из а/+1, для которых Ni+I(ai+1) принадлежат М&д, будет обозначаться {а/+1}^. Отсюда следует, что стратегии х (у) в этом случае могут быть записаны в виде *) * = {*/ Wi(a,),~XjH <i]} = {xt (а„ Xj/j < /)}, i = 1, ..., fe, A82) если предположим, что при принятии решения о я,- известны все Xj для / < i (в теории игр соответствующие игры называются играми с полной памятью). Множество этих стратегий обозначим через Ма. Все эти предположения не меняют, разумеется, общей записи платежа или оценок эффективности F7), равно как и общей записи наилучшего гарантированного результата A63)—A64), а лишь конкретизируют выбор семейства функций М в виде всех функций типа A82). Однако если бы мы сделали аналогичную запись стратегий для противника и установили бы общий порядок изменения информации и принятия решений обоих игроков (порядок «ходов»), то получили бы «многошаговую» игру. Тот факт, что платеж был бы все равно равен F(xy ~y) = F(xlf ..., xk, у19 ..., ук)9 где х и у— суммарные стратегии сторон типа A82), последовательно определяющие значения «ходов» х{ и yi9 называется в теории игр сведением многошаговой игры к игре в нормальной форме. Принятие определенной последовательности улучшения информации и стратегий A82) позволяет и наилучший гарантированный результат A63)—A64) записать (равно как и процесс его получения) в виде многошаговой процедуры, совершенно аналогичной процедуре динамического программирования. Действительно, в момент принятия решения об хк будут известны уже все Х[ при i < k и то множество Nk (ак) (т. е. номер ак), к которому принадлежит конкретное у. Тогда, *) При желании функции *,-(«/» xj) могут трактоваться в виде функций типа A78).
180 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. Ill естественно, наилучший гарантированный результат для этого момента будет*) max_ min_ ^(л^, .. .,xk-l9 xk, yd = Fk(xlf ..., хк-19 ак). *к yzNk {ак) A83) Соответственно наилучшей гарантирующей стратегией х?(х19 ...9хк-19 «*) = ** будет стратегия, для которой _ min_ F(xl9 ...,^_1, 4, у) уйЫк (ак) равен A83). Перейдем к выбору хк-х. Теперь платежом (критерием эффективности) является функция A83); ак—неопределенный параметр, ограниченный тем, что известно ак^г и то, что ак принадлежит {а*}^.,. Тогда наилучший гарантированный результат на&—1-м шаге, очевидно, равен max min Fk (хг> ..., хк-19 ак) = { Соответственно определяется и хктт1(х19 ...yxk-2, a^.j). Понятная теперь рекурренция заканчивается определением F1(a1) и х1(а1) и окончательной гарантирующей оценкой F? ?1(a1). A83") Тот факт, что стратегия {xi(xi9 ..., х^19 а,)} =х°, есть оптимальная гарантирующая из стратегий A82), доказывается дословным повторением рекурренции, на основе которой была определена эта оптимальная стратегия. Действительно, пусть имеется произвольная стратегия A82). *) Здесь и далее для простоты рассуждений предполагается достижимость всех верхних и нижних граней. Однако общая схема остается без изменений и в других случаях.
§ 15] ПОНЯТИЕ ОПТИМАЛЬНОЙ СТРАТЕГИИ 181 Тогда min F {x;[ai9 Xj/j < i], у} = у = min _min_ F{x1(al)9 x2(a2, xt)y... ...,хл_1(а^1, Xj/j<k—l)yxk(ak, Xj/j<k)9 y}. Но фиксация ак влечет за собой фиксацию ay. при/<fe, поскольку соответствующие Nj (aj) должны содержать Nk(ak)\ поэтому будут фиксированы для заданной стратегии и все Х(. Отсюда имеем в силу определения х% _ min F(xx, ...,*?_!, **, у)< F [x19 ..., xk-19 4(xlf ..., ^_x, a*), y] = = Fh(xl9 ...,Vi. и min Z7 {^z. [a,., xy// < f] y} < min Fk (xt (a), xy// < /), a*} = = min mm Повторяя рассуждение fe раз, придем, наконец, к min F {х( (al9 yeN Поскольку это верно для любой стратегии A82), то оптимальность стратегии х° в смысле A62) для М = Ма доказана. Стоит отметить, что проведенная рекурренция типа динамического программирования позволяет дать и соответствующую трактовку задачи исследователя операции по пониманию и отысканию оптимальной гарантирующей стратегии. Именно задача исследователя операции разбивается как бы на две задачи на каждом k-м шаге процесса. 1. Исследователь должен определить критерий эффективности (на s-м шаге от начала процесса), которым является функция Fs+1 (х19 ...9~х89 а,+1).
182 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III Это означает, иными словами, что цель операции (критерий эффективности) меняется со временем (номером шага) и исследователь операции должен выяснить эту динамику. 2. На каждом s-ы шаге исследователь операции должен дать алгоритм решения задачи поиска оптимального гарантирующего вектора xs при любых фиксированных х19 ..,9xs-t и известных {а5+1}- и а5. Таким образом, здесь идет речь об алгоритме решения одношаговой игровой ситуации в чистых стратегиях. При такой трактовке особо может быть поставлен вопрос о возможности задания упрощенных приближенных Fs+1, поскольку оперирующая сторона в целом может выбирать критерий достаточно произвольно, а, значит, и его динамику. Рассмотрим один из частных случаев описанной динамики, полагая, что к моменту принятия решения о xt будут точно известны векторы yj при /_< i, где вектор у составлен из yjij^k), так же как и х из х(. Пусть множество N векторов у есть декартово произведение множеств Nj векторов tjj Тогда к моменту определения хх ничего о у не известно, кроме y?N. Поэтому N1(a1) = N, a1=const=0. В момент решения о х2 уже известно уг\ множество N2(a2) представляет собой множество N(уг) возможных векторов у с фиксированной частью координат ух\ а2 = у1> Аналогично Nt(aj) есть N(yi9 ...,_уу-.х)-множество векторов у с фиксированными у19 ..., г/у_г Множество {aja-i есть, очевидно, не что иное, как #/-!• Стратегия оперирующей стороны приобретает вид х = {xt (хр у/, j < i); i < k} A84) и рассчитана на поступление точной информации о у^г к моменту принятия решения о х(.
§ 15] ПОНЯТИЕ ОПТИМАЛЬНОЙ СТРАТЕГИИ 183 Наилучший гарантированный результат F% в этом случае по A83)—A84) приобретает вид max min F (x, ~у) = х yeN ==max min ... max min F(xx ..., xh$ ylt ..., yk). Здесь под Mt понимается множество значений вектора X/ так, что Мо = Мг х М2 х ... х Мк. Отмеченная выше динамическая процедура получения оптимальной стратегии в данном случае превращается в точное или приближенное определение критериев = min max ... max min F (xlt ..., xk, y19 ..., yk) Ъ ~ ~x~k Tk и в выдачу алгоритма определения вектора x°s, реализующего Пользуясь этими материалами, оперирующая сторона будет определять конкретное значение х$ непосредственно по получении информации о у19 ..., ys^x. Разумеется, ситуация с информированностью сторон в многошаговых процессах отнюдь не исчерпывается ситуациями A84) и даже A82) и результатами типа A84') или A83"). Даже в схеме, имеющей в общем вид схемы A84), может существовать вектор хк+19 заведомо не становящийся известным противнику, как и ук неизвестен оперирующей стороне. Тогда возникает ситуация, удобная для применения смешанных стратегий относительно хк+1. Однако это не сильно изменит запись наилучшего гарантированного результата A84). Нужно лишь ввести новые понятия стратегий, включив у(хк+г) вместо хн+1 и введя рместо F(x, у)
184 оптимальные стратегии [гл. ш соответствующий осредненный по ф(#*+1) платеж 7(х19...9 хк9 ф (хк+1),1Ц19 ...9ук) = = J F (х19 ..., xk9*xk+l9 у19...9 ук) dtp (xk+l). A85) Однако даже эти многошаговые сложные процедуры есть, как мы уже знаем, только частный случай общих постановок вопроса об оценке эффективности стратегий и выбора наилучшей из них, данных в F7), A63) и A63') при специальном виде стратегий, рассчитанных на ту или иную информацию оперирующей стороны о неопределенных факторах. Несколько хуже обстоит дело с учетом постепенного уточнения информации о случайных факторах; здесь, видимо, необходимо выходить за пределы теории антагонистических игр и оценок F7). Отчасти поэтому мы не будем рассматривать этот вопрос. Из всего сказанного в этом разделе видно, что де существует единого понятия оптимального выбора и оптимального гарантированного результата, все зависит от той степени информированности оперирующей стороны о неопределенных факторах, которую можно ожидать или которую зададут исследователю операции. Если же не задавать информированность, то необходимо исследовать влияние ее на результат операции и выбор стратегии. Такое исследование в сколько-нибудь полном виде практически невозможно, если векторы х и у имеют значительную размерность. Уже при одномерных векторах имеется три возможности, выражающиеся max min F (х, у), min max F (jc, у) и максимином при ис- х у ух пользовании смешанных стратегий. В многомерном же случае, как видно из A84), вариантов возможной взаимной информированности не меньше, чем способов разбиения векторов х и у на. системы векторов xt и yjt Поэтому необходимо ограничивать число исследуемых вариантов, используя любые, даже интуитивные соображения. Однако во всех случаях необходимо провести определение F\, Fc и FH и соответствующих оптимальных стратегий, как основных, наиболее простых вариантов, дающих общее представление о ценности информации в данной
§ 15J ПОНЯТИЕ ОПТИМАЛЬНОЙ СТРАТЕГИИ 185 операции. Определение Цп и Цо даст возможность как-то определить направление дальнейших исследований, а в случае наличия седловой точки и вообще закончить их. _ _Стоит не забывать также, что при любом разбиении х и у на Х{ и ~yt результат A84') всегда заключен между F* и Fn. Это следует из всех материалов раздела или может быть получено с помощью многократного повторения A60), если вспомнить, что F? = max min F (х, у) = = max ... max min ... min F (x19 ..., yk), Fu = min ... jnin max ... max F (x19 ..., xk, y19..., yk), и начать постепенно переставлять между собой max и min. Полезно проводить и сравнение У7? и Fu с соответственно абсолютным минимумом T^m = minF (#, ~у) и максимумом _ __ — _ х* у /7li= max/1 (x, у) критерия эффективности. Так, если ока- жется, что F°r близко к Fm, то оптимальная из Мо стратегия практически ничего не дает по сравнению с любой другой. Следовательно, для того, чтобы добиться успеха, необходимо бороться за информацию или расширять множесто Мо возможных стратегий. Если же, наоборот, Fv близко к FM, то следует ожидать от разумного противника (если он есть) аналогичных мероприятий по изменению ситуации; если же F$ близко к Fw, то, значит, неопределенные факторы в операции не существенны и их можно далее не варьировать. Если разумного противника в рассматриваемой операции нет, а неопределенные факторы есть, то имеем так называемую игру с природой. С развиваемой здесь точки зрения отличие этой ситуации состоит только в том, что природа не может иметь информации о выборе стратегии оперирующей стороной. Поэтому максимин здесь несколько перестраховочен и целесообразно, вобще говоря, применение смешанных стратегий и стремление к получению информации о выборе «хода» природы. Основным
186 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III оптимальным гарантированным результатом здесь обычно считается наилучший гарантированный результат при применении смешанных стратегий. Однако если применение смешанных стратегий лишено смысла, то приходится вновь возвращаться к максимину в чистых стратегиях и отсчитывать ценности информации о природе от него. В заключение раздела остановимся на возможности появления в исследовании операций «некорректных» задач. Прежде всего все задачи без седловой точки часто считаются «некорректными», потому что не определяют устойчивых, относительно вариации информированности, оптимальных стратегий. Однако последовательное применение гарантированных оценок, применение смешанных стратегий и фиксация точного варианта информированности позволяет избежать всех возникающих принципиальных затруднений и создать устойчивое понятие оптимально наилучшей гарантирующей стратегии. Таким образом, здесь имеется лишь видимость некорректности, что связано с недостаточно четким пониманием оптимальности. Но можно сформулировать и модели с совершенно неустойчивыми решениями. Дадим простейший пример. Пусть имеются два противника, производящие одну и ту же продукцию из одного и того же сырья. Пусть первый, имея количество сырья х, производит продукцию в количестве krx, а второй, имея сырье у, производит продукции k2y. Пусть первый стремится максимально превзойти второго, т. е. максимизировать критерий эффективности kxx—k2y; второй пусть стремится к противоположному. Эту простейшую антагонистическую игру осложним наличием связи х + у^с9 показывающей, что общие запасы сырья ограничены. Ясно, что никакого компромиссного или гарантирующего решения эта задача не имеет; все решается тем, кто из противников первый сделает «ход» и захватит все сырье, т. е. сделает х = с или у = с. В первом случае операция закончится с результатом kxc, а во втором—k2c. Здесь невозможны смешанные стратегии и ничего не дает информация; нужно только во чтобы-то ни стало опередить противника.
§ 15] ПОНЯТИЕ ОПТИМАЛЬНОЙ СТРАТЕГИИ 187 Нетрудно увидеть, что такие «некорректные» антагонистические модели имеют достаточно прямое отношение к некоторым практическим ситуациям. Разумные организаторы «игр» должны избегать подобных ситуаций. В игре с природой такие ситуации, по-видимому, невозможны. Причиной появления «некорректных» моделей, очевидно, является связь между «запасом» Мо стратегий оперирующей стороны и стратегией противника у. Так, в приведенном примере, если противник первым делает «ход», то Мо есть отрезок [0; с—у\, а если первой делает «ход» оперирующая сторона, то N=[0, с—х]. В более сложных случаях связь между Мо и у может, конечно, оказаться и не такой, что некоторый выбор у сводит Мо к нулю. Однако во всех случаях связь эта затрудняет корректную постановку задачи ¦). Таким образом, в исследовании операции, а также, видимо, и в жизни следует избегать антагонистических ситуаций с сильно связанными между собой множествами возможных стратегий Мо и N. Второго рода неопределенность задачи может возникнуть в «противоположном» случае, когда оба противника уступают друг другу право первого «хода», рассчитывая получить и использовать информацию об этом «ходе» для увеличения результата операции в свою пользу. Именно так получится, если оба противника выберут в качестве стратегии функции х (у) и у (х) поведения другого игрока, неприводящиеся к достоянной ни по одной координате. Тогда значения х я у никак не определяются, а, значит, не определяется и величина критерия эффективности, т. е. результат операции. Во всех рассмотренных выше случаях этого варианта не было, потому что предполагалось, что один из противников начнет игру, т. е. назначит х и у, или хотя бы какую- то часть этих векторов (например, хг в A84)). Выше, в A63), мы всегда полагали, что y?N будет конкретизировано. *) Легко показать, что ситуации указанного типа могут быть приведены к случаю независимых Мо и N, но при этом интересы станут выражаться критериями, принимающими и бесконечные значения.
188 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III Излагавшийся подход всегда предполагает, что начало (пусть в виде выбора функции) за оперирующей стороной, ибо она и хочет провести операцию. После этого в модели противник обязательно делает «ход», приводящий к определенным результатам операции. Модель, правильно отражающая практику, должна давать оценку всем ситуациям, которые считаются возможными, и ставить им в соответствие значение критерия эффективности; ситуации, которым не соответствует значение критерия, находятся за пределами действия данной модели — учет их возможности требует ее изменения. Так, скажем, всякая модель военных действий исходит из того, что кто-то их начнет. В такой модели не оценивается смысл начала военных действий. Для того чтобы рассматривать и отсутствие военных действий, т. е. продолжение мира, нужно создать модель с критерием, оценивающим полезность для оперирующей стороны отказа от начала военных действий (если, конечно, противник их не начнет) или от их продолжения. Итак, в исследовании операций нужно избегать пока связи Мо и у и не рассматривать множеств стратегий противников, в которых есть пары, не обеспечивающие проведение операции, т. е. определения ее результата — величины критерия эффективности. Последовательное проведение в жизнь осторожных оценок эффективности, разрешающих противнику применение всяких, но конкретизирующих результат стратегий, позволяет, видимо, избежать ситуаций второго типа. § 16. О седловых точках Объяснение названия «функция с седловой точкой» для F (х, "у), удовлетворяющих условию max min F (х, у) = min max F (x, у), x у ~У х заключено в следующей теореме. _ Теорема XVIII. ДлятогочтобыF°r=max inlF(x, y)= ______ * У = min sup F (х, у) = Fu, необходимо и достаточно сущгст- у *
§ 16] О СЕДЛОВЫХ ТОЧКАХ 189 вование пары точек хс и ~ус, для которых minF (хс, y) = F (xc,yc) = maxF(x, yc). A86) При этом F (хс, #с) =7'? = F^ а хс и #с есть наилучшие гарантирующие стратегии сторон, т. е. реализующие максимин и минимакс *). Доказательство. Достаточность. Пусть существует (хс9 ус), удовлетворяющая A86). Имеем всегда inf F( и поэтому sup inf F (x, у) < max F (x, yc) = F (xc, yc). xeMoyeN xeM0 Ho yeN Поэтому sup inf F (x} y) = max jnf F (x, y) = F (xC9 yc). A87) xeM0 yeN xe Далее, _sup F( jnf sup /7( yuNxGM Ho sup F (jc, yc) = max F (x, yc) = F (^c, yc). Отсюда jnf sup F(x, y)= mm_supF(x,~y) = F(xc,yc). A88) i _*)_|/с_определяется как стратегия, реализующая максимин для — F (^t У)у т. е. минимакс для F (х, у). Таким образом, sup F (х, у<) = _____ И = minsup/7 (x, у)=Рл. Отметим, что в сформулированном виде эта у х теорема доказана Н. Н. Воробьевым.
190 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. Ш Из сравнения A87) и A88) следует справедливость утверждения. Необходимость. Пусть хг—стратегия,для которой inf ? (хг, "у) = max inf F (х, у) = F°r, а уг—стратегия противника, для которой sup F (x, yT) = min sup F (x, y) = F%. хем9 yeN~x€M9 Имеем Fu = sup F (x, yT) >? (xr, yr) > inf F (хг, у) = F°r. Но по условию Fn = Fl, и, следовательно, ^ («г, #г) =_SUp ? (JC, yr) = jnf ? ( А это означает, jito верхняя и нижняя границы достигаются в точке (лсг, Уг), т. е. sup и inf можно заменить на max и min, после чего выполнение A86) для хс = хг и ус и уг полностью доказано. Если х и у—скаляры,т.е. F(xt у)—функция двух переменных, то в точке (#c, yc) она имеет в силу A86) вид седла, возрастая от (хс, ус) в обе стороны по оси у и убывая в обе стороны по оси х (если, конечно, (хс, #с) — внутренняя точка). Если есть только равенство sup inf F(х, у) = inf sup F(х, у) = yeN JjeN~xeM т. е. верхние и нижние границы не достигаются, то на MxN нет седловой точки, но такая точка, очевидно, существует на надлежаще дополненных М9 N и F(x, у) (может быть, с включением бесконечно удаленных точек). Достаточно на фиктивной паре точек (*«>, у*) положить 74*», f/«) =F (Xoo, ~y) = F (x, ~~y») = K. Именно поэтому ранее мы и сохранили термин функции с седловой точкой (обобщенной) в этом общем случае.
§ 16] О СЕДЛОВЫХ ТОЧКАХ 191 В пределах данного раздела будет говориться о сед- ловых точках, принадлежащих MoxN. Легко заметить, что теорема XVIII справедлива, если х я у есть точки любого пространства. Почти очевидным достаточным условием существования седловой точки является Теорема XIX. Если F{x9 у) непрерывна на замкнутом ограниченном (в общем случае, компактном) множестве MoxN и если при любых xxji x2 из Мо P(xi> У)—^(Л» У) не меняет знака, когда у пробегаетJV (или если F(x9 уг)—F(x,y2) не меняет знаксигри любых у19 у2 из N, когда х пробегает Мо)9 то F(x9 у) имеет на MQxN седловую точку. При этом в первом случае есть абсолютно оптимальная х9 а во втором абсолютно оптимальная у. Доказательство. Фиксируем какую-либо точку у09 и пусть хс—точка, в которой достигается max F(x9 y0). о Тогда в силу условия сохранения знака F(xC9 у) — — F (х9 у)^0 при любых у и для любых х. Имеем поэтому ^(*с> iO=jnax F(xy"y) при всех у. Таким образом, хс абсолютно оптимальна. Пусть теперь ус таково, что F (хс, ус) = min F {хС9 у). _ Пара (jcc, r/c) и есть искомая седловая точка, т.е. удовлетворяет A86). Действительно, по построению, » Ус) = min F (xcf у) и F (хс, ~ус) ^рах F (х9 уе)9 УЬ N 7 М поскольку это равенство верно ^ля любого у. Во втором случае вначале будет найдено ус такое, что F (х9 #с) = = min F (х9 ~у) при х? М9. yeN Следствия. 1. Если F(xy y) = q>(x) + f(y)9 то при непрерывных ф и / на компактных Мо и N всегда есть седловая точка и существуют абсолютно оптимальные хс и ус.
192 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III Аналогично обстоит дело и с F(x, y) = 4>(x)f{y), если хоть одна из <р(я) или f(y) не меняет знака на своем множестве; так, если, скажем, /(*/)^0, то ^(«1, »)-?(«..*) = [ф(^)-ф( и не меняет знака при изменении у. В этом случае существует абсолютно оптимальная хс. Можно снять и условие постоянства знака хоть одной из ф(д:) или f(y). Действительно, пусть и ф(х), и /(^меняют знак, и пусть хс и ус—точки, в которых ц>(хс) = = 0 = /(ус). Пара (хс, ус) есть седловая точка, ибо при любых х и #, что и обеспечивает условия A86). Однако в этом случае абсолютно оптимальных стратегий нет. 2. Если х = х—скаляр, М0 = [а, Ь] и F(xt у) имеет F'x (х> У) на Мо X N, причем эта производная не меняет знака при всех xjl у у то F(x, у) имеет седловую точку, ибо ^С*1» И)—Р(*2> У) = (^1—х2)Рх(х\ у), и, следовательно, не меняет знака при любых t/, если хх и х2 произвольно фиксированы. Примером такого рода случая может быть (yl ^)S( где /i/—целые числа. Значительно более интересно достаточное условие существования седловой точки, связанное с понятием выпуклости функций. Теорема XX. Если ограниченные Мо и N выпуклы и замкнуты, a F(x> у) непрерывна, вогнута по х при каждому и выпукла по у при каждом ху то F(x, у) имеет седловую точку. Доказательство. Предположим сначала, что F(xy у) строго выпукла по у и строго вогнута по х (т. е. соответствующие неравенства строги при 0 < % < 1).
§16] о седловых точках 193 Согласно непрерывности платежа и его строгой выпуклости существует ~у (х) такое, что F (Я ~У (*)] = mjnF (*> #) = т {х), у причем у(х) однозначна (минимум достигается в одной TO4jce). Действительно, если бы были две точки ух(х)Ф ФУ*(х\ то F[xt ^х(х) + A-Я)^(х)] < <XF[x9 у,{х)] + (l—K)F(x,y2 (x)] = т(х), что противоречит определению т(х). Из равномерной непрерывности F(x9 у) и однозначности у (х) следует непрерывность т (х) и ~у (х). Действительно, если бы существовала последовательность хп—>л:,,, для которой D{xn)-+y1^y(x0)9 то по непрерывности Но для любого п и р[х Отсюда в пределе для любого у и, следовательно, ух являлась бы второй, кроме у(хо)9 точкой реализации минимума. Непрерывность т(х) является прямым следствием непрерывности у(х) и T(x,lj). Пусть х*—точка, в которой т (х*) = max т (х) = max min F (л:, i/). Для любого л: из множества стратегий имеем 9 у). Выберем ^ = ^[A — t)lf + tx]=y. Тогда m[(l—t)tf + tx]>(l — t)m(?) + tF(x9 у). 7 Ю. Б. Гермейер
194 оптимальные стратегии (гл. in Но ввиду того, что т(х*)^т(х)у m поэтому т.е. Пусть теперь t—*0t так что (l—t)x* + tx-+x* и у-^ у Oft. Отсюда получим Если положить у (х*) = у*, то по только что полученному неравенству и определению у(х) F(xt lf)<Ffr,ln<Ffr. H), а это согласно теореме XVIII и означает наличие седло- вой точки. Остается освободиться от требования строгой выпуклости и вогнутости. Если F(x, у) просто вогнута по л: и выпукла по у, то !Л^>~У) = Р{хГу)-г S xf + e fj у) строго вогнута по х и строго выпукла по у. Поэтому существуют х6 и уг такие, что Возьмем теперь последовательность в-^Ои подпоследовательность этой последовательности, для которой хг сходится к х* и #6 сходится к у*. В силу непрерывности
§ 16] О СЕДЛОВЫХ ТОЧКАХ 195 F {х, у) в пределе получим Этим и завершено доказательство. Основным признаком выпуклости функции f(z), скалярного аргумента z ? [а, Ь] является условие /" (г) > О при z?[a, Ь]. Это легко получить следующим образом. Пусть z' = Xz1 + (l— Ь)г?, Zt>zt, 0<А,<1. Тогда Но последний сомножитель неотрицателен из-за /"()^ Отсюда и следует X/ (гх) + A — tyf (z2) ^ / (^О- Для общего случая векторного 2, вводя при (р"(Х)^О [0^/\^1] имеем согласно доказанному Ф (Х)< A — X) ср @) + лФ A), а это означает, что Таким образом, условие ф"(А,)^О является общим достаточным условием выпуклости f{z). Для вогнутости соответствующие вторые производные в достаточных условиях имеют другой знак. В качестве примера вогнуто-выпуклой функции можно привести где 0<х<1 и 0 Для нее имеем что и обеспечивает вогнутость по х и выпуклость по у. Фундаментальная для теории игр и исследования операций теорема XX в качестве следствия дает результат
196 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III о седловых точках для так называемых разделимых игр, т. е. игр с платежной функцией вида s ?(*.0)=2М*)<Р/(?)- A89) Теорема XXI. Пусть /,•(*) и фДу) в A89) непрерывны на Мо и N, и пусть далее__ множества Ма и Nv значений векторов u = {ui} = {fi(x)) и ~v = {vt} = {ф,-(у)} при х?М0 и y?N, t^s, замкнуты, выпуклы и ограничены. Тогда игра A89) на MoxN имеет седловую точку. Доказательство этой теоремы почти очевидно. Через векторы и и v платеж A89) выражается в виде Л(й, o) = t«w. A90) Эта билинейная функция, будучи линейна по и при фиксированных v и, наоборот, линейна по v при фиксированных и, тем самым вогнута по и и выпукла по v. Поэтому игра на MuxNv имеет седловую точку. Пусть это будет (и0, и0), и пусть xQ и у0 — любые векторы, для которых wo = {/i(^o)}; 0о = {ф/(Уо)}- Эта пара х0 и уо составляет седловую точку игры A89). Действительно, по свойству седловой точки и0, v0 имеем для любых у и х: F (*> Уо) = Л (пг, Щ) < Fx(uot v0) = Определенный интерес представляет расширение этой теоремы на случай, когда Ма или Л^ (или оба сразу) бесконечны, но остаются выпуклыми и замкнутыми. Тогда они могут быть представлены как предел расширяющихся множеств М(ип) и N(vn\ для которых теорема XXI справедлива и, значит, есть седловые точки 7,{п) 7лп) ио > vo • __ __ Если множества и^п) и y(ort) имеют предельные точки и0, ^о» то в силу замкнутости Ма и Nv они и дадут сед-
§16] О СЕДЛОВЫХ ТОЧКАХ 197 ловую пару на Ми и Nv. Проверка всего этого для A90) не представляет труда в каждом конкретном случае. Отметим отдельно следующее. Теорема XX Г. Пусть Ми замкнуто, ограничено и выпукло, a Nv = NVx x NVi x ... X NVm x NI выпукло и замкнуто, причем Nv. =(— оо; + <х>) при *<"*, a N1, представляющее собой множество векторов {vm+1 ... vs\, выпукло, замкнуто и ограничено. Тогда A89) на MoxN будет иметь сед ловую точку (л;0, у0) тогда и только тогда, когда Ми содержит хоть одну точку и\ для которой при i^m все щ = 0. В седловой точке uii0 также равны нулю при i ^.m. Доказательство. Необходимость. Пусть (*о> Уо)—седловая точка A89), а (и0, v0) — соответствующая ей седловая точка A90). Тогда - - - Г^ s 1 = inf Fx {и0, v) < inf \2j "ioVi + 2j uiovt . Если имеются uiQ=?Q при i^m, то, устремляя те Vi к —оо, для которых «/о^О, и остальные vt к +оо (при i^m), получим, что \x\\Fx(u^, v) = —оо, а это противоречит конечности Fx(u0, v0). Таким образом, uio = 0 при i^Lm, что и доказывает одновременно необходимость условия и утверждение о координатах седловой точки. Достаточность. Пусть М*и—множество всех векторов и из МаУ обладающих ut = 0 при t<m. Это множество, очевидно, выпукло, ограничено и замкнуто вслед за выпуклостью, ограниченностью и замкнутостью Ми; N1 выпукло, ограничено и замкнуто по предположению.. s Игра на Ml и Щ с платежом 2 uivi удовлетво- ряет всем условиям теоремы XXI и потому имеет седло- вую точку {ы;0}, {^о}, где t>m+l. Определим полные и0 и v0> приняв их координаты при t<m равными uio = vio = 0.
198 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. Ш Имеем — — ______ Л («> fо) = 2 Wo = S «Ло < ^i K> »в) = j=l i+l s Это неравенство и показывает, что w0, v0 есть седло- вая точка на Ма и Л^г. Но тогда так же, как и в теореме XXI, любая (х0, у0), соответствующая м0, у0, дает седловую точку для A89). Теоремы XXI и XXI1 показывают, что для получения седловых точек в разделимых играх желательно добиваться выпуклости Ма и Nv, а не Мо и N. Требование выпуклости Ма можно считать, таким образом, желательным условием на множество стратегий М (если стремиться получить седловую точку). Однако выполнение тех же требований для Nv находится вне пределов возможностей оперирующей стороны—это и подчеркивает нетипичность случая наличия седловой точки на MoxN. Легко убедиться, что множества Ми{ и NVi выпуклы и замкнуты вместе с Мо и N, если соответствующие fi(x) и Ф,-(#) непрерывны. Это следует из простого рассуждения. _ Пусть и\*\ и?>?Ми» тогда ttj^frfc) и_ и^ =fi(x2), где хг, х2$М0. Если Мо выпукло, то и при 0 ^ X ^ 1 принадлежит к Мо. Непрерывная функция аргумента К //[ принимает все промежуточные значения между f{ (хг) == и}1} и fi(x2) = u?}. А это значит, что для любого |х из [0; 1] найдется Ау, для которого Поскольку ^ + A —^)^€А10, то \ + (р)? принадлежит Мщ, чем и доказана выпуклость Мщ. Выпуклость Мп и Np при выпуклых М9 и N обеспечена,
§ 16/ а седловых точках Г99 если Мп = МихXMUtХ...хМил, Nv = NVtxNV2X...xNVs. Однако такое положение носит достаточно исключительный характер. Так, если a^rsincp и tf2 = rcosq> при 0 < Rx < г < R2 и ф0 < Ф < Ф!, то Мо выпукло, а Ма представляет собой часть кольца и не является ни прямым произведением MUl и MU2, ни даже просто выпуклым. Если s превышает размерность вектора х (или у), то функции fi(x) (или Ф/(у)) зависимы. В этих условиях трудно рассчитывать на выпуклость Ми и Nv, a значит, и на седловую точку. При независимых же f((x) и Ф/ (у) всегда, очевидно, можно выбрать Мо и N так, чтобы была обеспечена выпуклость Ми и Nv (или Щ), а значит, и обеспечена седловая точка. Таким образом, для разделимых игр возможности получения седловых точек принципиально_различны при s, не превышающих размерности векторов х и у, и в противоположном случае. Исключительное внимание к играм с седловой точкой традиционно в теории игр. Объясняется это, видимо, известным недоверием к максимину как принципу оптимального выбора в том случае, когда нет седловой точки. Обычно считают: как же можно полагать максимин (нижнюю цену игры) оптимальным выбором, когда можно получить и минимакс (верхнюю цену игры)? В связи с этим и имеется стремление «заполнить» этот промежуток за счет применения обоими игроками (оперирующей стороной и противником) смешанных стратегий, которое, как будет показано далее, приводит к седловой точке и якобы преодолевает неоднозначность понимания оптимальности. При этом некоторые авторы полагают, что само применение смешанных стратегий гарантирует игроков от возможности обнаружения их решений, конкретных в каждой реализации игры. Не умаляя нисколько математической, а иногда и практической ценности такой тенденции, ее нельзя все же, по нашему мнению, положить в основу общей методологии исследования операций. Причины этого уже были указаны ранее, но важность вопроса требует их повторения и развитая.
200 ОПТИМАЛЬНЫЕ fciPAfEniH [ГЛ. Ш 1. Применение смешанных стратегий оперирующей стороной представляет несомненный риск, когда операция (игра) не повторяется. 2. Если даже операция повторяется, то необходимо иметь уверенность в отсутствии у противника информации о конкретных решениях (чистых стратегиях) оперирующей стороны в каждом повторении. Само применение смешанных стратегий отнюдь не гарантирует этого. 3. Противник не обязан применять смешанные стратегии, равно как и стремиться к цели, противоположной цели оперирующей стороны. Во многих случаях (противник—природа) такие ограничения на действия противника вообще неправомерны, а в других случаях означают наличие у исследователя операции весьма подробной и, как правило, маловероятной, информации о действиях противника. Но без этих предположений разговаривать о седловой паре точек как реальности бессмысленно; а, значит, пропадают и претензии на однозначное понятие оптимальности в виде седловой пары точек. 4. Сказанного достаточно, чтобы ликвидировать стремление к обязательному получению седловых точек в смешанных стратегиях. Но аналогичная критика относится и к большинству других ситуаций, когда доказывается существование седловых точек в чистых стратегиях. Для большинства этих случаев (примеры будут приведены ниже) характерно предположение о том, что противник применяет некоторое (довольно сложное) множество стратегий, рассчитанных на вполне определенную информацию о выборе стратегий оперирующей стороной. Кроме того, опять-таки полагается известной цель противника (как правило, предполагающаяся противоположной цели оперирующей стороны). И вся эта информация уже есть у исследователя операции. Ясно, что это не соответствует ни практике, ни даже сути постановки вопросов в исследовании новых операций. А если эти предположения нарушены, то нет и седловых точек. 5. В чем же теоретическая суть различия постановки вопроса, основанной на стремлении к получению седловых точек, от просто максиминных подходов. В классической теории игр исследователь операции находится как бы в роли арбитра. Он в равной степени осведомлен об обоих игроках, об их целях и информи-
§ 16] О СЕДЛОВЫХ ТОЧКАХ 201 рованности. Поэтому он и «сожалеет» об отсутствии сед- ловой точки, которая «примирила» бы обоих игроков и создала как бы «объективное» понятие оптимальности. Информированность и цели обоих игроков здесь фиксированы. В предлагаемой здесь методологии исследователь операции отнюдь не арбитр; он, как уже говорилось, принадлежит к одной из сторон и не имеет информации большей, чем оперирующая сторона, т. е. является одним из «игроков». Исследователь операции более или менее знает цель и ожидающуюся информированность оперирующей" стороны (во всяком случае, знает, какой информации она добивается). Его информированность о противнике совсем другая, и, конечно, как правило, меньшая. Именно поэтому он не может утверждать во многих случаях, что есть седловая точка, что противник применит смешанные стратегии и преследует противоположные цели. Единственным разумным общим принципом для него и является принцип гарантированного результата и оптимальность в смысле максимина. Противоположность целей противника есть, как правило, не результат информированности о противнике, а наихудший случай его целей. Применение смешанных стратегий—это рекомендация оперирующей стороне, а не противнику. Большая информированность противника это не обязательно факт, а худший случай, когда нет данных о его информированности и т. д. Само существование седловой точки оказывается при этом зачастую не «объективным» фактом, а наихудшим случаем. Мало того, каждая операция не есть математически определенная игра, а целая совокупность возможных игр в зависимости от той или иной информированности оперирующей стороны и противника и его целей, среди которых будет, как правило, относительно мало игр с седловой точкой. Принцип гарантированного результата позволяет рассматривать только наихудшие для оперирующей стороны игры. Остается, при фиксированной цели, лишь вариация информированности оперирующей стороны (да и то не всегда); но эта вариация есть необходимый элемент исследования.
202 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ.. Ill Сказанного достаточно, чтобы уяснить разницу между чистым максиминным подходом и стремлением к седловым: точкам как основе понятия оптимальности. Однако отсюда! не следует никак, что понятие о седловых точках несущественно. Выше уже говорилось, что седловая точка! на MoxN означает несущественность информации сторою друг о друге в случае противоположности интересов.. Этот вывод весьма важен как в теоретическом, так и в*, практическом отношении. Именно тем и ценны, в первую» очередь, теоремы XIX—XXI. Кроме того, отыскание седловых точек представляет собой более привычную* задачу, чем отыскание оптимальной гарантирующей стратегии, к которой возможно применить обычные методы* поиска оптимумов и оптимального управления. Чтобы иметь всегда такие возможности, а также показать, что с формально-математической стороны нет принципиальной разницы между максимином и ситуациями с седдовой точкой, обратим внимание на следующую достаточно простую теорему (для упрощения, хотя это и не необходимо, будем считать все верхние и нижние грани достижимыми). Теорема XXJI. Пусть М — произвольное множество стратегий х = х(у) при y?_N. ПустьL далееf_ NM—множество всех стратегий у=-у{х) при y?N. {y(x)—функционал со значениями из N). Если NMz>N, т. е. содержит все функционалы # = # = const при y?N,mo max min F (x, у) = max min F (x, y) = min max F (x, ~y). €M~N €MuN NeM Оптимальная х0 на MxN является оптимальной и на MxNM и, следовательно, входит в седловую пару точек на MxNM. В самом деле, из-за NczNM имеем max min F (х, у) ^ max min F (х, у). Но, с другой стороны, из-за того, что все значения у принадлежат N, для любого у g NM {х, у),
§ 16] О СЕДЛОВЫХ ТОЧКАХ 203 а значит, и для любого х?М minF(x, y)^minF(xt у). Отсюда и из предыдущего имеем max min F (л;, у) = max min F (xt у). Фиксируем теперь произвольное x ? M, и пусть yo?N таково, что F(x, y0) = min F (xy у). Тогда уо = уо(х) при- iy надлежит, конечно, NM, поскольку последнее множество содержит все стратегии у(х) при y?N (если какому-то х отвечает не одно у0У то для уо(х) берем произвольно одно из значений у0). Имеем теперь, учитывая указанное выше, (x, у). УЬМ УеЫМ Поэтому maxF(x, yo) = max minF(x, 7/), х€ М хе М и, следовательно, min max F (х, у) ^ max F (х, у0) = max min T (х9 у). хем хем Поскольку всегда по A60) имеет место и обратное неравенство, то первое утверждение теоремы доказано. Что касается второго утверждения, то оно немедленно следует из того, что Р Схо> У) ^ min F (^о> У) = ^Рах min F (х* У)== yeN xe M ysN = max min F (x, у), X(zM ySNM и из результатов теоремы XVIII. Доказанная теорема подтверждает, что случай седло- вой точки дает наихудший возможный случай для оперирующей стороны, располагающей множеством М, поскольку
204 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [гЛ. III меньше чем max min F (х, //), при разумном поведении хем ye N получить уже нельзя. Доказано одновременно, что всякий максимин может формально трактоваться и как общее значение максимина й минимакса при некотором выборе случая информированности и множества стратегий противника. Тем самым формально стирается различие между максимином и сед- ловыми точками. Обратим внимание на то, что повторение идеи только что доказанной теоремы для стороны х означало бы введение стратегий типа х1 = х (у). Поскольку среди у содержится и у у то среди х1 содержатся и прежние х = х(у). Казалось бы, такая попытка «обнять» стратегии уу в свою очередь обнимающие х> должна привести к увеличению максимина. Однако нетрудно убедиться повторением доказательства теоремы XXII (но при перемене игроков местами), что этого не происходит, поскольку больше чем гарантированный для противника результат min max/7 (л:, у) 'ye NM хе М получить нельзя, а последний равен max minF (х, у), уже хе м yeN достигнутому оперирующей стороной ранее. Сказанное имеет определенное отношение к процедурам, рассматриваемым в книге Лефевра*). Теорема XXII дает отнюдь не единственный способ организации седловой точки с сохранением заданного максимина; примером другого (более экономного) способа организации является следствие к теореме XIV (что касается XVI, то она является частным, но наиболее важным случаем XXII). С этой точки зрения, а также ввиду специального значения многошаговых игр, рассмотрим, как превращается в игру с седловой точкой многошаговая операция A82)—A83"). Для этого рассмотрим семейство Na всех стратегий у противника вида ~y?Nk(ak), A91) *) В. А. Лефевр, Конфликтующие структуры, «Высшая школа», Москва, 1967.
§ 16] о седлойы* foMkAX 205 t№, в свою очередь, ak есть функции ak(xi9 ak_1\ i^k—1) и т.д.; ах—постоянная, принимающая любые Допустимые для нее значения. Здесь а((хр а^) может принимать значения (при фиксированном а/в1) только из множества {а,}-._ . Этот вид стратегий есть частный случай стратегии у(х) при определенном ограничении класса этих функционалов и х ? УИа. Множество стратегий Na содержится в множестве всех функций у(х) и содержит N. Поскольку наличие возможно чем-то ограниченной связи между у и х в Na уменьшает область изменения у при данных х, то minF(xf y)^.xnmF(x, у) min F(x, y)^max minF(x, y). A92) xeMayeN С другой стороны, пусть стратегия yo?Na определяется следующим образом: =_ min ?2(xu a2); W =_ min afc€{afc}?-fc_ 0 (ak, xj)] = A93)
206 оптимальные стратегии [гл. ш Тогда имеем max F (*, у0) = _ max max F(x19 . ., **, #0) = max min F(xlt ..., л:л, у) = ^^ _ max min </2 Но тогда из-за A92) min max F(x, y)^ max F(xt yb)-=F*^ min/7(л:, у). l Отсюда в силу всегда верной леммы A60) получаем max min/7^, t/) = min max/7^, у). Таким образом, верна довольно общая Теорема XXIII. Если антагонистическая игра определена во множестве Ма стратегий оперирующей стороны типа A82), рассчитанных на постепенную локализацию возможных у множествами #,•(«,•), и на множестве Na стратегий противника вида A91), рассчитанных на информацию об хь то такая игра всегда имеет седловую точку. Применив эту теорему к случаю A84)—A84'), увидим, что A91) превращается в множество стратегий вида
§ 16] О СЕДЛОВЫХ ТОЧКАХ 207 основанных на получении информации обо всех хь при /<л к моменту выбора у(. Объединяя это с A84), приходим к следующему порядку многошаговой игры. Сначала оперирующая сторона выбирает х1У не имея никакой информации (кроме знания N)\ затем противник, зная Мо и xlt выбирает ух\ далее оперирующая сторона, зная хх и у19 выбирает х2 и т. д.; последним выбирается yk, когда известен весь вектор х и, конечно, г/у при j^k—1. Эта игра носит название игры с полной информацией. В качестве следствия теоремы XXIII имеем поэтому известную теорему из теории игр. Следствие (теорема Цермело). Всякая игра с полной информацией имеет сед ловую точку. Цена игры может быть записана в виде A84'). Имея в виду принципиальную важность рассмотрения игр многих лиц, обратим внимание на данное Нэшем обобщение для них понятия седловой точки в виде так называемых точек равновесия в бескоалиционных играх. Игра п лиц называется бескоалиционной, если у *-го игрока имеется собственный критерий эффективности— платеж Д- (xv ..., хп), причем независимый от других игроков выбор Xi из некоторого Mi составляет стратегию /-го игрока. Введем обозначение х*=(хи ..., хп) и М* = Мг X ... X Мп. Точка x*Q = (xj, ..., jcJ) называется точкой равновесия, если для всех i выполнено ) = max /,.(*;, ..., х?-19 xh х?+1, ..., х°п). A94) Легко проверить, что при я = 2 и /2 -—ft определение A94) превращается в свойство A86) седловых точек. Несомненно интересна следующая, установленная X. Ни- кайдо и К. Исода *) связь между нахождением точек равновесия и нахождением максимина в некоторой операции с критерием эффективности, выраженным через A94). *) Соответствующая статья имеется в сборнике «Бесконечнее антагонистические игры».
208 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III Теорема XXIV. Игра п лиц имеет точку равновесия (х[, ..., х%) = xl. тогда и только тогда, когда п max min 2 fi(xiy •••» -fy-l» #/> */+l> •••> ^«)]=0. / 5/пож xl является оптимальной стратегией в операции с критерием *) Доказательство. Очевидно, при всех min Ф*(л:*, у* а вслед за этим и max min Ф(л;*, Если существует точка равновесия #J, то по определению min Ф (хо, у*) = 0. у*йМ* Тем самым и max min Ф(х*, //*) = 0-= min ФD, У*)- A95) Если же, обратно, равен нулю максимин, то существует xl> для которой выполнено A95). Но отсюда 0 = min S [//(*!>..., 4)- = 2 [f/W. ....xD- i-l *) Легко видеть, что операция ? может быть заменена на one рацию min.
§16] О СЕДЛОВЫХ ТОЧКАХ 209 Поскольку все члены суммы по i неположительны, отсюда немедленно следует, что для всех i ft (*!, •.., 4) = max f{ (*}, ..., x?_l9 yi9 xf+lf ...,*•), Pi* Mi а это и значит, что xl есть точка равновесия. Легко провести аналогию между этой теоремой и леммой § 15 (см. A65)—A65')). Не останавливаясь более на играх п лиц, отметим лишь, что доказанная теорема еще раз подтверждает широту охвата максиминных постановок вопроса. Разумеется, теорема XXIV носит довольно формальный характер и не снимает трудностей (принципиальных), которые характерны для теории бескоалиционных игр. В заключение раздела о седловых точках приведем интересный пример операции с седловой точкой, относящейся к теории надежности. Пусть имеются два агрегата, способные выполнять одну и ту же работу. Первый имеет закон надежности рг (t) со со средним временем работы Tl=^p1(t)dt\ второй агре- о гат имеет среднее время работы Т2. Поставим вопрос о целесообразности замены первого элемента вторым через время работы т, не дожидаясь выхода первого элемента из строя, чтобы отправить его на профилактический ремонт. В качестве критерия эффективности для выбора т возьмем среднее время работы (безотказной) системы из первого и заменяющего его второго элементов. Это время равно Стратегией оперирующей стороны здесь является выбор т, а стратегией противника (природы) — закон надежности px{t) с ограничениями со \Pl(t)dt =7\, A97)
210 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III Имеем следующие простые утверждения. А. Если px{t) связано только первым и третьим равенствами из A97), то игра с критерием A96) имеет седловую точку. Цена игры—max [7\, Т2]. Оптимальная гарантирующая стратегия оперирующей стороны 0 при ГХ<Г2, оо при 7\>Г2. Оптимальная стратегия природы (наихудшая для оперирующей стороны) p*(t) = e~i/Ti. Действительно, если т = 0, то при любых px(t) Т = Т2; если же т = оо, то T = TV Поэтому применение указанной стратегии выбора т обеспечивает всегда получение 7 = тах[71; Т2]. Наоборот, пусть р1(/) = е-'/Г|; тогда <max[7\; T2]. Далее, имеем max [Tlt T2] = inf Т [топт, Pl (/)] < sup inf T [т, Pl (t)] < Pi @ t Pi (/) < inf sup T [t, Pl (t)] < sup T [t, pi @] < max [7\, Г2]. Pt@ x г Отсюда и следуют все утверждения. Б, Если имеются все ограничения A97), но DX^T\^ то игра A96) опять имеет седловую точку с той же ценой игры и топт, но оптимальной стратегией природы будет pl(t)=\ при ? = 0, п*(()= 2Tl с Tl + D» ПрИ ^>0. Доказательство. По-прежнему топт при всех /?,(/) ^ает Т — max [7lf Г2]. «Применение» природой р?@ обеспечивает, очевидно, при любых т > 0 -2- \, Г,].
§ 17] НЕОБХОДИМЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ 211 Если же т = 0, то при р\(t) будет Т = Тг <max [7\, Т%]. Итак, всегда p\(t) дает Г<тах[7\; T2]. Отсюда, так же как и в предыдущем случае, следуют все утверждения. Итак, в условиях этих теорем оказывается невыгодной замена для профилактики, а нужно все время до выхода из строя использовать тот из агрегатов, который имеет большее среднее время работы. Это утверждение, казалось бы, противоречит всей практике работы людей. Однако на самом деле это не так. Просто условия теорем (информация о р1 (t)) не отвергают законов надежности типа е~к( при линейной комбинации таких законов. Они-то и оказываются наиболее неприятными видами законов, хотя и наиболее употребительны в теории надежности. Если же будет известно, что D1 < Га, то такие законы не будут разрешены, и положение изменится в полном соответствии со здравым смыслом. Это будет показано в последующих разделах. В частности, в игре A96) исчезнет седловая точка при общем виде px(t), удовлетворяющих A97). § 17. Необходимые условия оптимальности Поскольку обычный экстремум является частным случаем максимина, то необходимые условия для последнего должны включать в себя и необходимые условия экстремума функций (М = М0, а N состоит из одной точки) и необходимые условия вариационного типа (если М состоит, например, из дифференцируемых функций) и т. д. Собственно, необходимые условия для максимина должны быть, конечно, существенно сложнее необходимых условий для обычных экстремумов. Сколько-нибудь общие условия оптимальности (в рассматриваемом понимании этого слова) для широкого класса множеств М пока еще не разработаны. Поэтому ограничимся рассмотрением крайних случаев М = М0 и М = Ми, имея в виду показать специфику постановок задач о необходимых условиях оптимальности при наличии неопределенных факторов. При поиске оптимальных стратегий нужно считаться с двумя следующими обстоятельствами: 1. Согласно § 15 существуют два понятия оптимальности—абсолютная оптимальность и просто оптимальность.
212 ОПТИМАЛЬЙЫЁ CTPAfEfrfH! [гЛ. lU Кроме этого, заслуживает отдельного рассмотрения и случай наличия седловых точек. 2. Задача определения оптимального варианта проведения операции может быть разбита на две задачи: а) поиск оптимальной стратегии; б) определение оптимального результата (максимина), который может рассматриваться и как оценка эффективности оптимальной стратегии. Такое разбиение иногда может быть полезно, например, потому, что решение первой задачи может оказаться более простым. В соответствии со сказанным начнем с необходимых условий абсолютной оптимальности. Эти условия являются тривиальным следствием определения A64) и по существу (для любого М) совпадают с обычными условиями оптимальности (без неконтролируемых факторов), но с добавлением того, что они должны выполняться тождественно по y$N. В частности, для М = М0 при дифференцируемое™ F(x, у) по х имеем: Для того чтобы постоянная ха ? М0 была абсолютно оптимальной внутренней в Мо стратегей, необходимо, чтобы при х= {х19 ... , хп} ; У)==0; У$Ы> '=1. •¦•.*• A99) Граничная ха из Мо может быть оптимальной, только если производная F(x, у) в ха по любому направлению т, не выводящему из Мо, неположительна, т. е. если (ау) ])-П*<>Гу) <0 A99') Д-*о при любом y?N. Необходимость тождественного выполнения A99) при фиксированном ха и показывает на «редкость» абсолютной оптимальности в множестве Мо, если N—достаточно обширное множество. Прямо противоположное положение имеется при М = Ма. Тогда абсолютно оптимальная стратегия заведомо имеется, если множество Мо замкнуто и ограничено, a F(x, у)
§ 17] НЕОбХОДЙМЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ 213 непрерывна по х\ это непосредственно следует_из_ выполнимости A64). Значение ха оптимальной ха = ха(у) определяется уравнением F(xa,li)^maxF(x,-y) B00) хем0 при каждом y^N. _ Необходимыми условиями для значений ха, внутренних к Л10, будет опять A99), но с той разницей, что теперь ха может зависеть от у, и потому A99) не имеет характера тождества по у. Для граничных ха опять-таки необходимо A99'), но с тем же существенным различием. Пусть теперь хг—все значения, удовлетворяющие A99) и A99') для данного у. Тогда окончательное ха определяется обычным перебором, исходя из ~F(xa, "//) = max ?(*;,#). Этим и закончена процедура определения ха с помощью необходимых условий A99) —A99'). Согласно следствию теоремы XIV из § 15 при замкнутых ограниченных N и непрерывных F (х, у) при наличии абсолютно оптимальной ха g Мо всегда есть седловая точка (ха, ус), удовлетворяющая A86). Оценка эффективности ха равна здесь F(xa, yc) и оказывается частным случаем задачи, относящейся к седловым точкам, которая будет изложена далее. Аналогичное утверждение верно и для ха. Однако здесь поиск ус совпадает по существу с решением задачи поиска оптимальных у, реализующих minmax F(x, у). Эта задаче n xeM9 _ _ __ ча эквивалентна задаче поиска max minF(x, у). 0ye Задача поиска максимина с помощью необходимых условий также будет изложена далее. Перейдем к определению седловых точек, полагая F(x, у) дифференцируемыми по х и у на ограниченных замкнутых Мо и N. При поиске седловых пар (хс9 j^) на
214 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [гл. Ш MoxN прежде всего хочется подчеркнуть, что если, скажем, хс уже найдено, то ус нельзя, вообще говоря, получить как любую реализацию minF(xCf у), так как нужно, __ _ _ __ _ _у чтобы F(xc, ус) = тах F(x, ус). _ ^ например, для F(xy у) = ху при |х|<1, |//|<1 седловой_парой является только хс = 0, ус = 0> в то время как mmF (О, у) достигается при любом у. и Как ж искать седловые точки, кроме как прямым нахождением стратегий, реализующих максимин и мини- макс? Для этого, следует иметь определенный набор необходимых условий, которым должны удовлетворять седловые точки. Такие условия можно получить, пользуясь теоремой XVIII, дающей необходимые и достаточные условия A86), согласно которым седловая точка реализует одновременно два экстремума max/•*(*, yc) и iuinF(xc$ //), „ * - _ у равных одному и тому же F (хс, ус). Б такой формулировке задача мало чем отличается от поиска, например max~F(x, у), который также состоит *' у _ _ в одновременном достижении двух максимумов по х и у - Используя любые известные необходимые условия экстремума по х и у, можно всегда получить пару необходимых условий для поиска седловой точки. Пусть х = {а:1, ... ,хп}; у={у19 ... , уя}> а Мо и N заданы в виде а{ ^ х( ^ b{; Cj ^ t/y- ^ dj. Тогда, если седловая точка внутренняя для MoxNt то необходимо Это и дает нам п + т уравнений для определения т + п неизвестных х{ и f/y. Если точка (хс, ус) лежит на границе, т. е. если, например, Xik = щк, хц = Ьц и а{ < xt < bt для остальных i Ф ik9 ih то необходимые условия будут F'xi (хс> Ус) = 0 - Fyj (xc> ус) при I ф ik,it.
§ 17] НЕОБХОДИМЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ 215 _ Все разнообразные случаи возможных расположений *с> Ус относительно границы легко объединяются в виде следующих общих необходимых условий. Теорема XXV. Седловые точки дифференцируемой по всем аргументам функции F (х> у) при х = {xlt ..., хп}, ~У = {Уи -.., УтЬ fl|<^<*i-; С;<У/<<1/, удовлетворяют необходимым условиям: К (*с> Ус) (*/с-*|) (xic-bi) - 0; 1 < i < п, F'yj (*с Ус) (У/с—<у) (У/с—d/) = °> ! < / < "*• Кроме того, если х{ = аь то J^(jcc, ^/c)^0, если Xi = biy то F'Xi(xc, ^"с)>0, если у^ = су или dJy то Yyj(xc, ~yc) соответственно неотрицательна или неположительна. Условия B01) ничем не отличаются от необходимых условий максимума и минимума, и тем самым решение этих уравнений даст максимумы, минимумы и седловые точки (если они есть), а также, может быть, и локальные экстремумы. Поэтому желательно дополнить теорему XXV необходимым условием, выделяющим именно седловые точки, если они есть. Такое необходимое условие получаем из той же теоремы XVIII. Действительно, пусть (xh yft—все пары точек, удовлетворяющие B01); рассмотрим F(x, у) на декартовом произведении дискретных множеств Мд = {л:,-} и ЛГд = {У/Ь Тогда очевидно, что седловая точка F {х, у) на исходных Мо и N есть и седловая точка из МД и AfA. Таким образом, необходимо, чтобы хс g Мд, ус € Мд и ^С*о Ус) ^ min F&v У/Hjnax F(xi9 yc). B02) Условие B02) позволяет путем простого перебора всех (*/» У/) обнаружить численно седловую точку среди всех пар, удовлетворяющих B01). Если же среди них нет сед- ловой точки, то значит, ее нет и в исходной игре F(xt у) на MoxN,
216 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III Условия B91), конечно, никогда не имеют единственного решения, поскольку им удовлетворяют все граничные точки В качестве примера использования теоремы XXV найдем седловую точку у вогнуто-выпуклой функции F(x, у) = ху2 — 0,5х2 — 0,52уу 0<к<1; 0<у<1. Имеем ~F'X = у2—х; F'y = 2ху—0,52. Обе производные обращаются в нуль одновременно только при ^ = 0,5; х1 = 0,5я. Кроме этого, на подозрении все комбинации граничных точек хав8 = 0; 1 и г/23 = 0; 1- Далее условия B01) удовлетворяются еще при л:4=1, у4 = 0,5*. Для определения седловой точки необходимо рассмотреть для х стратегии: 0; 0,52; 1. Для у: 0; 0,53; 0,5; 1. Имеем соответствующую платежную матрицу F(xh yj)\ х \^ 0 0,52 1 0 0 —0,5* -0,5 0,53 —0,56 __0,5*A-0,54) -0,5-0,56 0,5 —0,53 —0,53A—0,52) —0,5 + 0,53 1 —0,52 0,5б 0,5а Отсюда видно, что седловой точкой является а:1 = 0,52; у1 = 0,5. Максимум—при х = у=1, минимум при х=1; У = 0,5*. Разумеется, для поиска седловых точек на М х N столь же успешно могут применяться и все другие приемы для нахождения экстремумов, когда множество рассматриваемых стратегий М и вид критерия эффективности удовлетворяют соответствующим условиям. Так, если рассматриваются стратегии типа x = x(y + z)f где г—случайный вектор с известным законом распределения, то критерий эффективности имеет вид
§ 17) необходимые условия опТймаЛьносГи 217 В силу A86) седловая точка (хс, ус), если она есть, должна удовлетворять условиям: _ __ а) при фиксированном ус и при хс = хс(ус + г) должен реализоваться максимум max f F [x (ус + г), ус] скр (г); B03) б) при фиксированном хс и при у = ус должен реализоваться минимум min f F [*с (у + z), у] dy(z). B04) Задача B03) есть вариационная задача относительно функции ~x(yc + z) = x1(z)y что дает возможность употреблять и соответствующие необходимые условия, например условия Эйлера. Задача же B04) есть задача на обычный экстремум с необходимыми условиями в виде равенства нулю частных производных критерия по yj в точке у = ус, если ус—не граничная точка. Таким образом, опять получится пара комплексов необходимых условий, которые дадут не единственное решение для искомой седловой точки (хотя бы для ус) с необходимостью выделения седловой точки на основе B02). Разумеется, в большинстве задач значения х(у-\-г) ограничены непосредственно или через какие-либо дифференциальные связи. Тогда B03) становится типичной задачей поиска оптимального «управления» x(yc-\-z) с необходимостью применения всего аппарата теории оптимального управления, например принципа максимума Понтрягина. Не будем останавливаться на этом подробно, так как задачам оптимального управления в настоящее время уделяется много внимания и имеются специальные руководства, например книга В. Г. Болтянского «Математические методы оптимального управления». С другой стороны, с нашей точки зрения, случаи, приводящиеся к задачам оптимального управления, могут быть с помощью введения дискретизации по z сведены к использованию теоремы XXV или соответствующих численных методов. Отметим еще наличие довольно гибких численных методов
ог^имальныё стратегии [гл. Ш решения задач оптимального управления, общие идеи и обзор которых даны в статье Н. Н. Моисеева «Численные методы теории оптимальных управлений, использующие вариации в пространстве состояний». Прежде чем изложить результаты, касающиеся нахождения максиминов и минимаксов, уточним, как производится нахождение оптимальных стратегий, седловых точек и максиминов в случае, когда множества стратегий обеих сторон конечны. Необходимость соответствующих переборов мы уже встретили на примере B02) и встретим еще в дальнейшем. К этому же мы приходим и в случае прямой приближенной замены множеств Мо и N на дискретные множества М? и Мд, о возможности которой также будет сказано далее. Если множество стратегий х и у конечно, а именно, M0 = {xf> *'=1> •••> "}; N = {y/, /=1, ..., /я}, то соответствующая игра может быть представлена в виде платежной матрицы 11?(*ьУ/I1 = 11^/11, B05) показывающей, какой платеж F^ (т. е. значение критерия) получает оперирующая сторона, когда выбирает i-ую стратегию, если противник выбрал /'-ую. Часто дискретные конечные игры называются матричными. Для игры B05) максимин можно получить только простым перебором, определяя сначала для всех i Л/ = тт?;/у, а уж затем maxAi = maxmmFi/\ оптимальной стратегией опе- i i i рирующей стороны будет t0, для которой Л/0=тахЛ/. Аналогично обстоит дело и с минимаксом, с той лишь разницей, что оптимальной стратегией оперирующей стороны здесь будет функция io(/)> реализующая при каждом / max Fu = Bj = FibU)i. Если априори известно наличие у матрицы B05) седло- вой точки, то в основе численного метода поиска оптимальных стратегий лежит следующая процедура.
§ 17] необходимые условия оптимальности 219 Выбрав произвольную /lf находим B/t и соответствующую i0 (]\), которая обозначается через ix. Затем находим Att и соответствующую /2 так, что Fijt —Aix. Если /2~/lt то поиск седловой точки закончен (теорема XVIII). Если же нет, то находится В1г и соответствующая fa; если i2 = i19 то поиск закончен и т. д. Поиск заканчивается при /* = /*-i или h = ik-v Однако при прямом применении этой процедуры может образоваться цикл, т. е. на каком-то этапе мы возвратимся к /х. Пример цикла дает матрица 0 0 0 0 0 j—1 410 0! 3—1J0 1 "'<2 3 4 в которой цикл обведен ломаной линией, а седловая точка — полужирной цифрой. Конечно, замкнув цикл, можно взять новую стратегию, не совпадающую ни с одной стратегией цикла, но выгоднее исправить процедуру следующим образом. Возьмем произвольную jx и найдем все /0 (Ух)» реализующие maxFijr Для каждого to(/i)> обозначаемого il9 найдем Aix и все /а, реализующие его. Если одно из /2 совпадает с j19 то ]\ и соответствующие ix дают седловую точку. Если среди этих /2 нет ]19 то на столбце ]\ седловая точка не может находиться, и он исключается из матрицы для дальнейшего поиска. Взяв любое ix и найдя уже все ]\>ф]\, реализующие min Fij, для каждого из /2 найдем /а, реализующее max/7//,. Если хоть одно из ? i2 совпадает с iXJ то седловая точка найдена. Если же нет, то строка ix вычеркивается. Далее для какого-то /2 находятся /3, реализующие max/7/,/. Процедура опять заканчивается или /2 вычеркивается и т. д. Ясно, что при таком способе уже невозможно образование цикла, и после некоторого числа шагов седловая точка находится, если она есть.
220 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III Задача поиска оптимальных гарантирующих стратегий и максиминов нова *), во всяком случае, в общей постановке, и только в самое последнее время начали появляться посвященные ей работы. Существует представление, что эта задача более простая, чем решение игр (т. е. нахождение наилучших стратегий) в смешанных стратегиях, чему посвящено уже множество работ, хотя, к сожалению, в основном зарубежных. Такое представление основано на том, что чистые стратегии являются частным случаем смешанных, и потому их меньше и проще отыскать лучшую. Это было бы действительно так, если бы оптимальные смешанные стратегии искали только методом простого перебора. Однако на самом деле для отыскания оптимальных смешанных стратегий, как мы увидим далее, разработаны специальные численные методы решения игр, а также имеется большое количество аналитически решенных моделей. Все эти приемы основаны на наличии в смешанных стратегиях седловой точки и, самое главное, на сугубо специальном простом виде критерия эффективности для смешанных стратегий, имеющем линейный вид относительно смешанных стратегий противников (а в целом — билинейный вид). Все эти обстоятельства, как правило, отсутствуют при нахождении оптимальных гарантирующих чистых стратегий и соответствующих максиминов (или минимаксов). Поскольку чистые стратегии получаются из смешанных при наложении условий равенства нулю вероятностей применения всех чистых стратегий, кроме одной, то переход от решения игр в смешанных к решению в чистых стратегиях совершенно аналогичен усложнению решения задачи линейного программирования при увеличении количества условий. Таким образом, решение игр в чистых стратегиях представляет собой не менее сложную и специфическую математическую задачу, чем решение в смешанных стратегиях. В предыдущем разделе было показано, что всякая задача о поиске максимина (и минимакса) может быть сведена к задаче о поиске седловой точки в соответствующим образом определенных расширенных множествах стра- *) В дальнейшем для краткости эту задачу будем иногда называть задачей решения игр в чистых стратегиях.
§ 17] НЕОБХОДИМЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ 221 тегий противника. Казалось бы, после этого нет необходимости специально рассматривать задачи определения максимина и минимакса. Однако на самом деле получающаяся при этом между стратегиями связь типа х+->у(х) (при произвольности вида функций у(х)) не дает возможности эффективно применить известные необходимые условия экстремумов так, как это сделано, например, в теореме XXV, когда есть седловая точка для стратегий х и у. Попытка использовать эти необходимые условия приводит к тем же вычислительным и математическим проблемам, что и прямое определение максиминов, минимаксов и соответствующих оптимальных гарантирующих стратегий. Выше уже было упомянуто о стандартной возможности приближенной замены множеств Мо и N на дискретные конечные множества М* и Nд с использованием нахождения максиминов прямым перебором. Однако если множества Мо и N не ограничены, т. е. не будет обеспечена равномерная непрерывность критерия эффективности F(x, у), то дискретизация задачи не удается, поскольку Мо и NA окажутся бесконечными, лишая тем самым нас возможности произвести необходимый перебор. Тяжелое положение может практически, конечно, создаться и при слишком больших множествах Mi и Л/А, несмотря даже на умеренные требования к точности приближенной замены. В связи с этим отметим: оперирующая сторона может волевым актом существенно ограничить количество рассматриваемых стратегий, т. е. множество М\ (или Мо); это ее неотъемлемое право, поскольку вся операция формируется в конце концов ею, а не исследователем. Однако ограничить N*—т. е. N—волевым актом оперирующей стороны нельзя, это неконтролируемый ею фактор, произвольное изменение его лишает исследование объективности, а результаты—гарантированности. Это весьма важное различие между множествами стратегий часто забывается; противнику необоснованно приписываются наши желания и возможности, что зачастую ведет к совершенно неожиданным результатам операции. Даже если противник обладает ограниченными возможностями по просмотру всего N*(N) и выбору стратегии
222 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III из этого множества, то и тогда это ничего не гарантирует, поскольку не известно, какие именно стратегии он выберет для сравнения в множестве Nt которое считается известным. Единственно, чем может воздействовать оперирующая сторона на мощность #д, это—выбор точности замены е и критерия эффективности. Об этом обстоятельстве не нужно забывать при выборе цели—критерия эффективности в операции. Интересно отметить, что критерий, принимающий лишь два значения 0; 1 (или вообще критерии, принимающие конечное число значений), наиболее неприхотлив по отношению к е. Очевидно, что допустимо любое е < 0,5, так как при таком приближении вообще исключены ошибки в определении исхода операции при дискретизации Мо и N; сохраняется и наличие седловых точек. Возможно, что сравнительная простота поиска наилучших стратегий и является основной причиной широкого распространения критерия 0; 1 в жизни. Разумеется, при таком критерии встречаются и свои трудности, прежде всего связанные с разрывностью критерия эффективности на MoxN. Не следует, конечно, преувеличивать возможности выбора типа критерия в модели без радикального изменения исходной пели операции. Поэтому необходимо наряду с приближенной дискретизацией задачи разрабатывать другие методы. Кажется рациональным, например, проведение дискретизации только по х, оставив непрерывным у. Тогда задача приближенного определения максимина будет выглядеть как нахождение для дискретных xt минимумов min~F(xh у) = А( У с последующим перебором At для нахождения максимального. Здесь основой численных методов будут известные методы поиска экстремумов функций. Далее встает вопрос—нельзя ли уменьшить множество дискретных стратегий, которые необходимо рассматривать, за счет предположений о достаточной гладкости критерия. Это есть по существу вопрос о необходимых условиях
§ 17] НЕОБХОДИМЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ 223 максимина, к изложению состояния которого мы и перейдем. Начнем с простейшей теоремы. Теорема XXVI. Пусть F(х, р) — непрерывная функция, заданная на замкнутом множестве Е точек (х, р), где a^x^.b, a p—точки некоторого компактного множества топологического пространства. _ Пусть, далее, существует непрерывная Fx(x, p). Тогда для того чтобы х0 была оптимальной гарантирующей стратегией, необходимо существование р, для которого ? (*о> Р) = min F (х0, р) = max inf F (x, p), B06) Р х р и выполнение хотя бы одного из трех условий: а) Fx(x09 p) = 0L б) существует рхфр, для которого F (*.. Pi) = F (хЛ, р) = min F (х„ р); B07) Р в) х0 принадлежит границе области изменения х, т. е. равно а или Ь. Доказательство. Утверждение B06) является очевидным следствием определения оптимальной гарантирующей стратегии и непрерывности F(x, p) на компактном множестве Е. Пусть теперь х0 лежит не на границе, т. е. а < х0 < Ъ, и пусть не существует р19 обладающей свойствами B07). Тогда, обозначив через р(х) любую точку, удовлетворяющую равенству _ Т[х, р (х)] = min F(x,p), р в силу непрерывности ^(л:, р), компактности рассматриваемого пространства и отсутствия рхФР> имеем, что р(х)~+р при х-+х0 (см. доказательство теоремы XX). Но по определению х0 F (*о> р) = тах т*п F (х> Р) = тах F [х> Р (х)]- х р х Поэтому • O^F[x,]}{x))-F(xo,p)=F^x, pJx))-F[x0, p_(x)]+_ + F[xQ, p(x)]-F(x,, p)>F[x, p(x)]-F[x0, p(x)},
224 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. Ш так как по B06) F[xQ9p(x)]-F(xO9 ~ Но тогда Отсюда получаем Fx[x0 + Q(x—x9)9p(x)]^09 если х>х0] —х0), р(*)]>0, если х<хо. Непрерывность F'x(x, р) и то, что р (х) —> /Гпри х —+ х0, приводят к выводу что и завершает доказательство теоремы. Пусть теперь пространство {/?} состоит из точек /л-мер- ного пространства у = (у19 ..., ут) при условиях ct ^ y^di9 и пусть существуют F'y (х9 ух> ..., ут) (необязательно непрерывные). Тогда имеем _ Следствие. Для того чтобы {х09 у'} реализовала максимин, т.е. чтобы F (*о> V) = min F (х09 ~у) = max rnjn F (x9 y)9 У х у необходимо выполнение хотя бы одного из следующих условий: а) = F'y% (*o. У') (y'i—ci) D6—di)= • • • • • • = Р'ут (*.. У') (Ут-сл)(y'm-dm); B08) б) существует угфу' такое, что = F' (x о. y') = F(xo,y1).
§ 17] НЕОБХОДИМЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ 225 Как в случае B08), так и для B09), число уравнений равно числу неизвестных, и потому, вообще говоря, возможно определение х0, у' и уг. Примеры демонстрируют возможность обоих случаев B08) и B09) даже для полиномов при т— 1. Пример I. Здесь нет седловой точки. Очевидно, что причем лсо=#' = О. Определим min max F (х, у). у х Имеем для max {(л:—уJ — 0,5л;2} внутри (—1; 1) усло- X вие 2(х—у)—х = 0, т.е. х = 2у. Учитывая возможность достижения максимума на границе, получаем тах?(х, у) = тах[— у2; A—г/J—0,5; A + г/J—0,5]. X Отсюда видно, что min max/7 (я, у) = 0,5 и достигается у х при у = 0. Для этого примера, очевидно, выполнено B08), т.е. ?;@, 0) = F;@, 0) = 0. Пример II. Имеем условие для minF(A:, у): Если х—у(\— у*) = 0, то 7{х, у) = 0; при г/ = ±|/-|-, Отсюда ясно, что 8 Ю. Б. Гермейер
226 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III Поэтому max min F (х, у) = — ^= и х0 = 0; х у Имеем F'x@; -±A=-F'X(O, -LW т. е. условия B08) не выполнены, но выполнены условия B09) Таким образом, ни один из вариантов B08) и B09) не может быть опущен. Если в той или иной конкретной задаче может быть создан достаточно удобный алгоритм решения уравнений B08) и B09) (или в более общем случае—для вариантов: а) и б) теоремы XXVI), то теорема XXVI и ее следствие могут быть основой определения максимина и наилучшей гарантирующей стратегии. Для этого должны быть найдены все х0, удовлетворяющие (вместе со всеми возможными у' и у±) B08) и B09); в число этих х0 попадут, конечно, и реализации максимума и минимума и просто граничные точки и т. п. Пусть xt—все такие х09 a yj—все у' и уг. Рассматривая матричную игру F(xh yj), легко убедиться, что ее максимин и оптимальная гарантирующая стратегия совпадают с таковыми же для исходной^ игры. Это произойдет потому, что для каждого х( среди t/j обязательно найдется и уь реализующее mmF(xh у), поскольку оно обязано ~у — удовлетворять вместе с #/B08) или B09), а все у; удовлетворяющие им, перечислены. _ Можно было бы обойтись без определения всех уг (все л:р, конечно, обязательны); но тогда для каждого х необхо-
§ 17] НЕОБХОДИМЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ 227 димо численно получить тш(лс/, у) и притом, конечно, "у глобальный. Отсюда видно, что задача определения максимина в общем случае сложна даже при одномерном векторе х и скорее всего должна решаться своими методами в каждом конкретном случае. При этом не следует забывать пользоваться теоремами IX и X, упрощающими возможные стратегии противника и их богатство при определении min F (х, у)> __ _ _ у а, значит, и max min F(x, у). а а Применение теоремы XXVI отвечает выше сформулированному принципу отношения к стратегиям оперирующей стороны и противника. Как видно из условий теоремы, возможности противника не умаляются, в то время как оперирующая сторона выбирает только одну величину. Последнее легко преодолевается для общего случая F (я, #) при записи х( = ха{. Придавая системе а,Bа? = 1) дискретные значения и находя максимин по х и 1/, найдем затем общий максимин как максимальный по {а(} из максиминов по л: и ~у. Дискретизация (даже сколь угодно грубая) по {а,} не противоречит приведенным выше принципам, поскольку возможности противника учитываются при этом достаточно полно. Однако интересно получить необходимые условия и для произвольного вида вектора х. Для того чтобы стал понятным путь, по которому такое обобщение может происходить, отметим, что оба варианта а) и б) необходимых условий в теореме XXVI могут быть записаны в виде одного: Существуют р и рх (не обязательно различные между собой) и Х?[0, 1] так, что Действительно, если выполнено а), то, взяв Х=1 и »/?, выполним указанное условие. Если выполнено б),
228 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. Ш и хоть одно из чисел F'x(xQ, /?), Рх(х0,р^) равно нулю, тогда действуем аналогично; если же они оба отличны от нуля и не равны между собой, то всегда найдется нужное X. Обратное еще более очевидно: если рх и р различны, то уже выполнено б), а если они совпадают, то при любом X получаем F'x(xQ, p) = 0. Таким образом, если пренебречь одним неясным случаем Fx(x0, Р) = Р'х(хо> Pi) Ф 0» то напрашивается мысль, что обобщение на векторное х нужно искать в аналогичном виде. И в самом деле имеет место Теорема XXVII. Пусть Мо и N—ограниченные замкнутые множества соответственно п- и т-мерных пространств; пусть, далее, F (х, у) и Fx, (х, у) при 1 ^ i ^ п, непрерывны на Мо х N. Тогда для оптимальности внутренней точки хо?Мо необходимо существование неотрицательных чисел rlf ..., гп+1 и стратегий у19 ..., уп+1 (не обязательно различных между собой) таких, что B10) i=l п+1. ' V ' Доказательство этой теоремы довольно громоздко; поэтому приводить здесь его не будем, отослав к статье автора «Необходимые условия максмина» в «Журнале вычислительной математики и математической физики». Используя необходимые условия для mmF{xQi у) и учитывая возможность попадания х0 или yt на границу, легко получить из B10) необходимые условия, совершенно аналогичные B01), с той лишь разницей, что первые условия П + 1 _ _ _ на производные по xL будут относиться к ^rtF(x9 yt), а вторые должны быть выполнены для всех у-г Кроме того, необходимо F(x0, yi) = F(x0> г/х). Легко увидеть, что количество условий при этом совпадает с количеством неизвестных, позволяя тем самым в принципе определять х0, «подозреваемые» на оптимальность одновременно с определением F(x0, yt), которое для оптимального х0 и дает искомый максимин. К сожалению, условия B10) при сколь-
§ 17] НЕОБХОДИМЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ 229 ко-нибудь большой размерности вектора х0 становятся громоздкими. Следует поэтому использовать те или иные априори известные свойства F(x, у) для их упрощениям В частности, если заранее известно, что minF(x, у) yeN может реализоваться разве лишь в / < п точках, то, очевидно, условия B10) заменяются на следующие. Необходимо существование неотрицательных чисел г19 ... t Г| и не обязательно различных стратегий противника #i, • • •, ~Уь таких, что 1 1 _ _ _ F(x0, у;) = тт?(х0, у). B10') yeN Например, если известно, что F(x, у) унимодальна по у, т. е. минимум реализуется только в одной точке, то необходимые условия оптимальности становятся тождественными с необходимыми условиями на седловую точку типа B01). Другой путь (работы Б. Н. Пшеничного и В. Ф. Демьянова) основан на использовании производных по направлению для функции г|)(я) = minF(х, у). И Демьяновым по этому поводу доказана, например, следующая весьма интересная теорема. Теорема XXVIII. Пусть F(x> у) непрерывна вместе с ограниченными производными ~F'Xi(x, ~y) на произведении ограниченных замкнутых параллелепипедов Еп и Ет соответственно п-мерного пространства векторов х и т-мер- ного пространства векторов у. Пусть, далее, имеется произвольный единичный вектор g = {ax, ..., ап}, и пусть множество R(x) состоит из точек у0У для которых F(x, у). У* Em Тогда у функции г|э (х) существует производная по любому направлению g, не выводящему из Еп
230 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. Ш при достаточно малых А > 0), т. е. существует —¦=— = 11ш ¦ т при dg д.о А А> о Для этой производной справедливо равенство ^= min [aX (л = min Г^Д.г]. B11) В B11) для краткости через >—_ v' обозначен вектор {F'x^, а квадратные скобки означают скалярное произведение. Перейдем к доказательству теоремы, подразумевая все время, что речь идет только о направлениях, не выводящих из Ет. Прежде всего, очевидно, что R(x)—ограниченное замкнутое множество. Согласно определению $(х) i;.^«» если последний предел существует. Имеем для любого у' € Ет, поскольку А > 0, min Л Отсюда для всех yf Ш min Потому Ш5 min A
§ 17] НЕОБХОДИМЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ 231 Но при у\ не принадлежащем R(x), ii ибо _Л2 Поэтому Д-*о Д Д- о #<=?„• Д>о Д> о min Hm v ' *' Г7 v ' Vf = min vl' g/ , g B12) Отметим, что при выводе B12) использовалось по существу только условие существования у F(x, у) производной по любому направлению g, а не дифференцируе- мость этой функции. Сложнее обстоит дело с неравенством обратного типа. Имеем прежде всего ^-2 = -т- min Ф(А, й=?(х, y)-frffl + f dF^x+^yUx. B13) Напомним, что производная по направлению —^-^ - Несогласно условиям равномерно непрерывна по х и у в Введем множество Yu<zEm такое, что при г/ g Kle F{x, у)-я|?( по определению ty(x)). ^ Очевидно, R(x)c:Yи_и_при е—>0 Yu—+R(x) из-за непрерывности функции F(x> y)> на ограниченных Еп и f1^. Поэтому для любого ех найдутся е и А такие, что для
232 ОПИШАЛЬЙЫЕ СТРАТЕГИЙ [ГЛ. lit любого у€ Yu найдется у' € R (х), так что причем если т^А, то dF&+xg9 у) dg dg Имеем поэтому при min inf Ф(А, #)>_inf inf inf inf 7'e B14) С другой стороны, при где <oo. Далее, из-за R(x)czYu и F(x> y) = ty(x) при y?R{x) inf Ф(А, t/)^ inf Ф(А, t/) = д inf_ f- Поэтому, если А ^ тт, то jnf Ф(Д, y)<jnf Ф(А,
§ 17] НЕОБХОДИМЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ 233 и, следовательно, inf (D(A,#)-jnf Ф(А,#). B15) уеЕщ У^У±е Таким образом, при фиксированных ех и е и достаточно малых А из-за B14) и B15) ^ inf Ф(Ь,~У)> inf д7{\7)-2гг. Д^€Ет 7'<=* G) д& В силу определения \|) (л: + kg) до А > О Произвольность elf равенство — 1 у = — _ , gf dg L дх J и B12) доказывают существование у ty(x) производной по любому направлению g и равенство 5>- min Теорема XXVIII дана в формулировке В. Ф. Демьянова. Однако из доказательства легко усмотреть, что теорема остается справедливой и в том случае, когда у есть точка любого замкнутого компактного пространства, а не только Ет. Эффективность этой теоремы, вернее, формулы B11) уменьшается необходимостью знать все множество R(x). Между тем определение г|)(л:), а значит, и ее производных по направлению требует знания только величины minF(x9 у), а вовсе не всего множества реализаций этого минимума. Это снова те же затруднения, как и при использовании теоремы XXVI. Тем не менее значение теоремы XXVIII, видимо, велико. Из нее, в частности, следует, что если R (х0) состоит из одной точки //0 и ~xQ не лежит на границе Еп, то ty (x0) дифференцируема и дАШТ(^)
234 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III Но тогда, еслих0—наилучшая гарантирующая стратегия, то необходимо о « g*?s> ==а/7 Ц. Уо), что вполне со- дх дх впадает со смыслом первого варианта условий B07). Отсюда видно, что теорема XXVI есть следствие теоремы XXVIII, а первые два варианта B07) соответствуют случаям, когда R (х) содержит только одну или хотя бы две точки. В общем же случае из теоремы XXVIII получается следующее необходимое условие оптимальности стратегии х0 (при условиях теоремы XXVIII). _ Следствие. Для того чтобы х0 была оптимальна, необходимо, чтобы производная ty(x) no всем направлениям в точке х0 была неположительна. Иначе говоря, необходимо sup дЛШ)== sup min [^(^^,g1<0. B16) 7 <>g 7^K)L дх J Эффективность этого условия ограничивается опять- таки тем, что для проверки его необходимо знать все R(xQ). В этом смысле B16) менее удобно, чем B10), поскольку в последнем участвует не всё R(x0), если оно содержит более п +1 точек. Кроме того, большее удобство B10), вернее, его модификации типа B01) состоит в отсутствии операции min и, значит, в большем удобстве для отыскания х^. С другой стороны, условия B16) более точны и, следовательно, более пригодны для контроля. Все сказанное исчерпывает известные нам результаты по необходимым условиям для максимина. Теоремы XXVI—XXVIII дают принципиальную возможность в сочетании с указывавшимся ранее перебором определить оптимальную х0 и само значение максимина, когда множество стратегий М = М0. Что касается случая М = Ми, то, как мы уже знаем, здесь существует абсолютно оптимальная стратегия xaf определяемая с помощью A99)—A99'). Что касается наилучшего гарантированного результата, то он здесь равен min max F(x, у)
§ 18] АППРОКСИМАЦИЯ ИГР И МОДЕЛЕЙ ОПЕРАЦИЙ 235 и может определяться по только что перечисленным теоремам. Как видим, здесь задачи определения оптимальной стратегии и оценка ее эффективности распадаются на две отдельные задачи, как это указывалось в начале настоящего раздела. § 18. Аппроксимация игр и моделей операций Для проведения на практике приближенных исследований, а также для получения ряда теоретических результатов, нужно иметь четкое представление о близости игр или моделей операций. Как и всегда, такая близость может существовать или по критерию эффективности (платежу), или по множеству стратегий или по обоим этим факторам. При этом всегда встает вопрос о близости оценок эффективности и оптимальных решений. Основу для суждений по этим вопросам могут дать две простые теоремы, приведенные в этом параграфе. Теорема XXIX. Пусть на произвольных множествах MQ = {г} и No = {v\ заданы два критерия F (г, v) и Fx (z, v) такие, что | F (г, v)—Fx (г, d)|<8 при любых z€Mouv?No. Тогда не более чем на г отличаются и оценки эффективности произвольных стратегий z = z(v), т. е. F(lv)- inf FX{1 v)\ v€N0 I Точно так же не более чем на е отличаются и оптимальные гарантированные результаты операции (макси- мины) по любому множеству М стратегий г, в том числе и по смешанным стратегиям. Вообще sup inf F(z, v)—sup inf /^(г, v) v€N zeM veN для любых множеств стратегий М и N обоих игроков, каждая пара z и v которых определяет z и v, а значит, и результаты игр. Доказательство. Пусть z = z(v) произвольна, а последовательность vn такова, что inf F[z{v), ir]= Hm F[z(vn), vn].
236 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [гЛ. III В силу условия теоремы veN0 Переходя к пределу при п—> оо, получим inf -F [г (»), »]> inf Л [г (и), о] — е. 0€ЛГ бЛ^ В силу полной равноправности F и Fx имеем аналогично inf Л [2(о), ^]> ml F[z(v), v]—&. Эти два неравенства эквивалентны первому утверждению теоремы. Для доказательства второго возьмем последовательность zk такую, что sup inf F{z, v)= lim inf F(zk9 v). 7 Но, как уже доказано, inf F(zki v)^. inf Fx{zk, p) + e^ sup inf и, следовательно, переходя к пределу, получаем sup inf F(z, v)^i sup inf F1(zt v) + e. zgMvzNq z zM veN0 Имеет место, конечно, и неравенство, получающееся перестановкой F и Fx\ совокупность этих неравенств доказывает е-близость максиминов. Если множество М состоит из смешанных стратегий ф(г), то платежи соответственно будут равны , v)d<p(z); ^ По теореме о среднем, очевидно, , v)-Fx(z9 о Таким образом, новые критерии эффективности удовлетворяют условиям теоремы и, как показано, не более чем на е отличаются оценки эффективности и наилучшие
§ 18] АППРОКСИМАЦИЯ ИГР И МОДЕЛЕЙ ОПЕРАЦИЙ 237 гарантированные результаты и на множестве смешанных стратегий. Наконец, последнее утверждение теоремы, очевидно, следует из уже доказанных результатов, если вместо Мо и #0 введем в рассмотрение М и N, что допустимо по условиям теоремы. Замечания. 1. Теорема не утверждает близости самих оптимальных стратегий, да это и неверно. Пример: F = y-\-ex, Fx = y— e,v при MQ = N0^=[—1; 1]. Действительно, при любом е > О для F оптимально х=1, а для Fx оптимально х =—1. Это обстоятельство не уменьшает практической значимости теоремы, поскольку гарантируется для ошибочно найденных (при замене F на Ft) оптимальных стратегий результат, отличающийся от истинно оптимального не более чем на е. 2. При замене F на F± не сохраняются, вообще говоря, факты наличия седловой точки и абсолютной оптимальной стратегии, однако максимин от минимакса будет отличаться не более чем на 2е, а вместо абсолютно оптимальной стратегии появится стратегия г\, реализующая максимум по 2 для любых v с точностью до е« 3. Если среди неконтролируемых факторов v есть случайная составляющая, то осреднение по случайностям ничего не изменит в результатах теоремы аналогично тому, как это было для смешанных стратегий. Теорема XXIX даст нам в дальнейшем возможность доказать основную теорему непрерывных игр. Сейчас же используем ее для строгого обоснования приближенной замены операции с непрерывными множествами Мо и N векторов х и у на операцию с дискретными множествами Мо и Л/д для использования численных методов. Потребуем лишь ограниченности Мо и N п непрерывности критерия F(x, ~у) и, взяв произвольное^, разобьем содержащие Мо и JV параллелепипеды М и N (а такие имеются из-за ограниченности Мо и Л/)_на столь малые параллелепипеды, чтобы колебание F(x, у) на каждой паре из них не превышало е. Возьмем теперь на каждой паре таких параллелепипедов Fx (x, у) постоянным и равным значению F (хп> ут) на центрах хп и ут этих параллелепипедов.
238 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III По построению имеем, конечно, \F(x, ~у)— Тх(х, у)\<г при ~х?М0 u~y?N. В силу только что доказанной теоремы рассмотрение операции с критерием F(x, у) можно с точностью до е заменить на рассмотрение операции с критерием F^x, у). Но для последней все значения х, принадлежащие одному и тому же параллелепипеду, совершенно равноценны; то же относится и к неопределенным факторам у. Беря в качестве «представителей» этих параллелепипедов соответственно хп и ут> придем к операции с критерием Рх {хп, ут)= = F(xn> Ут)> заданным на конечных множествах М§ и AfA значений хп и ут*). Полученные здесь оптимальные стратегии будут е-оптимальны для исходной задачи. Вторую теорему удобнее представить в ином виде. 00 СО Пусть No= 2 Nj% Mo= 2 Mj> причем NjC:Nj+19 Mt с Mi+1. Пусть, далее, дан любой критерий ^(г, v) при z?M0 и v?N0. Наряду с этой операцией рассмотрим также операции с тем же критерием, но с множеством контролируемых и неконтролируемых факторов Mt и Nj. Теорема XXX. 1. Всегда имеет место: inf F(zy v) = lira inf F{z, v), ) veN0 i^coveNj I B17) sup F(z9 y) = lim sup F(zy v), I sup inf F(z, v)= lim sup inf F(z, v) = z€MoveNo i-+* z€Mi vtN0 = lim sup lim inf F(z, u)< lim sup inf F(z, v), B18) / -* oo 26 Mi / -> oo V б Nj i, / -> oo 2€ Mi V € Nj inf sup F(z, v)= lim inf sup F(z, v)^ eNzeM joo v€Nj zeM0 lim inf sup F(z,v). B18') i, /-*qd vsN zeM *) Если центры хп или ут не входят в Мо или N, то они могут быть заменены любыми другими точками параллелепипедов.
§ 18] АППРОКСИМАЦИЯ ИГР И МОДЕЛЕЙ ОПЕРАЦИЙ 239 2. На MQxN0 имеется седловая точка (zc, vc) тогда и только тогда, когда она является седловой точкой для всех M(xNj при достаточно больших i и /. То же относится и к абсолютно оптимальной стратегии га. 3. Если L= sup inf F(z> 0)^00, то для любого е М N всегда найдутся УН? с Mi такие, что Mf 2 М? = М0 и /6, /е, для которых при i^it\ / p inf F(z, v)— sup inf F(z, t;)|<e. oveNo z€MeveNi ' 2 I sup inf F(z, v)— sup inf F(z, t;)|<e. B19) \MN N L= +00, mo вместо B19) для любого Т верно sup inf Т7 (г, и) ^ Г /г/ш t ^ /Г"> / ^ /г- Наконец, если L = —00, mo верно sup inf F(г, у)< — T; i> tr; /> /r. ZM V€Nj Доказательство. 1. Первое равенство, очевидно, следует из того, что для любого б существует и8, для которого существует /8 так, что vb?Nj при /^/V inf F(z~ o)> inf ^(гТ v)^F&vb)—б> inf ^(гТ у) —S. О € W j о € No N Второе равенство доказывается аналогично. Обозначив Fi(z> v)= mf F(z> v) и применяя последовательно уже $N 0 доказанные равенства, получим третье равенство. Заключающее его неравенство следует из того, что для любого S существует г8, для которого sup inf F(z, i>)< inf F(zb, у) inf F(zby y) + 6< sup inf F(z, v N M N при всех / и i таких, что М^г*. Последнее утверждение первой группы аналогично третьему. 2. Если (гс, vc)—седловая точка, то F(zct v)^F(zc vc)^F(z, vc) при любых z?M0 и v?N{). To же неравенство будет тем более выполнено при z?M? и v g Л^. Поэтому (гс, ус)
240 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III будет седловой парой для всех Мt и N/9 которые соответственно содержат zc и vc; по условиям теоремы такими являются все М( и N;- с достаточно большими номерами. Обратное столь же очевидно, ибо если zc, vc являются седловой точкой во всех NjXMi при i^i0 и /^/0, то для всякой пары z, v найдутся среди этих номеров такие, что г?М[у v^Np но тогда F{z, vc)^F{zc> vc)^F(zc, v). Поскольку z и v—любые из Мо и JV0, то zc, vc есть седловая точка в MQxN0. Совершенно аналогично доказывается и утверждение об абсолютно оптимальной стратегии. 3. Если L== sup inf F(z, v) = +00, то утверждение 3 2€ Mo f6Af0 тривиально. Если L= —cx>, то при Mf=M/ требуемое есть следствие B18') и того, что максимин по М{ и Nj всегда меньше минимакса (лемма A60)). Пусть теперь L конечно. Зададим е и обозначим через М* множество тех z, для которых при / ^ / inf F(z, »)> inf F(z, u)> inf F(z% v)—e. N veN0 N В силу первого утверждения теоремы каждое z при- 00 надлежит какому-либо М* и, следовательно, 2 М*=Мп. Очевидно также, что М*сМ*+1. Обозначим через Mf общую часть М/ и М*. Очевидно, что Mf с Mf+ь Кроме того, каждое z принадлежит всем Mi и М*у начиная с достаточно больших i9 поэтому Пусть z?Mf, тогда по определению M*zd М? inf F(z, i>)> W ^ (г, t;)—e при всех j ^ i. Но отсюда для любых i и / ^ t sup inf F(e, y)^ sup inf ^(г, у)^ sup inf F(z, v) — e. М N N **N
§ 18] аппроксимация игр и моделей операций 241 Но, применив к системе Mf B18), получим, что существуют i0 и /0 такие, что при i > i09 j > /0 sup inf F(z, y)> sup inf F(z, v)—e. ¦ус ме veNj Z€MO V€N0 Объединив полученные неравенства, получим последнее утверждение теоремы. Теорема XXX довольно общая и имеет качественный характер. Утверждаемая в ней возможность аппроксимации оценки эффективности любой стратегии позволяет производить сравнение конечного числа стратегий и выбор из них наилучшей. Однако неравномерность стремления к пределу не позволяет производить аппроксимацию для определения максиминов и минимаксов; именно поэтому в B18) появляется неравенство. Третий раздел теоремы утверждает, что эту неприятность можно избежать, перестроив множества Mt (или Nt для минимакса). В качестве приложения этой теоремы докажем следующее. Следствие. Если F(x, у) вогнуто-выпукла, непрерывна и ограничена сверху или снизу на MoxN, где 00 00 Мо— 2 Л1/ и N = 2 Nj, а каждое из Mt и Nj выпукло, замкнуто и ограничено, причем Mt a Mi+1, Nj с N/+l, то на MoxN у F(х, у) есть, хотя бы обобщенная, сед- ловая точка. Докажем сначала утверждаемое для MtxN при любом / и без предположений об ограниченности 7 (л:, у). Действительно, на MtxNj всегда есть седловая точка по теореме § 16. Образуем для случая M0 = Ml = Mi' множества Mf* согласно третьему утверждению теоремы. Имеем тогда sup inf F(x> у)— sup inf ~F(x, у) <е при всех достаточно больших V и /. Но по B18') и B18)
242 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III имеем ( 2 М?>= Мг V 1 inf sup F(x, y)= lim jnf sup F (x9 */) = 1/eN xeMi /-00 yeNj xeMt = lim sup inf F(x,y)= lim lim sup inf F(x, y). /-• xe / '' J Поэтому, конечно, _sup inf ^(л:, у)— inf _sup yeN ~y€N , y) что в силу произвольности е доказывает требуемое. Пусть теперь T()F, ]j) ограничена снизу. Учтя тогда конечность inf sup F (xf у) из-за ограниченности Mt и * = N и ограниченности F(x> у) снизу, образуем множества аналогичные ранее образованным Mb так, что 2 inf sup F(x9 y)~Jni sup F(x, y) для достаточно больших /' и I. По B18) и B18') имеем sup inf F (х, у) = lim sup inf F (x, y) = = lim mf sup F(x, ~y)= lim inf supF(x, ~y). / l I' ~ ~ Отсюда, благодаря конечности inf sup F (*, у) и про- извольности е, получим требуемое равенство inf sup F (x, у) = sup inf F (x, y). Если ^(л:, у) ограничено сверху, то—F(x, у) ограничено снизу, и этого достаточно для использования уже доказанного.
§ 19] ОСВОБОЖДЕНИЕ ОТ ОГРАНИЧЕНИЙ 243 § 19. Освобождение от ограничений. Игровой смысл множителей Лагранжа Как уже говорилось, множество М стратегий х обычно ограничено как видом используемых функций х (у), так и ограниченностью активных средств, что часто выражается в виде тех или иных неравенств на контролируемые факторы х. Удобно представлять в связи с этим множество М заданным совокупностью условий: x?MczP\ Ф,(л:)>0; 1<*</. B20) Здесь Р—произвольное множество, на декартовом произведении которого с N задана F(x, у). Что касается ФД?), то это или функционалы или операторы вида Ф/[*(#)]; в последнем случае неравенства фДдг)^О трактуются как выполняющиеся тождественно по y?N, поскольку они по существу являются обязательными для оперирующей стороны требованиями Ф/ (х) ^ 0. В дальнейшем для простоты записи максимины на PxN будут часто писаться без указания этих множеств. Нахождение наилучшей гарантирующей стратегии оперирующей стороны при наличии ограничений вида B20) сводится путем изменения критерия эффективности и введения добавочных неопределенных факторов к такой же задаче, но без ограничений. Такая возможность вытекает из следующей теоремы*). Теорема XXXI. Пусть стратегия х0 реализует max inf ?(х, у) при ограничениях B20), и пусть векто- ры [х = {ц,,} неотрицательны, /п. е. уц ^ 0. Тогда х0 реализует г / 1 maxinf \F(x, y)+ 2 M'A-(^) > — °°, B21) где х?Р, y?N, a \i ограничено лишь тем, что Наоборот, если ~х реализует B21), то оно реализует и *) F (х, у) предполагается принимающей только конечные значения.
up inf \f(x, ~y)+% |1/ФДх)] = sup inf F{x9 ~y)9 B21') 244 оптимальные Стратегии [гл. ш max inf F(x, ~у) (при условиях B20)). Всег$й xeM~y<=N sup если последняя величина имеет смысл (ограничения B20) непротиворечивы). Если F (х, у) ограничена снизу и B21) равно —оо, то B20) противоречивы . Если B20) противоречивы и F(x, у) ограничено сверху, то B21) равно—оо. Доказательство. Пусть х0 удовлетворяет B20) и 'ml F(x0, у)^ inf F(x, у) при всех х, удовлетворяю- y~€N ~ щих B20). Тогда inf \F(x0^)+^lxiOi(x0)] = mlF(xory)9 B22) у> ii>o L '= 1 J ибо в силу B20) и \л^0 левая часть всегда не меньше правой, а при jx = O функция в правой части равна функции в левой. Точно так же при любых х, удовлетворяющих B20), _inf \f(x9 H)- B23) у Если же х не удовлетворяет неравенствам B20), то хотя бы для одного iQ Ф/о (л) < 0. Тогда, полагая fx/o -+ оо, а остальные |i,- = 0, очевидно, получим _ inf \? (х, "у) + S |iA (x)] = -оо. y,n>oL /=i J B24) Но из B22)—B24) следует max inf F (х> у) = inf F (х0, у) = с, Ф (л:)>0 у у = max inf x y,
§ 19] ОСВОБОЖДЕНИЕ ОТ ОГРАНИЧЕНИЙ 245 Обратно, если стратегия х0 реализует B21), не равный —оо, то она удовлетворяет B20), ибо иначе для нее будет справедливо B24), что противоречит предположению о реализации максимина. Если же х0 удовлетворяет B20), то для нее выполнено B22) так же, как и вообще для всех х, удовлетворяющих B20). Но тогда, поскольку л'о реализует B21), имеем inf F(x0, y)^inl~F(x, у), у если только х удовлетворяет B20). Отсюда и следует второе утверждение теоремы. Аналогично доказываются и все остальные утверждения. Разумеется, теорема остается справедливой при частичном «переводе» условий в критерий эффективности. Таким образом, имеется возможность довольно гибкого маневрирования постановкой задачи. Фиксируя сначала у и рассматривая sup F (х, у) и применив только что доказанную хеМ __ теорему с последующим взятием нижней грани по y?N, очевидно, получим inf sup F(xy y)=mf sup inf \F(x, y)+2 |а,-Ф/(х) ' yeNxeM yuNx€p\x>0L ' = 1 J B25) К сожалению, аналогичного полного результата при поиске седловой точки F (х> у) (если она имеется) нет. Однако достаточные условия сохраняются. Теорема ХХХГ. Если у критерия эффективности /= 1 есть седловая точка [х0; {у0, ц-0)] при максимизации критерия по х и минимизации по у и \i, то (хо> у0) есть седловая точка F'(х, у) при условиях Ф,-(х)^0. Аналогичное утверждение верно и для случая обобщенной седло- вой точки.
246 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III Действительно, по свойству седловых точек имеем для любых у, [i и х s F(x9 у0) + 2 |1,0Ф, (х) <F(x0, у0) + 2 ^.оФ, (х0) < <?(*о, ?) + 2^>/(*о). B26) Полагая в правой части неравенства ji/ = 0 и y = y0J имеем __ _ s _ т. е. S^/оФД^ Но по предыдущей теореме х0 есть наилучшая гарантирующая стратегия для F (к, у) с условиями Ф^л^^О и, следовательно, ФДл^^О. Поскольку [х^О, то имеем, следовательно, 2и,-0Ф,-(Я>) = 0. B27) Тогда написанные выше неравенства B26) дают при ^,• = 0 и произвольных х и у, удовлетворяющих условиям ^ s _ F (I yQ) ^F(x, у0) + S (х^ФД^) <F (^0, ~у0) < F (х0, у). Это и доказывает первое утверждение. Из общего неравенства A60) следует для L (х, y,v) = F (Я у) + S jnf sup jnf L (xy у, (д-Х _ inf_ sup L (x, f/, fi), причем левая часть не меньше, чем sup inf L(x, у9 \х).
§ 19] ОСВОБОЖДЕНИЕ ОТ ОГРАНИЧЕНИЙ 247 Если последняя величина равна правой части только что написанного неравенства, то по B2Г) и B25) совпадают и sup inf F(x,y) и jnf supF(x,y), что и закан- чивает доказательство теоремы. Применительно к поиску обычного максимума функции ~F (х) при условиях ФДя^О теорема XXХГ означает следующее. Для того чтобы х0 реализовало максимум, достаточно существование вектора \х0 такого, что max [F (х) + 2 ц/вФ, (х)] = I (*,) + 2 |1/.Ф, (*.) F (х.) + S |1/дФ (х.) = min \f (x0) + 2 ^Ф, (хоI . Из теоремы XXXI следует, что задача о поиске максимума любой функции / (х) при условиях B20) эквивалентна задаче нахождения наилучшей гарантирующей стратегии для критерия эффективности / (х) + 2 pfl>i (*) = ^ С*» М^)» i1 где л: уже не стеснено неравенствами B20), а \^ Это совершенно общее утверждение придает «игровой» смысл множителям Лагранжа как неопределенным факторам в задаче поиска оптимальной стратегии для формы Лагранжа. Наличие ограничений оказывается эквивалентом появлению «противника». Однако это интересное общее свойство будет достаточно эффективно лишь тогда, когда есть удобные алгоритмы для поиска наилучшей гарантирующей стратегии. Рассматриваемому общему приему введения формы Лагранжа можно было бы дать еще трактовку такого типа: необходимо и достаточно, чтобы существовали \*>0(х) такие, что max [f(x) + 2 H,-o (x) Ф,- (x)] = / (x0) + 2 l*/e (xe) * i=l 1=1
248 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III При этом \хо(х) есть \i{x), реализующая (Х>0 Но тогда при Ф; (х) < О \xi0 (х) = оо. Поэтому для Ф/(#) < 0 следовало бы отказаться от точной реализации min [/ (х) + 2 pfii (*)] • Видимо, различ- ные варианты необходимых условий и рассматривают слу- __ s __ чаи, когда у f{x)+ ^Н^Ф/ (x) = L(xt \i) есть седловая _ точка или когда можно подобрать 1*ч0{х)Фсо. Приведем примеры, когда L(xy \x) имеет седловую точку. Теорема о вогнуто-выпуклых функциях дает основу для таких ситуаций. Действительно, если воспользоваться ею, то при ограниченных х и jx^O седловая точка у L(x, \i) будет всегда, когда функции f(x) и Ф[(х) вогнуты и непрерывны; тогда и L(x, |х) вогнута по х, а по |i в силу линейности—выпукла. Остается только сформулировать условия, когда при расширении границ х и \i хотя бы одна из седловых точек остается в ограниченной области и, значит, есть фиксированная седловая точка при всех х и \i ^ 0. В связи со сказанным имеют место две теоремы. Теорема XXXII. Если f(x) непрерывна и вогнута на множестве Е — {х^О}, а ФДх) линейны, то для того, чтобы х0 реализовало max f(x) при ФД^^О, необходимо и достаточно, чтобы существовал \io^O такой, что 1 _ _ _ _ 1 _ (х0У \х0) есть седловая точка L (х, [х) = / (х) + 2] ^-Ф; (х) при Теорема XXXIII. Если f(x) и Ф/(х) непрерывны и вогнуты на выпуклом Е и для любого |л > 0 (т. е. когда все Ц/>0 и хоть одно \it > 0) существует х'?Е такой, что 2 М^Ф/СО > 0 (например, все ФДх') > 0), то х0 i _ _ реализует тах/(х) при ФДл:)^0 тогда и только тогда,
§ 19] ОСВОБОЖДЕНИЕ ОТ ОГРАНИЧЕНИЙ 249 когда^есть такой |л0, что (х0> \i0)—седловая точка L(x, \i) при х?Е и [Г>0. Достаточность того, что (*0, |л0) есть седловая точка, является следствием теоремы XXXV. Остается доказать необходимость. Ограничимся доказательством для второй теоремы, отослав по поводу первой к монографии Карлина. Пусть х0 реализует указанный максимум. Тогда по теореме XXXI х0 есть наилучшая гарантирующая стратегия для L(x, \х), причем max min L(x, \*>) = f(x0). ~ jl __ _ _ _ Если x и [л^О ограничены, т. е. |х|^Л1, N^\i, то в силу условий у L(x, \л) есть седловая точка, то есть имеются наилучшие гарантирующие стратегии х'о и \i'o и max min L(x, \i)= min max L(x9 \i) = L(x'o, [x^). |j| N >]x>0 N> JlT>0 \| (Здесь и в дальнейшем будем опускать, как само собой разумеющееся, указание на х?Е.) ___ Пусть теперь Nk—такая последовательность, что inf max L(x, fx)= lim min max L(x, \i) = H>o\x\^M k^™ Nk>~v>0 \~x\^M == lim max _ min L(x, \i)= lim _ min L [x'o (k), ]x], где x'Q(k) есть х'о для N = Nk. Из-за ограниченности х0 (k) у этой последовательности есть предельная точка х'0(М). Поэтому lim k -*¦ со Пусть р,е таково, что L(x,(M)9 ji.X_inf L[x'0(M), Д+е. и > о Тогда при достаточно большом k _ min L [x0 (k), |i] < L [x'o (k), (Te] = L [x'o (Af), (Ie] + 9,
250 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III где |9[<8. Отсюда следует, очевидно, что lim _ mm L [x'o (k), jx] < jnf L [x'o (M)9 JI] + 2e. k Поскольку, с другой стороны, lim min L [x'o (k), \i] ^ lim _ inf L[x'0(M),p]=_inl то в силу произвольности e lim _ min L [x'o (k), jl] = inf L [x'Q (M), jx]. k Но тогда по определению последовательности Nk max inf L [x, |i] > inf L [x'o(M), \i]= inf max L [x, |i]. Однако обязательно и обратное неравенство; поэтому max inf L [xf \i] = inf max L [x, \i] = inf L [x'o (M), \i]. Если теперь^Л1>\х01, то f(x) при |"iKM достигает максимума в х0 и в силу теоремы XXXI max inf L [х, [л] = _inf L [х0, р] = / G0). |1| Фиксируем любое такое М, и пусть для заданного в (i (е) таково, что max L [х, |Г (е)] < jnf max L [х9 \i] + е = / (^0) + е. Тогда имеем для любого х при | х \ Отсюда i'=x
§ 19] ОСВОБОЖДЕНИЕ ОТ ОГРАНИЧЕНИЙ 251 Здесь [г*, (е) = ) —, Л—ограниченный вектор. Пусть теперь 8у—>О и |Ху—*оо. Ограниченное множество векторов |Х/(е) имеет хотя бы одну предельную точку [л*; она^ очевидно, больше 0, так как max р* (в) = 1. Пусть (А/Де) такова, что |X/t (е) —* \i* при ]г —* с». Для любых х имеем при любом б и }х > /0 (х, б) max (А/л(е) \ 2 И-*®/W—^ 2 [Ф* W] Г ^ / (^о)—f(x) + 8* i U = l * = 1 J Пусть теперь а:' таково, что 2 Iх* Ф/ (*') = с > 0. Согласно условию на Ф/(х) это имеет место. Будем предполагать /0 столь большими, что А1/§>|л:'|, и б таким, что =i Отсюда, очевидно, имеем т. е. векторы ^(е) ограничены, а, значит, имеют хотя бы одну предельную точку при /\ —>- оо. Пусть это будет ]i0 и пусть /2 подпоследовательность /^ такая, что \ij2 (е) —> (х0. Тогда прежде всего sup L(x, \i0)^ inf sup L (xt >sup_inf L (x, jl) = / (ж,). B28) С другой стороны, из-за |Aj, (в) —¦* [i0 и М/я—^ сх>, При /а —> СХ) ДЛЯ ЛЮбоГО X L (х, ji0) =* lim L \x, jl/, (e)] S Но тогда и
252 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III и тем более _inf sup L (х, |Г) < sup L (х, jx0) < / (Io). ц>0 х x Отсюда, из B28) и теоремы XXXI следует min sup L (х, \х) = sup L (х, |Г0) = / (х0) = р.^ О Г х = max_inf L(xy \i)=inlL(xoy [а), х д > О [Г> О что и доказывает теорему. Задача отыскания min / (х) при условиях Ф,. (х) ^ О сводится к рассмотренной задаче поиска тах{—/(*)}. Тогда и L (x, jl) = —/ (х) + 21* A (*). Если использовать обратную по знаку L* (х, \х) = ==/W""SliAW»-.T0 3^ecb по х ^* будет уже минимизироваться, а по (х максимизироваться. L*(xt (л) можно, очевидно, записать также в виде /(лО + ^^/ФД*)» если Ф*(х) = Ф,.(х)<0. Тогда Ф*(а:) должны, равно как и /(х), быть выпуклыми функциями, чтобы был полный аналог теоремы XXXIII. Ограничение в условиях теоремы, требующее для \i > О существование х такого, что ^\^(Ф{{х)> 0, невозможно снять полностью, как показывает пример f(x) = x; Ф(х) = — х2\ оптимальное х = 0 (единственное допустимое значение). Но х—\хх2 не имеет седловой точки. Однако практически это ограничение несущественно, поскольку, прибавив ко всем Ф,- (х) произвольно малое е, можно обычно считать ситуацию мало изменившейся в смысле оптимального х. Между тем для новых Ф, (х) ~ = ФДл;)-Ье, если, конечно, исходная задача имела хоть один допустимый вектор х\ имеем ФДх') > 0, что и обеспечивает применимость теоремы XXXIII. _ Теорема XXXII в применении к линейной f(x) дает возможность немедленно и просто доказать известную теорему двойственности линейного программирования; но это лежит в стороне от основного направления книги,
§ 19] ОСВОБОЖДЕНИЕ ОТ ОГРАНИЧЕНИЙ 253 Вернемся к обсуждению вопросов, связанных с общей теоремой XXXI. Отметим, что условия Ф,- (х) > 0 A < i < /) можно записать в виде одного условия и (х) = min Ф, (х) ^ 0; если х = х9 то и (х) вогнута, если вогнуты все Ф/(х). Ясно, что уменьшение размерности вектора \л до 1 должно как- то облегчать поиск максимина соответствующей формы Лагранжа. Неудобство этой более экономной записи состоит в ухудшении гладкости и(х) по сравнению с Ф/(х); и(х), как правило, уже недифференцируема. Если это обстоятельство существенно, то его можно обходить следующим образом. Вместо и(х) можно ввести функцию ); 0]. B29) Легко проверить, что выполнение условий Ф/(х)^0 для всех 1 = 1, ..., / эквивалентно одному условию Е (л:)^0. В то же время, если х = х, то Е(х) дифференцируема вслед за Ф/(х), причем E'XJ (х) = -2 S Ф^W min [Ф, (х); 0] = При использовании Е (х) задача поиска максимина при ограничениях B20) сводится к задаче поиска max inf [F(x, y)-\-\iE(x)]. x ~y<, ii > 0 Однако и эта задача, даже при ограниченных Р и N, обладает, казалось бы, рядом неудобств из-за неограниченности величины [х и необходимости просматривать всю полупрямую ее изменения. Однако на самом деле, как
254 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III легко понять, нас интересуют (см. доказательство теоремы XXXI) только |д.= +оои|1=0. Это обстоятельство еще более облегчает задачу; однако практически пользоваться значением оо невозможно. Окончательное завершение всех этих рассуждений можно видеть в следующей теореме. Ограничимся рассмотрением случая М = М0 (т. е. когда х = х) и непрерывных функций. _ Теорема ^XXXIV. (Метод штрафных функций). Если F (х, у) и Ф{ (х) непрерывны на замкнутых ограниченных Р и N и множество Мо непусто, то max min 7 (х, ~у) = lim max min [F (х, ~у) + \iE (*)] . €М €N Р ]JN Если х0 (\in) реализует max min [F (x, y) + [inE (x)], то при \хп —> оо любая предельная точка х0 реализует max min F (х, у). Х€М9 Доказательство. В силу теоремы XXXI достаточно доказать, что max inf [F (х, ~у) + |х? (х)] = yj \х>о = lim max шп[Р(х, y) + \iE(x)] B30) \l -* оо х€Р и что предельная точка последовательности х0 (\in) реализует максимин, стоящий слева. Отметим, прежде всего, что min F(x, y) + \xE(x) не yeN __ возрастает с ростом \i, так как по построению Е (х) неположительна. Но тогда и max min [F(x, y) + \iE (x)]f как xeP y€N легко видеть, не возрастает с ростом |х и, значит, имеет предел (может быть, и бесконечный). Пусть теперь х0 реализует левый максимин в B30), тогда в силу, например, все_ той же теоремы XXXI xQ?MQ и» следовательно, ?(хе)»0.
§ 19J ОСВОБОЖДЕНИЕ ОТ ОГРАНИЧЕНИЙ 255 Поэтому max inf [F (*, у) + \iE (х)] = = lim min [F(xQy yeN \i-+<*> yeN < lim max rain [F(x, y) + \iE(x)]. B31) \l -+ oo xeP yeN Пусть теперь задана последовательность \in так, что max min [F (*, y) + \inE (x)] = xeP yeN diJ, 1} + \inE [xo(fxw)]} и ^oiV'n) имеет предел, который обозначим через х0. Покажем прежде всего, что хо?Мо. Если бы это было не так, то в силу замкнутости Мо все х0 (\in) при достаточно больших п также не принадлежали бы Мо. _ JHo тогда для них ? [х0(\in)] < 0 и Е_[х0] < 0 и Е [х0 (\in)] -+ ?J*o] в силу непрерывности Е (х). Из ограниченности F (ху у), очевидно, что правая часть B31) равна lim min {F [х0 (щ), у] + цпЕ [х0 (цЛ)]} = - оо. А это в силу неравенства B31) и теоремы XXXI противоречит предположениям о непрерывности функции на ограниченных замкнутых Мо и N при непустоте первого. Но если хо€Мо,_то_?(^о)==0 и в силу ?[хо([хй)]<О и непрерывности F(x9y) имеем, что правая часть B31) равна . lim min {/>0 GiJ, у] + iinE [xQ (\in)]\ < < lim minF (xo(\in)t^]= mini[xOi~y] = = inf <max_ inf [F(x, 'y) + \iE(x)]. yeN, ул> о
256 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [Гд. Ill Сравнение этих неравенств с B31) показывает, что всюду должны стоять знаки равенства, а это и доказывает теорему полностью. Доказанная теорема утверждает по существу, что всегда можно взять достаточно большое \х и свести приближенно задачу отыскания max mmF(x, у) при Мо, ЗсеAfо y~eN заданных ограничениями B20), к задаче max m\n[F(x, у) + \хЕ (х)] iceP yeN при Е(х)> заданном B29). Введя дополнительное переменное и непрерывный аналог B29), задачу определения max min F(xf у) можно свести к задаче определения максимума с одним ограничением. Действительно, для любого х min/7(a:, у) = max и, и <F (х, ]/) где неравенство должно выполняться при всех y?N. Если пересечение N с внутренностью куба пространства векторов у или пусто или имеет положительную меру, то бесконечное количество ограничений ^(л:, у)—и^О эквивалентно (при непрерывной F (х, у)) одному Е (х, и) ^ 0, где E(i,u) = -§[Ffclft-u-\F(x9y)-u\]*dii. B31') Отсюда max min F (х, у) = max _ и. B3Г) хеМ0 yeN 1с, и; Е (х, и) > 0; ~хеМ9 С помощью теоремы XXXIV убеждаемся, что последняя задача приближенно эквивалентна поиску (для больших С) __ max [u—CE(x, и)]. и; Теорема XXXIII также может быть в некотором смысле обобщена на случай поиска максиминов и минимаксов.
§ 19] ОСВОБОЖДЕНИЕ ОТ ОГРАНИЧЕНИЙ 257 Те о р ем а_ XXXV. Если Т(х, у) и Ф((х) непрерывны и вогнуты по х?Р при любом y?N и если Р—замкнутое ограниченное выпуклое множество, то при Мо, заданных условиями B20), sup jnf F(x, y)= inf sup inf L(x, у, \л)9 xeM0~yeN й>о хеР yeN I B32^ inf sup F(x, yj= inf jnf sup L(xf y, \i). ) yeN хем0 n>o yeN xeP Доказательство. Согласно B2Г) и B25) достаточно доказать, что правые части B32) соответственно равны sup inf L(x, у, \i) и inf sup inf L (x, y, fi). x у, д>0 у x д>0 При фиксированном у L(xf у, \i) вогнута по х и выпукла по (г (как линейная по fji). Повторяя первую часть доказательства следствия теоремы XXX, заключаем отсюда, что sup mf L(xy у, ji)= jnf sup L (xf 'y, jl). дг€Р ix>0 ii>0xeP Взяв нижнюю грань по у от обеих частей этого равенства и использовав возможность перестановки порядка взятия нижних граней справа, немедленно получим второе из равенств B32). Далее имеем 1 sup jnf jnf L (xy у, ji) = sup inf [inf F (x, y) + 2 И/Ф/ (*)]. xeP yeN ц>0 хеР ц>0 yeN l=l Ho inf F (x, у) вогнута по х вслед за вогнутостью __ _ JytN F (x9 у) при любом у. Отсюда так же, как и выше, следует sup _ inf_ L (х, у, ~у) = хйРyeN, ii>o = inf sup [inf F (x, У) + S Vi®i(x)} = 1 _ ___ _ = jnf sup jnf L(xf ~y, \i), |i>0 x€P yeN это и требовалось. Ю. Б. Гермейер
258 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III В силу этой теоремы для любого е существует \ie такое, что [sup mlF{x, у)—sup inf L(x, у, |*.)|<e, eM tN P N что вполне аналогично утверждению метода штрафных функций. Мы не сможем остановиться на обобщении дискретного принципа максимума для задач определения максимина с ограничениями, равно как и на формулировке необходимых условий максимина с ограничениями, которые могут быть получены при объединении теорем XXXI и XXVII, поскольку это довольно громоздко. Интересующихся отошлем к одной из работ автора книги. В заключение отметим, что замена некоторых из ограничений ФД*);>0 на условия ф/(л:) = О эквивалентна введению дополнительных ограничений —Ф/(л;)^0. Легко проверить, что при этом форму Лагранжа можно и не изменять введением дополнительных слагаемых, но соответствующие \1{ в B2 Г) и B25) полагать изменяющимися уже от —оо до +°°- Метод штрафных функций также при этом не изменяется. Молено, однако, упростить соответствующие члены в Е (х), взяв просто — Ф? вместо — [Ф, (х)—| Ф () | § 20. Две теоремы о распределении ресурса при большой неопределенности Как уже говорилось в главе I, одной из типичных задач является задача объединения ряда операций в одну общую операцию. При этом одной из составных частей стратегии оперирующей стороны является распределение имеющихся активных средств по отдельным участкам, т. е. по частным операциям. Если считать, что способ действий внутри каждой частной операции уже выбран (может быть, в зависимости от наличия активных средств), то единственным выбираемым контролируемым фактором остается распределение активных средств по частным операциям.
§ 20] ДВЕ ТЕОРЕМЫ О РАСПРЕДЕЛЕНИИ РЕСУРСА 259 Обозначая вектор активных средств, отпускаемых на i-ую операцию, через ~xh критерий ее через Ft{xh yt)t имеем при суммарном критерии O(Flf ..., Fs) (где s — число частных операций) и общем векторном количестве активных средств А операцию вида ), ..., F8(xS9 &)] = Ф*(*. у), ) - - \ B33) ; х={х19 ..., xs}. I Что касается вектора y = {yt]f то он может быть или вектором общего вида, как всегда ограниченным нахождением в множестве N9 или же по соображениям, аналогичным только что указанным, иметь смысл распределения ресурса, и тогда Довольно естественными общими предположениями о задаче B33) при этом является монотонность функций Ft и Ф, т. е. Ф (Flt ..., Fs) > O(F'lt ..., F'9)t когда F{ > F\ для всех 1 Fi(xh yt)>Fi{xh y't), когда х^хь у)>&. B34) В этих предположениях ресурсы не вредно обоим противникам использовать полностью, т. е. можно принять 2, ; 1=1 Напомним, что один вектор считается не меньшим второго, если он не меньше второго по каждой координате. В задаче B33), в общем случае, кроме неопределенного фактора у, может быть еще и неопределенность в виде самого критерия, т. е. функции Ф(/7,-). Эта задача достаточно сложна, и вряд ли могут быть даны достаточно эффективные методы ее решения в общем виде. Нас интересует здесь иллюстрация высказанного в главе I общего тезиса о том, что при большой неопределенности задачи и малом количестве ограничений решение
260 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III должно быть относительно простым в широких предположениях о виде критериев эффективности Ft. В качестве первого примера ситуаций с большой неопределенностью возьмем следующую, на первый взгляд, несколько искусственную игру. Пусть имеется функция <р(г1э ... , zn). Оперирующая сторона пусть выбирает по своему произволу величины */(*^л)» подчиненные лишь ограничению 2*/ = А. B35) Противник же пусть выбирает, какое из Zj приравнять какому из Х[, но так, чтобы соответствие i(j) номеров i и / было взаимно однозначным. Критерием эффективности оперирующей стороны пусть будет У=Ф(*П1>. •••. */<«>)• B36) Таким образом, стратегией оперирующей стороны является выбор xi9 ограниченных B35), а стратегией противника—выбор дискретной функции i(j). Тогда имеет место Теорема XXXVI. Если y(zly ..., zn) непрерывна и такова, что для любых jx и /2 и \г19 ..., zn} -и § ' 2/«+ь ...» 19 ..., z/,-1, z/t, ..., г/.-i, г/„ ..., zn); q>(zlf ..., 2/^ь z/2, ..., г/.-ь г71, ..., *„)], B37) то оптимальной гарантирующей стратегией оперирующей стороны является х( = —, а тахттф(л:/(/)) = ф(^, ..., - {xi) i (/) ^ Если же ф (гх, ..., zn) «е непрерывна, то sup inf ф ( реализуется на некоторой последовательности векторов х (k) = {л:,- (k)}, стремящихся к — .
§ 20] ДВЕ ТЕОРЕМЫ О РАСПРЕДЕЛЕНИИ РЕСУРСА 261 Для доказательства достаточно показать, что, каков бы ни был вектор х = {xlf ...,хй}сД= max |xs—xt\ФО, всегда найдется вектор х*9 сколь угодно близкий к [А а | \ ~п ' * • *' ~п \ ' для К0Т0Р0Г0 Поскольку рассматриваются минимумы по всевозможным перестановкам xh то можно принять, ничего не меняя, xi ^#2 ^ • • • ^*я- Тогда, очевидно, Д =хп—хг. Образуем вектор ^A> = |^+f» ,x%9...f хя„19 х-^ = {xP)}. Для него ДA)^Д и для 1 < *"<л Но это неравенство тем более справедливо и для i = 1, п. Точно такие же неравенства верны и для \х{р—*?1)| при 1 ^ i ^ п. Пусть теперь *<3> = {^а)} = _ jXl+Xn Х2+Хя-г *2 + *я-1 ^1+<«| | 2 * 2 ' 3> • • •» Ля-2> 2 • 2 Г * Здесь имеем Д(а><ДA); \xln—xf\^^ при / = 1, 2; п— 1; п. Продолжая операцию осреднения ^ и ^„.^ придем -1-1 в конце концов к xl*J =x1 = {xli}f для которой Ясно, что все указанные операции не меняют фиксированной суммы, т. е. Докажем теперь, что inl<p[xn/)]^
262 оптимальные стратегии [гл. ш Для этого достаточно проверить аналогичное неравенство при переходе от х{к) к x(k+1). Этот переход заключается в том, что два каких-то xtx и Xi2 заменяются их средним значением. Имеем по условию теоремы: inf ф [х\%] = цп = inf {min [ф (xfily, ..., х1кЛ1)9 х№1} = xi., • xik\ v* v("A)" v{k) v" v"(ft) ^inf ф Hi) *1ф J • HI) ' ' Итак, для любого^ х построен x1 = {xli] такой, что нижняя граница для х не превосходит нижней границы для х19 причем Дг^Д/2. Продолжая эту операцию, получим пocлeдoвateльнocть !ск, для которых Д,?<Д/2*, a inf ф [xkUp] не убывает, а, значит, и не меньше, чем infq>[*/(/)]. Это и доказы- i (/) - f Л А \ вает теорему, поскольку xk —> < —, ..., — >из-за Ak —> 0. Анализируя доказательство, легко убедиться, что утверждение теоремы не изменится, если_на векторы х, кроме B35), будет наложено требование х?Е, где множество Е—любое выпуклое множество, содержащее вместе с вектором х все векторы, получающиеся перестановкой его координат. Условие теоремы выполнено для вогнутых функций, ПОСКОЛЬКУ ВЗЯВ Z = {х19 . . ., X/-lf #/, . . •, Ху_1э Xj9 . . ., Хп} и У= ixi> • • •» ^/-i» хр • • •» ^y-i» -^i» • • •» хп}> имеем в силу свойства вогнутости что и требуется в условии теоремы.
§ 20] ДВЕ ТЕОРЕМЫ О РАСПРЕДЕЛЕНИИ РЕСУРСА 263 Однако условие теоремы, конечно, значительно шире условия вогнутости; так, скажем, при tfj^O; a2^0; *i,2^0 функция (а^ + а2х2J выпукла, как квадрат положительной выпуклой: если / [кх + A — %)~у] < X/ (х) + то Но при тех же х^О; х2^0\ ах>0; а2>0 эта функция удовлетворяет условию теоремы, ибо [агх1 + а2х2; агх2 + а2хг] (линейная а^ + а^ вогнута). Пример функции л:? + л:1 показывает, что утверждение теоремы верно отнюдь не всегда. Для этой функции при любых перестановках хх и хг выгодно брать или хг = А\ х2 = 0 или наоборот, но никак не х1 = х2 = 0,5А. Эта простая теорема может применяться в различных задачах. Первым примером применения можно назвать модель действий нападения против обороны (модель IV), рассматриваемую с точки зрения обороны (для нападения это будет определение минимакса). Тогда в соответствии с (9) критерий эффективности при pi = p = const имеет вид k k W = — 2 max [Xi—pyt\ 0] = 2 min [РУг — Ч °]> B38) где выбор {yt)—стратегий защиты—подчинен условию п k 2^i = ^> нападение ограничено условием 2 Xi = N. ;=i /=i Функция B38) вогнута по у, как сумма вогнутых функций min [pyt—xt; 0]. Если фиксировать xh но переставлять их между собой, то это эквивалентно тому, что, наоборот, х{ остаются на месте, но переставляются yt. Таким образом, противник—нападающая сторона—может переставлять yi9 даже фиксировав свои величины xt.
264 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. Ill Выполнение условий теоремы XXXVI позволяет утверждать, что при любых xi9 если только неизвестно их расположение, обороняющемуся выгодно равномерно распределять свои силыу т. е. брать yi=^j-. Поскольку этот вывод не зависит от величины xh то он справедлив и при нефиксированных х{. Этот вывод останется, конечно, без изменения и в случае, если вообще когда функция r(xt—pyt) удовлетворяет условию mm[r(x1—py1) + r(x2—py2)\ r(x1—py2) + r(x2—py1)] Сильное отличие р( от постоянной, как мы увидим далее, уже не позволит считать равномерное распределение оптимальным. Примером другого рода может служить перспективное планирование выбора технологических процессов (см. § 7), когда задача в силу E6) может быть приведена к виду IP =2 <*/*/. x,>0; 2*,=: Д. /=i /=i Здесь Xj есть часть общей суммы В средств, которая отпускается на /-й процесс, a d]—средства, выручаемые за продукцию /-го типа, произведенную на единицу затраченных средств. В § 7 было сказано, что оптимальным поведением при известных d/ является отпуск всех средств на один наиболее эффективный технологический процесс. Однако положение дел может радикально измениться, если d/ неизвестны, например, из-за неизвестности будущих цен на продукцию. Если эта неопределенность такова, что возможны всякие перестановки d* между собой, то это эквивалентно перестановкам Xj. Линейность W обеспечивает выполнение условий теоремы XXXV, а, следовательно, здесь наивыгоднейшим будет равномерное распределение средств на все технологические процессы.
§ 20] ДВЕ ТЕОРЕМЫ О РАСПРЕДЕЛЕНИИ РЕСУРСА 265 Эти рассуждения останутся, конечно, справедливыми и при более общих видах записи W: S если только будет выполнено B37). Однако наиболее прямыми случаями применения теоремы являются, конечно, всякие задачи, так или иначе связанные с поиском, с разработкой (или уничтожением) чего-то при неизвестном его местоположении. Пусть эффективность поиска чего-то характеризуется выходом / (г) при использовании ресурса z в должном, одном, месте из общего числа п мест возможного поиска. Тогда, распределяя общее количество ресурса А на количества х( в i-e место поиска, исследователь операции (а в худшем случае и оперирующая сторона) не будет знать, какое из х{ окажется тем z, которое только и может принести пользу /(г). Таким образом, здесь задача является частным случаем рассмотренной, когда <p(z19 ..., zn) = f(z1). Условие B37) вырождается в и наверняка выполнено для любой неубывающей функции. Таким образом, максимин здесь всегда достигается при равномерном распределении ресурса. Это общее утверждение может вызвать законное житейское недоумение в ряде случаев. Пусть, например, поиск совершенно неэффективен, пока не будут совершены затраты, сравнимые с Л, т. е. пусть, например, /(z) = 0 при z < А—е и f(z)=l при z ^ А—е. Тогда равномерное распределение А по многим местам приведет к /(z) = 0, т. е. нулевому эффекту. В то же время концентрируя ресурс в одном месте, можно мол и получить эффект, если повезет. Для разъяснения этого «парадокса» нужно опять обратиться к нашим основным понятиям. Действительно, здесь равномерное распределение реализует максимин, но этот максимин равен просто минимуму и получается, конечно, и при любом другом распределении ресурсов; в частности, концентрация ресурса тоже в худшем случае (а их будет п— 1 случаев из п) даст нулевой эффект.
266 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. Ill Тем не менее здесь стоит отказаться от равномерного распределения в сторону концентрации. На чем же основаны надежды на улучшение при отказе от чистого мак- симина. В рассматриваемом случае это только надежды на случай; в нашем понимании это означает целесообразность применения смешанных стратегий вида: с вероятностью Г/ весь ресурс направляется на f-e место поиска. Поскольку противник—природа, то мы вправе ожидать отсутствие у него информации о нашем конкретном (хотя и случайно выбираемом) направлении ресурсов. Платеж при таком подходе, очевидно, равен ф (г19..., zn)= п = г19 где zt = г/A) по подстановке i (/) и 2 0=1- Очевидно, опять условия теоремы выполнены и наивыгоднейшие распределения «ресурса», равного единице, есть г{ = 1 /я. Итак, получаем опять-таки равномерное распределение, но при новом понимании ресурса. Разумеется, выигрыш в эффективности A/я вместо 0) не очень велик и падает с ростом числа мест поиска. Поэтому при большом п опять- аки все стратегии по существу равноценны (если только не появится у оперирующей стороны какая-то информация, априорная или добываемая в процессе поиска). Поэтому здесь создается большой простор для всякого рода произвольных попыток, в том числе и для эвристики. Однако при этом не следует забывать и о другом, более понятном пути—об использовании информации, добываемой в процессе поиска. В заключение обсуждения теоремы XXXVI отметим следующее. Если кроме выбора функции i (/) есть еще неопределенные факторы г/, то задача определения максимина может быть представлена в виде max min ф [xi{Jh у] = max min i|> [xiif)]9 ~x /</).7 ' * i(f) где _ J> B39) if (г19 ..., гл) = min <p (z19 ...,*„, y); у не представляет труда проверить, что если <р по z19 ..., гп удовлетворяет условию B37) при любом у, то этому условию удовлетворяет и у(г19 ..., zn).
§ 20] ДВЕ ТЕОРЕМЫ О РАСПРЕДЕЛЕНИИ РЕСУРСА 267 Но тогда верно утверждение теоремы XXXVI и для задачи B39). Перейдем теперь ко второй интересующей нас теореме. Пусть выполнено B34) и = min Ftfoyt); 2х, = Л; SU = *. B40) Требуется определить оптимальную стратегию в вариантах максимина и минимакса. Прежде всего заметим, что по B34) min min Ft (xh yt) = min min F( (xi9 */,) = -y 1< / < S 1 < / < S "^ = min Fi(xi9 B). B41) l<t<s Наихудшим случаем здесь является концентрация сил противника в самой «слабой» частной операции при заданном х—{х(\. Зафиксировав B41), увидим, что как в случае минимакса (когда yt станут известны), так и в случае макси- мина (когда следует принять все у( = В)9 оптимальная стратегия получается из решения задачи оптимизации при известных у{\ max min Ft(xh ^) = max min q>/(*/). B42) В этой задаче «противник» как бы только выбирает число i в критерии F(x, i) ^ Ф/(**)• Будем предполагать нумерацию частных операций выбранной (при известных у() так, что ср,- @) ^ ср/+1 @). Fi9 a, значит, и фг- пусть будут непрерывны по xt. Теорема XXXVII. (Принцип уравнивания.) Среди оптимальных х0 = {х$} или имеются такие, что для некоторого k^.s—1 они реализуют при условиях } B43)
268 оптимальные стратегии [гл. ш или же имеются реализующие maxq>,(x,) при условиях 2 B43') Если Ф,@) = ф1@) при всех i<!s, то всегда имеет место второй случай. Если ф,- строго монотонны, то указанный вид оптимального решения необходим. Доказательство. Предположим противоположное— среди оптимальных х0 нет удовлетворяющих B43) или B43'). Возьмем тогда произвольную хо> и пусть k таково, что Ф*@)^ тт Ф/W)^Фл+1 @) (ПРИ k~n второе неравен- 1< i < s ство пропадает). Уменьшим теперь в стратегии х0 все х] при i^k+l до нуля, увеличив соответственно все или некоторые Х/° при i ^ k так, чтобы не нарушилось равен- s __ ство ^,Xi = A. Полученная новая стратегия х'будет в силу монотонности Ft (а значит, и ф/) обладать свойством min q>i(x'i)^ min Но последняя величина и равна самому оптимальному результату по определению k. Итак, имеется оптимальная х\ для которой л;^ = ftl Пусть, далее, ix, ...,t^—все номера, которые реализуют min ф,-(х;) = ^опт. Если есть хоть один номер io^k, не входящий в систему il9 ..., ilf то будем уменьшать х\о до величины х'}й, пока не станет Ф/О(^о)== 1^Опт + е, где е—сколь угодно малая, но фиксированная величина. Это всегда можно сделать, ибо i0 < k и Ф/о {х'0 > №Опт > Ф/. @)- Распределяя неотрицательный и ненулевой вектор х\—- — лг/о между xij при /=1, ...,/, можно или увеличить все ф^., или же найдется /0, для которого прибавление к Xifo вектора x/e—3cJo не изменит ф//о. В первом случае
§ U0] ДВЕ tEOPEMfct О РАСПРЕДЕЛЕНИИ РЕСУРСА 269 увеличился бы и min ф,-(х/) по сравнению с Wottr, что невозможно по предположению об оптимальности Во втором случае, устремляя е к 0, получим стратегию х", в которой i0 также входит наряду с i19 ..., it в реализующие min Ф/(^) = ^опт. \<t<k Повторяя эту операцию необходимое число раз, получим стратегию хоп = {*°n} такую, что *?п = 0 при / ]> k -+ I и Ф,(х?п) = ^опт nPJ* *<*• Но поскольку хоп реализует max min ф,*(х/) среди 7 1 < / < s всех ?, то она, очевидно, реализует этот максимум, в частности и среди xt удовлетворяющих условиям ф,-(;*;)= Этим построена оптимальная хоп, удовлетворяющая требованиям теоремы, вопреки предположению, что таковой не существует. Теорему можно считать доказанной, проверив по ходу ее доказательства и остальные в ней содержащиеся утверждения. Если А—скаляр (а следовательно, и lci = xi)9 то при фиксированном k и равном ему числе неизвестных х( (I ^ k) число уравнений B43) k ф/(*/)=ф*(**). 2*/=л также равно k. Это обеспечивает нахождение оптимальной стратегии путем решения систем уравнения при k = 1, ..., s с последующим сравнением фх для этих вариантов между собой. Наиболее прост случай ф,- @) = фх @) при 1 < i < s. Тогда нужно брать k = s и оптимальная стратегия опреде- s ляется как стратегия, дающая при У xt — A равные зна- t = 1 чения всех ф/(/) Теорема XXXVII также имеет многочисленные применения. Прежде всего отметим, что, как было показано в главах I и II, критерий типа min Ft^xi9 у;) может к i < s появиться по крайней мере двумя путями:
оптймальнУё стратегий [гл. Ш S а) когда Ф (Ft) = У) h,Ff, причем Х( неизвестны и ог- раничены только условиями: Х^О; ^ ?t/\J7/= 1. В этом случае принцип гарантированного результата требует, как сказано в главе II, рассмотрения критерия типа min -J-; б) когда ставится задача о достижении заданных величин W( во всех частных операциях. Неравенства F^Wi при этом заменяются стремлением критерия min ^f к единице. Если же это недостижимо, то приходится просто говорить об увеличении такого критерия. Кроме этих случаев теорема XXXVII позволит (как это будет видно в следующем параграфе) определить мак- симин для B38) при произвольных р{\ можно рассмотреть и обобщения этой задачи. Легко заметить применимость этой теоремы и к задаче поиска. Пусть поиск некоего объекта ведется в п местах, причем в t-м месте эффективность поиска при затрате ресурса xi пусть будет //(*/), если объект находится в i-u месте и нуль в противоположном случае. Математическое ожидание эффективности поиска при вероятности rt пребывания объекта в i-м пункте, очевидно, равно S При этом 2*/ = ^ и Если Г/ неизвестны, то оптимальная стратегия, исходящая из неопределенности ri7 определяется как реализующая max min W (x, 7) = max min ft (х(). B44) Эта задача в точности совпадает с B42), и ее решение будет даваться теоремой XXXVII. В частности, если //@)= = /i@)> то решение определится из равенств
§ 21] ПРИМЕРЫ МАКСИМИНОВ И МИНИМАКСОВ 271 В ?ще более частном случае тождественности ft(x) = f(x) дли всех i имеем, естественно, условия f(xi) = f1(xl)9 что дл^ монотонной / (х) выполнимо только при xi• = хх = — . Это означает возвращение к задаче, уже рассмотренной с помощью теоремы XXXVI. Однако не следует думать, что последняя теорема является частным случаем теоремы XXXVII. Отметим явную связь принципа уравнивания с необходимыми условиями максимина (теорема XXVII). Эта связь станет очевидной, если B42) записать в виде s max min 2 rfft (xt)y Г i i s ax min 2 7 Г i = i s для которого критерий эффективности 2 rtVi(xt) будет дифференцируем, если дифференцируемы ф,-(#/). Поскольку минимум этого критерия по г может достигаться только при г 1 = 0, кроме одного какого-либо rt = 1, то необходимые условия предусматривают как раз случай <P/(*/) = 9i(*i) для оптимальной стратегии. Для решения более сложных задач с неопределенными критериями вида, указанного в главе II, можно использовать необходимые условия. § 21. Примеры аналитического нахождения максиминов и минимаксов для моделей главы I I. Модель IV действий защиты против нападения. Продолжая рассматривать эту модель с точки зрения защиты (критерий B38)), определим теперь оптимальную стратегию защиты при любых pl9 если оперирующая сторона (защита) не получит информации о векторе х={х;}. k Найдем сначала тт^тт [ptyi—xt\ 0]. Очевидно, что *1 нападающему невыгодно иметь 0 < xt ^ р;У{, поскольку иначе min [/?$,•—х(\ 0]=0) т. е. так же, как и при х( = 0. Поэтому нападение будет так выбирать х, что или xt = 0 или Xi^piUi* Но тогда B38) приобретает вид
272 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III Линейность критерия немедленно приводит к выводу, что наивыгоднейшей стратегией полностью информированного нападения является концентрация всех сил в одном месте, а именно, для того /, при котором*) [Pjyj—N]. Таким образом, задача определения наилучшей гарантирующей стратегии защиты сведется к отысканию max min [р,у,— B45) Решение этой задачи таково: tjj должны быть такими, чтобы все pjt/j—N были одинаковы. Это прямо следует из теоремы XXXVII, если учесть, что в данном случае Ш = Р/У; — М и> следовательно, фу@) = — N = ^@). pidi—N = t следует k k k k l-l 1=1 Pi Pi и потому k ¦ + N i=\ Pi Pi B46) Pi Zu-TT J Соответственно и максимин критерия эффективности будет равен п — #; О Pi B47) Результативность защиты, не информированной о месте прорыва средств нападения, по B47) падает с увеличением числа k возможных мест прорыва. Найдем теперь минимакс для защиты (максимин для нападения). *) Напомним, что это —абсолютно оптимальная стратегия.
§ 21] ПРИМЕРЫ МАКСИМИНОВ И МИНИМАКСОВ 273 Если защите известны хь то ей невыгодно брать у{ > x(/ph ибо это не увеличивает платежа в i-м месте прорыва, уменьшая возможности в других местах. Но при #,^ *///*,• платеж становится линейным, и защите выгодно оказывается увеличивать прежде всего уг (будем считать, что нумерация соответствует уменьшению pt: Pi^Pi+1) до тех пор, пока или у1~х1/р1, или yt = n. Итак, y°n = min[n; x1/p1]. Далее, очевидно, y°2n = min[n—y°"\ xjp2] и вообще #°п = гшп п— ^уТ'у xilPi до тех пор, пока этот ми- L /=i J нимум не станет отрицательным; соответствующие yi следует взять равными нулю. Что касается оптимальной гарантирующей стратегии нападения, то она, очевидно, состоит в том, чтобы концентрировать силы в месте, где pt наименьшее, т. е. в k-u месте. Минимакс для защиты поэтому равен m\n[pkn—N\ 0]=min{l min [ргп — Щ\ 0}. B47') Разность между B47) и B47') показывает ценность информации в целом. Эта ценность, как нетрудно увидеть, сильно растет с ростом k. Это особенно хорошо видно на простейшем случае Pi = const = р. Тогда ценность информации равна [pn-N\ 0]—min \^—N; о], mm[p\ ]\^; и если рп—N < 0, то ценность равна рп—у . Что же именно ценно для защиты: информация ли о действиях противника или сохранение в секрете своих собственных действий? Платеж для защиты, как уже упоминалось, есть вогнутая функция (как сумма вогнутых функций min [ру1—х(\ 0]). Но тогда в силу теоремы XV цена игры равна максимину (для защиты). А это означает, что сохранение в секрете действий защиты не увеличивает результата, если неизвестно решение противника—нападающего.
274 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III Таким образом, для защиты ценна именно информация о действиях противника; сохранение же в секрете своих действий особого смысла не имеет. Для нападающей стороны все обстоит наоборот. Это все верно, конечно, только в пределах рассматриваемой модели, предполагающей, что средства нападения только прорываются, не воздействуя предварительно на сами средства защиты. Рассмотрение этой модели позволило нам получить чисто математически некоторые старые принципы военного искусства, как-то: а) нападение должно производиться концентрированно и сохранять в секрете направление прорыва; б) неинформированная защита должна равномерно распределять свои силы; и хотя это — наилучшее поведение, она окажется в проигрышном положении по отношению к нападающему. Информация (разведка намерений противника) абсолютно необходима. II. Модель выбора дальности стрельбы в дуэли. В этой модели (модель IX, § 2) критерий эффективности C8): W=p(D1); D^D2, W=p(D1)[l-g(D2)]; D2<Dly терпит разрыв на прямой D2 = D1. Поэтому здесь неприменимы все аналитические необходимые условия § 17. Однако максимин определяется несложно. Прежде всего найдем inlW (D19D2). Этот минимум из-за монотонного роста*) g(D«) с уменьшением D2 очевиден; он получается при D2 —*Ь1У но так, что Da > Dx (т. е. противник открывает огонь раньше, чем оперирующая сторона). Отсюда intW(D19 Di) = Поэтому оптимальное гарантирующее Dx определяется как реализация max p(Dx) [1—g(?>i)], т. е. из условия Р' (Dx) [I -g(Dx)] -g' {Dx) p (Dx) = 0. B48) *) В полном соответствии со смыслом задачи предполагается, что p(Dx) и g{D2) есгь монотонно убывающие функции, причем <0)«»1
I 21] ПРИМЕРЫ МАКСИМИНОВ И МИНИМАКСОВ 275 Если оба противника одинаково метки, т. е. g(D1) = ==fl(?>i)> то maxp(D1)[l— p(D1)]= max у {I—у) достигается, как известно, при у = 0,5; следовательно, нужно выбирать Dx из условий p(D1) = Q,5. Это дает гарантированный результат 0,25. Найдем минимакс для оперирующей стороны. Если оперирующая сторона будет стрелять до выстрела противника, то W выражается p(Dx) и потому растет с уменьшением Dx. Поэтому здесь выгодно брать D1 = ZJ, что дает платеж p(D2). Если же выждать до выстрела противника, то выгодно уже (если он промахнется) подходить вплотную, т. е. взять ?^ = 0, что даст р @) = 1, а общий платеж 1—g{D2). Итак, оптимальная стратегия информированной оперирующей стороны есть DX^D2 или D1 = 0 в зависимости от того, что больше /?(?2)или1—g(D2); максимальный платеж, следовательно, равен max[/?(D2); 1—g(D2)]. Оптимальное гарантирующее поведение противника состоит, очевидно, в выборе такого DJ, при котором p(Dj)=l—g(D%). Действительно*), если, скажем, сдвинуться от этой точки в сторону меньших D2, то увеличится p(D2) и уменьшится U — g (D2)], а платеж max[/?(D2); 1—g(D2)]=p(D2) увеличится; аналогично и при увеличении D2." Итак, минимакс определяется значением p(D*2)=l-g(Dt). B48') В частности, если меткости одинаковы [p() ^ то минимакс достигается опять при p(D2)=g(D2) , но равен 0,5 > 0,25. Разница получается из-за разрывности критерия при D1==D2. III. Линейная обработка информации (модель VIII). Согласно оценке эффективности, данной в главе II, имеем Ро ?pr-i :E /«1 *) Здесь, как нетрудно видеть, мы имеем дело опять с простейшим случаем теоремы XXXVII.
276 ОПТИМАЛЬНЫЕ СТРАТЕГИЙ (гЛ. Ш где /Св—максимальная ошибка априорного (до измерений) представления уа о величине yi9 т. е. тах\уа—у{\. Из приведенной формулы немедленно следует, что для оптимальной фильтрации всегда необходимо выбирать р0 так, чтобы i i Pe=l—Spi или ?р,= 1. B49) /=i /=о Тогда оценка эффективности приобретет вид ;p*-i /-1 К B50) Если К0 = оо9 т. е. ошибка априорного представления неизвестна, то необходимо для получения удовлетворительных результатов положить 2 р/ = 1 и р0 = 0. Поэтому при больших /Со 2Р/ Д°лжна быть близка к 1; во всяком случае ограничимся рассмотрением стратегий, удовлетворяющих условию i :>е>0. Легко убедиться также, что для оптимальных рь должно быть 2 Р*.^ 1- i Действительно, при 2 Р^— 1 > ° можно взять р/ = Qpl9 где0<Э<1. Тогда, очевидно, Выбирая 6 < 1 так, чтобы
§ 211 ПРИМЕРЫ МАКСИМИНОВ И МИНЙМАКСОВ 27? получим, очевидно, стратегию {рП> более выгодную по B50), чем {pj}, что противоречит предположению об оптимальности последней. Итак, можно рассматривать только стратегии, удовлетворяющие условию >0. B51) Докажем теперь, что для оптимальной стратегии необходимо при всех /. Действительно, предположим противоположное, и пусть для оптимальной {р,} /0 максимальное из тех /, для ко- торых 23 р/< 0. В силу B51) jo^i—1; кроме того, не- обходимо р/о+1 > 0, так как 2 Pi^O- Более того, | Пусть теперь /х^/0—последний из номеров, для которых р/ < 0; такой номер, очевидно, существует по свойству /0. Предположим сначала, что }г < /0, тогда р/^0 при /х < / ^ /0. Пусть среди этих / есть такие, что р/ > 0. Тогда, взяв первый из таких /', заменим для него р]. на р*, — А при достаточно малом А с одновременным изменением р*^ на р*.^ + А^0. Величину А всегда можно выбрать так, чтобы при так как предпоследняя сумма (под знаком модуля) должна быть существенно отрицательна по свойствам /0 и jt. При таком изменении очевидно, не увеличиваются и все ПРИ (в том числе и /). Величина же последней суммы в B50) уменьшится. Поэтому новая стратегия даст лучший результат по B50), чем прежняя, что противоречит оптимальности последней. Поэтому или /1 = /в, или же все
278 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ., 1И р/ = 0 при /*!</</о- Но тогда, уменьшая несколько р! р можно аналогично только что указанной процедуре несколько увеличить р^ (т. е. уменьшить | р* |) так, что все 2 Р/ не изменятся, кроме / из промежутка [/lf /0], для которых суммы одинаковы из-за р/ = 0 при ]\ < / ^ /0- Эти последние суммы уменьшатся равно как и 22 Из-за этого {р/} опять окажется, вопреки предположению, не оптимальной. Это противоречие и доказывает, что для оптимальной стратегии t ^ 0 при всех / <: i. B52) Учитывая это и B51), можно опустить модули в B50) и после несложных преобразований привести задачу отыскания оптимальной стратегии в задаче фильтрации к отысканию: B53) при ограничениях B51) и B52). Если этот минимум достигается внутри области, ограниченной B51) и B52), то для оптимальных ру выполнено: /=lf ..., i. * ^— Умножив обе части /-го равенства на ^ i l и просуммировав по /, получим для и= ^[(i—l)K—Ко] Р/ уравнение hAo2-i 5; 1-й-и.
§ 21] ПРИМЕРЫ МАКСИМИНОВ И МИНИМАКСОВ Следовательно, 279 а поэтому - 1=\ B54) J Из выражения B54) видно, что знак р, определяется знаком величины Ко—(i—1)К, в частности, р,->0. Но по условию B52) для / = 1 имеем рх ^ 0. Поэтому выражение B54) будет годиться только, если K0-K(i-l)>0. B55) Но тогда и все оптимальные Ру ^ 0 при / > 0. Если B55) не выполнено, то оптимальная стратегия должна быть такова, чтобы р! = 0. В остальном все формулы в принципе остаются без изменения, только р2 встанет вместо рг и т. д. и вместо / следует взять /—1. Ясно, что этот процесс может быть продолжен для фиксированных Ко и /С, пока равенство, аналогичное B55), не будет уже выполнено. Что касается B51), то его выполнение эквивалентно условию lKK(il)] 1Ко"кр( ~l)]2 > B56) которое заведомо не выполняется при достаточно больших /Со, если К фО. При /С = 0 B56) всегда выполнено так же, как и B55). Тогда К2 Ру = °-г— при /=1, ..., i; ро= 1—
280 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III Эта формула обобщает обычную формулу фильтрации (при отсутствии неопределенности), не учитывающую априорную информацию. В простейшем случае Dy = D = const р=Б р=1~ = B57) При этом максимин платежа по B50) равен Я р/с у , ( к1 УрД- к\р B5Гч Ud + wsJ +\D+iKl) Г D + iKl ' ( } Если B56) не выполнено, то на стратегии накладывается условие 53 р, =1. При этом значение Ко в B50) уже не играет роли, а Ро-0. Здесь нахождение максимина сводится к нахождению минимума K2[Jj(<--OP<]2+ijP^ B58) i при условии 2р/=1 и ограничениях B52). Тогда имеем необходимые условия экстремума, если он достигается не на границе B52): Отсюда можно записать Ps = i'lc.-cl{i-8)]9 B59) Вставляя в это выражение с1 значение р5 по B59), получим 1=1 l Ы\
§ 21] т. е. ПРИМЕРЫ МАКСИМИНОВ И МИНИМАКСОВ 281 1=1 или п *>(*-») 1 /=i B60) Что касается с09 то оно определится из условия 2 ps = l при подстановке в него B60). Это и даст окончательное решение, единственность которого обеспечивает доказательство того, что оно реализует минимум, если он достигается не на границе области B52). Если измерения равноточны, т. е. Ds = const, то B61) При /С = 0, т. е. когда объект не маневрирует, все ps одинаковы, и получаем обычное осреднение. Однако формула B60) не всегда обеспечивает нахождение абсолютного минимума. При малых Dt B60) может дать для коэффициентов с малым номером отрицательные ps. Тогда минимум следует искать среди ps > 0 только при s, больших некоторого i0. В остальном поиск минимума будет мало чем отличаться от рассмотренного; нет необходимости повторять его. Отметим лишь, что при ?> = 0 B61) дает отрицательные значения ps для всех s, кроме s=i. Поэтому здесь оптимальная стратегия состоит в полном отказе от осреднения (фильтрации) измерений; нужно просто брать последнее. Минимакс в рассматриваемой задаче тривиален. Действительно, если уу. (или хотя бы yt) заранее известно,
282 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III то больше делать нечего; не нужно ни фильтровать, ни даже вообще измерять (со случайной ошибкой). Оптимальная стратегия здесь состоит в назначении #,•=#/ (случай вполне эквивалентный случаю отсутствия ошибок измерения D = 0); само значение минимакса равно нулю. Характерной и интересной особенностью этой задачи является то, что минимакс автоматически включен уже в рассмотрение; он, очевидно, соответствует случаю /С0 = 0, который, например, по формулам B57)—B57') и дает все только что сказанное. Это наилучший максимин (при заданных К и Dz). Наихудший максимин получается, конечно, при /С0 = оо, т. е. при отсутствии сколько-нибудь достоверной априорной информации. Чтобы судить о возможной разнице между этим мак- симином и минимаксом, можно взять, например, очень хороший случай /С==0 при Dt — D. Здесь р5 = у, а максимин равен —г- и растет с увеличением и Однако это самое благополучное положение; при КфО безграничное увеличение i становится нецелесообразным, а максимин при росте i отнюдь не стремится к нулю. Из B61) видно, что при s=l p, = c[l-(i-] и при увеличивающемся i становится отрицательным (предел с\\—у < 0 j; таким образом, первые измерения не следует учитывать при фильтрации. IV. Модель поиска экстремума. Как было показано в главе II в модели поиска экстремума (модель III), оценка эффективности стратегии x = (xlf ..., хп) равна „ . 1 ^ . Х2 *1 . . хП—~ХП-\ Отсюда немедленно следует, что оптимальной стратегией при заданном числе п точек xlf ..., хп будет J_,! 1 , п-\\ т. е. x°t = -^-; i = 1, ..., п.
§ 21] ПРИМЕРЫ МАКСИМИНОВ И МИНИМАКСОВ 283 Максимин, очевидно, равен —^ > минимакс в этой задаче равен нулю. _ Однако в этом случае критерий не вогнут по х и, следовательно, можно ожидать, что цена игры не равна мак- симину. Действительно, в главе II была показана смешанная стратегия, имеющая эффективность, большую чеммаксимин. V. Вернемся к задаче о поиске оптимального момента включения дублирующего агрегата (§ 16). Ограничимся случаем одинаковых агрегатов, т. е. Т2 = ТХ. Критерий эффективности здесь имеет вид Т = [т; р (/)] = S p (t) dt + p (т) 7\. B62) О На p(t) наложены условия: а в остальном p(t) неопределенно—«стратегия природы». Стратегией оперирующей стороны является выбор т. Поскольку случай D1^T\ разобран в § 16, будем искать максимин и оптимальное гарантирующее т при условии Dx < Т\. Так как на закон распределения 1—p(t) наложены три условия (включая Jd[l— p(t)] = l), по теореме X при поиске inf T [т, р (t)] достаточно рассматривать только p(t), состоящие из трех площадок (кроме р(*) = 0), т. е. считать вероятными разве только три значения tlt t2, t8: p(t)=l при t <I tl9 p(t) = a при t1<.t^.t29 p(t) = b при t2<t^ts, = 0 при t > ts. Условия, наложенные на p(t), дают
284 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. Ill Отсюда Условие 6^0 дает (T'l-^ + ^Xl-aX/,-^ B63) "a' (^-/O^a^-^ + DJ. B63') Если /i>T, то B62) равно т + 7\, т.е. максимально возможному значению, а отнюдь не минимуму. Поэтому необходимо tx < т (если, конечно, это не противоречит B63)—B63')). Будем теперь фиксировать а и /2 > т и уменьшать /1Э тогда первый член B62) будет уменьшаться, в то время как второй останется равным аТх. Таким образом, при /а>т tx выгодно уменьшать до 0 или пока позволят B63) и B63'). Как видно из вида этих ограничений, уменьшение t2 при данных а и tx никак не может их нарушить, а разве только уменьшает граничное tfin (если оно определяется B63)). Но тогда уменьшение t2 до /2 = т может только уменьшить первый член в B63) за счет уменьшения /f п. Итак, целесообразно с точки зрения минимума B62), чтобы t2 < т. Будем пока считать т < Тх. При таких условиях, и если t3 > т, имеем Ji Фиксируем величины tx + a(t%—tx) = c и /2. Тогда Г[т; p (Q] =с + (Г1 + г-<,)(Г1,/а), +(^I^C) (,,_ц > B64) Очевидно, что критерий эффективности при фиксированных с и t2 уменьшается, когда /х растет. Рост tx ограничивается или B63), или B63'), или условием t^t
§ 21] ПРИМЕРЫ МАКСИМИНОВ И МЙНИМАКСОВ 285 или же тем, что а= 1 — \*~с. >0. Последнее условие по существу не ограничивает t19 поскольку при а = 0 уже заведомо не выполнено B63'). Условие B63), будучи переписано в виде (T1—t2J + D1'^(t2—c)(t2—t1I также никак не ограничивает роста tx. Поэтому tx должно определяться из условия: (^-«¦-¦^[(TWJ' + DJ, B65) 1 x~2{t2-c 2{t2-c) У 4<*t-c)« /,-c * Поскольку нужно наибольшее возможное /lt положительный знак у корня опущен. Покажем теперь, что для оптимального т производные от B64) по /2 < т и по с в точках (с, /х), удовлетворяющих B65), неположительны. Если пренебречь положительным знаменателем, то производная по t2 равна ctx. B66) Поскольку максимальное значение G\ + т) (tx + с)—ctx получается при /х = с = т, то верхняя граница указанной производной будет достигаться при tx = с = t2 —> т и равна Orj » Если эта величина положительна, т. е. t>j/Y?—D19 то существуют сколь угодно близкие к т t2J tx и с, для которых производная положительна и, значит, Но тогда по B64) Однако такое т не оптимально, ибо есть т = 0; оо, для которых гарантированное Г[т, p(t)]=Tx. Таким образом, оптимальное т должно удовлетворять неравенству т<]/71-Д B67)
286 оптимальные стратегии [гл. ш а производная B64) по t2 тогда будет отрицательна для t2<r. Возьмем теперь производную по с. Опять пренебрегая положительным знаменателем и учитывая, что в силу отрицательности B66) получим производную по tL в виде [(Г1-^а + Я1-(/2-с)(/а-/1)]2- -(Тг+x-tt) {2 (Тг-с) [(T1-t%r+D1-(t%-c)(tt-tJ] + Если последнюю величину взять в точке (с, tt)t удовлетворяющей B65), то можно ее переписать в виде Последнее опять следует из B65). Итак, для оптимальных гарантирующих т при фиксированных tt yl с минимум B64) достигается при t2—*т, а, если фиксировано с, то при t19 удовлетворяющем B65). При этом производная по с отрицательна, и, значит, с, реализующее минимум, равно своему наибольшему значению, т.е. t2—>%. Но тогда и t1—^т. Итак, необходимо B67). При этом минимальное Т[т, p(t)] достигается при t1 = c = t2—»x и равно, очевидно, (Ti$+Di B68) Как уже говорилось, при
§ 21] ПРИМЕРЫ МАКСИМИНОВ И МИНИМАКСОВ 287 минимум Г[т, р(/)]<7\. Таким образом, минимум B62) по р (t) определен для всех т < 7\. Осталось его определить при т>Cи при т > 7\. Покажем, что этот минимум не превосходит 7\. В первом случае это следует из B62), поскольку р(т) = 0. Возьмем теперь при г>7\: /7в(/)=1 при *<7\—в, pt(t) = a при T1—e<t^t29 р. @ = 0 при *>/,. Имеем Отсюда /^d т г- yi Устремляя а к 0, имеем /2—юо, (Гх—в)—*7\. При этом B62) для х^Т1 дает т.е. Т[т, р.@] стремится к Тх. Теперь осталось только получить сам максимин. Поскольку т = 0 и т = оо обеспечивают всегда получение платежа 7\, то рассмотрение т>7\, т^^3 интереса не представляет. То же относится к случаю, когда не выполнено B67). Остается т <! УТ\—Dx. Минимальный платеж равен B68). Производная этого выражения равна При т = 0 она положительна; следовательно, т выгодно увеличивать до значения, получающегося из решения уравнения 0. B69) тG\—т) не превосходит -j-; поэтому, когда D!^-^-, D\—2D1x(T1—т)>0, и, значит, B69) не имеет решения; тогда т выгодно увеличивать до J/Y}—D1 и далее до 7\, что не дает, впрочем, платежа, большего 7\.
288 ОПТИМАЛЬНЫЕ СТРАТЕГИИ [ГЛ. III Итак, при Dx!>0,5Ta наивыгоднейшими т остаются заведомо 0 и оо, а наилучший гарантированный платеж равен 7\. Здесь следует обратить внимание на то, что при т = 0 имеет место разрыв. Если т = 0, то B62) дает при р @) = 1 7\. Однако при т—>0 гарантированный платеж в силу B68) стремится к 7\ г1-1-. F l T\+Dx При малых Dx B69), очевидно, имеет решение. Его можно приближенно получить, отбрасывая члены высшего порядка малости по Dl9 т.е. D\, и полагая т«7\; тогда G,-ТоK « 27,0, и Г,—т0 « V2DJ\. B70) Платеж при таком т (гарантированный) по B68) будет 471 j.2 Уже при Dx = -—г- включение второго элемента по B70) т в момент то = -^ (хотя это и не точно оптимальное т) 13 даст Т, равное iq7\, т.е. заметно больше, чем 7\. Таким образом, доказано следующее предложение: Если уравнение B69) не имеет решений, как, например, при D1^0,5T{1 то оптимальными стратегиями включения дублера являются т = 0 или т = оо (т. е. будет работать только один из дублеров). Если же решение у B69) есть, то наименьшее из них и дает оптимальный момент включения, гарантирующий получение среднего времени безотказной работы не меньше, чем B68). При Dx—>0 оптимальный момент включения стремится кТг, а среднее время работы дублеров—к 27\. При доказательстве этого предложения возникает, естественно, идея использовать теорему XXVI. Однако при этом придется преодолеть затруднения, связанные с априорной неограниченностью интервала изменения т и компактностью пространства p(t). Эти затруднения, видимо,
§ 21] ПРИМЕРЫ МАКСИМИНОВ И МИНИМАКСОВ 289 преодолимы; так, например, выше была показана возможность рассмотрения лишь %^Tt. Путь, выбранный выше, хотя и несколько громоздок, но значительно более элементарен. В то же время использование теоремы X является полезным примером приема, который может быть использован почти во всех случаях игры против «природы», если ее поведение описывается случайностями. Вычисление минимакса для этой задачи нельзя выполнить на основании теоремы X или теорем § 17. Однако задача о вычислении минимакса в чистых стратегиях эквивалентна решению задачи в смешанных стратегиях относительно т и в чистых—по p(t). Это следует из линейности критерия по p(t). Если поэтому искать оптимальную гарантирующую стратегию природы (наихудшую стратегию для оперирующей стороны), то следует рассмотреть платеж —}p(t)dt—/?(т)Т2 и искать для него максимин. о Линейность платежа по p(t), а, значит, и вогнутость его по р (/), позволяет на основе теоремы XV утверждать, что здесь максимин совпадает с ценой игры, т. е. можно рассматривать смешанные стратегии только по т. Определение цены игры будет проведено в следующей главе работы. Здесь мы говорили о линейности и вогнутости платежа по p(t)f т.е. по функции, хотя теорема XV сформулирована для векторов. Однако это обстоятельство несущественно, поскольку монотонную функцию р (t) всегда можно сколь угодно точно заменить кусочно-постоянной функцией, то есть вектором. Возможность такой приближенной замены игры и соответствующего предельного перехода следует по существу из § 18. 10 Ю. Б. Гермейер
ГЛАВА IV ОБЩИЕ ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР В СМЕШАННЫХ СТРАТЕГИЯХ § 22. Основная теорема теории матричных игр и свойства оптимальных стратегий Пусть дана платежная матрица (матрица эффективности) II«/уII; *<п> /<m» элемент a(j которой дает значение критерия эффектив* ности при применении первым игроком (оперирующей стороной) 1-й стратегии (i строки матрицы) и вторым игроком (противником)—/-й стратегии. Представленные в таком виде игры с конечным числом стратегий (п и т) у обеих сторон обычно называются матричными. Изучение матричных игр необходимо потому, что они в некотором смысле наиболее просты и в то же время к ним могут быть приближенно сведены игры более общего вида. Если в игре при выборе своих стратегий оба игрока не имеют информации о выборе другого, то для них имеет определенный смысл применение смешанных стратегий. Смешанная стратегия первого игрока, т. е. вектор р = {р.} (при i^ri), где р{—вероятность применения им t-й стратегии, при условии Д)р,- = 1, и аналогичная смешанная стратегия второго игрока Q ••= {qj\ (/ < т) определяют математическое ожидание платежа W %% B71) Это уже критерий эффективности в непрерывной игре на выпуклых множествах М и N стратегий Р и Q соответственно.
§ 22] СВОЙСТВА ОПТИМАЛЬНЫХ СТРАТЕГИЙ 291 Множества М и JV определяются условиями B72) Напомним, что игра B71)—B72) по определению имеет седловую точку, если maxminF(P, Q) = minmax W(P, Q). B73) Рем Q ем QGM PeM Теорема XXXVIII. (Основная теорема матричных игр фон Неймана). В игре B71) — B72) имеется седловая точка, т. е. выполнено B73). Иначе, любая матричная игра имеет седловую точку в смешанных стратегиях. Доказательство. Прежде всего, М и N замкнуты и ограничены из-за 0 ^ р{ ^ 1, 0 ^ qj^ I, а функция B71) непрерывна по Р g M и Q ? N. Далее функция B71) линейна по Р при фиксированном Q, и наоборот; значит, она является вогнутой по Р при фиксированном Q и выпуклой по Q при фиксированном Р. Наконец, множества М и N, очевидно, выпуклы, ибо если, например, Р и Р' удовлетворяют B72), то и КР + A— %)Р' также удовлетворяют B72) при 0<Х<1. Но тогда в силу теоремы о вогнуто-выпуклых критериях из § 16 игра B71)—B72) имеет седловую точку, что и требовалось доказать. Множество оптимальных смешанных стратегий оперирующей стороны (равно как и противника в антагонистической игре) является, очевидно, выпуклым и замкнутым. Основные свойства оптимальных смешанных стратегий содержатся в следующей теореме. Теорема XXXIX. Пусть Р° и Q0—оптимальные смешанные стратегии, a v—цена игры, т. е. величина B73). Оптимальная смешанная стратегия оперирующей стороны Р° = {р\, ... , /?л} состоит только из тех чистых стратегий i (m. e. только те /?? могут быть отличны от нуля), для которых ijq1 = v, B74) 10*
292 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ. IV Аналогично, только те q] могут быть отличны от нуля, для которых <>. B75) Имеет место равенство п п min Zj #/ / Р%== max min 51 = min max 5fl//<7/ = max = maxminW(P, Q) = minmax W(P9 Q) = v. B76) P Q Q P Доказательство. Прежде всего, так как (Р°, Q0) является седловой парой, имеем max %aiJq'sl^yiauq4 (при1</<я), B77) / ^ / 1 / 1 П /= так как чистые стратегии {/?t== 1, Р^ = 0 при fe=^=/} составляют часть общего множества смешанных стратегий. Предположим теперь, что для какого-то i\ pft > 0, но v. B78) Умножая левые и правые части неравенства B77) для 1ф1-1 на /?? и сложив их, имеем Умножив также и B78) на /?/) и прибавив к только что полученной сумме, придем к п <v V D? = V. t= 1 п т Но это противоречит тому, что v=W(P°, Q°) и, следовательно, справедливо B74). Аналогично доказывается и B75).
§ 22] СВОЙСТВА ОПТИМАЛЬНЫХ СТРАТЕГИЙ 293 Теперь уже очевидно, поскольку есть хоть одно /?? > О (из-за 2/?J=l), что из B77) и B74) следует т max 2 аи Я1= v- 1 ^ i < п /= 1 Точно так же из аналога B77) и B75) следует п t= 1 min Имеем далее, что 5 S */ л 7,7S и, следовательно, Впрочем, это неравенство нам известно — оно выражает отсутствие необходимости в смеси стратегий для противника, если стратегия Р = {pj ему известна. Отсюда и п max min 2 a// Р \^j^i\ Но из-за B75) максимум в левой части последнего неравенства не может быть и меньше v. Тем самым max Р min 2 йцР^ т*п 2ai/P?==t;- Совершенно также показываются и остальные равенства B76). Равенства B76) иногда носят наименование двойного описания игры и позволяют определять v и p°i9 не
294 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ. IV определяя q°i9 и наоборот. С нашей общей точки зрения B76) выражают тот уже нам известный факт, что понятие оптимальной гарантирующей смешанной стратегии Р° = = {/7?} оперирующей стороны определяется без предположения о том, что противник будет применять смешанные стратегии. Более того, они противнику и не нужны, если он имеет информацию о выборе Р° = {р?} (но, конечно, не о выборе конкретных i). Новым по сравнению с прежними нашими представлениями об оптимальных гарантирующих смешанных стратегиях является только утверждение, что эти стратегии и максимальный гарантированный результат совпадают с аналогичными понятиями для игры в смешанных стратегиях обоих противников и что этот гарантированный результат совпадает с ценой игры. Однако это «только» весьма важно и полностью выясняет смысл применения смешанных стратегий, если, конечно, противники не обладают информацией о выборе конкретных чистых стратегий при реализации смешанных. Иногда матричные игры при решении их в смешанных стратегиях могут несколько упрощаться путем использования теорем о доминировании стратегий. Введем для четкости определение. Вектор а= {а1э ... , ап} строго доминирует*) вектор P = {Pi» • • у Р/Л> если а/>Р/ для всех i=l, 2, ... , п. Имеют место следующие теоремы. Теорема XL. Если в матричной игре \\а{1\\ i^-я строка строго доминируется выпуклой комбинацией других строк, то 10-я чистая стратегия оперирующей стороны не входит ни в одну ее оптимальную смешанную стратегию и, следовательно, может быть вычеркнута из матрицы (при решении игры в смешанных стратегиях). Теорема XL'. Если в той же игре /0-Й столбец доминирует некоторую выпуклую комбинацию других столбцов, то }0-й столбец может быть вычеркнут из матрицы. Поскольку вторая теорема есть не что иное, как повторение первой для случая, когда оперирующей стороной является противник в антагонистической игре (его *) Легко заметить, что это понятие связано с понятием абсолют• ного превосходства стратегий.
§ 22J СВОЙСТВА ОПТИМАЛЬНЫХ СТРАТЕГИЙ 295 матрица противоположна заданной), то достаточно доказать первую. Пусть по условию этой теоремы существует совокуп- п ность чисел р/>0; Д]р/=1; р/0 = 0 такая, что для всех j Тогда если {q*}}—оптимальная смешанная стратегия, то имеет место Но тогда в силу теоремы XXXIX чистая стратегия i0 не входит ни в какую оптимальную смешанную стратегию оперирующей стороны Р°, т. е. всегда р?0=0, и, значит, без ущерба для оперирующей стороны эта стратегия может быть выброшена. Следует еще раз подчеркнуть, что при поиске оптимальных гарантирующих чистых стратегий такие стратегии выбрасывать, вообще говоря, нельзя. Так, например, в матрице 1 0 1 4 0 1 1 4 полусумма первых двух строк доминирует над последней, и при решении в смешанных стратегиях последнюю строку можно выбросить. Однако именно она реализует максимин в чистых стратегиях, т. е. выбор третьей строки есть оптимальное поведение в чистых стратегиях. При решении игр в чистых стратегиях можно, однако, выбрасывать строку, доминируемую другой строкой (а не выпуклой комбинацией), ибо такая доминируемая строка никак не может реализовать максимин. Аналогично, конечно, обстоит дело и со столбцами. Все указанные теоремы доказаны для строгого выполнения условий доминирования. Как же обстоит дело со случаем, когда доминирование нестрогое, т. е. когда доминирование определяется как выполнение условий а^р,?
296 ТЕОРЕМЫ О РЕШЕНИЙ АНТАГОНИСТИЧЕСКИХ ИГР [гЛ. IV Ясно, что выбрасывание доминируемых строк при этом может привести к уменьшению количества оптимальных стратегий, к потере некоторых из них. Простейший пример доставляют две совершенно равноценные стратегии. Однако цена игры при этом не меняется, и поэтому, если задача состоит в поиске хоть одной оптимальной стратегии, вполне можно выбрасывать и не строго доминируемые строки. Что касается не строго доминирующих столбцов, то в исследовании операций их всегда можно выбрасывать, поскольку стратегии противника сами по себе нас вообще не интересуют. Убедимся, что выбрасывание не строго доминируемых строк не меняет цены игры. п Пусть а*0/<1 2 \аи Для всех / ПРИ ^/^0» 2 ^/=1. 1Ф1 1ф1 Пусть, далее, Р°—оптимальная стратегия. Стратегия Р, для которой Pi = p°i+kiPio ПРИ i?*h\ P/. = °i Дает> оче" видно, для любых / п = 2 (p°i+hpi.)aij= 2 pfaj+pf. 2 11 i^i 1ф* > 2 1ф1 Но отсюда и п min ( 2 PfltA^ mm 2 Piau^v* J l</<mt=l Следовательно, вычеркивание *0-й стратегии не меняет цены игры, сохраняя хотя бы одну из оптимальных стратегий Р. § 23. Основная теорема для непрерывных игр Пусть х(и19 ... , ип) и у(г19 ... , rj пробегают множества М и N любой природы, когда и = {и19 ...,"„} и г = {rlf ... , гт} пробегают соответственно прямые произведения Ех и ?2, заданных на прямой множеств Ещ (i ^ п) и Erj (/<m).
§ 23] ОСНОВНАЯ ТЕОРЕМА ДЛЯ НЕПРЕРЫВНЫХ ИГР 297 Пусть, далее, дана игра F(x, у) такая, что функция F[x(ud> y(rj)] непрерывна относительно точек [и, г] на прямом произведении Ег X Е2 всех Еи, и Егр которые примем ограниченными и замкнутыми. Тогда F [х(и{), y{rj)] равномерно непрерывна на этом же прямом произведении, и, следовательно, для любого е найдется такое б, что \F[x(ud, y(rj)]-F[x(ui)9 y(r'f)]\<s, как только \ui—wf'[<8; |ry—r}|<6 для всех i и /. Возьмем теперь в каждом Ещ и Erj конечное число точек uis и г/л, занумерованных в порядке роста так, что для каждого щ найдется хоть одно из uis (а для каждого гу.—rIk), удаленное не больше чем на б. Пусть для каждого s' Ещ, есть множество точек из ЕЩу расположенных ближе к щ^, чем к w/s,+1, и не дальше, чем к Uis,_1. Аналогично определяется Erj ,- Определим теперь функцию Fx(xy y) = F1[x(ui), y(rj)], положив ее равной F [x(ui6), y(rjk)]> когда щ€Ещ и Согласно построению очевидно, что | F(х, у)—F± (х, у)\ ^е, и, следовательно, Рх(хуу) аппроксимирует F(а:, у), так что выполнены все утверждения теоремы XXIX. Но функция Ft (xt у) принимает, очевидно, лишь конечное число значений вслед за конечностью числа множеств Ещ и Erj . Более того, очевидно, что в игре с платежом Fx (x, у) все стратегии х, соответствующие векторам и = {иЛ из прямого произведения множеств Ещ для фиксированных sh эквивалентны между собой и эквивалентны стратегии xSl...sn, соответствующей вектору [щ }. Точно так же эквивалентны все стратегии у, соответствующие векторам прямого произведения множеств Erj для фиксированных fey, т. е. эквивалентны стратегии Уы^у .-. , Уиту соответствующей вектору {г/ }. Поэтому без ущерба для обеих сторон в игре с платежом Ft (x, у) могут быть выброшены все стратегии, кроме xSl Sn и ykt km Для всевозможных s,- и kj из ранее определенного конечного числа их значений.
298 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ. IV Таким образом, игра с платежом Ft (х> у) эквивалентна по своим результатам матричной игре F1(x8u ... ,Sn* t)k, kj -= F [x (Ui ) у (гf )]. Следовательно, для любогое любая игра F (х, у), удовлетворяющая указанным выше свойствам, приближенно может быть заменена матричной игрой. Смешанной стратегии Р = р(и)*) при такой замене отвечает, очевидно, смешанная стратегия {pSi SJ при всевозможных s19 ... , snJ так что p$l Sn есть вероятность попадания всех ut в соответствующие Ещ при данном распределении р(и); это легко проверить, если выписать выражение осредненного по закону распределения р(и) платежа F^x, у) и учесть кусочную постоянность РЛ*.У)- Точно так же обстоит дело и с соответствием смешанных стратегий противника, которые будем обозначать через Q = Q(r). Но для матричных игр доказана основная теорема, т. е. наличие равенства B73). В силу эквивалентности Fx(x, у) и матричной игры доказано, следовательно, и равенство p^OP» Q)= infsupF^P, Q). P Q Q P Тогда в силу близости игр с F(x, у) и Fx(x, у) по теореме XXIX имеет место supinfF(P, Q)—p P Q P Q |infsupF(P, Q) — infsupF^P, Q)|<8. \ Q P Q P I Отсюда, очевидно, |supinf?(P, Q)—infsupF(P, Q)|<2e, \ >P Q Q p I а в силу произвольности 8 имеем окончательно supinfF(P, Q) = infsupF(P, Q) = v. B79) P Q Q P Этим по существу и доказана основная теорема непрерывных игр. *) Таким образом, смешанная стратегия над чистыми стратегиями х задается здесь законом распределения ~п.
§ 23J ОСНОВНАЯ ТЕОРЕМА ДЛЯ НЕПРЕРЫВНЫХ ИГР 299 Остается лишь убедиться в возможности замены верхней и нижней границы в B79) на максимум и минимум при принятых условиях непрерывности F[x(u^9 #(//)]. Для доказательства необходимы две леммы из теории законов распределения и интегралов Стилтьеса, которые здесь доказываться не будут, но могут быть по существу найдены в курсах теории вероятностей или в книге Г. Е. Шилова и Б. Л. Гуревича «Интеграл, мера и производная»*). Ограничимся их формулировкой для случайных величин. Лемма 1. Всякая последовательность функций распределения случайных величин содержит подпоследовательность, сходящуюся к некоторой функции распределения во всякой точке непрерывности последней. Лемма 2. Если G (х) непрерывна на [а, Ь] и Fly ..., Fn— последовательность функций распределения, сходящаяся к функции распределения F во всех точках непрерывности F, то ь ъ lim J G (х) dFn (x) = J G (x) dF (x). B80) Покажем теперь важную, но почти очевидную лемму. Лемма 3. Если F [х (и(), у (rj)] непрерывна по и = {щ}9 г = {rj) на прямом произведении замкнутых множеств Ещ и ЕГр то max J F [x (uf), у {rj)\ dP (ult ... , un) = = max F [x {ut)y у (r )] = max F (x, y), B81) min J F [x (щ)9 у (rj)] dQ (гг... rm) = = min F[x(ut), y(r/)]=minF(x,y)9 B810 rjtEr, у inf max F(P,Q) = inf max [F[x,y (r.)] dQ(rl9 ... , rm), Q P Q x * B82) sup min \ F [x {u(), y] dP {u±... un) = sup min F (P, Q). B83) P У Р Q *) Приведенные здесь формулировки не совсем совпадают с приведенными там, но это не имеет существенного значения. В указанной книге эти леммы сформулированы для многомерного случая.
300 ТЕОРЕМЫ U РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ. IV Поскольку B8Г) совершенно аналогично B81), а B82) является прямым следствием B81), то достаточно доказать B81). Пусть в силу непрерывности F точка х0 = х (г/?, ... , и%) реализует тахР(х, у). Тогда, очевидно, (Ul ы„)= = maxF(x, y) = F(xo,y). X Следовательно, и max \ F [х(и()9 у] dP (иг,..., ыи)< max F (х, у). Р " х п Но, с другой стороны, взявР°(и19 ...,^) = П^?(«/)» где Pi(u()—функция, равная нулю при Ui<u\ и единице при и^и% получим \F[x{ut)y y]dP°(uly ...,iO = = J...jF[x(M/)f y]dP*M...dP*(uJ = = F[x №), y]=F (x0, y) = max F (x9 y) X и, следовательно, max F (x, y) < max \ F [x (ы,.), у] dP (ult ..., un). X P Наличие двух противоположных неравенств и доказывает справедливость B81). Отметим, что лемма 3 есть не что иное, как очередное воплощение общего тезиса о нецелесообразности или необязательности применения смешанных стратегий, если известна стратегия (чистая или смешанная), принятая противником. Перейдем теперь к доказательству возможности замены sup и inf на максимум и минимум. Доказательство проведем только для простейшего случая т = п=1 при Еа = Ег— = [0; 1], хотя результат верен и в общем случае. Ограничимся в виду полной аналогии доказательством достижимости _ 1 inf max F (P, Q) = inf max J F [x, у (г)] dQ (r).
§ 23] Основная теорема для непрерывных игр* 301 По определению нижней границы имеется последовательность стратегий Ql=Ql(r) такая, что lim maxF(P, Q,) = inf maxF(P, Q,). /-*ao P Q P В соответствии с сформулированной выше леммой 1 последовательность Qt может считаться выбранной так, что Qt(r) сходится к некоторой QQ(r) во всех точках непрерывности последней функции. Платеж непрерывен по и вслед за непрерывностью F[x(u)9 у (г)], и, следовательно, к нему можно применить лемму 3. Пусть х0 таково, что 1 $ F [х„у (г)] dQ0(r) = max ^F [х9 у (г)] dQ0 (r) = о х 0 fl =max J F [x(u)9 y(r)] dP(u)dQ0 (r). P 0 По лемме 2 получим i i lim J F [xQ, у (r)] dQ, (r) = J F [хш9 у (г)] dQ0 (r). Поскольку для любого I 1 1 J F [*•• У (r)] dQt(r) < max J F [x9 у (г)] dQ, (г), о TO И l lF[x,,y (г)] dQ0 (г) < lim max J F [x, у (г)] dQ, (r) = = limmax/7(P, Q,) = inf maxF(P, Q), /-¦<» P Q P и в силу определения х0 maxF(P, Q0)<inf max ^(P, Q). P Q P
302 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ. iy Поскольку, с другой стороны, всегда имеет место обратное неравенство, то Qo реализует inf max F(P, Q), и, Q р следовательно, верна следующая основная теорема теории непрерывных игр. Теорема XLI. Если игра с платежом F(х, у) задана на множествах стратегий М и N, являющихся образом соответственно п-мерного и т-мерного кубов О^М/^1; 1 ^ i ^ /г; 0 ^ гу. ^ 1; 1 ^ / ^ ту и если функция F [х(и1.. ,ип), у{гх.. .гт)] является непрерывной функцией по всем переменным и{ и rj в совокупности, то inf sup F(P, Q) и sup inf 7(P9 Q) достижимы и q p p q max min F (P, Q) = max min [ F [x (и,-), у] dP (ux... un) = P Q P у J = min max [ F [x, у (г.)] dQ (r1... rm) = min max F (P, Q). q x J Q p B84) В формулировке B84) заключены сразу аналоги собственно основной теоремы матричных игр B73) и теоремы XXXIX, а именно равенств B76). Введение связи стратегий х и у с вспомогательными и и г потребовалось выше для того, чтобы избежать затруднений, связанных с введением понятия смешанных стратегий в абстрактных пространствах, а также и для построения аппроксимирующей матричной игры. § 24. Решение матричных игр Решением игры называется определение ее цены (значения) и оптимальных смешанных стратегий. «Минимальная» игра получается, если у оперирующей стороны есть только две стратегии, между которыми надлежит сделать выбор или оптимальную смесь которых нужно определить. Так возникают матричные игры 2х/л с платежной матрицей ьт
$ 24] РЕШЕНИЕ МАТРИЧНЫХ ИГР 303 Поскольку т отражает богатство стратегий противника, то здесь трудно рассчитывать на малые значения, особенно, ес|ли рассматриваемая матричная игра есть аппроксимация игры с платежной функцией F(v, у), где о=1; 2. Как уже говорилось ранее, оперирующая сторона может ограничиться рассмотрением только двух стратегий, но не может предполагать то же относительно противника. Ситуация с наличием лишь двух конкурирующих стратегий оперирующей стороны отнюдь не является надуманной и возникает довольно часто, если нужно, например, оценить выгодность какой-либо технической новинки. Это производится путем сравнения ее с аналогичным (наиболее близким) старым образцом или комплектом старых образцов, заменить которые может рассматриваемая новинка. Решение игр 2х/л удобно проводить графическим методом. Применение оперирующей стороной смешанных стратегий при чистых стратегиях противника приводит к платежу где O^P^l, a i—номер стратегии противника. Согласно теореме XXXIX о двойном описании игры нахождение цены игры и оптимального /^[равносильно решению уравнения min [Роа, + A— Р0)Ь(]=тах min </<т Р 1</< НО min есть вогнутая полигональная функция, которая легко получается графически при нанесении на один и тот же график всех линейных функций Ра; + A—Р)Ь{. Любое максимальное значение ф (Ро) этого полигона и есть цена игры, а соответствующее Ро дает одну из оптимальных стратегий оперирующей стороны. Если полигон ф(Р) содержит целый отрезок, проходящий через точку [Ро, ф(Я0)] и параллельный оси Р, то весь этот отрезок и дает оптимальные стратегии; иначе, оптимальная стратегия единственна. Отсутствие других
304 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ. JV оптимальных стратегий следует из вогнутости ф (Р). Если Р0 = 0 или 1, то оптимальна чистая стратегия*). Собственно этим и закончено решение игры для оперирующей стороны, поскольку ее интересует нахождение ее оптимальной стратегии и ожидаемого наилучшего гарантированного результата, т. е. цены игры. Однако некоторый интерес представляет и нахождение оптимальной смешанной стратегии противника. В данном случае эти стратегии также очевидны: а) если Ро = 0, то противнику выгодно применять чистую стратегию, соответствующую прямой, проходящей через точку [0, ф@)] и при этом имеющую наименьшую производную (т. е. наибольший отрицательный наклон), поскольку Р0 = 0 реализует максимум ф(Р); б) если Ро = 1, то оптимальна для противника опять чистая стратегия, соответствующая номеру прямой, имеющей наибольшую производную (т. е. наибольший положительный наклон), из числа проходящих через точку П. фО)]; в) если 0 < Ро < 1, то у противника имеется оптимальная чистая стратегия только при наличии проходящей через [Ро, ф(Р0)] прямой, параллельной оси Р; ее номер и есть оптимальная чистая стратегия. Если такой прямой нет, то любая пара прямых а(Р + A—P)bt\ ау-Р + A—P)bjy проходящих через [Ро, ф(Р0)] и имеющих одна положительный, а другая отрицательный наклон, дает оптимальную смешанную стратегию q(~l\ q/=l—1\ 9/» = 0 ПРИ тфг, /, как только / удовлетворяет уравнению При этом платеж, очевидно, не зависит от Р и равен ф(Р0), т. е. цене игры. Существование такой пары следует из того, что ф(Р0) есть максимум полигона ф(Р). Поскольку решена игра 2хш, то, конечно, решена и игра типа?пх2. Однако этот случай в силу сказанного ранее маловероятен, ибо соответствует только двум стратегиям у противника. Перейдем к рассмотрению общего случая матричной игры пхт. *) Поиск max ф (р) легко, конечно, производить и на ЭВМ., пользуясь, например, алгоритмом Кифера—Джонсона,
§ |24] РЕШЕНИЕ МАТРИЧНЫХ ИГР 305 Как уже говорилось, множество оптимальных смешанных стратегий для каждого игрока есть выпуклое замкнутое мнржество, заведомо ограниченное неравенствами 0 ^ Р/^1 • Kaic известно, это множество вполне характеризуется указанием его крайних точек. Имеет место Лемма. Замкнутое ограниченное множество X натянуто на свои крайние точки, т. е. каждая точка представима в виде х = где x{k)—крайние точки. Мы не будем доказывать этой леммы (хотя она и не сложна), поскольку с развиваемой здесь точки зрения нет особой необходимости знать все решения игры; достаточно знать хоть одно решение, ибо все они относительно данной операции (игры) равноценны. Так же, как и в случае линейного программирования (см. доказательство теоремы IX), удобно искать именно крайние решения игры, которые наиболее просто описываются. Используя же приведенную лемму и зная все крайние решения, всегда можно получить достаточное представление о всем множестве оптимальных решений. Пусть теперь Ро = {р°, ... , рД и Qo = {</?, ... , q°m} — оптимальные крайние стратегии оперирующей стороны и противника, a v пусть будет ценой игры с матрицей \\а^\\. Имеем по теоремам § 22 п min max Sfl/y?J = n. Предположим, что строки и столбцы перенумерованы для Ро и Qo так, что первые / от 1 до г<т дают п т HjaijP0i = v> и также для первых i от 1 до k ^ п 2^/у9/=^; п в то же время для всех / > г ^aifpf > v, а для i > k i— i J соотзетствующие суммы меньше v.
306 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ, IV Тогда имеем совокупность равенств и неравенств п т <1 /1 Пусть теперь е > 0 таково, что n \ 2 aifP°i) > v + e, min max т 2 аи /=1 B85) —e. В силу теоремы XXXIX имеем р$ = 0 при t > k и ^у = 0 при / > г. Таким образом, для определения оптимальных стратегий будем иметь системы уравнений k г 2i 2 B86) при одновременном выполнении B85). Докажем теперь, что всегда r = kf а если юфО, то и 1г ап ... а ап ... аг если, конечно, Ро и Qo—крайние оптимальные стратегии. Предположим сначала, что гфк, и пусть, например, k > г. Тогда в системе уравнений число уравнений меньше числа неизвестных и в матрице II... а1
§ 24] РЕШЕНИЕ МАТРИЧНЫХ ИГР 307 число строк больше числа столбцов; следовательно, между строками есть линейная зависимость. Рассмотрим систему относительно величин а,- S/y(+/)pJ ^ K 2( Эта система, очевидно, равносильна системе однородных уравнений S*/y(a,-P?) = 0; /</•, 2 «/# = <> B87) относительно неизвестных arpot. Равенства из B86) означают, что у матрицы однородной системы уравнений B87) akl ... akr 11| между столбцами существует линейная зависимость г \ 2<7? = 1И» следовательно, хоть одно<7?>0)» т- е- ее /=i / ранг не превышает г < k. Поэтому система B87) имеет нетривиальные решения {alp(} и {— а\/??} при сколь угодно малых max | a\ \ = а. Выбрав а так, чтобы п a max У,|аир\|<\ (а < 1), получим, очевидно, из-за B85) min \tdaiJ(l±ai)pf \>v + ^. B89)
308 ТЕОРЕМЫ О РЕШЕНИЙ АНТАГОНИСТИЧЕСКИХ МП» [гЛ1 IV В то же время в силу B87) имеем к k > <29°) 2au(l-ai)p1 = v, 2 1 = 1 f=l Поскольку max | щ | < 1, очевидно, Таким образом, B89) и B90) с учетом р°? =0 при i >k означают, что системы Р{1)={р}1}\ и Р{2) = {р(^} являются оптимальными стратегиями оперирующей стороны и в то же время а это противоречит тому, что стратегия Ро крайняя. При предположении г > k совершенно аналогично придем к противоречию с условием, что Qo—крайняя оптимальная стратегия противника. Итак, r = fe. Пусть теперь v Ф 0; тогда вторая система в B86) означает, что в матрице B88), где уже k = г, последний столбец является линейной комбинацией остальных г столбцов. Если бы детерминант B91) был бы равен нулю, то какой-то из его столбцов был бы линейной комбинацией остальных г—1 столбцов, а вместе с ним и последний столбец B88) был бы линейной комбинацией тех же г—1 столбцов. Но тогда ранг матрицы B88) был бы не более г—1, что при k = r означало бы наличие нетривиального решения системы B87), а это опять привело бы к противоречию с исходным предположением, что Ро—крайняя оптимальная стратегия. Итак, детерминант B91) отличен от нуля, как только v Ф0. Таким образом, вспоминая, что B86) получалось после некоторой перестановки строк и столбцов в исходной пла-
§ 24] РЕШЕНИЕ МАТРИЧНЫХ ИГР 309 тежной матрице ||я//||, приходим к следующей теореме, принадлежащей Шепли и Сноу. Теорема XLII. Все крайние оптимальные стратегии Л> и Qo обоих игроков в игре с платежной матрицей ||а/у|| и цена игры v должны удовлетворять какой-либо из систем уравнений: г г 2j Q-iifl'n — v = 0; s=l, ..., г, ^Чп—** B93) /=i *=i где квадратная матрица ||а*д/,|| получена вычеркиванием некоторого количества строк и столбцов из матрицы ||fl/y||. #се остальные р] и q) для гф18 и ]ф\х должны быть равны нулю. Если цена игры vфO, то матрица || aisjt || должна быть невырожденной. Эта теорема дает, конечно, лишь необходимые условия для крайних оптимальных стратегий; среди решений B92) и B93) могут оказаться и неоптимальные стратегии и даже такие решения, когда не выполнено условие р?^0 или q)t ^ 0. Однако если это все выполнено, то решения уравнений B92) и B93) дают уже обязательно крайние оптимальные стратегии. Доказательство этого имеется в книге Карлина. Мы здесь на этом малосущественном обстоятельстве останавливаться не будем, ибо этот факт не меняет необходимости перебора всевозможных систем B92)—B93). А если уж они все перебраны, то безразлично, все ли соответствующие оптимальные стратегии крайние или среди них есть и не таковые. Применение теоремы XLII на практике затруднено не только из-за необходимости перебора всех квадратных подматриц матрицы ||а/у||, но и из-за необходимости проверки оптимальности стратегий, т. е. условий B85) (условия pt^O и q]^0 затруднений, конечно, не вызывают). В связи с только что доказанным целесообразно остановиться на понятии вполне смешанной игры. Игра называется вполне смешанной, если в каждую оптимальную смешанную стратегию каждого из игроков
310 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [гл. IV любая чистая стратегия входит с положительной вероятностью, В такой игре все чистые стратегии существенны, и без потери эффективности ни одна из них не может быть выброшена. Раз во вполне смешанной игре все pt и qj не равны нулю, то система B92) — B93) должна базироваться на самой исходной матрице ||я/у|| без вычеркивания строк или столбцов. Но тогда матрица ||я/у|| должна быть квадратной, а при v=?0 еще и не вырожденной. Вполне смешанной игрой может быть только квадратная игра с невырожденной матрицей, если и=^0. Но если система B92)—B93) должна базироваться на || Я/у ||, то она единственна и потому единственны и крайние оптимальные стратегии сторон, как решения неоднородных систем уравнений с числом уравнений, равным числу неизвестных. Единственность крайней стратегии означает, конечно, и единственность оптимальной стратегии вообще. Вполне смешанная игра имеет единственное решение, /л. е. одну пару оптимальных смешанных стратегий сторон. Вполне смешанные игры являются как бы антиподами игр, имеющих седловую точку в чистых стратегиях. Примерами вполне смешанной игры могут служить игры с матрицами: I. Матрица Минковского—Леонтьева. при 1Ф\\ i, и с если еще II. Циклическая матрица. при \А\фО. Доказательство имеется в книге Карлина. Несмотря на то, что теорема XLII выглядит исчерпывающим способом решения матричных игр, сложность такого
§ 24] РЕШЕНИЕ МАТРИЧНЫХ ИГР 311 решения заставляет искать и иные пути решения матричных игр. Целесообразно остановиться на связи решения матричных игр с решением задач линейного программирования. Согласно теореме XXXIX решение игры состоит из двух задач: а) поиск Ро такой, что min y\ aup?= max min y\ aifpf=v; KKmfSi P={Pi} K/<«/5i б) поиск Qo такой, что m m max 2 a/j^9 = min max 2 au4i==zV- 1<J</1/=1 Q 1 </</t / = 1 Пусть atj > 0, а значит, и v > 0. Этого можно всегда добиться, не меняя оптимальных стратегий добавлением ко всем элементам atJ одной и той же достаточно большой величины. Вводя п г>(Р)= min 2я//Р/ _ т t;(Q)= max 2 можно записать первую задачу как стремление к максимизации величины v(P) при условиях Введем новые переменные jcf'= p* Тогда, очевидно, имеем условия п п Из связи же 2 Р/=1 получим ,р. =2 xt. Стремление к увеличению v(P) ведет в новых переменных к п стремлению добиться минимума 2 */•
312 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ. IV Точно так же, вводя yt = Jl , получим, что вторая задача означает стремление к получению максимума 2 #/ = -= при условиях *=i v(Q) Итак, всякое решение игры (Ро, Qo) при цене игры v дает в то же время решение указанных задач на экстремум для переменных xt и ур причем Обратно, если имеются решения {л:?} и {у]} указанных п п задач, причем 2 х? = 2 У) = ~ » т0* очевидно, для pi=vxf; qj = vy] имеем m 2 /i Но отсюда /г min 2 aijPi тогда и n in max min 2 ai/Pi > t;^ min max 2 0/ В силу теоремы XXXIX все неравенства становятся равенствами, v оказывается ценой игры, а Р0 = {р$} и Qo=:{^}—оптимальными смешанными стратегиями. Поскольку приведенные выше две экстремальные задачи для л;,- и tjj являются ничем иным, как двойственными задачами линейного программирования, то получена
§ 24] РЕШЕНИЕ МАТРИЧНЫХ ИГР 313 Теорема XLIII. Решение матричной игры с платежной матрицей || аи \\ при i^.n; j ^ m эквивалентно решению двойственных задач линейного программирования: п 2 Xi при п 2 аих^ 1; /= 1, ... , m; m 2) max 2 У/ ПРИ У/ ^ 0 m S : 1; *'=1, ... i Л. Ценой игры v является величина, обратная общему п т значению оптимальных 2 х$= 2 У?== ~" > а оптимальные i=i /=i ° р? и 9/ связаны с оптимальными значениями х$ и yj связями p*i=vx°i, q) = vy). Согласно этой теореме решение матричных игр в смешанных стратегиях сводится к решению некоторых частного вида двойственных задач линейного программирования и, значит, может быть получено методами линейного программирования. Однако, и обратно, любая задача линейного программирования может быть сведена к решению некоторой матричной игры. В общем случае любая задача линейного программирования сводится к так называемой симметричной игре. Матричная игра с платежной матрицей А = || atj || называется симметричной, если матрица А кососиммет- рична, т.е. если а/у=—а^. Симметричные игры обладают следующими свойствами. I. Цена симметричной игры равна нулю. Действительно, п Г п 1 п min2 <tijPi= min —2 a/iPil = —max2 ^jiPi = = — max 2 a/7/7y<—minmax 2 aijPj=1—v* 1 i=i {pj\ l /=i
314 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [гЛ. IV Но из-за произвольности {р,} в левой части следует п v= maxmin 2 auPi^—v> т. е. 2t/<0. Точно так же и наоборот: п п п max 2 aifli = — min 2 aifli ^ — max min 2 aifli = — v> и благодаря произвольности {qj\ n ; = minmax 2^//9/^ — v и 2a ^0. Таким образом, а^О. II. Если {р?}—оптимальная стратегия оперирующей стороны в симметричной игре, то такая же стратегия оптимальна и для противника. Действительно, из определения оптимальной стратегии оперирующей стороны и t; = 0 следует, что п 2 аур* > 0 при 1 < / < п. Но тогда отсюда при любых t<; п. А это и означает, что {р)} есть оптимальная стратегия противника. Пусть теперь даны произвольная матрица Л = ||а/у|| A<л<:л; 1<1/<;т) и двойственные задачи линейного программирования: ax [ 2 ctxt A. max [ 2 ctxt ] B94)
§ 24] РЕШЕНИЕ МАТРИЧНЫХ ИГР 315 при условиях х\ > 0; 2 ajix'i < ty, j = 1, ..., п. Б. min {у}} Ь,у) B95) ., m. при условиях */} ^ 0; 2 Яу?у'/ ^ с,-, i = 1, Образуем квадратную кососимметрическую матрицу /п п 1 0 6 ап ... 0 ... 0 L- *Мпт . . . Ст """""" 11 0 0 61 L... —а ,... —а 0 ... 0 ... ь -ъп о B96) Здесь числа т, м, 1 показывают число строк и столбцов в подматрицах матрицы В. Обозначим, далее, через [хг ... хт, ух ... уп> X} = z смешанную стратегию в симметричной игре с матрицей В. Теорема XLIV. Решение двойственных задач линейного программирования B94) и B95) эквивалентно решению симметричной игры с матрицей В. Точнее, если z0 — оптимальная стратегия в игре с матрицей B96) и при этом А,0 >0, то Х/=-|^- и У/ = -|т дают решение задач B94) и B95). Наоборот, если х\ и у)—решение B94) и B95), то величины К0 = , х? = Х°х/, у? = X°y'f обра- J+Si' + Sw зу/om оптимальную смешанную стратегию (х°у ..., х^, У?» •. • у Ут ^°) в игре с матрицей B96). Доказательство. Пусть z0—оптимальная стратегия для игры B96), имеющая Х° > 0. Поскольку эта игра симметрична, то zQ рптимальна для обоих противциков н 0
316 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ. IV При применении оперирующей стороной эта стратегия дает п 2 Д//0? —cjk° > 0; 1 < / < m, при первых т чистых стратегиях противника. При п чистых стратегиях противника из второй группы имеем т — S я//*? + Ьр > 0; 1 < i < п. i=i Наконец, при применении противником последней чистой стратегии (поскольку она входит с положительной вероятностью Х° в оптимальную смешанную): Деля все эти соотношения на Х° > 0 и вводя х}= ~ ; == -—, имеем S*?&/?• B97) l Первые две системы неравенств показывают, что {х)} и } удовлетворяют условиям задач B94) и B95), т. е. являются допустимыми векторами в этих задачах. Для любого допустимого вектора [х]} задачи B94) в силу допустимости {у\} и последнего равенства B97) имеем Но это означает, что max ^jj 2
§ 24] РЕШЕНИЕ МАТРИЧНЫХ ИГР 317 Аналогично и п min 2fyft'= Отсюда и следует, что {xj\ и {#|} являются решениями соответственно задач B94) и B95). Обратно, пусть {х}} и [у]}—решения задач B94) и B95) линейного программирования. Положим Очевидно, что Х*?+ Ху/+^°=1- Далее, в силу теоремы двойственности линейного программирования или после умножения на Х° т п Jcrt-JZbtf^O. B98) Кроме того, Умнол<ая на >^° и перенося все величины в левые части неравенств, получим 2 Но B98) и B99) в совокупности означают, что применение оперирующей стороной стратегии z° гарантирует платеж, не меньший нуля, при любых чистых стратегиях
318 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ. IV противника в игре с матрицей B96). Поскольку последняя игра симметрична, то ее цена равна нулю, а потому стратегия z°, обеспечивая платеж, не меньший цены игры, есть оптимальная стратегия. Этим и завершается доказательство. Последние теоремы позволяют применять методы линейного программирования в теории игр и наоборот. Однако эта связь, впервые обнаруженная Данцигом и фон Нейманом, не имеет никакого отношения к поиску наилучших чистых гарантирующих стратегий, максими- нов и минимаксов в чистых стратегиях. Эти задачи, как и точное решение непрерывных игр, являются пока самостоятельной трудной проблемой. § 25. О численных методах решения матричных игр Доказанные в § 24 теоремы о связи задачи решения игры в смешанных стратегиях с решением задач линейного программирования позволяют пользоваться для решения игр численными методами, разрабатываемыми в линейном программировании, и обратно. Не останавливаясь на численных методах линейного программирования, излагающихся в многочисленных книгах, перейдем к рассмотрению других возможностей. Прежде всего, из теоремы XXXIX следует, что задача определения оптимальной смешанной стратегии оперирующей стороны эквивалентна следующей задаче. Определить максимум функции \%\ C00) при условиях Pi ^ 0, 2Р/= 1- Эт01 максимум и есть цена игры. Аналогично оптимальная смешанная стратегия противника определяется как реализующая минимум функции т = max 2 Ч/>0, Jl<77=l. C01)
§ 25] О ЧИСЛЕННЫХ МЕТОДАХ РЕШЕНИЯ МАТРИЧНЫХ ИГР 319 Выражая рп и qm через другие переменные, приведем эти задачи к виду 1. Определить максимум функции (п — 1)-го переменного C02) K3<m y=i в области, определяемой неравенствами Pi > о, ..., Pn-i > о; ПДр< < 1. (зоз) 2. Определить минимум функции (т—1)-го переменного C04) в области . C05) Для характеристики задач C00)—C01) и C02)—C05) остается отметить, что, как показано ранее, функции ср (р) и ФхО*!, ..., рп-г) вогнуты, a t|)(Q) и ^ЛЯи •••» fl.-i) выпуклы. Области C03) и C05), очевидно, выпуклы, ограничены и замкнуты *). Вогнутость фх и выпуклость г|?х обеспечивают совпадение локальных максимумов (минимумов) с максимумами (минимумами) в целом. Таким образом, получаются удобные условия для применения любых численных методов поиска экстремумов, например, градиентного метода и метода случайного поиска. Для применения второго нет вообще никаких препятствий; что же касается первого, то здесь необходимы уточнения в связи с видом функций фх и г^, являющихся кусочно-линейными. Определение градиента Фх должно производиться в каждой точке (рг, ..., рл-х) п-1 для функции 3j(aiJ%—anu)Pi + ani9 при том значении /0, для которого в рассматриваемой точке достигается значе- 2(я/у—anj)Pi + anj • Если эта точка не лежит i=i J *) Таким образом, сформулированные задачи есть задачи вогнутого и выпуклого программирования.
320 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ. IV на краю линейного куска cplf то все получается просто. На краях j0 заведомо не единственно и потому не ясно, как определить направление на следующую точку в процессе поиска экстремума; к тому же здесь вообще нет производной. Однако эта трудность несущественна. Во-первых, попадание точно на край маловероятно. Во-вторых, чтобы продолжить движение, здесь можно взять любую из /0 (например, первую из таких /0), реализующих указанный выше минимум, и для него определить градиент, и, значит, следующую точку поиска экстремума. Таким образом, градиентный метод вполне может быть реализован. Следует заметить только, что при желании можно и на краях легко получить точное направление наиболее крутого подъема, воспользовавшись тем, что для <рх и на краях есть производная по всем направлениям. Эта производная легко определяется по теореме XXVIII, вполне применимой к данному случаю, несмотря на дискретность переменной /, выполняющей здесь роль вектора у этой теоремы. Таким образом, может быть точно определено направление наибольшего подъема во всех точках области C03). Аналогично обстоит дело и для ч|?х. Перейдем к описанию специфического для теории игр итеративного численного метода нахождения цены игры и оптимальных смешанных стратегий. Идея метода предложена Брауном и состоит в следующем. Пусть дана матричная игра Рассматривается бесконечный процесс повторения этой игры, при которой каждый из игроков каждый раз предполагает, что противник выберет смешанную стратегию, определяемую частотами появления чистых стратегий в прошлых повторениях, а сам выбирает чистую стратегию, обеспечивающую наилучший результат при таком положении. Пусть уже сделано k повторений игры, в которых первый игрок выбирал чистые стратегии i19 ..., ik, а второй— /i» •••! /V Тогда на &+1-м повторении первый игрок предполагает, что второй выберет с равной вероятностью любую из jly ..., /^ а это эквивалентно ранее сказанному о частотах появления чистых стратегий, поскольку
§ 25] О ЧИСЛЕННЫХ МЕТОДАХ РЕШЕНИЯ МАТРИЧНЫХ ИГР 321 частота появления стратегии /0 при этом как раз и совпадает с числом js (s<fc), равных /0, поделенным на к. Такое предполагаемое первым игроком поведение вто- 1 * рого приводит с его точки зрения к платежу у 21 аи*> ко" 8=1 торый он и стремится максимизировать, выбирая на k + 1-м повторении чистую стратегию ik+1\ для этой стратегии справедливо 2а, /,= max 2*//, = k-vx(k) C06) Sl k + 1 1</<Л 11 (деление на k ничего не меняет в выборе). Аналогично, второй игрок на fe+1-м шаге выбирает }k+1 так. что к к 2 a, j = min %alef = v2(k)k. C07) s=i Истинный платеж при (k+ 1)-м выборе, очевидно, равен ^ , , а средний платеж— г-гтУ*^/* = v* (k). Однако к+Гк+1 «Т*1 -" 8=1 эта величина не учитывается в итеративном процессе. Существует еще второй вариант итеративного процесса, в котором первый игрок поступает также, а второй делает свой fe+1-й шаг только тогда, когда ему становится известным k+1'й шаг первого игрока. В этом случае второй игрок пользуется вместо C07) соотношением ,., = min 2ж./=(*+1К(*+1). C08) *'k+i i</< Тем самым он как бы не вполне доверяет этой последней информации, считая равновероятным у первого игрока как выбор стратегии ik+1, так и всех предшествующих. Чтобы закончить описание этого процесса, нужно определить выбор стратегий в первой игре. Во втором варианте процесса ix выбирается произвольно, а /1 в соответствии с C08) в виде a/iA= m аа/. C09) 11 Ю. Б. Гермейер
322 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [гЛ. IV В первом варианте процесса ix и /\ выбираются произвольно. Как уже было сказано, в первом варианте j k m k n IL X (k) Т ILl aU* = Xi ai/r/ (k)> T H ahi = X au h (k)» s=i j=\ s=i /=i Где rj(k) и /Д&)—относительные частоты появления /-й и /-Й стратегий в А повторениях игры, 1((к) и /y(fe) есть некоторые смешанные стратегии. Поэтому из теоремы XXXIX имеем, если v—цена игры: m vx (k) = max 2 aurj C10) Если бы при каких-то kx и й2 было бы vx (kx) = v2 (k2) = v, то, очевидно, и соответствующие {гу(&2)} и {//(&!)} были бы оптимальными стратегиями. Для второго варианта про- цессса рассуждения аналогичны. Дж. Робинсон доказала, что lim vx(k)= Umv2(k) = v9 C11) i. e. что воображаемые платежи vx(k) и v2(k) стремятся к истинной цене игры v. Доказательство утверждения C11) дано в статье Дж. Робинсон «Итеративный метод решения игр» (в сб. «Матричные игры») и в книге Карлина. Этим утверждением заканчивается описание итеративного метода решения игр, Оценка скорости сходимости этого метода дани Г. П. Шапиро в статье «Замечание о вычислительном методе в теории игр» (в том же сборнике). Показано, что v1(k)—v2(k) = O\k "+«*-*]. C12) Согласно этой оценке скорость сходимости, сама по себе небольшая, падает с увеличением размерности игры (п + т). На практике скорость сходимости метода в том виде, как он сформулирован выше, также сравнительно
§ 25] О ЧИСЛЕННЫХ МЕТОДАХ РЕШЕНИЯ МАТРИЧНЫХ ИГР 323 мала, хотя, конечно, гораздо больше, чем по C12); предположительно скорость сходимости должна иметь порядок k 2. На практике заметна также значительная «пульсация» метода, состоящая в том, что v1(k) и v2(k) сходятся к v весьма немонотонно. Несмотря на эти недостатки, значение итеративного метода велико, ибо он прост и в какой-то мере отражает жизненную практику невольного приобретения опыта игроками в результате многих повторений конфликтных ситуаций. Даже само предположение о равновероятности повторения противником своих прошлых стратегий довольно точно соответствует бытующему весьма часто предложению Лапласа о равновероятности неопределенных факторов, в качестве которых можно здесь принимать повторение того или иного из прежних решений. Выбор наилучших чистых стратегий на каждом шаге является уже естественным следствием предположения о равновероятности использования противником прежних решений. Таким образом, ситуация с итеративным методом есть отражение некоторой реальной ситуации накопления опыта, выражающегося в постепенной выработке «хороших» стратегий {rf(k)} и {/,(*)}. Сходимость метода свидетельствует и о сходимости соответствующих реальных процессов «обучения», а плохая сходимость свидетельствует, видимо, о недостаточной разумности этогопроцесса. «Неразумность»такого накопления опыта является естественным следствием непредусмотрительности обоих игроков (расчет на прошлое—недооценка возможностей второго игрока). Поэтому опыт применения смешанных стратегий появляется, вопреки стремлению каждого из игроков использовать только чистые стратегии. Сравнительно малая скорость сходимости итеративного метода связана, видимо, еще со следующим обстоятельством. Если, например, первый игрок уже получил оптимальную смешанную стратегию, то он отнюдь не останавливается на ней, а продолжает попытки выиграть у противника больше, если последний еще не достиг оптимальной стратегии (невольно, конечно), и тем самым опять может 11*
324 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ. IV ухудшить свое положение. Даже если противник достиг оптимальной стратегии, то неоднозначность выбора чистой стратегии первым игроком в этих условиях опять продолжает процесс и может увести его от седловой точки. В этом и состоит причина «пульсаций». Для уменьшения количества лишних повторений можно использовать при суждении о возможности окончания процесса не величину vx(k)—v2(k), a A(k)= min v1(s)— max v2(s)>0. C13) При прекращении процесса за приближенную цену игры следует считать величину JL Г min vt(s)+ max t>2(s)l, C14) 2 LKs<^ i<s<*« J а за оптимальные стратегии—те {//(s^} и {//(sa)}, для номеров итераций которых реализуются соответственно min vt(s) и max v2(s). На примере игры с матрицей 2 1 О 2 0 3 1 3 3 (max min = 0; min max = 2) в книге Карлина проиллюстрирован итеративный метод; мы используем его для того, чтобы показать, как можно ускорить процесс, применяя C13) вместо vx(k)—v2(k). Итеративный процесс описывается табл. 1 (при втором варианте его и начале процесса it=l)9 где к с. (k) = 2 aih = c{(k— l)+alh. l s=l Из табл. 1 хорошо видна""«пульсация» и связанная с ней сильная немонотонность v1(k)—v2(k). Наилучшая разница получилась на 15-м шаге @,133), но на следующем она резко ухудшилась. Такая нестабильность и означает плохую сходимость разности v1(k)—v2(k). В то же
> X 3 ^ to M О О ~ § 3 I О О ~ О О н- 8 о о — 8 о со о **1 Ю О со со о о о ~ 3 S 8 3 3 ^- о ~ о о "ел "ел О О J- 8 О о о — о о — ? ел о о о *- 1 .8 Я 43 ^09 я к g 100 t ) О< CONDlOlsDtOCOCOtONDtOtOCOCOlOlsDNDtOCO оослслслслслюсососососоосососососо i s i X H о X 0 w E 2 I H OV s со ю ел
326 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ. IV При ?=-17 получаем Д& = 0,059, что дает оценку точности, в два раза лучшую, чем минимальная vx(k) — — v2(k) = 0,133. Если же считать достаточной оценку 0,133, то при использовании C22) она уверенно достигается уже при k — 8 (вместо 15). Оценка цены игры по C23) при этом уже при k = 8 даст величину 0,937, а на 14-м шаге —0,964. Таким образом, применение C13)—C14) значительно «облагораживает» итеративный процесс и, возможно, увеличивает быстроту сходимости. Такой подход и отражает, видимо, первоначальную идею Брауна. Интересно посмотреть, как ведет себя в этом примере истинный средний платеж v*(k-\-l). Имеем: 0; 0; 0; 0; 3/5; 0; 3/7; 0; 0; 0; 3/11; 0; 3/13; 0; 0; 0; 3/17; 0. Таким образом, v*(k+l) не стремится к цене игры. Это обстоятельство лишний раз показывает на неразумность поведения игроков в реальной ситуации (когда платежом будет, конечно, v*(k)) по способу, характерному для итеративного процесса Брауна; а между тем дело часто происходит именно так. С другими примерами применения метода Брауна и рядом модификаций, позволяющих практически улучшить сходимость, можно познакомиться в книге Е. Г. Голь- штейна и Д. Б. Юдина «Новые направления в линейном программировании». Варьируя поведение игроков во время повторений, можно получать различные итеративные процессы решения игр и в то же время изучать эффективность соответствующего поведения в многократно повторяющихся конфликтных ситуациях; в изучении такого поведения смысл есть тогда, когда это поведение проще предписываемого точным решением рассматриваемой игры. В качестве одного из примеров таких итерационных процессов можно предложить следующий, основанный на несколько более осторожном поведении [каждого игрока, считающего противника столь же разумным и активным, как и он сам. За основу здесь опять берутся две возможности поведения каждого из игроков, характерные для процесса Брауна. На каждом, например, fe+1-м повторении первый игрок может или применить накопленную прошлым
§ 25] о численных Методах Решения матричных игр 327 опытом смешанную стратегию или чистую стратегию, максимизирующую платеж при накопленной за k повторений смешанной стратегии второго игрока. Точно так же второй игрок на fe+1-м повторении может или действительно использовать свою накопленную смешанную стратегию или применить чистую—минимизирующую платеж в предположении, что первый игрок применит свою накопленную стратегию. Итак, здесь оба игрока равноправно участвуют в образующейся на fe+Ьм повторении игре, имея каждый по две стратегии. Опишем эту игру. Пусть {pi(k)\ и {gj(k)\ (при 1<*^п; 1</<т) — смешанные стратегии игроков, накопленные опытом прежних повторений; пусть матрица исходной рассматриваемой игры есть || ац || A < i < п\ 1 < / < т) и / (k + 1) и /(fe-J-1) таковы, что ЧЕЛ п /у\ mov V* Тогда на fe+1-м шаге образуется игра с платежной матрицей п т k) v%(k) 1 aW . C15) aHk+v Ak+D Здесь первая строка и первый столбец соответствуют применению стратегий {/?,(&)} и {gj(k)}9 а вторая строка и второй столбец—стратегиям i(k+l) и j(k+l). Задача игроков на fe-f-1-м ходу состоит в определении оптимального поведения в игре C15) и в определении цены игры. ?Игра C15) всегда имеет седловую точку. Чтобы в этом убедиться, заметим, что в силу определения i(k+l) и j(k+l) имеет место неравенство М*)> Jj Jj <*ijPi(b)ej(k)^v2(k). C16)
328 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [гЛ. IV Поэтому могут быть только следующие случаи: а) vl(k) = v2(k) = 2?ai/pi(k)g/(k); здесь седловой точкой является совокупность стратегий {/?,(&)} и {gj(k)}\ цена игры uk = v1(k) = v2(k)\ б) v1(k)>v2(k) и Я/(й+1)/(Л+1) находится строго между v1(k) и v2(k); тогда седловой точкой будет совокупность стратегий i (k+ 1) и j(k+ 1), а цена игры Uk = aiik+Vj{k+1} находится между v1(k) и v2(k)\ в) vx (k) > v2 (k) > ai(k+i)/(k+i); тогда седловой точкой из-за C16) будет {/?,.(&)}; /(fe+1), а ценой игры w* = i;a(fc); г) а^+1)/(А+1)^у1^)>у2(*); здесь из-за C16) седловой точкой является пара i(k+l); {gj(k)}; цена игры 4 = vx{k). Суммируя все случаи, видим, что определение оптимальных стратегий зависит только от взаимного расположения величин vx(k), v.2(k) и ai(k+1)/{k+v, причем всегда Определение величины 22 ai/Pi(k)gj(fy для всех этих операций не требуется и, значит, не нужно для итерационного процесса. Оптимальные стратегии сторон в игре C15) будем обозначать через {Pi(k)} и {gj (k)}. Таким образом, например, в случае а) ~Pi(k) = Pi(k), gj(k)=gi(k), а в случае б) Pi(k) = 0 при gj(k) = O при Для окончательного оформления итерационного процесса необходимо определить, как происходит пополнение опыта нахождения оптимальных смешанных стратегий, т. е. как совершается переход от {pt (k)}, {g) (k)} к {pt (k + 1)}, {gj(k+l)} и каково его начало. Аналогично методу Брауна имеем 1 "\ rr\PiW^ <317)
§ 25] О ЧИСЛЕННЫХ МЕТОДАХ РЕШЕНИЯ МАТРИЧНЫХ ИГР 329 За начало процесса, т.е. за {^A)} и {g)(l)}> можно брать любые смешанные или чистые стратегии. По этому поводу можно лишь заметить следующее. 1) Если i; = maxmina:/ близко к v = mmmaxai/9 т. е. -il'J I i игра близка к игре с седловой точкой, то за начальные стратегии рационально брать наилучшие чистые гарантирующие стратегии игроков. Близость v и v должна измеряться, видимо, относительно таха^—^ 2) Если v_ не близко к v> или нежелательно определять эти величины, то можно взять за (р/A)} и {g)(l)} равномерные распределения < —, ...,—> и < — , ...— >. Разумеется, это относится к случаю, когда нет никаких приближенных соображений об оптимальных стратегиях. Если же есть некие приближения, то их и следует взять за начало процесса (сходимость его не доказана). Процесс будет или бесконечен или окончится на случае а), когда его продолжение будет означать повторение все время одних и тех же стратегий {/?/(&)}» {&/(?)} и цены игры u = v1(k) — v2(k)9 а, значит, может быть оборвано ввиду нахождения точных оптимальных стратегий и цены игры. Интересно отметить, что, начиная с некоторого k, ситуация б) не может иметь места, если истинная цена игры не совпадает ни с одним членом матрицы а/у, так как v1(k) и v2(k) будут достаточно близки к этой цене игры, если процесс сходится. Под величиной, оценивающей ошибку выработки оптимальных стратегий и под самими приближениями оптимальных процессов, можно понимать, как и в методе Брауна, или vx(k)—v2(k) с соответственно {/?,(&)} и {gj(k)}> или же в соответствии с C13) minti^I)—тахи2(/) и те (р/(/0)} и {g)(/i)}, которые реализуют эти минимум и максимум. Целесообразно также, видимо, при неединственности i(k+l) или /(? + 1) брать в условной игре C15) на fc+1-м шаге для реализации соответственно v1(k) nv2(k) равновероятную смесь этих i(k+l) или j(k+l). Тогда в C15) вместо чистых t(fe+l) и /(&+1) появятся соответствующие осреднения этих величин,
330 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ. IV Как видно из описания, предложенный итеративный процесс мало отличается от метода Брауна. Однако он основан на более осторожном поведении игроков и обеспечивает стремление uk к цене игры, что, видимо, более приемлемо, если итеративный процесс рассматривать как сравнительно разумное поведение игроков в реальной многократно повторяющейся конфликтной ситуации. Пользуясь этой же идеологией, можно, конечно, пробовать и другие варианты поведения игроков при формировании условий игры на fe+1-м повторении или другие (вместо C17)) формулы присоединения опыта этой попытки к предыдущим*). Например, /(fe+1) и i(k+l) могут определяться не как реализующие соответствующие экстремумы, а как равновероятная смесь нескольких / или i9 которые наиболее близки к этим экстремумам или вообще случайно выбираемы. В обоих этих случаях игры, аналогичные C15), могут уже решаться не в чистых, а в смешанных стратегиях, однако это не приведет к значительному усложнению процесса, поскольку игры 2x2 (т. е. с двумя стратегиями у игроков) легко решаются аналитически в общем виде. В заключение этого раздела отметим, что метод Брауна получил прямое продолжение и на непрерывные игры при произвольных компактных пространствах стратегий в работе Дж. Данскина «Итеративный метод решения непрерывных игр» (в сб. «Бесконечные антагонистические игры»). § 26. Примеры аналитического решения игр в смешанных стратегиях Большое количество примеров дано в книге Карлина. Учитывая это, рассмотрим здесь лишь четыре примера. I. Простейшей игрой является игра с матрицей C18) в которой каждый из игроков располагает лишь двумя *) Некоторые такого рода изменения описаны в уже упоминавшейся книге Юдина и Гольштейна.
§ 26] ПРИМЕРЫ РЕШЕНИЯ ИГР 331 стратегиями. Мы уже сталкивались с такой игрой при рассмотрении итерационных методов решения игр в § 25. Решим игру C18) в общем виде. Прежде всего, если max[min(a11; a12); min(a21; а22)] = = min[max(a11, a21); max(a12; а22)], C19) то игра имеет седловую точку в чистых стратегиях; оптимальные стратегии первого игрока (выбирающего строки)— те строки, для которых реализуется максимум в правой части; аналогично определяется и оптимальная стратегия второго игрока. Если C19) не выполнено, то по теореме XLII крайние оптимальные стратегии сторон и цена игры v должны определяться из уравнений Я11РО + Я21О— Po) = a12po + a22(l— po) = v, \ «lift + «И A —go) = fl.lft + Я22 A —go) = V. j ( Здесь р0 и gQ—вероятности выбора своей первой стратегии соответственно первым и вторым игроками; вторые стратегии применяются, конечно, с вероятностями 1—р0 и 1—ft. Из C20) без труда получим Р =; fl22 — fl2l 011 + 022 — 021 — 012* __ 0220Ц — 012fl21 2 — 012 + Если из C21) получается р0 или gQ, не удовлетворяющие неравенствам О^ро^1; O^go^l, то это означает, что игра имеет седловую точку в чистых стратегиях, т. е. выполнено C19). II. Решим игру с платежной функцией (модель IV) k W = 2 max fa—pM 0] C22) k k при 2 Х; = N\ 2 Hi = n.
332 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ. IV Как уже отмечалось ранее, эта функция выпукла по У = {#/}> и потому (теорема XVII) цена игры равна мини- максу для нападения, т. е. по B47): N— I C23) При этом оптимальной стратегией защиты является чистая стратегия <//=—* • C24) /= 1 Остается, следовательно, отыскать оптимальную стратегию нападения. Покажем, что таковой является стратегия, состоящая в том, что с вероятностью /,- = —^— /=1 PJ все средства нападения направляются на i-й пункт защиты. Действительно, при такой стратегии нападения платеж для любой стратегии у защиты, очевидно, равен к Y max [N-pm 0] г * = max VI ;0 = 0. Но это и означает, что выбранная стратегия оптимальна для нападения. III. Рассмотрим матричную игру вида kxk с матрицей х# N ... N N N N N ' if' N akN C25)
§ 26] ПРИМЕРЫ РЕШЕНИЯ ИГР 333 Эта игра тесно связана с предыдущей. Действительно, положив в C22) n = N и р,= 1—ah получим, что C25) есть игра с платежной матрицей типа C22), если только все силы защиты и нападения могут распределяться только сосредоточенно, т. е. все направляются на какой-то один пункт. Точнее, C25) получается из C22), если стратегии нападения обязательно имеют вид yt = Ny yj = Q при \Фх\ аналогично и стратегии защиты имеют только вид xs = N; xt = 0 при t Ф s. Из этой связи следует, что для нападения можно ожидать сохранения оптимальных стратегий, поскольку они и в задаче C22) состояли только из чистых концентрированных стратегий. Если согласиться с этим предположением, то оптимальная стратегия первого игрока (нападения) для C25) должна быть: 1-я чистая стратегия имеет вероятность Р?= К . C26) Взяв такую смешанную стратегию, получим при любой чистой s-й стратегии второй стороны платеж: C27) который оказывается, как и следовало ожидать, независимым от s. Предположим в силу симметричности матрицы C25), что стратегия C26) оптимальна и для второго игрока. Взяв эту стратегию, опять получим для любой s-й чистой стратегии первого игрока платеж C27). Но тогда этим и доказана оптимальность стратегии C26) для обоих сторон. Цена игры равна величине C27). Сравнивая эту игру с C22) при N — п и />/<1, приходим к выводу, что ограничение стратегий лишь концентрированными распределениями сил, без изменения цены
334 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ. IV игры, приводит только к замене чистой стратегии защиты C24) на совпадающую с ней по написанию смешанную стратегию, где настоящее распределение сил, пропорциональное величинам ^ , трактуется уже как вероят- /1 ность направления всех сил защиты на i-u пункт. Но тогда, конечно, в самой задаче C22) наряду с чистой оптимальной стратегией C24) при N = п имеется еще и указанная смешанная оптимальная стратегия. Эти стратегии эквивалентны по результатам, если имеются условия, разрешающие защите применять смешанные стратегии (т. е. у нападения нет информации о выборе чистой стратегии защиты), и если согласиться с осреднением результатов по вероятностям. IV. В качестве четвертого примера решения игр возьмем уже разбиравшуюся задачу о поиске оптимального момента т включения дублирующего элемента (см., например, § 21). Платежом в этой задаче является функционал T1, C28) где p(t)—стратегия природы (закон надежности первого элемента), подчиненная ограничениям OD 00 S р (/) dt = 7\; 2 J tp @ dt = Т\ + Dx C29) о о при условии Dx < Т\. Поставим задачу: нужно получить максимин в смешанных стратегиях оперирующей стороны и попытаться определить оптимальную стратегию, т. е. функцию распределения Ф0(т), для которой 00 00 ini 5 Т [т, р (*)] dO0 (т) = sup inf J Т [т, р (t)] dd) (t). Pit) о ф(т> Р@о Решение этой задачи проведем на основе не совсем строгих рассуждений.
§ 26] ПРИМЕРЫ РЕШЕНИЯ ИГР 335 Прежде всего рассмотрим только /?(/), имеющие вид p(t) = p (/,.) при //_! < / < th причем i = 1, 2, ..., п и tt— фиксированы. Тогда C28) приобретает вид 7\, C30) где ^—наибольшее из /^ Вместо C29) получим условия вида C31) Как следует из § 21, рациональные t ограничены. Множество стратегий природы р = {руг), ...,р(/„)}, удовлетворяющих C31), очевидно, ограничено, замкнуто и выпукло. Платеж C30) линеен по /?, а, значит, и выпукл при любом фиксированном т. Согласно теореме XVII игра C30) имеет оптимальную чистую стратегию природы. Э^го обстоятельство сохранится и при переходе к пределу, когда п—>оо и max (ti+1—tt)—»0, т. е. для игры C28). Таким образом, нужно искать седловую точку {Фо (т); р0 (t)\ в игре с платежом (Ф@) = 0; Ф(оо)=1): = Тг + J [Г, Ф' (т)-Ф (т)] /7 (т)d/ C32) о при ограничениях C29). Если {Ф0СО; Ро@}~-седловая точка для C32), то: 1) Ф0(т) реализует для неубывающих Ф(х) с Ф@) = 0; Ф(сю)=1 00 max J [7\Ф' (т)-Ф(т)] рп (т)dx\ C33)
336 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ. IV 2) po(t) реализует для невозрастающих p(t), удовлетворяющих /?@)= 1; р(оо) = 0 и условиям C29), 00 min J [7\Ф; (т)-Ф0 (т)] р (т) dx. C34) Pit) о Решим обе эти задачи, используя принцип максимума Понтрягина (см. В. Г. Болтянский «Математические методы оптимального управления»). 1. Положим и (т) = Ф' (т); ^ = и (т); ^ = 1 (*, = т). Тогда C33) приобретет вид 00 max 1[Тги^)—хг(х)]р.(х)Aх9 C35) (x)>Of причем хх @) = 0; ^@0)= 1; *2(оо) = 0; *2@) = 0. Гамильтониан равен 96 = ф0 [Т1!"—xt] /?0 (т) + ih. u, C36) Отсюда " . C37) Выражение C37) при ро(ч)Т1+ J po(t)dt + c^O не о имеет максимума по а. Поэтому должно быть при некоторой с: pe(TO\+Jpe(9<tt + e<0. C38) о Для тех т, при которых в C38) имеется неравенство, оптимальное ы = ф;(т):=0. C39) Итак, все т разбиваются на две категории: или выполнено C39) или в C38) имеет место равенство; интегрируя,
§ 26] ПРИМЕРЫ РЕШЕНИЯ ИГР 337 имеем т. е. P.W = v"\ C40) 2. Положим u = p(t); 0<ы<1; ; ^=-и; JCi(O) = Ti; ^@0) = 0; т т О оо во со *s(oo)=2 $*1(/)df = S J О От Тогда, поскольку отыскивается минимум, ЯГ = - % [7\ФЛт)-Ф0 (т)] и- Здесь i|je>0; ^. = _2я|)г; ^ = 0. Отсюда Ж и{%[Т1Ф'9(х)-Фл(х)] + (с1х + с,)}-с1х1. C41) Максимум этого выражения достигается при следующих и = ро{х): а) если ¦. [ТгФ'о (т)-Ф. (тI + V + с2 < 0, C42) то « = /70(т)=1; б) если V + C, > 0, C43) то и = ро() в) максимум C41) достигается при любом и, если для некоторых % > 0, сг и с, т. е. Фо (т) = te^+с\х + cj. C44)
338 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ. IV Поскольку р0 (t) не возрастает, а Фо (/) не убывает и обе заключены между 0 и 1 так, что р0 @) = Фо (оо) = 1; р0(оо) = Ф0@) = 0, то, объединяя все сказанное, имеем для оптимальных р0(т) и Фо(т): существуютt такие, что при при т1<т<т2, при т>т2, J при ПрИ C46) Ф0(т)=1 при Осталось определить т1 и т2 из условий C29); подставляя в них C45), получим Г -lizlil + 2T*[l—e r* ; = T; + Dle C47) Введем z = T2~Tl и преобрузуем второе из условий C47) с учетом первого: Т\ + Dx = 2Т?—27?^-^—T?e-22r. Отсюда получаем l_e-^_2ze-* = ^; C48) x^TVr*; т^т. + гГ^ C49) Уравнение C48) имеет решение только при D D T\ При При Dx = г=оо; ^ = -i J при
§ 26] ПРИМЕРЫ РЕШЕНИЯ ИГР 339 Определим теперь цену игры, т. е. интересующий нас максимин. Она, очевидно, должна быть равна max Г[т, po(t)], где Т [т, p(t)) задано C28). 0<т<оо Имеем при Т[т, При при т > т2: Т [т, р0 (/)] = тх + Г, A -Г V1) < Г, + тх. Отсюда получаем цену игры и= max Г[т, ро(*)] = ^ + 7\ = 7\ A+^2), C50) 0<т<» где z определяется из C48); v меняется от 7\ до 27\ при уменьшении Dt от Т\ до 0. Из сказанного ясно также, что в оптимальной смешанной стратегии Ф0(т) должны участвовать только чистые т из интервала (тх, т2); это совпадает с определением Ф0(т) по C46), ибо Ф' (т) = 0 при т < тх и т > т2. Из C46) следует, что необходимым условиям оптимальности удовлетворяет целое семейство стратегий ФоО0, зависящих от параметра k. Полный ответ об оптимальной стратегии Ф0(т) можно получить, видимо, так же, как и в § 21, находя для каждого фиксированного k (и значит, Ф0(т)) infr[r, (t\ J mm и затем maxji(fe). Определение n(k) можно произвести, используя опять-таки теорему X, согласно которой достаточно искать минимум (см. § 21) по таким p(t), для которых только три точки имеют вероятности, отличные от нуля. Для того чтобы иметь возможность использовать
340 ТЕОРЕМЫ О РЕШЕНИИ АНТАГОНИСТИЧЕСКИХ ИГР [ГЛ. IV теорему X, достаточно обратить внимание на выражение 00 ${5 О v 0 Итак, рассмотрев IV пример решения игр в смешанных стратегиях, мы выяснили, что в задаче о выборе времени замены элемента с заданным 7\ и D1 < T\ целесообразно использовать смешанные стратегии, т. е. производить замену в случайные моменты времени. При оптимальной смешанной стратегии можно рассчитывать на среднее время работы элемента и его дублера C50), что превосходит оптимальное гарантированное время при использовании чистых стратегий (см. § 21). Разумеется, если у оперирующей стороны будет информация о t, то оптимальной (минимаксной) стратегией будет т = /, что даст среднее время работы 2T1>T1(l+e~z). Однако не всегда можно рассчитывать на эту информацию, дающую не очень большую выгоду при малых DJTI*
ГЛАВА V ИГРЫ G ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА § 27. Игры с разделимой платежной функцией и конечные выпуклые игры Под игрой с разделимым платежом (или вырожденной игрой) понимают игру с платежной функцией ts/(yI C51) где х и у изменяются на отрезке [0; 1], a rt(x) и Sj(y) непрерывны на этом отрезке. Частным случаем C51) являются полиномиальные игры с платежом В литературе по теории игр уделяется довольно много внимания решению игр C51) в смешанных стратегиях. Изложим основные, связанные с этим идеи. Пусть f(x) и g{y)—смешанные стратегии. Обозначим через а, и fy обобщенные моменты f(x) и g(y): 1 1 а,= J rt(x)df (*); Ру = J sj{y)dg{y). C52) о о Легко увидеть, что для смешанных стратегий f{x) и g(y) платеж в игре C51) может быть выражен через а( и Ру в виде , g)= S 2 Я//*/Р, = ЛК Р). C53) /1/1 Обозначим множество возможных векторов a = {aj, получаемых при всевозможных /(*), через и. Аналогично введем множество v векторов р = {Ру}. Множества и и v есть соответственно множества п и m-мерных пространств. Эти
342 ИГРЫ С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V множества ограничены вслед за ограниченностью щ ^ max r{ (х) и Ру ^ max s, (у). * у Множества и и v, очевидно, выпуклы, так как из 1 1 i{x)df1(x) и ctf« немедленно следует, что при 1 т.е. вектор ( ) Множества и и v замкнуты в силу непрерывности г{ (х) и S:(y) и свойств интеграла Стилтьеса, данных в леммах 1 и 2 § 23. Таким образом, решение игры C51) связано с решением конечной игры с билинейным платежом C53), заданной на ограниченных выпуклых замкнутых множествах unv. Такая игра называется конечной выпуклой игрой и имеет седловую точку согласно теореме из § 16. Задача решения игры C51) распадается на получение решения а0, ро игры C53) и нахождение /0(л:) и go(y), соответствующих а0, ро в силу отображения C52). Разумеется, как правило, /0(лг) и go(y) не единственны, но различные fo(x) совершенно эквивалентны между собой. Для дальнейшего будет нужна Лемма I. Пусть X—выпуклое замкнутое множество в k-мерном пространстве, и пусть точка у = {уг, ..., yk] этого пространства не принадлежит X. Тогда существует вектор В = {Ь19 ..., bk} такой, что inf 2*Л> 2&/У/ = * C54) Xi \ f l Геометрически C54) означает, что существует гиперплоскость 2 bfii = d, проходящая через точку у и такая,
§ 27] ИГРЫ С РАЗДЕЛИМОЙ ПЛАТЕЖНОЙ ФУНКЦИЕЙ 343 что все множество X расположено от нее по одну сторону X —d>0 при Дадим доказательство этой леммы. Пусть х°—такая граничная точка X, что (множество замкнуто): l/" ? Qfi-xfy = taf т/" S iVi-xt? > 0- У / = i xex У /=l C55) Если х?Х, то и ~x° + t(x—x°)?X при 0</<1. Поэтому согласно определению х$ .2 W+* (*1-4)-уА% > f2 W-йI- Отсюда получаем 2/ 2 (*/ 2 или при ( или к ) ^ t ^ 1. Тогда k k i = \ Но по C55) и, следовательно, k , положив t = 09 k l-yi)>Z{xnx k ПОЛ)ЧИМ 1—ys- S «'=1
344 ИГРЫ С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V Поэтому 2 *М-уЬ> 2 *Н4-уд> 2 y/W-й). I1 /1 1 2 1=1 Положив &/ = х?—у/, получим, очевидно, ненулевой вектор В, удовлетворяющий а это и есть требуемое. Имеют место несколько теорем, уточняющих связь между играми C51) и C53) и структуру решений. Введем в рассмотрение кривые С и Д заданные соответственно в п и m-мерных пространствах (содержащих и и v) параметрическим представлением: Лемма II. Множество и есть выпуклая оболочка С, т. в. состоит из точек, являющихся линейными комбинациями вида 2 V* (**)» ^ ^ 0, 2 ^ — 1 * или пределами таких комбинаций. Точно так же v есть выпуклая оболочка D. Доказательство. Ввиду полной аналогии ограничимся доказательством связи между а и С. Пусть а0 есть точка выпуклой оболочки С; а0 = = 2**«(**)• и ПУСТЬ /*(*) = ° ПРИ ^<^ и fk(x)=\ при л: > xk. Очевидно, что ау (л:л) = Г гу (л:) d/^ (л:). о Возьмем /0(jc) = 2 V* W» из выражения а^х*) через /ft (л:) следует для а0 = {а?} т. е. а0, являясь образом /^(я), принадлежит и. Если же а0, не будучи само линейной комбинацией указанного вида, есть предел таких комбинаций, то она принадлежит и ввиду что доказанного и замкнутости ц.
1 27] игры 6 разделимой платёжной функцией 345 Итак, выпуклая оболочка С содержится в и. Пусть теперь, наоборот, а'^и, но не принадлежит выпуклой оболочке С; а! пусть является образом функции /' (.*), т. е. а} = J r{ (х) df (x). о Поскольку выпуклая оболочка С в силу определения выпукла и замкнута, то по лемме I существует гипер- п плоскость 2 b^i = dt проходящая через а' так, что выпуклая оболочка лежит по одну сторону от гиперплоскости. Тогда, очевидно, для любой а0 из выпуклой оболочки п п 2 bfi'i— 2 bp$ > 0, а в силу замкнутости этой оболочки 2 fi2 2ц2 В частности, при aJ=a/(#) для любого х 2 bfli— 2 bpi(x) > б > 0. Интегрируя это неравенство, имеем в силу щ = =2 ь^-2 bfii= {12 ь^]-2 j о Получающееся противоречие показывает, что а' принадлежит выпуклой оболочке С, и лемма полностью доказана. ЛеммаШ. Пусть Е—замкнутое ограниченное множество в п-мерном пространстве, а Ео—его выпуклая оболочка. Тогда любая точка хо?Ео может быть представлена в виде линейной комбинации не более чем (п+l) точек п+\ п+\ множества ?, т. е. хо= 2 ^(/)>' ^/^0># 2 ^/= 1#» 2 ^ /^ 2
346 ЙГИ* С ПЛAfEЖЙЫMЙ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V Доказательство. Пусть хо= ^ Х(ха); ^ г 2 5^=1 и r>n-J-L Покажем» что количество г точек x(i) в этой линейной комбинации может быть уменьшено. Действительно, г (п+ 1)-мерных векторов {1, х[*\ ... ,х^} должны быть линейно зависимы, т. е. существуют не все равные нулю числа р„ ..., Рг такие, что Последние равенства могут быть записаны в виде Всегда, очевидно, найдется такое е, что для всех i Aj + ePf^O (все к(>0, поскольку предположено, что в линейной комбинации участвуют г векторов) и хотя бы для одного 10 А,/в + вр/в=О. Тогда имеем г г г г Xq — /j Л/^л- — ^^ Л|«л -р с ^^ Р/«* — ^J V где и притом Я,/в + ер/в = О. Но это значит, что в представлении Ио как линейной комбинации x{i)^E количество векторов может быть уменьшено, если г > п + 1. Итак, всегда можно считать г = п+1. Если же х0 есть п+\ предел точек вида 2 ЭД*}^?/} ПРИ fe—>оо, то в силу замкнутости и ограниченности Е может быть выбрана подпоследовательность к' —»- сю такая, что х$ —¦* л#} g ? и k^}—^ /л+1 \ п+\ — Х<.°> > 0( 2 ^/0) = 1 ). Тогда х0 = 2 Л,?^. и лемма V=i / /=i доказана. В теории выпуклых множеств (см. Карлин, Приложение Б-2) доказывается, что если Е не более чем п связно, то г может быть уменьшено до г = п.
§ 27] ИГРЫ С РАЗДЕЛИМОЙ ПЛАТЕЖНОЙ ФУНКЦИЕЙ 347 Леммы II и III с этим добавлением позволяют указать прием получения оптимальных /0 (аналогично, g0), если известен оптимальный вектор а0 (р0) в игре C53). Для этого нужно представить а0 в виде 2 2 2 Х;= 1, а(х{) = {r1(xi) ... гп(Х:)}9 что в силу этих лемм всегда возможно. Далее, пусть ft (х) = 0 при х < х,-; /,- (х) = 1 при так, что а (л:,) есть образ //(*), т. е. 1 Функция /0 (х) = 2 ^ifi (x) тогда и есть оптимальная смешанная стратегия, ибо а0 есть образ fo(x), т. е. и, следовательно, max min F (/, g) = max min 2 aifa$/ = 2 = min 2 fl/ya(/0)Py = min F (/0, g). П « Из сказанного следует, что всегда существуют оптимальные смешанные стратегии / (л:), составленные не более чем из п чистых стратегий х(. Точно так же существуют оптимальные g(x), состоящие не более чем из т чистых стратегий yf. Можно также утверждать существование у обоих сторон оптимальных стратегий, состоящих не более чем из min [nf т] чистых стратегий. Это обстоятельство легко следует из того, что при т^п платеж C51) может быть переписан в виде т Г п  т 2 [2 «/// (*)J Sj (У) = JJ Г) (X) Sj (у),
348 ИГРЫ С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V для которого утверждаемое следует из одинаковости числа функций г)(х) и Sj(y). Что касается решения игр C53), то здесь применимы приемы, подобные решению обычных матричных игр. Подробное изложение их не входит в задачи книги, но содержится все в той же книге Карлина. Отметим только кратко следующее. 1. Если все /-,(*)>0, sf(y)^0 и Д l для некоторых Y/>0 и 6у>0, то рассма2] триваемая задача решения игры C51) (а значит и C53)) может быть сведена к обычной матричной игре. Для этого достаточно вместо rt (х) и Sj (у) ввести г\ (х) = y// (*)'» 5/ (У)= = 6y.Sy (у) и заменить a(j на -4- = CLtj, Тогда вместо C53) имеем Соответствующая этой игре выпуклая конечная игра C53) примет вид п т /=i/=i J причем, очевидно, р;>о и .|а;= 1; SP/=1- Тем самым эта игра есть обычная матричная игра, решаемая в смешанных стратегиях. 2. Иногда решение C51) и C53) получается очень просто через так называемые критические точки игры C51). С этой целью рассмотрим вместо C51) платеж вида S 2"ifi(x)sf(y)+ ?bfi{x)t+ Scfy(y) +d. C57) Будем называть эту форму канонической, если \а^\Ф0.
§ 27] ИГРЫ С РАЗДЕЛИМОЙ ПЛАТЕЖНОЙ ФУНКЦИЕЙ 349 Поскольку любая C51), как уже отмечалось, приво- т дится к виду ^r'i(x)Sj(y)9 причем здесь II 1 0 ... О || 6 6 ... i то, значит, любая игра C51) может быть приведена к каноническому виду. Для C57) соответствующая C53) будет i>/P/ C58) ?=1 Решения систем S в силу условия существуют и могут называться критическими точками а<0) и р@) игры C58). Если а@) принадлежит множеству м, а р@> — множеству v для задач C57)—C58), то а{0) и |3@) есть оптимальные стратегии в C58). Докажем это. В силу определения а@) имеем для любой р: Л(а@)> Р)= SМо> + * = const= Точно так же для любой a 7\(«, ^0))= 2 ^p 7=1
350 ИГРЫ С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V Но отсюда, очевидно, 7\(a<e>, p<e)) 7\ т. е. (а@), р@))—седловая точка и, следовательно, а@) и Р(о)—оптимальны. Не следует, конечно, думать, что рассмотренный случай достаточно типичен; скорее, наоборот,—хотя бы одна из критических точек, как правило, не входит в соответствующее из множеств и9 v. 3. При решении C53) часто можно использовать следующий прямой прием (конечно, при небольших т и п). Для каждого а находится множество v (а) точек р, на котором реализуется min/71(a, P) (см. C53)). Точно _ Г так же пусть иф)—множество точек а, на котором реализуется maxF1(ai Р). Если найдена пара а@), р@) такая, а ЧТО то а@) и р@)—оптимальные стратегии. Действительно, по определению v(a{0)) и иф{0)), Ft (a@\ р@>) = min Fx (a@), p) = max Fx (a, >•>), Э a т. e. (a<0), p@))—седловая точка игры C53). Отыскание таких a*0) и fT@) может производиться путем нахождения неподвижных точек в преобразовании а -+ v (a) — {иф)ф ?v (a)} - а* (а), т. е. точек, для которых а?а*(а). Аналогично обстоит дело и с поиском р. Действительно, пусть a@)€w*(a@)); тогда найдется Р<0N?>(<*), для которого как раз и (Р(о)) 5 сс@); но тогда пара а@), р@) и удовлетворяет только что сформулированному свойству. Многочисленные примеры применения этого приема даны в книге Карлина, а также в учебнике Мак-Кинси «Введение в теорию игр» и в книге М. Дрешера «Стратегические игры»,
§ 28] игры с выпуклой платёжной функцией 351 § 28. Игры с выпуклой и обобщенно-выпуклой платежной функцией В предыдущих разделах мы довольно часто сталкивались с выпуклыми по у платежными функциями, т. е. с платежами F(x, у), удовлетворяющими при любом х?М и 0^Я,^1 условию F[x, *? l для любых ух и у2, принадлежащих множеству стратегий N. Платежи, вогнутые по х, удовлетворяющие неравенству приводятся к выпуклым платежам при обычной перемене знака платежной функции и перемене игроков местами. Поэтому в дальнейшем будем рассматривать только выпуклые платежи. Основной результат теории выпуклых платежей принадлежит Карлину, Бонненбласту и Шэпли (см. монографию Карлина) и утверждает конечность числа чистых стратегий, входящих в оптимальные смешанные стратегии сторон в игре с выпуклым платежом. ^Теорема XLV. Пусть F(x, у)—выпуклый по у платеж, заданный на множествах М и N, где М—компактное замкнутое выпуклое множество любого пространства, а N—замкнутое ограниченное выпуклое множество т-мер- ного пространства. Если F(x9 у) непрерывна на MxN, то у второго игрока (выбирающего у) имеется среди оптимальных стратегий чистая стратегия, а у первого игрока—оптимальная стратегия, состоящая не более чем из (т-\-\)-й чистой стратегии. Цена игры равна min max F (х, у). J 7 Часть этой теоремы, относящаяся к цене игры и наличию оптимальной чистой стратегии у второго игрока, была уже по существу сформулирована и доказана в виде теоремы XV для вогнутых по х платежей и теоремы XVII для выпуклых (§ 15); доказательство повторять не будем. Стоит только отметить, что приведенное там простое доказательство без изменения переносится на множества М
352 ИГРЫ С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V и N любой природы (а не только в конечномерных пространствах); если только они выпуклы и замкнуты, определено понятие смешанных стратегий на них и выполнена основная теорема теории игр (в этом тоже могут быть сделаны некоторые послабления, можно ограничиться при компактности М утверждением B79)). Таким образом, для утверждения о наличии чистой оптимальной стратегии у второго игрока в теореме XLV не нужна конечномерность N. Иначе дело обстоит со второй частью теоремы—утверждением о том, что у первого игрока есть оптимальная стратегия, состоящая не более чем из т+1 чистых стратегий; здесь m-мерность пространства стратегий у использована уже в самом утверждении. Доказательство второй половины теоремы, видимо, довольно легко получить из теоремы XXVH. Покажем это для частного случая, когда оптимальная у0 есть внутренняя точка N. Тогда по упомянутой теореме существуют не более чем (т+1) точка х1 и числа рг^0такие, что т+1 _ _ _ _ 2 9 у0), т+1 *—1 т+1 _ __ _ и градиент функции 2 PiF(xi> У) = Ф(У) равен нулю при y = tf0. Поскольку Ф(у) выпукла, то отсюда следует, что #0 реализует ттФ(у). Но тогда смешанная стратегия, состоящая в принятии х{ с вероятностью ph оптимальна, так как т+1 _ _ т+1 2 )Х а последняя величина и есть цена игры. Дадим теперь полное доказательство, следуя Карлину, на основе нескольких лемм, имеющих и большое самостоятельное значение. Лемма 1. Пусть X —выпуклое множество (в п-мерном пространстве), а тснка у лежит на границе X (т. е.
§ 28] игры с выпуклой платежной функцией 353 у$Х(Е—X)). Тогда существует опорная плоскость, проходящая через у, т. е. существует такой ненулевой вектор а, что п ini(a, х) = (а, у) = ' Доказательство. Пусть последовательность уу точек, не принадлежащих к X, такова, что lim y = yv (no V-*oo определению точки на границе). По лемме I из § 27 существуют векторы av, для которых inf(av, x)>(a\yv). Для предельной точки а последовательности av и для любого х?Х имеем (а, х)= lim(a\ х) > lim (av, yv) = (а, у), V-+-CD V6 00 откуда и следует утверждение леммы, поскольку, с другой стороны, у?Х и, значит, (a, #)>inf(a, x). хех Лемма 2. Если X uY — два выпуклых множества, не имеющие общих внутренних точек, то существует гиперплоскость Н, которая разделяет X и Y, т. е. существуют такой ненулевой вектор а и скаляр а, что (а,х)^а для всех х?Х и (а, у)^а для всех y^Y. Если же X и Y замкнуты и вообще не имеют общих точек и по крайней мере одно из них ограничено, то существует гиперплоскость, строго разделяющая X и Yy т. е. (а, х) > а для всех х?Х и (а,у)<а для всех у ? Y. Доказательство. Рассмотрим множество X-Y={x-y/x<tX,y<tY}. Это множество выпукло вместе с X и Y и не содержит нулевую точку в качестве внутренней (ибо иначе была бы общая внутренняя точка X и Y). Согласно__лемме I § 27 и лемме 1 настоящего раздела существует а, для которого при всех х?Х и y?Y (а, *- 12 Ю. Б. Гермейер
354 ИГРЫ С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V Отсюда (а, х)^(а, у) для любых х?Х и y?Y. Вводя а = inf (а, х) ^ (а, х), получим, очевидно, а ^ (а, у), у € Y, хеХ и, значит, первое утверждение леммы доказано. Во втором случае X—Y замкнуто и не содержит нуля, и поэтому второе утверждение прямо следует из леммы I § 27. Пусть теперь s—компактная выпуклая область в /г-мер- ном пространстве Еп, являющаяся областью значений переменной ц. Будем рассматривать линейные функции /(Л), т. е. те, для которых /f 2М/) = 2 V(%) ПРИ п 2^=1. Очевидно, функция /(г])=1 линейна; обозначим ее через и. Множество всех линейных функций образует (/г+1)-мерное пространство Z, элементы которого будем обозначать через /. Пространство Z* определим как пространство линейных форм *) (линейных функционалов, равных нулю при f = 0), определенных на Z, а его элементы будем обозначать через F. Лемма 3. Если F(u)=l9mo существует такая тонка г]€?л, что F(f) = f{x\) для всех f?Z. Доказательство. Пусть функции fl9 ..., fn+1 линещю-независимы, причем fx — u. Поскольку эти функции образуют базис Z, то достаточно показать, что система уравнений имеет решение. Но первое уравнение в силу определения и и F(u) является тождеством. Оставшаяся система п уравнений с п неизвестными—координатами вектора т), имеет решение, ибо /,—линейно-независимы (т. е. линейно независимы векторы из коэффициентов этих линейных функций). Лемма 4. Множество Р всех элементов f^Zf которые неотрицательны на s, выпукло, замкнуто, содержит нулевую функцию, а функцию и содержит в качестве внутренней точки. *) Эти линейные формы равносильны однородным линейным функ" циям от коэффициентов линейных функций /(т)).
§ 28] игры с выпуклой платежной функцией 355 Если обозначить через Р (т]) совокупность всех f (v\) при /?Р, то область т], для которой P(ti)^0> совпадает с множеством s. Доказательство. Первая часть леммы очевидна. Обозначим через f(s) совокупность всех f(r\) при tj^s. Пусть T](?s. Тогда в силу леммы I § 27 точку т) можно отделить гиперплоскостью от s, т. е. существует линейный функционал / такой, что /(r))<c</(s)- Но тогда f—cu ? Р и в то же время / (ц)—си (г\) < 0. Следовательно, точка т], не принадлежащая s, не принадлежит и области, где P(ti)>0. Обратное следует из определения Р. Лемма 5. Пусть Q—выпуклое ограниченное множество из Z, которое не пересекается с определенным выше множеством Р. Тогда найдется такая г\ € s и такое б > 0, что Q(t))<—6. Доказательство. Так как Q и Р замкнуты, выпуклы, a Q—ограничено, то по лемме 2 их можно строго разделить некоторой гиперплоскостью, т. е. выбрать F Z* и б > 0 так, что (здесь, как и ранее, F(Q)—совокупность всех F(fyupn /€Q)- Это соотношение показывает, что множество F(P) ограничено снизу, ибо Q, а, значит, и F(Q) вообще ограничены. Но тогда F (Р) должно быть неотрицательным. Действительно, Р содержит /о —0> F(fo) — ®> и если бы существовала /б Р, для которой F(/)^<0, то для функций f = k(f—f0) было бы F(f) = kF(f) u_F(f) стремилось бы к — оо при k—+oo. Между тем k(f—fQ)(r]) = kf(vi) при г|gs, ибо /€Р> и потому при любом k^O k(f—/о)€Р- Таким образом, отсюда следовала бы неограниченность снизу F(P). Итак, F(P) неотрицательно, и поскольку и—внутренняя точка Р, то неизбежно *) F (и) > 0. *) Если бы F(u)=0 и F(f*) > 0, то f=e(/*—ы) + ипри 8 сколь угодно малых и отрицательных даст F (f) < 0; но это противоречит тому, что / сколь угодно близка к и, и, значит, ]?Pt поскольку а—внутренняя точка Р. 12*
356 ИГРЫ С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V Произведя соответствующую нормировку F (с соответствующим изменением 6), можно считать F(u)=l. По лемме 3 существует такой вектор г\?Еп, что F(Q) = Q(r\)i Р(Р) = РA\)- Тогда в силу неравенства F(P)^0 мы имеем P(r])>0. С другой стороны, infF(P) = O, поскольку Р содержит нулевой вектор. Но тогда Q() b F(Q) 6^iiF(P) 0 QD) + (Q) + ^() , т. е. Q(t)X—б. Однако по лемме 4 t)€s, ибо Р (ц) > 0. Этим и завершено доказательство. Лемма 6. Если для некоторого семейства {/«} и всех ц g s имеет место sup /a (ц) > 0, то при соответствующим а образом выбранных Я,->0 (?к(=1) и at (t = l, ..., принадлежит множеству Р, m. e. /()^ Доказательство. Для каждого rigs имеется по условию номер а, при котором /а (т)) > 0. Но если /а (л) > 0 для фиксированных а и т), то можно найти открытое множество, содержащее т], в котором все еще имеет место строгое неравенство для данного а. Тогда по теореме о покрытиях компактных множеств можно найти конечное покрытие этими открытыми множествами, т. е. конечное семейство {/aJ, для которого тах/аДг])>0 для каждого т] g s (т. е. для любого т) g s найдется хоть одно из a/f для КОТОрОГО /аД'П)>0). Обозначим через Q линейную оболочку семейства {/aJ. Множества Р и Q пересекаются, ибо иначе по лемме 5 существовало бы t|ogs, для которого Q(r)o)^—S и» зна~ чит, /аДЛо)^—в, т. е. тах/а.(т|0)<0 вопреки определению {/aJ. Множество Q, как образованное из точек 2 !*//«* ПРИ ^fx/=l (!!,•> 0), очевидно, ограничено. Наоборот, множество Р неограничено, ибо вместе с любой / содержит все cf при с > 0. Поэтому некоторая граничная точка /0 из Q должна принадлежать и Р. Множество Q есть, очевидно, многогранник в пространстве Z, имеющем размерность {п+1). Граница Q состоит из многогранников размерности не выше п\ следовательно, такую же размерность имеет грань, к которой принадлежит /9. эта грань является
§ 28] игры с выпуклой платежной функцией 357 также линейной оболочкой некоторого подмножества множества {/^}, ибо состоит из точек Q, для которых некоторые фиксированные н*, = 0. Но тогда по лемме III из § 27 точка /0 представима в виде л+1 я+1 иЦ' где ^ Из fo?P следует, наконец, что Лемма 7. Пусть {фа}—семейство непрерывных выпуклых функций, определенных на выпуклом, ограниченном и замкнутом п-мерном множестве s. Тогда для любого заданного б > 0 существуют такие а,- и %if что S ^/фа,- (л) ^ fof SUP Фа С*]) — б i=H. i\ € s а Зля всех rigs, где > Доказательство. Рассмотрим семейство всех линейных функций {/р}, удовлетворяющих условию [фа — /о] (s) ^ 0 для какого-либо а (т. е. условию (фа— fk)(л)>0 при всех tj€s). Любая касательная к фа плоскость удовлетворяет этому условию. Действительно, касательная плоскость к фа в точке t]0 = {t]J. . .riJ} определяется с помощью опорной гиперплоскости к выпуклому *), замкнутому, ограниченному (п + 1)-мерному множеству Т точек I = {т), t/r\ gs, t^q>a (r\)}, проходящей через точку {гH, фа(Ло)}» т- е- с помощью линейной связи •) Замкнутость и ограниченность Т следуют из таких же свойств s с учетом непрерывности <р«. Выпуклость Т следует из выпуклости s и фс, ибо
358 ИГРЫ С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V обладающей свойствами inf (Jj (в силу леммы 1 настоящего раздела такая опорная гиперплоскость всегда существует). В уравнении опорной гиперплоскости всегда можно считать Ь^О (при необходимости можно все коэффициенты умножить на —1). Но отсюда, очевидно, при / = <pa(ri) (л) > Jj ел? + &ра (Ло) = d =Jj <*,Л/ + bt (л), где / (ц) определяется для данного л уравнением гиперплоскости и является выражением касательной /(л). Отсюда имеем при всех л€$ что и означает [фа(л)~/(л)] (s)^0. Итак, семейство {/^} заведомо содержит все касательные плоскости ко всем фа(л) при любых r\?s. Но тогда при всех r\?s sup /3 (л) > sup фа (л) > с = inf sup фа (л), Э а Л а так как касательная к сра в точке л совпадает с фа(л). Рассмотрим для некоторого б > 0 семейство Поскольку для любого л€$ SUP/я(л)^с» то и sup [/g—(с—Ь)и] (л)^б > 0, и мы находимся в условиях леммы 6. Следовательно, имеются plf ^i» • • • > ^«+1 такие, что
§ 28] игры с выпуклой платежной функцией 359 для всех t]?s. Но если at соответствуют C,- в силу определения {/у, то п для всех r]€s при Х^О, S^/^1» что и требовалось. Теперь можно уже доказать вторую часть утверждения теоремы XLV. Семейство функций ср* (у) = F (х, у) и множество N, очевидно, удовлетворяют условиям леммы 7. Следовательно, для каждого е > 0 мы можем выбрать (Xf) и {xf} так, что m+1 __ _ ___ __ S ^D, ^)^ inf supF(x, ^ —e) 1 для всех y?N, где X = {Xf} и х* принадлежат компактным 1 множествам L = {Х/Х,- > 0, 2 ^/ = 1} и М. При е -> О мы можем выбрать для каждого * предельные точки Х° = {Х?} и х?, удовлетворяющие условиям 2 Ц =1; */° €М и 2 ад ^ (^?, ^) >_inf sup F (jf, ^) при всех y$N. Поскольку по первой части теоремы inf sup F (x, ~y) yuN xeM есть цена игры v9 то, указав смешанную стратегию {X?}, основанную на m+1 чистой стратегии х] и обеспечивающую получение платежа, не меньше v при любом у, мы уже полностью доказали теорему XLV. Рассматривая непрерывные игры F(x> у), заданные на скалярных х и у, при 0<л;<1 и 0<#<1, Карлин обобщил свойства выпуклых платежей на так называемые обобщенно-выпуклые игры, определение которых
360 ИГРЫ С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V сводится к выполнению для некоторого л неравенства , C59) или неравенства 1. C60) Для таких игр (и даже несколько более общих) имеет место следующая теорема. Теорема XLVI. Пусть дана непрерывная игра F(xf у), где О^.у^.1, ах пробегает компактное множество М любой природы. Если для некоторого п ^ 1 —д „ ^0, то в оптимальную стратегию первого игрока входят с положительной вероятностью не более чем п чистых стратегий, а в оптимальную стратегию второго игрока—не более чем я/2 чистых стратегий, причем каждая чистая стратегия у, внутренняя для [0; 1J, за- считывается за единицу, а концевые точки—за половину. Как и в предыдущей теореме, утверждение для первого игрока оказывается значительно более трудно доказуемым. Ограничимся поэтому доказательством только второй половины теоремы, отослав интересующихся к монографии Карлина. Разумеется, аналогичная теорема имеет место при наличии C60). Доказательство. Достаточно доказать теорему для случая, когда C59) есть строгое неравенство. В самом деле, если теорема справедлива для таких игр, то для игры с нестрогим условием C59) можно найти последовательность игр с платежами Fm(x, у), равномерно сходящимися к F {х, у), причем —* *' > 0. По предположению в этих играх есть оптимальные стратегии второго игрока вида [л/2] ф(У)= 2 <*k где закон распределения Vyp}{y) = 0 при ч>уТ}(у) = 1 при
§ 28] ИГРЫ С ВЫПУКЛОЙ ПЛАТЕЖНОЙ ФУНКЦИЕЙ 361 Можно найти подпоследовательность nij такую, что о4т;), ^//Г^сходятся для всех k к ak, и ук€[0\ 1] при условии, [л/2] что ак ^ 0, 2 ак = 1 • В силу равномерной сходимости (см. теорему XXIX в § 18) стратегия [я/2] ф(»)= 2 <*>нЪы(У) будет оптимальной для второго игрока в игре с платежом F(x, У)- Итак, пусть дПр^ у)>0 (х?М; yg [0; 1]). Будем предполагать для простоты, что цена игры v = 0. Этого всегда можно достигнуть без изменения условий теоремы, вычитая из F(x, у) соответствующую постоянную. Пусть, далее, f*(x)—оптимальная стратегия первого игрока и h(y)=lF(x, y)dfm(x). Очевидно, "d „ > 0. Функция h(y) в [0; 1] может обращаться в нуль (с учетом кратности нулей) не более п раз из-за положительности я-й производной. Действительно, если бы имелся п+ 1 корень, то у W (у) было бы не менее п корней; у h" (у)—не менее п—1-го корня; у h{n)(y) — не менее одного, а между тем h(n) (у) > 0 при всех у. Кроме того, поскольку f%{x) оптимальна и v = 0 при всех у? [0; 1], имеем h(y)^O. Но тогда любой внутренний корень h (у) должен иметь четную кратность (ибо иначе h(y) при переходе через корень меняла бы знак). Но поскольку общее число корней с учетом кратности не превышает /г, то возможное число различных корней не может превышать [п/2], если, конечно, корни в концевых точках засчитываются каждый за половину. Пусть, далее, <р*(#)—оптимальная стратегия второго игрока. Тогда Отсюда, поскольку h(у) неотрицательна, стратегия ф* (у) должна давать отличные от нуля dcp* (у) только в тех точках, в которых обращается в нуль функция h(y).
362 ИГРЫ С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V Так как последних только [л/2], то вторая половина теоремы XLVI доказана. Следует отметить, что для п = 2 последняя теорема является очевидным следствием теоремы XLV, ибо условие C59) при я = 2 гарантирует выпуклость F(x, у) по у. При п=\ теорема XLVI есть следствие более общей теоремы из § 16, так как условие F'y(x, #)^0, т. е. монотонность платежа по у при всех х гарантирует неизменность знака F (х, уг)—F(x, y2) для любой пары уг и у2 при изменении х по М. Специальное большое внимание к выпуклым платежам, проявляемое исследователями игр, несомненно, оправдано сравнительной частотой появления таких платежей в практике исследования операций. В тех моделях, которые рассматривались в § 2, это обстоятельство хорошо видно. Как мы уже знаем, выпуклыми оказались платежи во второй, четвертой и восьмой моделях. Но линейный платеж в первой модели тем более выпукл. То же относится и к платежу C28) в задаче о выборе оптимального времени включения дублирующего элемента (см. § 25). Анализируя эти примеры, видим, что выпуклых платежей можно ожидать в операциях, где целью является улучшение величин типа точности или же линейных критериев, типичных для экономики. Но ведь отсюда следует, что в большинстве задач, решаемых в настоящее время, например в экономике и автоматическом управлении (критерий — точность), следует ожидать игровых задач с выпуклыми платежами и, значит, оптимальных чистых стратегий. Не поэтому ли смешанные стратегии пока еще мало используются на практике? Не создалась ли уже поэтому привычка к использованию только чистых стратегий, переносимая без достаточных причин и на операции с невыпуклыми платежами? Дадим один пример применения развитой теории игр с выпуклыми платежами к классической математической задаче, который должен продемонстрировать еще раз пользу рассмотрения выпуклых игр. Речь идет о модели № 2, приводящей к известной задаче Чебышева о наилучших приближениях функций полиномами.
§ 28] игры с выпуклой платежной функцией 363 Как уже говорилось, отыскание полинома Рп (t) = 2 0,-*'» t = 0 наилучшим образом аппроксимирующего функцию /(/), при критерии W = —1/@—-Рп @1 и наличии природного неопределенного фактора / с множеством N = [0; 1] равносильно решению задачи об определении max min {-\f(t)-Pn(t)\} = - min max \f(t)-Pn(t)\. {л}0<*<1* {a}0</<! Последняя запись и соответствует задаче Чебышева. Согласно теореме VIII без изменения оптимального выбора Рп @ критерий эффективности — | / (/)—Рп (t) \ может быть заменен на ^ = [/@^@]. C61) Таким образом, нужно получить оптимальный Pn{t) (или Д= {^о» • • • > ал})> реализующий реализующий х [П 12 /40 —2a,n • C62) В силу выпуклости \j^A C63) по а задача об отыскании минимакса C62) эквивалентна *) (см. теорему XLV) задаче об отыскании седловой точки и цены игры с платежом C63). Согласно той же теореме XLV оптимальные смешанные стратегии сторон в игре C63) будут иметь следующий вид. 1. Для оперирующей стороны, выбирающей а, оптимальна чистая стратегия. 2. Для природы оптимальна стратегия, состоящая не более чем из п + 2 чистых стратегий tj (/= 1, ..., д + 2). Пусть pj есть вероятность применения стратегии /у, тогда платеж при применении любой такого типа *) В теореме XLV множества стратегий ограничены. Легко убедиться, что векторы а при фиксированной /(/) всегда можно считать ограниченными, не меняя минимакса.
364 ИГРЫ С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V стратегии Р={р19 ..., рп+2] и чистой стратегии а будет Л + 2 / " \2 __ _ 2 Pjifitj)- 2<МП =F(P, T, а). C64) /1 \ * / Здесь Г = {/1Э ..., tn+2\. Утверждение теоремы XLV применительно к рассматриваемой задаче приводит нас к следующему результату. Теорема XLVII. Задача Чебышева о наилучшей аппроксимации функции f(t) в отрезке [0; 1] с помощью п полиномов ря@= 2fl/'' эквивалентна задаче о нахожде- нии обязательно существующей седловой точки функции ?(Р, 7\ а) C64) при стремлении минимизировать ее по а и максимизировать по Р и Т. Этот результат означает, что должна решаться задача о нахождении векторов Р0У То и а0, для которых имеет место Р(Р» ^о> ao) = min?(Po, T9t a) = maxF(P,7\ao).C65) Итак, задача Чебышева свелась к одновременному решению комплекса двух задач на обычный экстремум. Покажем примерно, как из постановки C65) может быть получена известная теорема Чебышева. Для этого прежде всего отметим, что задача нахождения (P, T9a9) я. т при фиксированном а0 приводит, конечно, к необходимости F (Ро> То, а0) = max F (Р, Т„ а0) = max F (Ро, Г, а0). C66) р т Я+2 Первая из этих задач с учетом условия У) pj = 1 приводит к необходимости равенства нулю производных от /г + 2
5 28] игры с выпуклой платежной функцией 365 до pj*), т. е. к -b = O- C67) Отсюда следует, что при всех tj (j ^.n + 2) [/ (//.) - 2 <#/."Г = const = *¦. Но тогда в силу ^Pj=l9 положив Р' = {1, 0, ..., 0}, имеем ~ To, ao) = maxF(P, Г, ао)> ', T9a9)= max [/(/О—^ajti]\ C68) Таким образом, если {а?} = а0 оптимально, то функция 1/@—2fl#M достигает одинакового максимума в (п + 2) точках tJt0 (/=1, ..., л + 2). Первая из экстремальных задач C65) приводит, очевидно, к необходимым условиям Л+2 Г Л 1 /.) — 2 ФЬ1Ш */# = 0; < == 0, ..., п. C69) Л+2 Учтя требование 2Р/=1 и вытекающее из C68) равенство л можем рассматривать C69) как систему уравнений для определения pf. Л+2 C70) *) Здесь предполагается, что все оптимальные pi > 0. Если это не так, то число точек tj по существу становится меньше, чем п + 2, но это противоречит числу уравнений в C70).
366 ИГРЫ С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V Детерминант этой системы имеет вид 1 ... 1 = (—1J<(—I) 1 ... 1 Ln+2, О 4П 4П *20 * ' ' Ln+2, О 11 ... 1 *10 ''ЗО • • • "П + 2, О /Л in 4fl *1О ^30 • • • *Л+2, О tn Здесь S = ax+ ... +ад+2. Пользуясь известным выражением детерминанта Вандермонда 1 ... 1 t^1 ... IVх К! легко записать решение системы C70): (—1) * s~ -i, о» ts+i, о /-1 П Л+2 S-1 V ^ 1\а4+в-1 ТТ s=l /=i П / = S+1 C71)
§ 29] ИГРЫ С ВЫБОРОМ МОМЕНТА ВРЕМЕНИ 367 Если нумерация / выбрана в порядке убывания tJo, то все детерминанты Вандермонда, входящие в C71), положительны. Согласно смыслу задачи /?/^0; это, очевидно, может быть только, если все (—l)°y+/-i имеют один и тот же знак. Но тогда ау=/—1+ const. Это означает, что, во-пер- вйх, в C71) все множители (—lH^*/-1 могут быть опущены D(t10, ...,*/-1. ^j 5-1,0 ^ + 1, 0 • • • tn + 2, о) S =1 я а, во-вторых, разности f(tj0)—2 я?//0 оказываются одинаковыми по модулю и чередующими знак с изменением j от 1 до п + 2. Суммируя все сказанное, получим: если а0—оптимальный п вектор в задаче Чебышева, то функция /(/)— 2 с$& = 8A) 1=0 имеет (п + 2) точки tj (/=1, ...» я+ 2), в которых поочередно достигается ° максимум и минимум б(^), причем абсолютные значения максимумов и минимумов совпадают. Это и есть частный случай общей теоремы Чебышева. К этому утверждению мы можем добавить теорему XLVII с полученными выражениями C72). Возможно, что такая трактовка может быть полезна при численном решении задачи Чебышева на практике. Кроме того, видимо, могут быть применены и численные методы решения игр в смешанных стратегиях. § 29. Игры с выбором момента времени Под играми с выбором момента времени (дуэльные игры или ситуации) понимают игры на единичном квадрате, т. е. при 0<л;<1и0<#<1с платежной функцией М(х, у), х>у; F(x, y) = { Ф(х), х = у; C73) Цх, у), х< у.
368 ИГРЫ С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V Функции М(х, у), Ф(х) и L(x, у) предполагаются обычно дважды непрерывно-дифференцируемыми функциями, каждая в своей области задания, однако М(х, х)фЬ(ху х)> и обе эти функции аргумента х могут быть, вообще говоря, отличны от Ф(х). Как правило, принимается также, что М(х, у) и L(x, у) не убывают по х и не возрастают по у. Однако это будет использовано позже. Ограничение множества стратегий обоих игроков единичным интервалом несущественно, ибо преобразованием координат любой интервал может быть переведен в единичный с соответствующим преобразованием платежа. Возможно, конечно, обобщение дуэльных игр на многомерные стратегии х и у> но это обобщение здесь не рассматривается (см. монографию Карлина). Дуэльные ситуации достаточно распространены, особенно в исследовании военных операций. Они отражают обычно факт получения значительного преимущества над противником, если удается предварить его действия своими, хотя в ситуации имеется и противоположная тенденция некоторой выгодности запаздывания. Первая тенденция выражена в наличии разрыва платежной функции на прямой х = у, а вторая—в упомянутой монотонности платежа выше и ниже этой прямой. Примером дуэльной ситуации является приведенная выше модель IX. В теории дуэльных игр различают так называемые бесшумные и шумные игры. При шумной дуэли выбор у становится известным первому игроку, если х>у (например, в модели IX он может слышать, когда произведен выстрел, и может воспользоваться этой информацией, если сам еще выстрел не произвел), и выбор л;—второму игроку, если х < у. В бесшумной дуэли такая информация не поступает вообще. В соответствии с этим шумная дуэль является как бы двухшаговой игрой с нефиксированной последовательностью ходов. Пусть здесь выполнены указанные раньше условия; тогда, если принято сначала решение обоими игроками в виде х0, у0 и х0 оказывается больше у0, вторым шагом
§ 29] ИГРЫ С ВЫБОРОМ МОМЕНТА ВРЕМЕНИ 369 х0 заменяется на х = 1, как дающее максимальные М (х, у0) при известных уже у0; при х0 < у0, наоборот, у0 заменяется на 1. Такая двухшаговая игра может быть записана как одношаговая в виде МA, у), х>у; ф(*)' Х = У> C74) L(x, 1), x<y\ и таким образом, она оказывается частным случаем бесшумной дуэльной игры C73), когда М не зависит от х, а L — от у. Разумеется, нет необходимости в предположении о монотонности М(х, у) и L(xf у) для формирования шумной дуэли. В общем случае получим, очевидно: = тахМ(х, у), х>у\ х>у * = У\ C75) mmL(x, у), х<у. У>х Нахождение для C73) наилучших чистых (гарантирующих) стратегий не представляет затруднений, если вообще наилучший гарантированный результат достижим; если же он недостижим, т. е. sup inf F (х, у) не есть max inf F (л:, у), х у х у то нужно говорить об е-оптимальных чистых стратегиях, гарантирующих получение платежа, не меньшего sup inlF(xf у)—г. х у Отметим лишь, что получается при монотонных М (х, у) и L(x, у). Тогда, очевидно, iniF(x, у) = тт{М(х, х)\ Ф(х)\ L(x, 1)}, у sup inlF (x, #) = max min{Af(*, х)\ Ф(х); L(x, 1)}. х у х Таким образом, если М(х, х), Ф(х) и L(x, 1) непрерывны в [0; 1], то существует оптимальная чистая гарантирующая стратегия х0. Однако inlF(x0, у) может быть и недостижим, если у максимум величин М(х0, х0); Ф(хо)\ L(x0, 1) есть M(xot х0) или еслихо=1 и МA, 1)^= ФA) =^= L(l, 1),
370 ИГРЫ С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V Аналогично получаем suipF(x, #) = max{M(l, У)\ ®{у)\ L(y9 у)} (x9 #) = minmax{M(l, у); Ф(у); L(y, у)}. У х у В случае шумной дуэли будем иметь maxinlFm(x, y)==max{M(l, x); Ф(х); L(x, 1)}. Аналогичное выражение будет и для min sup Fm (x, у). У х Докажем теперь, что при условии монотонности L (х9 У) и М(х9 у) и неравенства 1A, 1)<ФA)<МA, 1) дуэль (бесшумная и шумная) имеет седловую точку A; 1) и цену игры ФA). Действительно, в силу монотонности при любом у Ф 1 F(l, y) = M(l, y)>M(l, l)>O(l) = f(l, 1). Наоборот, при любом хф\ F(x, l) = L(x, 1)<LA, 1)< ^ФA) = /7A, 1). Таким образом, выполнено F(x, 1)^ ^F(l, l)^F(l9 у), что и доказывает наличие седловой точки A; 1) при цене игры F(l9 1) = ФA). Не углубляясь далее в изучение решений дуэльных ситуаций в чистых стратегиях, перейдем к решению их в смешанных стратегиях. В дальнейшем мы будем предполагать, что дискретный спектр оптимальных стратегий игроков состоит из конечного числа точек, а непрерывная составляющая—дифференцируема. Если р(х) и g(y)—смешанные стратегии игроков (т. е. законы распределения), то платеж первого игрока можно записать в виде 1 , y)p'(x)dx+lM(x9 y)p'(x)dx + y)bp(xt). C76) У
§ 29] ИГРЫ С ВЫБОРОМ МОМЕНТА ВРЕМЕНИ 371 Здесь xL—точки, в которых имеется конечный скачок р(х), равный Ap(xt). Интегрируя по g(y)9 получим 1 У )dg(y)=^L(xy y)pf(x)gf(y)dxdy + о о 1 1 + J $Л!(х, y)p'(x)g'(y)dxdy + о у + Jjrjl(x, yj)p'(x)dx\Ag(yj) + , y/)p'(x)dx\Ag(yJ) + J (xl9y)gr{y)dyjAp(xt) I m Д S/(^ yj)p{ug{yj). C77) Предположим теперь, что игра имеет седловую точку, и пусть /?о(*) и ?<>(#) ее образуют. Тогда min ))F(x9 y)dp,(x)dg(y)=)]F(x9 y)dp,(x)dg,(y)9 max J J F (xf y) dp (x) dg, (y) - $ J F (x9 y) dp, (x) dg, (y). P (x) Поскольку эти экстремальные свойства р, и g, выполнены для любых р(х) и g(y), то они выполнены тем более и для р(х) и g(x)9 имеющих те же точки скачков xt и у, и величины скачков Ар,(х^) и Ag,{yj)9 что и у функции Ро(х) и go (У)- Но тогда относительно функций p'(x) = f(x) и g'(y) = y(y) имеем две задачи оптимального управления с оптимальными /0 (х) = р, (х) и q
372 ИГРЫ С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V 1. Отыскать максимум (здесь &q) = &ё*(У/)) по / (х) от \ у 11 j$(x, y)f(x)<po(y)dxdy+ j J M(x9 y)f(x)<po(y)dxdy + t yj)f(x)dx = = J M(l,y) ep0 (y) dyx\f(x)dx+l {[(L(xx)-M(xx))<p0 (x)~ 0 0 0 1 x x -lM'x(x, y)<p.(y)dy]lf(t)dt + 0 0 0 0 Aq)F(x9 yj)]f(x)}dx. C78) 1 i i В силу того, что величина \f(x)dx=\ — 2 Ар? и, значит, фиксирована, первый член остается постоянным. 2. Отыскать минимум по <р(#) от \ у 11 J $!(*, y)h(x)<p(y)dxdy+ J SM(x, y)fo(x)<f>(y)dxdy + 0 0 0 J $ J 0 0 0 -1 J 0 -J^(*. y)h(x)dx- + 2j Ap\F (xi9 у) ф (у)} dy. C79)
§ 29] ИГРЫ С ВЫБОРОМ МОМЕНТА ВРЕМЕНЯ 373 Используя в обоих случаях необходимые условия— принцип максимума Понтрягина—имеем в первом: И = Ф. {[(?(', t)-M(t, t))<pt(t)-JLi(t, y)<fo(y)dy- р 1 «' 1 - $ M't (t, у) ф0 (у) dy\X+2 Aq<jF (t, У/) и \ + г|)хы, О i_l J о J причем \j?0 > 0 и -Jf"=—'Фо \(L(t, t) — M(t, i t — J Ц (t, у) ф0 (у) dy— { M't (t, у) ф0 {у) dy Отсюда I J Но тогда максимум ЭС достигается при условии в следующих случаях: а) Если * Г 1 /i П oU о J +с то и = /0(/) = 0. б) Если u = fo(t)=?O, то <!>*! +С- $MW19 y)<Po(y)dy\dt1
374 ИГР Ы С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V или, что то же, [L(t, t)-M(t9it)]V9(t) = = JFx(t,y)<p0(y)dy+ ДаДО^/,*,), C80) где Fx(t, y) = L'x(t, у) при y>U FA*. y) = M'x(t, У) при y<t. Отсюда же следует, что гфу^ Поэтому интервалами, где /0(/)=т^0, могут быть только интервалы, не содержащие yJt т. е. лежащие между последовательными г/у. Совершенно аналогично получим [M(t9 t)-L(t, = S/>„(*, t)f.(x)dx+ S Ьр1Р,(х19 t) C81) 0 i=l всюду, где ф0 (*)=,? 0, причем интервалы, где не могут содержать xt. Из сказанного ясно также, что ф0 (/) = 0 не удовлетворяет, как правило, C80), a fo(t) = O не удовлетворяет C81). Поэтому обычно интервалы равенства нулю q>0(?) и /0(/) должны совпадать, равно как и интервалы удовлетворения интегральных уравнений C80) и C81). Фиксируем теперь /0, ф0, xt и yj9 но будем менять Д<7у и Ар,-, оставляя неизменными i \ ml Тогда векторы Q = {Aqf} и Р — {А/??} образуют в силу оптимальности р0 (х) и g0 (у) седловую точку функции F(x, It m Ар/+ J, Д F(Xi, yj)ApiAqj. C82)
§ 29] ИГРЫ С ВЫБОРОМ МОМЕНТА ВРЕМЕНИ 375 Отсюда в качестве необходимых условий, очевидно, имеем, поскольку А/?? > 0 и Aq<} > 0 (/<т, /</): Д F (xl9 yj) Ар? + J F (х, yj) /0 (х) dx = X = const; °i C83) .2j F (xiy yj) Aq) + ) F (xif у) ф0 (у) dy = \i = const. Получим теперь необходимые условия за счет оптимальности выбора Х( и yj. Если фиксированы /0, ср0, Ар] и Aq), то, поскольку Ро(х) и ^о(^) образуют седловую точку, векторы {х(} и {} б C82) Ро() ^о(^) ру у у р {(} {У/} образуют, конечно, седловую точку платежа C82). Отсюда имеем для тех х( и yjy которые не совпадают с О или 1, и таких, что Ф C84) 1 / J Fy (х, yj) /0 (x) dx + 2 Fy (xl9 yj) Ар? = 0, :(xt. yj)Aq4 = Q. Нетрудно убедиться, что х{Фу^ Действительно, пусть М (х(, xj) Ф L (х{9 х() и именно М (х{, xt) < L (xh x(). Тогда, если F(xif x() = Ф (xft > M (xif x^ то, взяв вместо у, yj—б, получим вместо F(xit yj) = O(xi) величину м(х{9 yj—б)<Ф(л:/). Устремляя б к 0, видим, что yj не реализует минимум C82). Если же Ф(*/)<?(*/, Х()9 то, взяв вместо х{ xi—б, опять получим противоречие. В случае, когда M(xif x^) = L(xh x,-), но не равно Ф(л;;), противоречие также очевидно. Однако разрыв при х = у обязателен, следовательно, х(Фу;-. Нам осталось лишь получить необходимые условия для величин А = ^ /о (х) dx и В = J <p0 (у) dy. о о Для этого фиксируем xt и у;- и вид f(x) и Ф (У) = s% (У)>
376 ИГРЫ С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V Очевидно, что платеж C77) имеет седловую точку A; 1) по переменным k и s, если взято C85). Но отсюда имеем необходимые условия: г г xS г \ \ F(x, у)[0(х)цH(у)ахау-{- 2j Д<7/ \F(x> У/Iо(х)^х— И J 0 0 /=1 0 / m = 0, C86) 11 ml / 1 C87) Совокупность всех указанных необходимых условий позволяет отыскивать подозреваемые на оптимальность Ро (*) и ?о (У)» не предполагая монотонности М (х, у) и L(x, у). Однако во многих случаях такая монотонность имеется, и это обстоятельство упрощает вид оптимальных Ро(х) и g9(y). Действительно, если М'х(х, у)>0; Ux(x, y)>0\ Щ (х> У) < 0; Ц/ {ху у) < 0, то отсюда немедленно следует, что условия C84) невыполнимы. Но это значит, что могут существовать xi и ур разве лишь равные 0 и 1. Таким образом, оптимальные po(t) и go(t) имеют вид: в точках t = 0 и t = 1 могут иметься скачки Д/?о и Арх, Д<70 и A^i*, при остальных t выполнено или ф.(о=*;ю=о,
§ 29] ИГРЫ С ВЫБОРОМ МОМЕНТА ВРЕМЕНИ 377 или [L(t, t)-M(t, /)]Фо(О = 1 - $ F* V, у) Фо (У) dy + Aq0Fx (t, 0) + LqJ>x (t, 1), C88) [M(t,"t)-L(t, /)]/,(') = 1 = J F, (x, t) f0 (x) dx + Др0 F, @, t) + APlFy A,0- C89) a Здесь a—максимальное из таких, что при t < a Предположим теперь, что существует интервал [с, d] при а < с < d ^ 1, для которого опять-таки /0 (/) = g0 (t) = 0 при с < t < d. В силу оптимальности /?0 (/) имеем при любом у где v—цена игры. Отсюда из-за равенства р'о (х) = 0 при с < х < d и при л: < а а а В частности, справедливо 1 во всех точках непрерывности ср0 (#) при а <у <с. Действительно, если бы 1 , y)dpo(x)+lF(x9 y)dpo(x)>v хоть в одной точке непрерывности, то, очевидно, это неравенство оставалось бы справедливым и в некотором
378 ИГРЫ С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V интервале положительности <ро(#); но тогда было бы и 1 1 J lF(x, y)dpo(x)d<po(y)>v9 J l о о что противоречит оптимальности ц>0(у). Но если в точках непрерывности <ро(#) при а < у < с, то, очевидно, это же равенство выполнено и при у0 —* с9 т. е. с 1 v=^L(x, c)dpo{x) + [M(x, c)dpQ(x). a d Но тогда в силу LJ<0 и М'У < 0 имеем, очевидно, 1 , y)dpo(x) при с <у <d9 а это противоречит оптимальности р0 (х). Отсюда следует, что c — d и, таким образом, n/?w а < * <1- должны выполняться интегральные уравнения C88) и C89), определяющие вид <р0 и /0 в зависимости от а, Ар0, Aq0, крг, Aqv Добавляя условия C83), C86) и C87), имеем количество условий, в принципе достаточное для определения всех параметров, кроме а. Однако на самом деле условие разрешимости интегральных уравнений C83)—C89) налагает требования и на величину а. Приведем для примера решение дуэли, данной в модели IX, поскольку оптимальные чистые стратегии для нее давались уже ранее. Произведя преобразование Dx = — In л:; D2 = — In у (при 0<*;#<l), приведем рассматриваемую игру к виду C73), где М(х9 у) = р(-
§ 29J ИГРЫ С ВЫБОРОМ МОМЕНТА ВРЕМЕНИ 379 Будем полагать рх@) = gt@) = 0 и p1(l) = g1(l)=l. Имеем, очевидно, Ly (л:, у) = 0; F'y(Q, t) = L'y(O, /) = 0; F'y(l9 t) = M'y(\, t) = -g[(t); M(t, /)-!(/, 0 = = -p1(t)g1(t); M'y(x, 0 = -Л (*)?(<)¦ Поэтому уравнение C89) приобретает вид C90) при я^Л Деля на g[(t) и дифференцируя, получим уравнения [т^Г при Отсюда /0 @ = 0 при t<a. C91) Точно так же для <ро(/) имеем t 0 = JpKO [i- а 1 $ ^рНО. C92) Отсюда C93) Из уравнений C83) имеем, очевидно, 0)] + APo[F@, l)-F@, 0)] + l)--F@, OJ + A^I^O. 0)-F@, 0)]
380 ИГРЫ С ПЛАТЕЖНЫМИ ФУНКЦИЯМИ ЧАСТНОГО ВИДА [ГЛ. V Поскольку F(l, 1) = FA, 0) = l; F@, 0) = 0 = F@, 1); F(x, i) = Pl(x) = F(x9 0); F(l, y) = l-g1Q/)i F@9 y) = 0, то первое уравнение удовлетворяется тождественно, а из второго получим 1 Д^ + Д</, + S [1 -gl (у)] Фо (у) dy = 0. а Отсюда из-за 1 —gx (у) > 0 неизбежно приходим к выводу АG1 = А9о==О (тогда условия C83) не являются необходимыми). Но тогда из условия нормировки 1 а т. е. 1 с C94) Определяя отсюда с19 далее из условия C92) имеем Отсюда получим условие, определяющее а: J_= \ Р'г(У)П-8г(У)] d А р'г(У) d i(t) J Pl(y)8i(y) * J P? to) ft to) _ f p'i(y)V-gi Pi(t) f -gi(y)) du , f p'i to) и поэтому имеем pg(i)[igWi<r 'i. C95)
§ 29] ИГРЫ С ВЫБОРОМ МОМЕНТА ВРЕМЕНИ 381 По смыслу задачи Д/?0 = 0, с и Арг связаны следующими соотношениями: C96) а л wei w ' i Второе уравнение, вытекающее из C90), очевидно, дает & @=1): Поэтому с учетом C96) получим Др1 = с== ___! . C97) Г 1@ Совокупность C91), C93), C94), C95) и C97) дает решение задачи. Для иллюстрации рассмотрим случай рг (t) = gt (t) = p(t). Тогда Для а получаем уравнение 1—2p(a)—p2(a) = 0, откуда /" 1. И, наконец, 2 VpM«) У Другие примеры решения дуэлей можно посмотреть в книге М. Дрешера «Стратегические игры». Дальнейшие же общие теоретические разработки вопросов существования и единственности решений дуэлей с монотонными М(х, у) и L(x9 у) можно найти все в той же монографии Карлина.
ЛИТЕРАТУРА 1. Дж. фон Нейман, О. Моргенштерн, Теория игр и экономическое поведение, «Наука», 1970. 2. К а р л и н С, Математические методы в теории игр, программировании и экономике, «Мир», 1964. 3. Льюс Р. Д., Райфа X., Игры и решения, ИЛ, 1961. 4. В ентце л ь Е. С, Введение в исследование операций, «Советское радио», 1964. 5. Чуев Ю. В., Мельников П. М., Петухов С. И., Шор Я. Б., Степанов Г. Ф., Основы исследования операций в военной технике, «Советское радио», 1965. 6. Беллман Р., Процессы регулирования с адаптацией, «Наука», 1964. 7. Айзеке Р., Дифференциальные игры, «Мир», 1967. 8. Гермейер Ю. Б., Методологические и математические основы исследования операций и теории игр (текст лекций), Ротапринт МГУ, 1967. 9. БлекуэллД. иГиршик М., Теория игр и статистических решений, ИЛ, 1958. 10. Кофман А., Фор Р., Займемся исследованием операций, «Мир», 1966. 11. РайветтП., Акофф Р. Л., Исследование операций, «Мир», 1966. 12. Г л ушко в В. М., Введение в кибернетику, Изд-во АН УССР, 13. Гей л Д., Теория линейных экономических моделей, ИЛ, 1963. 14. Шилов Г. Е., Г у р е в и ч Б. Л., Интеграл, мера и производная, «Наука», 1964. 15. Г н еден к о Б. В., Курс теории вероятностей, Физматгиз, 1962. 16. В ентце ль Е. С, Теория вероятностей, Физматгиз, 1962. 17. Гн еден ко Б. В., Шор Я. Б., Надежность, Энциклопедический справочник «Автоматизация производства и промышленная электроника», 1963. 18. Д а в ы д о в Э. Г., О применении стильтьесовских моментов, Журнал вычислительной математики и математической физики 7, № 5, 1967. 19. Гермейер Ю. Б., ИргерД. С, К а лабухов а Е. П., О гарантированных оценках надежности системы при неполных сведениях о надежности элементов, Журнал вычислительной математики и математической физики 6, № 4, 1966. 20. Беллман Р., Гликсберг И., Гросс О., Некоторые вопросы математической теории процессов управления, ИЛ, 1962.
ЛИТЕРАТУРА 383 21. «Матричные игры», Сборник под ред. Н. Н. Воробьева, Физ- матгиз, 1961. 22. «Бесконечные антагонистические игры», Сборник под ред. Н. Н. Воробьева, Физматгиз, 1963. 23. Мак-Кинси Дж., Введение в теорию игр, Физматгиз, 1960. 24. Болтянский В. Г., Математические методы оптимального управления, «Наука», 1966. 25. Моисеев Н. Н., Численные методы теории оптимальных управлений, использующие вариации в пространстве состояний, Кибернетика 3, 1966. 26. Воробьев Н. Н., Конечные бескоалиционные игры, УМН 14, № 4, 1959. 27. Пшеничный Б. Н., Двойственный метод в экстремальных задачах. I, II, Кибернетика 3 и 4, 1965. 28. Пшеничный Б. Н., Б и р з а к Б., О некоторых задачах минимизации негладких функций, Кибернетика 6, 1966. 29. Гер мей е р Ю. Б., О необходимых условиях для максмина, Кибернетика 1, 1967. 30. Демьянов В. Ф., К решению некоторых минимаксных задач, Кибернетика 6, 1966. 31. Левитин Е. С, Поляк Б. П., Методы минимизации при наличии ограничений, Журнал вычислительной математики и математической физики 6, № 5, 1966. 32. Иргер Д. С, Об оптимальной фильтрации по минимаксному критерию, Техническая кибернетика б, 1966. 33. Гольштейн Е. Г., Юдин Д. Б., Новые направления в линейном программировании, «Советское радио», 1966. 34. Дрешер М., Стратегические игры, «Советское радио», 1964. 35. Г е р м е й е р Ю. Б., Необходимые условия максмина, Журнал вычислительной математики и математической физики 2, 1969. 36. Т ы н я н с к и й Н. Т., Основы теории двойственности задач нелинейного программирования и дифференциальные игры, Москва, 1968. 37. Гер мей ер Ю. Б., Приближенное сведение с помощью штрафных функций задачи определения максмина к задаче определения максимума, Журнал вычислительной математики и математической физики 3, 1969.
Юрий Борисович Гермейер ВВЕДЕНИЕ В ТЕОРИЮ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ (Серия: «Оптимизация и исследование операций») М., 1971 г., 384 стр. Редактор Э. Г. Давыдов Техн. редактор И. Ш. Аксельрод Корректоры 3. В. Авто не ев а, Л. С. Сомова Сдано в набор 25/XI 1970 г. Подписано к печати 11/VIII 1971 г. Бумага 84x108*/»*. Физ. печ. л. 12. Условн. печ. л. 20,16. Уч.-изд. л. 20,71. Тираж 22 500 экз. Т-12396. Цена книги 1 р. 55 к. Заказ № 2000 Издательство «Наука» Главная редакция физико-математической литературы. Москва, В-71, Ленинский проспект, 15 Ордена Трудового Красного Знамени Первая Образцовая типография имени А. А. Жданова Главполиграфпрома Комитета по печати при Совете Министров СССР. Москва ьМ-54, Валовая, 28 Отпечатано во 2-й типографии издательства «Наука». Зак. 2760 Москва Г-99, Шубинский пер., 10